Wissensrepräsentation

Wissen und Information

Zu Beginn möchte ich ihnen gewisse Grundbegriffe näher erläutern. Die Grundbegriffe sind Signale, Zeichen, Daten, Information und Wissen. Signale übertragen Zeichen, bei welchem der Informationsgehalt abhängig von der Auftretenswahrscheinlichkeit ist. Je seltener das Zeichen vorkommt desto größer ist sein Informationsgehalt. Übertragene Zeichenfolgen nennt man Daten, welche mit Bedeutung Information genannt werden. Das Wissen können wir in zwei Teile unterteilen, zum einen das Wissen als Fähigkeit und zum anderen das Wissen als Zustand. Als Fähigkeit bezeichnen wir auf der einen Seite das „to know that“, einen Gegenstand korrekt zu erfassen und auf der anderen Seite das „to know how“, mit einem Gegenstand korrekt umzugehen. Das Wissen als Zustand bezeichnet zu einen, eine Person die (etwas) weiß, zum anderen das Gewusste selbst und den Inhalt und zum Schluss der sprachliche Ausdruck davon. Popper hat das Wissen in drei Arten unterteilt, die physikalische Welt, das subjektive Wissen welchen ans menschlichen Denken gebunden ist und ganz zum Schluss das objektive Wissen welches z.B. in Büchern vorliegt. „Information ist Wissen in Aktion.“ Das Wissen ist nicht nur in textuellen Dokumenten vorhanden, sondern auch in nicht-textuelle Dokumenten vorhanden, sowie Bilder, Video und Musik. Hier sprechen wir von 3 Ebenen, die prä-ikonograpisch semantische Ebene, ikonographische Ebene und ikonologische Ebene. Information kann man auch als Ware ansehen, da es immer wieder weitergegeben wird und es dadurch vervielfacht wird.

Grundbegriffe der Information Retrieval

Einige der Grundbegriffe des Information Retrievals werde ich euch etwas näher erläutern. Zu Beginn den Informationsbedarf und den Informationsbedürfnis. Beim Bedarf wird das ganze objektiv betrachtet und beim Bedürfnis wird es subjektiv betrachtet. Die DBE, also die Dokumentarische Bezugseinheit ist die stets gleichbleibende Einheit der Vorlagen, die in einen Informationsspeicher aufgenommen werden. Mit den Rechnungen Recall und Precision können wir nachgucken ob wir alle Datensätze die handlungsrelevantes Wissen beinhalten, gefunden haben.
Die Vollständigkeit prüft Recall mit der Formel: a / (a + c) und die Genauigkeit prüft die Precision mit der Formel : a / (a + b). (a =: gefundene relevante Treffer, b =: nichtrelevante Datensätze, die in der Treffermenge enthalten sind (Ballast), c =: relevante Datensätze in der Datenbank, die nicht gefunden wurden)
Ein YouTube Video über Recall und Precision
Zur Berechnung der Ähnlichkeit der Worte stehen uns drei Formeln zur Verfügung Jaccard-Sneath, Dice und Cosinus. Jaccard-Sneath : SIM(D1-D2) = g/(a+b-g)
Dice: SIM(D1-D2) = 2g/(a+b)
Cosinus: SIM(D1-D2) = g/√a*b
a: Anzahl der Wörter in D1
b: Anzahl der Wörter in D2
g: Anzahl der gemeinsamen Wörter in D1 und D2

Probabilistisches Modell

Mit dem probabilistischen Modell wir berechnet welches Dokument für die Suchanfrage relevant ist, die Ausgabe der Dokumente im Relevance Ranking werden absteigend nach der Wahrscheinlichkeit geordnet.
P(D ׀ Q) = P(Q ׀ D) * P(D) / P(Q)
• P(D ׀ Q) : Retrievalstatuswert von D unter Q
• P(Q) = 1
• P(D) = TF * IDF
• P(Q ׀ D) = ??? Wie relevant sind die Terme Q im Dokument? – hierzu nötig: Relevanzinformationen