Information Retrieval

Was ist Informationswissenschaft?

Die Informationswissenschaft beschäftigt sich mit der Repräsentation und dem Bereitstellen sowie auch mit dem Suchen und Finden von relevanten Dokumenten und Wissen. Repräsentation meint hier, die Erarbeitung von "Stellvertretern" von Dokumenten und darin enthaltenem Wissen in digitalen Systemen. Dies geschieh durch Informationsverdichtung und Informationsfilter. Bereitstellen hingegen meint die Erarbeitung von digitalen Dokumenten. Dies führt dazu, dass die Dokumente leicht auffindbar sind genauso gut strukturiert und auch gut lesbar sind. Diese kann man dann in digitalen Speichern ablegen und immer wieder verwalten. Suchen ist einfach die Beobachtung der Nutzer beim Abarbeiten von der Information die sie auch benötigen. Nachdem man "Sucht" "Findet" man auch. Es gibt viele verschieden Systeme zum Recherchieren nach Wissen, wie zum Beispiel Suchmaschinen, Internet, fachliche Informationsdienste und Bibliothekskataloge. Bei der Informationswissenschaft geht es darum das Wissen herauszubekommen, welches auch wirklich Relevant ist. Dies geschieht hauptsächlich im digitalen Bereich aber auch nicht digitale Informationssammlungen sind möglich, wie zum Beispiel Bibliotheken oder Archive. Spricht man in der Informationswissenschaft über Dokumente gibt es zwei Aspekte. 1. Texte und nicht-textliche Dokumente ( Bilder, Musik, Videos, Wirtschaftsobjekte, Gegenstände) 2. Nicht -digitale und digitale Dokumente.

Fehlertolerantes Retrieval

Es ist immer möglich, dass man Fehler macht. Zum Beispiel kann ein Dokument fehlerhaft sein oder die Suchanfrage ist falsch gestellt. Hiermit ist gemeint, dass man ein Wort falsch geschrieben hat was dazu führt, dass die Suchanfrage nicht auf das richtige Ergebnis kommen kann. Statistisch dargestellt ist es folgendermaßen: Zusätzlicher Buchstabe: 10% Buchstabendreher : 2% Ausgelassener Buchstabe: 16% Falscher Buchstabe 59% Multiple Error:13% Es gibt zwei Ansätze im Fehlertolerantem Retrieval 1. Phonetik 1a. Der Soundex-Algorithmus soll die Verschmelzung von Wortformen anhand ihres Klanges beschreiben. Die Regeln hierfür sind folgendermaßen: Buchstaben die aufeinander folgen und die auch selbe Lautklasse haben, werden nur einmal gezählt. Bei mehreren Vokalen wird nur der erste Berücksichtigt. Das "H" gilt hier als ein Vokal und das "m" und "n" bilden zusammen nur eine Klasse. 1 Phonetik 1b. Phonix ist die vereinfacte Form von Soundex. Die phonetischen Regeln werden hier auch auf den ersten Buchstaben angewandt. Bei manchen Worten die gleichen Buchstabenfolgen haben klingen diese in unterschiedlichen Worten anders. Die Regel hierzu bezieht sich auf die Stellung der Zeichenfolge im Wort. Am Anfang wird zum Beispiel "kn"zu "n" und in der Mitte oder am Ende wird das "kn" nicht verändert. Ansatz 2: Damerau-Methode Bei diesem Ansatz ist ein Wörterbuch erforderlich, denn man muss das geschriebene Wort mit dem Wort im Wörterbuch vergleichen. Der zweite Schritt ist dann die Identifikation des Fehlertyps und darauf folgt dann die Korrektur des Wortes. Ansatz 3 : Levenshtein-Distanz Hier zählt die Edierschritte zwischen zwei Wörtern. Edieren bedeutet entweder das löschen eines Buchstaben, das einfügen von Buchstaben und das vertauschen von Buchstaben. Ziel ist es die minimale Anzahl der Edierschritte zu reduzieren, um zwei verschieden Wörter gleich zu machen.

Boolesches Retrieval

Hierbei handelt es sich um die Suchanfrage die von dem Nutzer gestellt wird. Um ein genaues Ergebnis zu bekommen gibt es ganz genaue Befehle, die einem weiter helfen.

1 Schnittmenge A UND B
Bei diesem Befehl bekommt man alle Dokumente die auch wirklich nur A und B enthalten.

2 Vereinigungsmenge A ODER B
Hier ist die Ergebnissmenge viel größer, denn es wird nach beidem gesucht.

3 Exklusionsmenge A UND NICHT B
Dieser Befehlt beachtet nur die Dokumente die A enthalten. Die Dokumente die B enthalten werden erst gar nicht berücksichtigt.

Ausschließende Exklusionsmenge A XOR B
Hier bekommt man entweder die A Dokumente oder die B Dokumente. Die Dokumente die beides beinhalten werden nicht berücksichtigt.

Hier erfahren sie mehr über die Frage was Informationswissenschaft ist!

Ein YouTube Video: Was ist Informationswissenschaft?