Suchmöglichkeiten im Web

Zunächst soll näher betrachtet werden, welche Suchmöglichkeiten es gibt und wie diese in ihren Grundzügen funktionieren.

Webkataloge

Ein Webkatalog (Webverzeichnis) ist eine verzeichnisbasierte, thematisch geordnete Linkliste vom Allgemeinen zum Speziellen. Wer aufgenommen werden will, muss seine Webseite in der Regel anmelden, und zwar jeden Link einzeln. Eine Anmeldung sollte möglichst genau ausgefüllt werden (genaue Rubrik/Kategorie auswählen; knapper, aber aussagekräftiger Titel; objektiver Beschreibungstext mit einer optimalen Länge von 15 bis 25 Wörtern, in Stichworten Substantive verwenden).

Ein Redakteur kontrolliert die Seite auf inhaltliche Qualität und seriöse Gestaltung und entscheidet über die Aufnahme. Dieses Verfahren sichert eine gute Qualität, hat aber eine langsamere Aktualisierung zur Folge.

Der größte und bekannteste Webkatalog ist das Open Directory Project (ODP).

Suchmaschinen

Eine Suchmaschine ist eine indexbasierte Software zur systematischen Suche im Web. Suchmaschinen erfassen Webseiten selbstständig durch automatisches Sammeln und Auswerten.

Der erste Schritt ist die Datengewinnung durch ein Webcrawler-System (Webrobot). Dokumente aus dem Web werden durch Aufrufen von einer Seite nach der anderen und Herunterladen derselben gesammelt. Ein weitere Aufgabe ist die Kontrolle der Aktualität des bestehenden Datenbestandes, also Vergleich des bisherigen Datenbestandes mit den aktuellen Seiten im Web.

Als zweiter Schritt folgt die Datenanalyse und -verwaltung durch ein Information Retrieval System (IR-System, englisch Wiedergewinnung). Die Dokumente werden auf das Wesentliche reduziert, eine so genannte Dokumentenrepräsentation. An die Dokumente werden „Relevanzwerte“ oder „Gewichte“ vergeben, die ihre Bedeutung in Bezug auf ein bestimmtes Schlagwort, in der Fachsprache als Deskriptor bezeichnet, widerspiegeln. Dieser Vorgang wird als Indexierung bezeichnet.

Für die Suchanfragenverarbeitung muss ein User-Interface mit Suchfeld etc. bereitgestellt werden. Für eine konkrete Suchanfrage wird eine Liste mit Einträgen anhand der eingegebenen Deskriptoren erzeugt und ausgegeben. Die Reihenfolge richtet sich nach der vom System angenommenen Relevanz für die jeweilige Suchanfrage.

Die Eingaben werden mit HTTP an den Query-Prozessor gesendet und dann verarbeitet:

Tokenizing
Die einzelnen Elemente (Tokens) der Anfrage werden identifiziert.
Parsing
Die Funktion der Tokens wird ermittlelt, also ob es sich um Suchworte oder Ausdrücke bzw. Operatoren handelt.
Stemming
Bestimmte Stoppwörter werden aussortiert.
Query-Erzeugung
Eine Suchanfragen-Repräsentation wird generiert.
Thesaurus
Es wird nach Synonymen, Abkürzungen, Ober- und Unterbegriffen gesucht.
Matching
Die infragekommenden Dokumente werden bestimmt und dann ggf. nach Operatoren gefiltert. Die Hitlist wird nach einem Gewichtungsmodell berechnet.
Darstellung der Trefferliste
Die Trefferliste wird im Browserfenster dargestellt.

Metasuchmaschinen

Metasuchmaschinen sind Suchmaschinen, mit denen von einer Webseite gleichzeitig bei verschiedenen Suchmaschinen gesucht werden kann. Sie haben keinen eigenen Datenbestand und sind besonders geeignet für fachbereichspezifische Anfragen, allerdings gibt es teilweise Probleme bei der Übermittlung von Operatoren wie AND oder OR. Nachteil ist eine längere Suchdauer.