Suchmaschinenarchitektur

Die Architektur der Suchmaschine bezeichnet die Aufteilung der vorher beschriebenen Prozesse auf bestimmte Teile das Zusammenspiel der einzelnen Teile untereinander. Die verschiedenen Teile werden zu drei Modulen zusammengefasst:

Datenspeichermodul

Das Datenspeichermodul umfasst Dokumentenindex und Repository.

Der Dokumentenindex (Document Index) beinhaltet Informationen zu allen Dokumenten in der Datenbank der Suchmaschine. Die einzelnen Elemente können über eine innerhalb der Datenbank eindeutige Dokumentenidentifikation (DocID) identifiziert werden. Zu den erfassten Dokumenten werden zusätzlich folgende Daten gespeichert:

  • Dokumentenstatus (indexiert, noch nicht indexiert, gerade durchsucht),
  • Verweis auf eine Kopie des Dokumentes in der Repository
  • Checksumme
  • Angaben wie Länge, Erstellungsdatum, letzter Besuch, Dokumenttyp, Änderungshäufigkeit, Seitentitel, Server-Status, Hostname, IP-Adresse

Die Repository speichert Kopien der erfassten Webseiten zum Zeitpunkt des letzten Besuches durch die Suchmaschine. Diese werden unter „Cache“ angezeigt.

Verarbeitungsmodul

Das Verarbeitungsmodul (Processing Module) umfasst Scheduler und Storeserver.

Der Scheduler ist das Verwaltungsorgan für die Webcrawler. Er verteilt die Aufträge zur Erweiterung des Datenbestandes und dessen Pflege.

Der Storeserver ist für die Sicherung der von dem Crawler übermittelten Daten zuständig und nimmt ggf. Änderungen im Dokumentenindex vor – in Abhängigkeit von dem übermittelten HTTP Statuscode:

  • Bei HTTP Code 301 (Moved Permanently) ersetzt die neue URL die alte im Dokumentenindex.
  • Bei HTTP Code 304 (Not Modified) wird der Wert für Aktualisierungshäufigkeit und damit die Wiederbesuchsfrequenz gesenkt.
  • Bei den HTTP Codes 401 (Not Authorized) und 404 (Not Found) wird die URL aus dem Index aufgrund fehlender Zugriffsrechte bzw. Nichtverfügbarkeit gelöscht. Außerdem werden alle Daten zu dieser gestrichen.

Protokollmodul

Das Protokollmodul (Protocol Module) wird von dem Crawler gebildet.

Der Crawler bearbeitet die Aufträge des Schedulers und schickt eine Antwort an den Storeserver.