Technik-Trend: www.webwühler.de

Vorlesen

Die Informationsflut im World Wide Web schwillt rasant weiter an. Nur mit Suchmaschinen findet man sich im weltweiten Datendschungel halbwegs zurecht. Neue Generation von „ Webwühlern“ sollen die Suche im Internet vereinfachen – und da ist noch vieles zu verbessern.

Statistisch gesehen hat jeder dritte Erdenbürger eine eigene Webseite: Experten schätzen deren Zahl auf über zwei Milliarden – und täglich kommen rund eine Million neue Seiten hinzu. Der Umfang der im World Wide Web abgelegten Daten dürfte inzwischen 10000 TeraByte überschreiten – um sie zu speichern, würde man rund 15 Millionen CD-ROMs benötigen.

Suchmaschinen gehören zum wichtigsten Rüstzeug für die Nutzer des weltweiten Datennetzes. Nach Eingabe der Suchbegriffe listen die auf Englisch oft als Crawler bezeichneten Informationsfahnder Adressen und kurze Beschreibungen von Webseiten auf, die die gesuchten Begriffe enthalten. Der dazu nötige Aufwand ist enorm. So schicken Suchdienste wie AltaVista, Yahoo, Google oder Fireball sogenannte Robots, Spider oder Scooter auf den Weg durch das Web, die nach neuen oder veränderten Webseiten Ausschau halten. Die Suchroboter lesen den Quelltext der Seiten ein und speichern ihn in einer riesigen Datenbank, die nach Stichworten durchforscht werden kann. Doch keine Suchmaschine schafft es, alle Webseiten zu erfassen, wie eine Studie des NEC- Forschungsinstituts in Princeton, USA, belegt. Dort testeten Wissenschaftler 1997 und 1999, wie weit die Suchroboter im World Wide Web herumkommen. Während 1997 der Suchdienst HotBot immerhin gut ein Drittel aller Webseiten in seiner Datenbank ablegte, brachte es zwei Jahre später die Suchmaschine NorthernLight als Testsieger gerade noch auf 16 Prozent der erreichbaren Seiten.

Kein Wunder also, daß sogenannte Metasuchmaschinen immer beliebter werden. Diese Dienste verfügen über keine eigenen Suchroboter und Datenbanken, sondern leiten jede Anfrage an mehrere „gewöhnliche“ Suchmaschinen weiter. Der deutsche Metasucher MetaGer zum Beispiel kann bis zu 24 Suchmaschinen parallel abfragen. Die gesammelten Verweise werden zusammengefaßt, Dubletten ausgesiebt, Adressen sortiert und ausgegeben. Die Vorteile: Das zeitraubende Abklappern mehrerer Suchdienste hintereinander bleibt dem Nutzer erspart, die Chance auf interessante Treffer steigt. Die Qualität der Suchresultate ist sehr verbesserungsbedürf- tig, meint Dr. Wolfgang Sander-Beuermann, Suchmaschinen-Experte am Regionalen Rechenzentrum für Niedersachsen an der Universität Hannover. Das „ Ranking“ – die Reihenfolge, in der die gefundenen Verweise aufgelistet werden – löst bisher wenig Begeisterung bei den Nutzern aus. Denn die zuerst angeführten Links (Querverweise) führen nicht selten auf unbrauchbare Seiten, wirklich nützliche Hinweise finden sich dagegen häufig erst auf den hinteren Plätzen der Ergebnisliste. Der Grund: Viele Suchdienste zählen für das Ranking einfach ab, wie oft der Suchbegriff auf einer Webseite zu finden ist. Manipulationen stehen damit Tür und Tor offen: „Soll eine Webseite, auf der für ein Produkt geworben wird, in der Rangliste der Suchmaschinen möglichst weit oben stehen, braucht man nur die passenden Stichwörter auf dieser Seite an den richtigen Stellen möglichst oft wiederholen“, sagt Sander-Beuermann.

Einen guten Ansatz sieht der Experte im „Recursive Hyperlink Vector Voting“, das die US-amerikanische Suchmaschine Google anwendet. Dabei werden die Links gezählt, die von anderen Webseiten auf eine bestimmte Seite verweisen. Je mehr solcher Links existieren, desto wichtiger wird die Seite eingestuft – und desto weiter vorne erscheint sie in den Ergebnislisten von Suchanfragen. Das besondere bei Google: Ein komplexer Algorithmus erfaßt nicht nur die Anzahl der auf eine Webseite zeigenden Querverweise, sondern analysiert auch die Seiten, von denen diese Links ausgehen. Verweise von Seiten, die selbst als wichtig eingestuft werden, wiegen besonders schwer bei der Bewertung.

Doch nicht nur die zuverlässige Art des Ranking hat bewirkt, daß die an der Stanford-Universität entwickelte Suchmaschine Google einen beispiellosen Aufstieg erlebte: Google findet auch PDF-Dokumente – ein für technische Berichte und Produktbeschreibungen häufig verwendetes Datenformat, das nur wenige Crawler aufspüren können. Nachdem Google im Februar 2001 das Usenet-Archiv Deja.com übernommen hat, können die Nutzer zudem auf rund 500 Millionen Einträge aus diversen Newsgroups zugreifen – ein Eldorado, wenn es zum Beispiel um die Lösung kniffeliger Computerprobleme geht. Mit rund 70 Millionen Zugriffen pro Tag hat Google mittlerweile mehr Anfragen zu bewältigen als jede andere Suchmaschine.

Der am NEC-Forschungsinstitut entwickelte Metasucher Inquirus versucht, die Trefferquote bei Suchanfragen durch automatische sprachliche Übersetzung zu erhöhen. So kann man Inquirus gezielte Fragen stellen wie „Wofür steht NEMAX?“. Der Automat formuliert die Frage dann selbständig um in Floskeln wie „NEMAX steht für“, „ NEMAX ist eine Abkürzung für“, „NEMAX bedeutet“ und sucht nach Dokumenten, die diese Formulierungen enthalten. Eine nicht weniger pfiffige Idee steckt hinter dem Web-Assoziator, den das Hannoveraner Team um Sander-Beuermann entwickelt hat: Neben dem eingetippten Suchbegriff werden auch sinnverwandte Ausdrücke berücksichtigt. Ein Beispiel: Gibt man in den Assoziator als Suchwort „Roboter“ ein, liefert er nach rund zwei Minuten eine Liste von verwandten Begriffen wie „autonom“, „Ball-Erkennung“ oder „Robocup“ – und gibt als Resultat der Suchanfrage Adressen von Webseiten aus, die mindestens einen dieser Begriffe enthalten. Derzeit wird der Assoziator noch getestet und ist nicht für jedermann über das Web zugänglich.

Ansätze für eine verbesserte Suche im World Wide Web gibt es viele. Experten sehen vor allem zwei Trends auf die Informationshungrigen zukommen: Zum einen wird es sogenannte Dark Matter Searcher geben, die auch die „Dunkle Materie des Web“ ergründen. Das sind beispielsweise in den Online-Archiven von Zeitungen oder Magazinen abgelegte Artikel oder kennwortgeschützte Seiten, auf die die Suchroboter bisher keinen Zugriff haben. Zum anderen werden Suchmaschinen künftig über ein gewisses Maß an Intelligenz verfügen, um den Inhalt von Webseiten zu verstehen. Per Sprachein- und Ausgabe werden sie – falls nötig – beim Nutzer rückfragen, was genau er mit seiner Anfrage gemeint hat.

Inside Altavista Um die Fülle an Informationen auf Webseiten zu sichten und auszuwerten, sendet AltaVista – mit rund 50 Millionen Anfragen pro Tag eine der größten und bekanntesten Suchmaschinen – Kopien ihres Suchroboters namens „Scooter“ durch das Internet. Seine Aufgabe: möglichst viele Webseiten ausfindig zu machen und an die Datenbank zu melden. Scooter sammelt und überprüft Tag für Tag 24 Millionen Dokumente. Das entspricht einer Kapazität von 800 DIN-A4-Seiten pro Sekunde. Von der Datenbank der Volltext-Suchmaschine AltaVista werden sämtliche Wörter eines Dokuments beziehungsweise einer Webseite erfaßt. Der Vorteil der Volltext-Indizierung liegt auf der Hand: Jedes Dokument kann theoretisch aufgrund eines darin enthaltenen Wortes sekundenschnell gefunden werden. Bei AltaVista besorgt die Software „NI2″ die Indizierung der Dokumente. Sie trägt sie in den Index ein und bewertet die Wichtigkeit einer Seite aufgrund der Häufigkeit eines bestimmten Begriffs im Dokument. Außerdem spielen unterschiedliche Schreibweisen und die Plazierung der Wörter eine Rolle. AltaVista erfaßt

sogar, was nicht mit lateinischen Buchstaben geschrieben ist. Alles in allem entsteht so einer der größten deutschsprachigen Indizes mit über 50 Millionen Webseiten. Als eine der wenigen Suchmaschinen ist AltaVista darauf spezialisiert, Produktinformationen auffindbar zu machen.

Ralf Butscher

Zurück zur Startseite