Anzeige
Anzeige
1 Monat GRATIS testen, danach für nur 9,90€/Monat!

Allgemein

Das Web wird gepeppt

Wissenschaftler feilen an einem „ Semantischen Web“, das den Inhalt und die Bedeutung von Texten versteht. Aus dem „dummen“ World Wide Web wird dadurch ein neues Internet, das stets weiß, was der Nutzer gerade braucht.

Das World Wide Web ist ein gigantischer Wissensspeicher. Doch eine bestimmte Information zu finden, ist oft schwierig. Wer eine Suchmaschine wie den Branchenprimus Google bemüht, wird meist von einer Unmenge von Treffern überwältigt. Besonders schwierig gestaltet sich die Suche nach einem Homonym, einem Wort mit mehreren Bedeutungen, zum Beispiel: „Laser“. Google listet als Resultat der Suche alle Seiten auf, in denen dieses Wort vorkommt – unabhängig davon, ob dort Informationen über einen Lichtverstärker oder über eine Ein-Mann-Segeljolle zu finden sind.

„Google vergleicht die Zeichenfolge in einem Suchfeld mit den Zeichenfolgen in Webseiten“, erklärt Adam Pease vom US-Unternehmen Teknowledge aus Palo Alto (Kalifornien), das Software-Werkzeuge für das Internet entwickelt. Bedeutungen sind für Google und andere herkömmliche Suchmaschinen nicht relevant. Sie können die Segeljolle der Klasse „Laser“ nicht von einem Lichtverstärker unterscheiden, genau so wenig wie beim Suchwort „ Ball“ einen Fußball von einer Tanzveranstaltung. Unabhängig vom Sinngehalt listet die Suchmaschine in teils langen Listen alle Dokumente auf, die das gesuchte Wort enthalten.

Um die Flut an Suchergebnissen einzudämmen, behelfen sich viele Internet-Nutzer damit, eine Suchmaschine mit mehreren Begriffen zu füttern, die alle auf den gesuchten Webseiten enthalten sein müssen. Eine Suche nach „Laser“ und „Segeln“ grenzt die Zahl der Treffer ein. Eine andere Möglichkeit: Man befragt einen Webkatalog, zum Beispiel Yahoo. Wer dort unter der Kategorie Sport >Wassersport >Segeln >Klassen >Klassenvereinigungen nachschlägt, wird kaum Dokumente über Lichtverstärker finden. Nicht schlecht – aber solche Kataloge müssen wie Bibliotheksverzeichnisse von Hand gepflegt werden. Die Betreiber beschäftigen daher zahlreiche Bibliothekare, um die Links zu recherchieren, zu ordnen und mit Kommentaren zu versehen. In der Informationsflut des World Wide Web ist das eine Sisyphos-Arbeit.

Wie schön wäre es, wenn der Nutzer sich nicht mühsam durch Tausende Treffer der Suchmaschinen oder durch die Verzeichnisse eines Webkatalogs klicken müsste, sondern wenn der Computer wüsste, welchen Laser der Nutzer sucht – wenn er also den Sinnzusammenhang der Suche kennen würde. Welch eine Erleichterung wäre das bei einer komplexen Anfrage: „Ein schöner Tag – wie geschaffen zum Segeln. Aber hält das Wetter bis heute Nachmittag? Gibt es dann freie Boote?“ Natürlich weiß das Internet Rat. Doch eine solche Anfrage braucht Zeit – und das Wissen, wo die Informationen zu finden sind. Der bisher übliche Weg sieht so aus: Der Nutzer befragt zuerst den Wetterbericht. Dann besucht er Seiten über die nahen Segelreviere, folgt Links zu Bootsvermietern – und reserviert das Boot schließlich doch per Telefon.

Anzeige

Visionäre arbeiten längst an der digitalen Zukunft, die solche Suchaktionen vereinfachen soll. Tim Berners-Lee gibt die Richtung vor: Der „Erfinder“ des World Wide Web feilt an einem „ semantischen Web“ – einem Internet, in dem Rechner die Bedeutung von Dokumenten verstehen. „Das Semantische Web wird die nächste Entwicklung der Web-Technologie sein“, sekundiert James A. Hendler, Professor für Informatik an der Universität von Maryland (USA). „Die Websuche wird auf die individuellen Bedürfnisse zugeschnitten sein.“ Doch das Web der Zukunft wird die Arbeitsweise des Computers nicht ändern können. Er wird weiterhin Wörter als Zeichenfolgen behandeln. Damit er die Bedeutung dennoch versteht, muss ihn der Mensch mit zusätzlichen Informationen füttern, so genannten Metadaten. Diese maschinenlesbaren Daten legt der Programmierer einer Website an. Im Gegensatz zu den Texten und Bildern auf der Website sind die Metadaten unsichtbar. Sie geben jedoch einer Suchmaschine Hinweise auf den Inhalt des Dokuments, vergleichbar etwa den Schlagworten in einem Bibliotheksverzeichnis. Sie machen Angaben über Autor, Titel, Thema des Textes und das Erscheinungsdatum. Spezifiziert beispielsweise ein Autor in einem Dokument den Laser durch Metadaten als Jolle, findet eine semantische Suchmaschine bei der Suche nach dem Wort Jolle dieses Dokument, auch wenn der Begriff selbst nicht in dem Dokument vorkommt.

Doch das allein reicht nicht aus, um dem Computer umfassende Informationen zu einem Thema zu vermitteln. Denn ihm fehlt der Kontext – der thematische Zusammenhang, den ein Mensch immer automatisch berücksichtigt, wenn er sich auf ein bestimmtes Thema bezieht. Ist in einem Gespräch über Sport von einem Ball die Rede, weiß das Gegenüber, dass das Spiel auf dem Fußballfeld gemeint ist und nicht eine noble Tanzveranstaltung.

Dieses Bezugssystem liefert eine „Ontologie“, auf die der Computer durch die für den Websurfer verborgenen Metadaten verwiesen wird. Sie beschreibt die Begriffe eines Spezialgebiets und klärt ihre Beziehungen zueinander. Außerdem legt sie so genannte Schlussregeln fest.

Eine Ontologie zum Thema Segeln würde den Laser zunächst als Jolle definieren, als eine Beziehung zwischen einem Unter- zu einem Oberbegriff („der Laser ist eine Jolle“). Außerdem würde sie dem Laser die Eigenschaft zuordnen: „hat eine Segelfläche von 7,10 Quadratmetern“. Eigenschaften können auch vererbt werden: Legt die Ontologie fest: „Eine Jolle ist ein Boot mit einem aufziehbaren Schwert“, wird diese Eigenschaft auf alle Jollen-Typen weitervererbt. Mit Hilfe von Schlussregeln lassen sich dann aus vorhandenen Beziehungen neue ableiten. So müsste etwa eine Ontologie über Verwandtschaftsbeziehungen die Relation „ Onkel“ nicht eigens definieren – sie wird abgeleitet aus den Beziehungen Bruder und Vater oder Bruder und Mutter. „Manchmal kann man unendlich viele Relationen aus nur wenigen ableiten“, erklärt Harold Boley, Projektleiter am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Kaiserslautern. „Schlussregeln werden bereits bei der Künstlichen Intelligenz eingesetzt, jetzt werden sie relevant zum Finden von Dokumenten.“

Allerdings muss nicht jeder Website-Betreiber selbst eine Ontologie erstellen. Es reicht, von den eigenen Internet-Seiten auf eine solche anderswo im Web zu verweisen, damit die Suchmaschinen oder Agenten wissen, zu welchem Themenbereich die Website gehört. „Die Ontologien zu einem globalen Netz zu verweben, ist die entscheidende neue Entwicklung“, ist der Informatiker Hendler überzeugt. Das World Wide Web wird dann zum Semantischen Web zusammengewachsen sein, wenn alle Begriffe und die Ontologien miteinander verknüpft sind. Soweit die Theorie. Doch in der Praxis sind mit semantischen Anmerkungen ausgestattete Websites wie Hendlers eigene Webpräsenz (www.cs.umd.edu/users/hendler) bisher noch einsame Inseln – nicht zuletzt, weil die Web-Autoren die Anmerkungen mit viel Aufwand von Hand einfügen müssen. Zwar gibt es inzwischen Programme, die Metadaten in Webseiten einfügen. Doch können sie den Menschen lediglich unterstützen. Am Ende muss er doch die vom Computer bearbeiteten Seiten überprüfen.

Auch Anwendungen sind noch rar. Einige Werkzeuge für das Semantische Web wurden am Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB) der Universität Karlsruhe entwickelt – neben einem Programm zum Einfügen von Metadaten in Webseiten auch eine Software, die Webseiten absurft und für die Suchmaschinen indiziert, einen so genannten Crawler. Im Gegensatz zu herkömmlichen Crawlern folgt er nur bestimmten Links auf einer Webseite. „Der Crawler sucht nicht blind alles auf, was ihm in den Weg kommt, sondern er ist auf bestimmte Themen ausgerichtet, die man ihm durch die Ontologie mitgeben kann“, erklärt der Karlsruher Ontologie-Experte Gerd Stumme. Der semantische Crawler versucht, die Links zu identifizieren, die thematisch am interessantesten sind, weil in ihrem Umfeld im Text die passenden Stichworte stehen.

Auch eine semantische Suchmaschine gibt es schon: „DAML Agent Semantic Communication Service“ (ASCS), deren Entwicklung der Suchmaschinen-Experte Adam Pease beim Unternehmen Teknowledge leitet. Doch wie das Verfassen solcher Web-Seiten ist auch das Suchen danach nur etwas für erfahrene Nutzer. Anstatt wie gewohnt in ein Suchfeld ein oder mehrere Stichworte einzugeben, bietet ASCS gleich drei Eingabefelder: für die Suche nach kompletten Sätzen, von denen man Subjekt, Prädikat und Objekt separat eingeben muss.

Marktführer Google sieht noch keinen Bedarf, die eigene Suchmaschine für das neue Web-Zeitalter fit zu machen. „Unserer Ansicht nach gibt es derzeit noch zu wenig solche Inhalte, deshalb kümmern wir uns nicht darum“, begründet Peter Norvig, Director of Search Quality, die Haltung des weltweit führenden Suchmaschinenbetreibers.

Für das semantische Web aufbereitete Inhalte könnten beispielsweise von den Markenanbietern kommen, die große Auftritte im Internet betreiben. Doch gerade die haben wenig Interesse daran, ihre Inhalte für das Semantische Web aufzubereiten, denn die Kunden könnten diese dann mit Hilfe von Agenten besonders einfach miteinander vergleichen und sich die besten herausfischen. Die Angebote würden damit für die potenziellen Kunden viel durchsichtiger als bisher. „Im Moment geht der Markt eher auf Abstand“, sagt Norvig.

Dabei wäre Comparison-Shopping – das Einkaufen im Internet nach einem automatischen Heraussuchen der günstigsten Angebote für die gesuchten Produkte – für die Nutzer eine echte Erleichterung. Statt eigenhändig die Websites der verschiedensten Anbieter nach Informationen und Angeboten durchforsten zu müssen, überträgt der Web-Kunde diese Aufgabe einem Programm, dem „ Shopping-Agenten“. Der Agent sucht auf eigene Faust nach den gewünschten Informationen und präsentiert sie in Sekundenschnelle auf dem Bildschirm.

Einen Eindruck, wie der Einkauf der Zukunft aussehen könnte, vermittelt der RACSA (Rule Applying Comparison Shopping Agent), der am DFKI entwickelt wurde. Er vergleicht unter Anwendung semantischer Regeln die Angebote verschiedener Online-Shops und berücksichtigt dabei besondere Wünsche. Der Kunde wählt einen Kühlschrank aus und äußert seine Wünsche, etwa, wie schnell das Gerät geliefert werden soll. RACSA wertet die Vorgaben aus und findet den günstigsten Shop.

Derzeit kann der Prototyp des Shopping-Agenten nur Kühlschränke auswerten. Die Technologie ist jedoch auf andere Produkte übertragbar, betont DFKI-Projektleiter Harold Boley, in dessen Verantwortungsbereich die Entwicklung der intelligenten Einkaufshilfe fällt. So bereiten gerade zwei seiner Mitarbeiter eine Version von RACSA vor, die Banken bei der Kundenberatung in Sachen Wertpapieranlagen unterstützen soll. Das Ziel: Der Anlageberater füttert den Agenten mit Angaben wie Laufzeit oder Rendite, und dieser wählt das passende Wertpapier aus.

Der Informatiker Hendler glaubt fest an die Zukunft des Semantischen Webs – auch wenn die kommerziellen Anbieter sich derzeit stark zurückhalten. „Der verbreitete Einsatz von semantischen Sprachen ist zwar heute noch Zukunftsmusik“, sagt Hendler, „aber wie vor ein paar Jahren das Web selbst werden sie sich mit der Zeit durchsetzen.“

Für Nutzer sind die Aussichten auf ein semantisches, von Agenten bevölkertes Web tatsächlich verheißungsvoll, sollten sich die Vorstellungen der Visionäre bewahrheiten. Man sucht dann künftig nicht mehr selbst nach Informationen, sondern beauftragt seinen persönlichen Agenten – zum Beispiel mit der Organisation eines Segelausflugs. Da das intelligente Programm die Inhalte der Festplatte ebenso wie die zuletzt angeschauten Webseiten auswertet, weiß es, dass die Suche nach Infos über den Laser nicht einem Lichtverstärker gilt, sondern einem Segelboot. Also macht der Agent sich auf die Suche. Auf seinem Weg durchs Web tauscht er Informationen mit anderen Agenten aus. Der Agent wertet die Informationen über Ort (Segelrevier) und Zeit (heute Nachmittag) sowie den Wetterbericht aus und fragt die lokalen Bootsvermieter ab.

Findet der Agent in einem elektronischen Fernsehprogramm eine Sendung zum Thema Segeln, könnte er diesen Termin im elektronischen Kalender anstreichen. Stellt er aber nach einem Blick auf die Wettervorhersage fest, dass für diesen Tag schönstes Segelwetter angesagt ist, weist er den Videorekorder an, die Sendung aufzuzeichnen – und wenn der Hobbysegler seinen Web-Agenten an der langen Leine walten lässt, bucht ihm dieser statt dessen eigenmächtig ein Boot. Kurz darauf trifft eine E-Mail mit den gesuchten Informationen, einer Wegbeschreibung und einer Bestätigung für die Bootsreservierung ein.

KOMPAKT

Das Semantische Web soll die Suche nach Informationen erheblich einfacher machen.

Dazu müssen Web-Seiten mit versteckten Daten versehen werden, die Begriffe beschreiben und zueinander in Beziehung setzen.

Suchmaschinenbetreiber, Markenhersteller und Warenhäuser haben aber bisher kaum Interesse an einer solchen Erweiterung ihrer Angebote im Internet.

Werner Pluta

Anzeige

Wissensbücher 2022

Anzeige

Videoportal zur deutschen Forschung

Aktueller Buchtipp

Sonderpublikation in Zusammenarbeit  mit der Baden-Württemberg Stiftung
Jetzt ist morgen
Wie Forscher aus dem Südwesten die digitale Zukunft gestalten

Wissenschaftslexikon

Ad|nex  〈m. 1〉 1 Anhang 2 〈Anat.〉 Eierstock u. Eileiter der Frau, als Anhängsel der Gebärmutter … mehr

Aus|lie|fe|rung  〈f. 20〉 1 Aushändigung 2 Freigabe zum Verkauf, Ausgabe (Waren) … mehr

er|den  〈V. t.; hat〉 ein elektrisches Gerät ~ durch eine Leitung mit dem Erdboden verbinden ● die Antenne ~

» im Lexikon stöbern
Anzeige
Anzeige
[class^="wpforms-"]
[class^="wpforms-"]
[class^="wpforms-"]
[class^="wpforms-"]
[class^="wpforms-"]
[class^="wpforms-"]