Anzeige
1 Monat GRATIS testen, danach für nur 9,90€/Monat!
Startseite »

Lückenhaftes Web-Gedächtnis

Allgemein

Lückenhaftes Web-Gedächtnis

Das Internet leidet an Gedächtnisschwund. Laufend geben Websites ihren Geist auf. Von den 1,5 Millionen Homepages, die jeden Tag neu in den Cyberspace gestellt werden, sind nach einer Woche schon wieder 15000 verschwunden. Allerdings: Auf anderen Websites existieren oft noch Verbindungshinweise zu ihnen, so genannte Hyperlinks. Beim Anklicken läuft der Nutzer ins Leere. Von seiner vergeblichen Suche kehrt der Browser nach ein paar Sekunden mit der Nachricht „Error 404 File not found“ zurück. Im Durchschnitt, schätzen Experten, ist eine Website 75 Tage lang erreichbar. Dann verwaist sie oder entschwindet auf Nimmerwiedersehen aus dem Klick-Imperium. Mitte der neunziger Jahre begann der kalifornische Informatiker und Internet-Pionier Brewster Kahle mit dem Sammeln von Websites und gründete 1996 das „Internet-Archiv“, um dem Medium ein Langzeitgedächtnis zu verschaffen. Seit kurzem können auch private Nutzer in diesem virtuellen Web- Museum herumstöbern: Dazu muss man einfach www.waybackmachine.org in die Adressleiste des Browser tippen. Die Suche in der digitalen Vergangenheit ist simpel: Nach dem Aufrufen erscheint eine Suchmaske, in die – wie üblich – der Domain-Name eingegeben wird. Wird das Programm fündig, präsentiert es eine zeitlich geordnete Liste der Museumskopien. Die aufgeführten Daten sind die Links zu den Altbeständen. Ärgerlich für Web-Archäologen ist allerdings, dass auch im Internet-Archiv hinter manchen Links die Antwort „Not in Archive“ lauert. Die Ursachen dafür sind jedoch nicht allein den Betreibern anzulasten. Denn aus urherberrechtlichen Gründen kann jeder verlangen, dass seine Seite wieder aus dem Archiv entfernt wird. Für seine Archivierungen wertet die Crew um Brewster Kahle die Datensammlungen einer Suchmaschine aus. Deren Agenten hangeln sich, wie bei anderen Suchdiensten, unablässig von Link zu Link durchs Netz. Wenn sie Homepages finden, verfrachten sie Kopien davon in den Datenspeicher des Heimatrechners. Doch dem virtuellen Sammeltrieb sind Grenzen gesetzt. Zu Pages mit Passwortschutz können die Roboter nicht vordringen. Zudem durchforsten selbst Meta-Suchdienste, die mehrere Suchmaschinen gleichzeitig nutzen, noch nicht einmal die Hälfte des weltweiten Netzes.

Etwa alle zwei Monate machen die Internet-Archivare eine Momentaufnahme des aktuellen Archivs von Alexa, einer Suchmaschine, die Kahle Anfang der neunziger Jahre entwarf (www.alexa.com). Von jedem Dokument, das gerade in der Datenbank schlummert, wird eine Dublette gezogen. Gelagert werden die Kopien auf mehreren Großrechnern. „Heute enthält das Internet-Archiv über 10 Milliarden Websites, die sonst verloren gegangen wären“, begeistert sich Brewster Kahle. Das gesamte Datenvolumen des digitalen Großgedächtnisses: über 100 Terabyte – das ist eine Eins mit 14 Nullen. Diese kaum vorstellbare Datenmenge entspricht dem Inhalt eines Stapels von etwa 1,5 Millionen beschriebenen CDs. Nach jedem Schnappschuss wächst die Sammlung um weitere zwölf Terabyte. Das Internet-Archiv avanciert damit zur umfangreichsten Datenbank der Welt. Das Überleben des löblichen Unterfangens ist eine Frage des Geldes. Immerhin kostet der Betrieb „mehrere Millionen Dollar im Jahr“, klagt Kahle. Dabei fungiert der Spezialist für „Data Mining“, dem Schürfen in digitalen Datenbergen, selbst als Sponsor. Die größte Finanzspritze kommt aber von dem Internethändler Amazon, der vor drei Jahren dem MIT-Absolventen Kahle die Suchmaschine Alexa für 250 Millionen US-Dollar abgekauft hat. Die 30 Mitarbeiter der heutigen Amazon-Tochter übernehmen, immer noch unter Kahles Leitung, auch weiterhin das periodische Kopieren und Speichern. Doch ob das Werk Bestand haben wird, steht dahin. Denn auch Datenspeicher haben nur ein kurzes Leben. „Wir können einen Gutenberg-Druck noch heute lesen“, sagt Kahle, „aber eine nur 15 Jahre alte Diskette leider nicht mehr.“ Daher sollen alle zehn Jahre die digitalen Sammlungen des Internet-Archivs auf neue Festplatten überspielt werden, um sie für die dann aktuellen Betriebssysteme handhabbar zu machen. Kopfschmerzen bereitet den Cyber-Archivaren das rasante Wachstum der Datenmenge im Web: „ Wenn die Leute immer mehr Videos im Internet ablegen“, befürchtet Brewster Kahle, „haben wir keine Chance mehr.“

Niko Deussen

Anzeige

Wissenschaftsjournalist Tim Schröder im Gespräch mit Forscherinnen und Forschern zu Fragen, die uns bewegen:

  • Wie kann die Wissenschaft helfen, die Herausforderungen unserer Zeit zu meistern?
  • Was werden die nächsten großen Innovationen?
  • Was gibt es auf der Erde und im Universum noch zu entdecken?

Hören Sie hier die aktuelle Episode:

Dossiers
Aktueller Buchtipp

Sonderpublikation in Zusammenarbeit  mit der Baden-Württemberg Stiftung
Jetzt ist morgen
Wie Forscher aus dem Südwesten die digitale Zukunft gestalten

Wissenschaftslexikon

log|a|rith|misch  auch:  lo|ga|rith|misch  〈Adj.; Math.〉 Logarithmen anwendend, auf Logarithmen beruhend … mehr

Ne|ben|per|son  〈f. 20; Lit.〉 neben den Hauptpersonen auftretende, weniger wichtige Person (eines Dramas, Films, Romans usw.); Sy Nebenfigur; … mehr

Fol|ke|vi|se  〈[–vi–] f.; –, –r; Mus.〉 altdänisches Tanzlied bes. des 12.–14. Jh.; →a. Kämpevise … mehr

» im Lexikon stöbern
Anzeige
Anzeige
Anzeige