Eine einfache Methode, zu solch einer Wahrscheinlichkeitsverteilung zu kommen, ist naheliegend. Angenommen, wir wollen solch eine Verteilung über die Vogelarten bekommen, die unseren Garten besuchen. Wir zählen und bestimmen die nächsten 1.000 Vögel, die wir im Garten sehen, und registrieren beispielsweise 253 Spatzen, 108 Rotkehlchen, 62 Krähen und viele andere Arten bis hin zu Arten, von denen nur ein einziges Mitglied unter den tausend Vögeln war.
Die Rechnung ist zunächst einfach: Die Häufigkeit der Spatzen beträgt beispielsweise 25,3 Prozent, die von Arten, von denen nur ein Mitglied vertreten war, 0,1 Prozent. Aber was ist mit Arten, die unter den 1000 Vögeln überhaupt nicht vertreten waren, von denen wir aber wissen, dass sie unseren Garten dann und wann auch mal besuchen? Nach bisheriger Rechnungsmethode wäre deren Häufigkeit Null. Eine exaktere Häufigkeitsangabe für seltene Vögel könnte man so nur bekommen, wenn man statt Tausend 10.000 oder gar 100.000 Vögel beobachten würde.
Den Engländern standen während des Zweiten Weltkrieges aber nur begrenzte Informationen über die Schlüsselwahl der U-Boot-Kommandanten zur Verfügung. Doch der britische Mathematiker Alan Turing fand zusammen mit seinem Kollegen I.J. Good eine Formel, den Good-Turing-Schätzer, die die wahren Wahrscheinlichkeiten sehr viel realistischer wiedergibt. Nach dem Krieg veröffentlichte Good die Formel und erwähnte, das Turing sie intuitiv aufgestellt hatte.
Inzwischen gibt es zwar einige Teilerklärungen dafür, warum die Formel in vielen Fällen gut funktioniert, aber es fehlte ein objektives Maß für ihre Leistungsfähigkeit. Zudem weiß man, dass sie in bestimmten Fällen schlechte Ergebnisse liefert. Orlitsky und seine Kollegen haben nun eine Formel entwickelt, die in allen Fällen zuverlässige Ergebnisse liefert. Zudem schlagen sie ein Maß für die Bewertung der Zuverlässigkeit solcher Formeln vor.
„Obwohl die neue Schätzformel noch
beträchtlich vereinfacht und weiterentwickelt werden muss, hoffen wir, dass sie zur Verbesserung von Spracherkennungssoftware beitragen kann und ebenfalls dabei helfen wird, Software zur gezielten Datensuche zu verbessern“, sagt Orlitsky. Ein weiterer Anwendungsbereich ist die Rettung teilweise verlorener Information, beispielsweise von einer zerstörten Computerfestplatte.