IBM Voice-Type 3.0: Sprechen statt Tippen - wissenschaft.de
Anzeige
Anzeige

Allgemein

IBM Voice-Type 3.0: Sprechen statt Tippen

Fast vier Jahre ist es her: Damals saß ich in einem Labor des wissenschaftlichen Zentrums der IBM in Heidelberg und redete mit Eselsgeduld in ein Mikrofon, das mit einem schnellen Workstation-Rechner verbunden war. Darauf lief Tangora, der Prototyp eines Spracherkennungs-Programms, das IBM seit kurzem unter der Bezeichnung Voice-Type auch für Personal-Computer anbietet.

Auch diesmal mußte ich wieder ein zwanzigminütiges Training hinter mich bringen. Doch diesmal lese ich korrekt: „Der Himmel ist heute in Heidelberg bedeckt“ – statt „Der Winkel ist heute in keilförmig beträgt“ (bild der wissenschaft 12/1993, „Computer zum Diktat“).

Der erste Kontakt mit Voice-Type überrascht: Zwar verlangt das Programm immer noch kurze Pausen zwischen den Worten, doch das Diktiertempo kann ziemlich flott sein. Smalltalk und das übliche Blabla in Geschäftsbriefen meistert der Tangora-Nachfolger mit seinem Wortschatz von 30000 Begriffen spielend; 34000 Worte können zusätzlich gespeichert werden.

Manchmal allerdings mixt die Software Worte in den Text, die meilenweit danebenliegen. Ursache ist oft die schlechte Aussprache. Das merkt man daran, daß das Programm einen Satz, den es früher schon einmal richtig erkannt hat, plötzlich nicht mehr korrekt interpretiert, weil die Stimme rauh oder verschnupft klingt. Heikel ist auch die Justage des Mikrofons: Wenn man die Position nur wenige Millimeter verändert, sinkt die Erkennungsrate deutlich ab.

Voice-Type zeigt, daß die maschinelle Sprachverarbeitung noch in den Kinderschuhen steckt: Statt daß sich der Computer nach dem Sprecher richtet, muß dieser seinen Sprech-rhythmus völlig auf den Computer einstellen.

Anzeige

Die Installation Voice-Type benötigt einen schnellen Windows-95-PC mit Pentium-Prozessor und mindestens 16 Megabyte Speicher, sowie eine Soundblaster-kompatible Audiokarte. Die Installation ist absolut narrensicher: Einfach CD-ROM einlegen, der Rest geht von selbst. Benutzer von Word finden beim Start der Textverarbeitung gleich die passenden Symbole in der Bedienungsleiste, für andere Textprogramme gibt es ein eigenes Eingabefenster.

Der Gebrauchswert Hier scheiden sich die Geister: Wer täglich am Computer schreibt, ist der Spracherkennung auch ohne Zehnfingersystem überlegen, weil es weniger Fehler gibt. Auch wer die Sprachbefehle zur Steuerung von Windows-Programmen benutzt, wird erst richtig schätzen lernen, wie schnell die Bedienung mit der guten alten Maus vonstatten geht. Andererseits: Mit einem Mikrofon hat man die Hände frei und kann sogar im Dunkeln arbeiten. Ärzte oder Anwälte, die häufig ähnliche Texte auf Band sprechen und diese bisher im Sekretariat schreiben ließen, gewinnen mit Voice-Type einiges an Zeit. Noch etwas: Falls Sie Ihr Büro mit Kollegen teilen, sollten Sie auf Voice-Type verzichten – es sei denn, Sie wollen mit Ihrer abgehackten Roboterstimme die Kollegen vergraulen.

Der Preis Voice-Type Version 3.0 für Windows-95 kostet rund 1500 Mark. Die abgespeckte Version Simply-Speaking für 199 Mark besitzt denselben Wortschatz und dieselbe Erkennungsleistung, unterstützt aber keine Fachwörterbücher, die es unter anderem für Radiologen, Gynäkologen, technische Gutachter und Juristen gibt. Beide Versionen werden mit einem Kopfhörer und integriertem Mikrofon geliefert.

Die Technik Die Sprache wird digitalisiert und in eine Kette von Symbolen umgewandelt, die wiederum in Folgen von Allophonen – ähnlich einer Lautschrift – zerlegt wird. Das Programm versucht, aus den gespeicherten Folgen diejenige herauszufinden, die zu der gesprochenen Folge – und damit zum entsprechenden Wort – am besten paßt. Die Software prüft zudem ständig, ob die Abfolge der letzten zwei oder drei erkannten Worte statistisch sinnvoll ist. Dieses Wissen bezieht das Programm aus der Analyse riesiger Textmengen mit mehreren Millionen Wörtern, die die IBM-Sprachexperten ausgewertet haben.

Die Konkurrenz Neben IBM bieten Dragon- Dictate sowie Philips eigene Spracherkennungs-Programme an. Diese wenden sich aber gezielt an Fachleute, die mit einem beschränkten Wortschatz arbeiten. Vorteil des Philips-Systems: Es versteht fließende Sprache, benötigt also keine Pausen zwischen den Worten. Das teure System ist für vernetzte Arbeitsplätze in Krankenhäusern gedacht.

Bernd Müller

Anzeige

bild der wissenschaft | Aktuelles Heft

Anzeige

Aktueller Buchtipp

Sonderpublikation in Zusammenarbeit  mit der Baden-Württemberg Stiftung
Jetzt ist morgen
Wie Forscher aus dem Südwesten die digitale Zukunft gestalten

Wissenschaftslexikon

Zoo|gra|phie  〈[tso:o–] f. 19〉 = Zoografie

Es|te|ra|se  〈f. 19; Biochem.〉 Enzym, das Esterbindungen durch chemische Reaktionen mit Wasser in Alkohol u. Säure spaltet

Ma|ri|ne|streit|kräf|te  〈Pl.; Mil.〉 = Seestreitkräfte

» im Lexikon stöbern
Anzeige
Anzeige