Anzeige
1 Monat GRATIS testen, danach für nur 9,90€/Monat!
Startseite »

„In 100 Metern biegen Sie links

Technik|Digitales

„In 100 Metern biegen Sie links
Immer häufiger hat man es bei Ansagen oder telefonischen Hotlines mit Stimmen aus dem Computer zu tun. Sie nerven, weil es den Entwicklern nicht gelingt, sie menschlich echt klingen zu lassen.

„In 100 Metern biegen Sie links ab“, sagt die Stimme aus dem Navigationsgerät. Es klingt ein wenig abgehackt und das „links“ hört sich an, als hätte man es wie in einer Collage notdürftig in den Satz hineingeklebt. Die Ansagen in der Straßenbahn sind ähnlich: „Nächste Haltestelle“ – es folgt eine kurze Pau- se – „ Hauptbahnhof. Umsteigen zu den“ – kurze Pause – „Regionalzügen, Bussen und Straßenbahnen“. Die Worte sind emotionslos aneinandergereiht. Sie klingen so, wie Menschen an einem Regentag nach Feierabend in der Straßenbahn aussehen: müde, gelangweilt, frustriert.

Doch keine Stimme ist anstrengender als jene, die einen am Telefon an der Strippe hält: „Herzlich Willkommen bei unserer telefonischen Hotline! Haben Sie Fragen zu Verkauf oder Bestellung? Dann sagen Sie ‚Eins‘. Möchten Sie mit unserem Technischen Service verbunden werden? Dann sagen Sie ‚Zwei‘. Um ins Hauptmenü zu gelangen, drücken Sie bitte die Raute-Taste.“ Spätestens wenn man das dritte Mal „Ich habe Sie nicht verstanden“ mit anschließender fröhlich-flötender Wiederholung der Frage gehört hat, liegen die Nerven blank. Man möchte fluchen, laut und ungehalten werden – was einer Computerstimme nie passieren würde. Sie klingt immer gleich: ruhig, geduldig, monoton. Synthetischen Stimmen mangelt es an Sprachmelodie und Gefühl. Warum?

Rachen oder Zunge?

„Man kann Stimmen auf vielerlei Arten herstellen, zwei davon werden besonders häufig benutzt“, erklärt Felix Burkhardt, Experte für Sprachsynthese aus den Deutsche Telekom Innovation Laboratories (T-Labs) in Berlin. Zum einen kann man einen Menschen einen Text sprechen lassen, der aufgenommen und in Laute zerteilt wird. Die Laute werden in einer Datenbank gespeichert. Zum Vorlesen eines Textes sucht der Computer aus der Datenbank die passenden Laute heraus und setzt sie wieder zusammen. Zum anderen kann man ein Computerprogramm schreiben, das die akustischen Eigenschaften der Sprache nachahmt. Es weiß, welcher Laut eher tief aus dem Rachen kommt, und welcher vorne auf der Zunge entsteht.

Stephen Hawking, der berühmte britische Physiker und Kosmologe, der nur mithilfe eines Computers sprechen kann, hört sich blechern und roboterhaft an. Das ist nicht verwunderlich, denn an seiner Stimme ist kein Mensch beteiligt. Sie entsteht durch eine sogenannte Formant-Synthese. Dabei wird die Art, wie eine Stimme sich entwickelt, in mathematische Modelle umgewandelt. Das ist ein komplizierter Prozess, denn man muss etwas, das im menschlichen Körper passiert, in Zahlen und Formeln pressen. Sprache – die Aneinanderreihung von Tönen, die entstehen, wenn Muskeln Luft durch die Stimmlippen drücken – wird ausgedrückt in sogenannten Tonhöhen und Klangfarben. Die Stimmlippen erzeugen Töne, wenn sie durch den Luftdruck geöffnet und geschlossen werden.

Anzeige

Damit man sie verstehen kann, müssen sie durch den Körper verstärkt werden. Das geschieht in den Mund- und Nasenhöhlen und im Rachenraum – den Resonanzräumen des Körpers. Auf dem Weg durch diese Resonanzräume werden einige Frequenzen der Töne verstärkt und andere unterdrückt. Die verstärkten Frequenzen nennen Linguisten Formanten. Man kann sie genau definieren. Bei einem A wie in „Atmen“ liegt der erste Formant bei 150 bis 850 Hertz, der zweite bei 500 bis 2500 Hertz und der dritte bei 1500 bis 3500 Hertz. Wenn man den Computer mit diesen Daten füttert, kann er selbst Laute erzeugen. Natürlich müssen zusätzlich noch andere Dinge programmiert werden: zum Beispiel die Länge eines Lautes, welche Laute sich wie gegenseitig beeinflussen und wie es sich anhören muss, wenn sich ein A mit einem I verbindet.

Ein klang wie bei „Star Wars“

Die erste Maschine, die so etwas konnte, hieß „Voder“ und wurde von US-Forschern an den Bell Labs entwickelt, der heutigen Forschungsabteilung des Unternehmens Alcatel-Lucent. Auf der Weltausstellung von 1939 in New York begrüßte Voder die Besucher mit einem „Hello everybody“, das nach einem freundlichen Darth Vader klang – einer der Hauptfiguren aus der Science-Fiction-Reihe „Star Wars“. Die sprechende Maschine musste noch von einem Menschen bedient werden, der bestimmte Hebel für bestimmte Laute betätigte. 22 Jahre später entwickelte der Physiker John Larry Kelly, der ebenfalls bei den Bell Labs arbeitete, eine Sprachsynthese auf einem IBM-Computer, den er ein Lied singen ließ. Stanley Kubrick integrierte es in seinen Film „ 2001 – Odyssee im Weltraum“. Darin spielt ein „HAL 9000″, ein sprechender Computer, die Hauptrolle. HAL spricht fließend und hat sogar Gefühle. Doch in der Realität gibt es eine solche Stimme selbst 40 Jahre nach Erscheinen des Films nicht.

„Die Vorgänge im menschlichen Sprechtrakt sind zu komplex, als dass sie sich so nachmodellieren ließen, dass man keinen Unterschied zum Original hört“, sagt Telekom-Forscher Burkhardt. Man kann zwar Maschinen erklären, dass sie bei einem Fragezeichen mit der Stimme nach oben gehen müssen, aber die Apparate sind noch nicht fähig zu erkennen, ob die Frage rein rhetorisch ist oder gar voller Ironie steckt. „Für das Erkennen und Simulieren von Gefühlen ist die Forschung im Bereich der Künstlichen Intelligenz nicht weit genug“, meint Burkhardt. Vielmehr ist man seit den 1990er-Jahren zu dem Ansatz zurückgekehrt, Stimmen von Menschen als Ausgangsbasis zu benutzen – statt eines reinen Computerprogramms.

Stimmen aus der Konserve

Robert Ebert, ein bekannter amerikanischer Filmkritiker, hat seine eigene Stimme geklont. Er verlor seine echte Stimme durch eine Kehlkopfkrebs-Erkrankung. Doch er hatte so viele Radiosendungen und TV-Shows produziert, dass eine US-Firma ihm den Klang seiner alten Stimme zurückgeben konnte – nur eben aus dem Computer. Wer seine Stimme konservieren will, kann das zum Beispiel bei SpeechConcept tun. Die kleine Firma aus Heidelberg hat bereits zehn verschiedene Stimmen komponiert. Sie dienen etwa dazu, telefonische Ansagen für Unternehmen zu machen.

Die Stimmen, die die Entwickler bei SpeechConcept nutzen, liest ein Sprecher ein. 1600 bis 2000 Sätze müssen aufgenommen werden, das entspricht über 50 Seiten gedrucktem Text. Die deutsche Sprache besteht zwar nur aus 40 verschiedenen Lauten, aber Sprachexperten haben festgestellt, dass es nicht genügt, nur die Laute einzulesen. „Es ist einfacher, Laute in der Lautmitte zu verbinden“, sagt Mende. Deshalb achtet man bei den Sätzen, die einzulesen sind, darauf, dass alle möglichen Lautpaare – man nennt sie Diphone – vorhanden sind. Jeder Laut kann mit jedem kombiniert werden: Man muss also 1600 Diphone sammeln. Und es sollte nicht jede Kombination nur einmal vorkommen, sondern mehrere Male, um eine gewisse Abwechslung zu haben.

Wer kein gelernter Sprecher ist, für den ist das Einlesen schwer. Denn die Sätze müssen gleichmäßig schnell und in gleichbleibendem Sprechstil vorgelesen werden – so, wie sie sich am Ende auf der Telefon-Hotline anhören. Kein Enthusiasmus, keine Wut, keine Traurigkeit. Wenn die Stimme zerteilt und wieder zusammengeklebt wird, würde sonst ein seltsamer Singsang entstehen. Denn in der Datenbank werden nur die technischen Details der Diphone gespeichert, etwa ihre Stellung im Wort und in der Silbe, die Stellung des Wortes im Satz und die Betonung der Vokale – nicht aber die Emotion eines Lautes. Das würde die Datenbank überfrachten. Man denke etwa an „Nein…“, „Nein!“, „ Neiiiiiin!“ oder „Nein?“. Es sind völlig verschiedene Klänge und Betonungen möglich. Dabei ist es stets dasselbe Wort. Werden die Sätze gleichmäßig betont eingelesen, klingt die Computerstimme wie ein leicht depressiver Nachrichtensprecher: sachlich und gleichförmig.

Die israelische Firma VivoText versucht das zu ändern. Auf ihrer Webseite kann man Stimmen eines glücklichen und eines traurigen Kindes hören – und sie kommen der Realität erstaunlich nahe. Geschäftsführer Gershon Silbert ist Musiker, und Sprache ist für ihn wie Musik. Sie drückt Gefühle aus, selbst wenn man die Sprache, in der ein Lied gesungen wird, nicht versteht. Wie SpeechConcept geht Silbert von einer Datenbank mit Lauten aus, die aber viel größer ist. Er lässt die Laute in unterschiedlicher Betonung einlesen, wie bei einem Lied: Jeder Laut wird in diversen Melodien gesprochen. Dann wird das Sprachlied zerteilt und gespeichert. Doch wie erkennt der Computer, worum es in einem Satz geht? Der Knackpunkt, um natürliche Stimmen zu schaffen, ist, der Maschine beizubringen, den Kontext zu verstehen.

Musik als Vorbild

Gibt man bei VivoText einen Satz in einen Computer ein, dann wird er von einer Software gelesen, die ursprünglich geschrieben wurde, um Notenblätter zu interpretieren. „Die Software liest Satzzeichen, versteht Grammatik und Textformatierungen wie Unterstreichungen oder Kursivschrift und sucht die dazu passenden Laute aus der Datenbank heraus“, erklärt Silbert. Ausprobieren kann man das leider nicht, denn abgesehen von den Beispielsätzen auf der Webseite ist die Stimme noch nicht erhältlich. Auch hat die Firma weder Forschungsergebnisse veröffentlicht noch erklärt, wie die Software Satzzeichen interpretiert oder einen Gedankenstrich von einem Bindestrich unterscheidet. Telekom-Experte Burkhardt ist skeptisch: „Ob die Software leistet, was ihre Entwickler versprechen, sieht man erst, wenn man beliebige Sätze testen kann.“

Doch wofür braucht man eine Stimme, die gefühlsecht ist? Möchte man wirklich am Telefon begrüßt werden, ohne zu wissen, ob dahinter ein Mensch oder eine Maschine steckt? VivoText will den Markt der Hörbücher erobern. Dann müsste man nicht jedes Hörbuch einzeln kaufen, sondern nur eine Stimme, die jedes beliebige Buch vorlesen könnte. Wie das bei den Zuhörern ankommen wird, ist ungewiss, denn bisher sind sie immer nur kurzen Schnipseln synthetischer Stimmen ausgesetzt. Eine Ausnahme sind Blinde: Sie lauschen oft am liebsten blechernen Stimmen á la Stephen Hawking. Denn die können viel schneller vorlesen als natürlich klingende Stimmen. Und blinde Menschen sind darauf angewiesen, Texte schnell zu erfassen. Denn sie können die Buchseiten nicht querlesen wie Sehende.

„Das Problem bei Computerstimmen ist nicht nur ihre Herstellung, sondern auch die Art, wie wir sie hören“, erklärt Oliver Niebuhr, Juniorprofessor für Analyse gesprochener Sprache an der Universität Kiel. Wenn zwei Menschen miteinander reden, stellt sich jeder auf den anderen ein. „Wir gewöhnen uns daran, wenn der Gesprächspartner stark nuschelt, sehr schnell oder mit Akzent spricht“, sagt Niebuhr, „und stimmen unsere Erwartungen darauf ab.“

Gut möglich, dass die heutigen Kinder als Erwachsene Computerstimmen gar nicht mehr als unnatürlich empfinden, weil sie mit den synthetischen Stimmen von Navi, Hotlines und Bahnansagen groß geworden sind. ■

Pia Volk ist freie Journalistin in Leipzig. Die Geographin und Ethnologin schreibt gern über Themen im Grenzbereich von Technik und Gesellschaft.

von Pia Volk

Mehr zum Thema

Internet

Sprachtechnologie an der TU Berlin: www.qu.tu-berlin.de/menue/forschung/gruppen/speech_multimedia_technology

SpeechConcept: www.speechconcept.com

Beispiele künstlicher Stimmen von VivoText: vivotext.com/index.php/examples.html

Kompakt

· Mathematische Algorithmen können den komplizierten menschlichen Stimmapparat nicht nachbilden.

· Daher werden heute meist reale menschliche Lautblöcke aufgenommen und per Computer kombiniert.

„Man muss schauspielern“

Herr Edler, wie läuft so eine Stimmenaufnahme ab?

Sehr langsam. Man steht tagelang im Studio, liest Texte vor und versucht, sie möglichst intuitiv zu betonen. Meistens kann man das aber nur eine Stunde lang machen, dann wird die Stimme kratzig und man braucht eine Pause. Nach einer halben Stunde geht es weiter – und so läuft das den ganzen Tag. Insgesamt hat es eine Woche gedauert, alle Sätze einzulesen.

Das hört sich nicht ganz einfach an.

Es ist schwer, nicht in einen leiernden, monotonen Ton zu verfallen – und schon beim Einsprechen selbst wie eine Computerstimme zu klingen. Man muss ein wenig schauspielern.

Wie meinen Sie das?

Wenn ich einen Satz vorlese, der aus einem Dialog stammt, dann klingt er recht seltsam. Besser hört er sich an, wenn ich mich selbst in den Dialog hineinversetze, wenn ich anfange, zu gestikulieren, und versuche, die Mimik des Sprechenden nachzumachen.

Ergeben die Sätze, die man aufnimmt, einen Sinn?

Ja, das müssen sie, sonst könnte man die Laute gar nicht richtig betonen. Aber es gibt unterschiedliche Textblöcke: Manche Sätze sind Anweisungen, die ein Navigationssystem sagen würde, andere stammen eher von einem Nachrichtensprecher.

Wie finden Sie Ihre Computerstimme?

Freunde haben mir Sätze zugeschickt, die mit meiner Stimme zusammengesetzt wurden – dabei kommen ganz lustige Sachen heraus. Doch es ist seltsam, sich selbst so zu hören.

Anzeige

Wissenschaftsjournalist Tim Schröder im Gespräch mit Forscherinnen und Forschern zu Fragen, die uns bewegen:

  • Wie kann die Wissenschaft helfen, die Herausforderungen unserer Zeit zu meistern?
  • Was werden die nächsten großen Innovationen?
  • Was gibt es auf der Erde und im Universum noch zu entdecken?

Hören Sie hier die aktuelle Episode:

Aktueller Buchtipp

Sonderpublikation in Zusammenarbeit  mit der Baden-Württemberg Stiftung
Jetzt ist morgen
Wie Forscher aus dem Südwesten die digitale Zukunft gestalten

Wissenschaftslexikon

Fe|ri|en|sa|che  〈f. 19; Rechtsw.〉 bes. dringende, in den Gerichtsferien zu bearbeitende Angelegenheit

Zahn|ka|ri|es  〈[–ris] f.; –; unz.〉 = Karies (2)

Kehl|kopf|schnitt  〈m. 1; Med.〉 chirurgische Eröffnung des Kehlkopfes; Sy Laryngotomie … mehr

» im Lexikon stöbern
Anzeige
Anzeige
Anzeige