Es gibt bereits Robotersysteme, die auf Sprache reagieren. Damit ein Roboter Arbeiten ausführen kann, die nicht vorprogrammiert sind, muss man ihm dazu allerdings eine genaue Abfolge von Handlungen angeben. Schritt für Schritt muss der Nutzer sagen, was zu tun ist, damit der Roboter lernen kann. Doch Menschen neigen bei solchen Instruktionen erfahrungsgemäß zu Unklarheiten, die bei einem Roboter „Input Error“ verursachen oder zu Fehlern führen. Hat man seinem Haushaltsroboter beispielsweise penibel erklärt, wie er Nudeln zubereiten soll, kann eine mangelnde Detail-Info bereits zum Misserfolg führen: Fehlte beispielsweise die Information „Herd anschalten“, klappt’s nicht mit den Nudeln. Außerdem benutzen fremde Nutzer oft Redewendungen, die der Roboter nicht gelernt hat.
Dieser Problematik haben sich die Forscher um Ashutosh Saxena von der Cornell University in Ithaca gewidmet. Ihr Roboter ist mit einer 3-D Kamera ausgerüstet, die Objekte im Raum erfasst. Eine speziell entwickelte Software kann sie identifizieren und sie Fähigkeiten zuordnen. Der Roboter weiß beispielsweise: In einen Topf kann man etwas hineinschütten, es erhitzen und es wieder ausschütten. Ein Herd kann unterschiedlich aussehen, hat aber ähnliche Eigenschaften – mit ihm kann man erhitzen und manchmal stehen unterschiedliche Gegenstände auf ihm. Und so weiter. Auf diese Weise kann der Roboter einen Topf, den Herd und das Waschbecken erkennen und sie in seine Arbeitsabläufe integrieren.
Weniger „Input Error“
Dies ermöglicht, dass die Anweisung „Wasser heiß machen“ als Information ausreicht: Der Roboter kann dazu den Herd benutzen – falls nicht vorhanden, erkennt er die Mikrowelle in der Küche und kann sie als Alternative nutzen. Das Ganze klappt auch noch am nächsten Tag, wenn der Topf woanders steht, oder wenn man den Roboter in eine andere Küche verfrachtet hat. Grundlegende Handlungsweisen können dem Roboter durch Video-Simulationen eingegeben werden, die von Nutzern erzeugt werden, ähnlich wie bei einem Computerspiel. Diese Handlungen werden dann mit Sprachbefehlen verknüpft, die von vielen unterschiedlichen Sprechern stammen und demzufolge unterschiedlich lauten können: „Bring den Topf zum Herd“ – „trage den Topf zum Herd“ – „setze den Topf auf den Herd“ – „geh zum Herd und mach den Topf heiß“… All diese Befehle bilden eine Datenbank für die gleiche Handlungsanweisung. Wenn der Roboter einen Befehl eines neuen Sprechers hört, vergleicht er ihn mit seinen Datenbank-Einträgen und reagiert mit der Handlung, die am ehesten gewünscht sein könnte.
Natürlich macht ihr Roboter noch viele Fehler, räumen die Forscher ein, aber er ist bisherigen Versionen deutlich überlegen. In bis zu 64 Prozent der Fälle reagierte er richtig, auch wenn die Anweisungen ungewöhnlich ausgedrückt waren, Detail-Informationen fehlten oder sich das Umfeld geändert hatte. In einem Video veranschaulichen die Forscher dies. Darin macht der Roboter „Dave“ ein Dessert nach den Anweisungen seines Gastes.