Buchstäblich in den Mund gelegt

Sogar Liveübertragungen sind offenbar nicht mehr fälschungssicher: Ein internationales Forscherteam hat ein raffiniertes Verfahren entwickelt, das Mimik und Lippenbewegungen einer Person in Echtzeit auf das Video-Signal eines anderen Menschen übertragen kann. Kopfbewegungen und Gestik der Ursprungsperson bleiben dabei erhalten.

Dieses Video mit englischer Beschreibung demonstriert die Übertragung in Echtzeit.


Man stelle sich einen Live-Video-Stream der Bundeskanzlerin vor: Man sieht sie auf dem Bildschirm sprechen, doch in Wahrheit schweigt sie vielleicht gerade - jemand anders steuert ihre Mundbewegungen täuschend echt. Genau das wäre theoretisch mit dem System möglich, das Forscher der Universität von Stanford, der Universität Erlangen-Nürnberg und dem Max-Planck-Institut (MPI) für Informatik gemeinsam entwickelt haben. Im November werden sie es auf der Computergraphik-Konferenz "SIGGRAPH ASIA" in Kobe (Japan) präsentieren.

Die Wissenschaftlerteams beschäftigen sich schon lange mit dem "Verstehen von Bildern" - mit der Herausforderung, dynamische Szenenmodelle von Videos zu erfassen.  "Insbesondere geht es darum, Modelle aus Videodaten zu berechnen, um eine mathematisch, möglichst realitätsgetreue Beschreibung von starren, beweglichen, aber auch deformierbaren Körpern innerhalb einer Szene zu schätzen", sagt Christian Theobalt vom MPI. Genau das scheint den Forschern nun mit ihrem System geglückt zu sein.

Gespenstisches Puppenspiel

Bei dem neuen Verfahren werden zwei Personen von Kameras gefilmt, die zusätzlich zu normalen Bildinformationen auch weitere Informationen erfassen: Sie vermessen darüber hinaus die Entfernung jedes Bildpunktes in den Szenen. Basierend auf diesen Daten entwickelt das System dann ein Gesichtsmodell beider Personen, so dass die Kopfgeometrie und weitere Gesichtsinformationen in einer mathematischen Beschreibung vorliegen. Danach werden Mimik und Lippenbewegung beider Personen analysiert und von einem Gesichtsmodell auf das andere übertragen, um sie im Zielvideo fotorealistisch darzustellen. Den Forschern zufolge ist dazu nicht einmal ein Hochleistungsrechner nötig: Die Algorithmen zur Berechnung sind so effizient, dass sie auf gut ausgestatteten Standardrechnern in Echtzeit ablaufen können.

"Grundsätzlich sind die Arbeiten als ein Baustein für Techniken zu verstehen, die es Computern ermöglichen, die bewegte Welt um sich herum zu erfassen, und mit vielen Anwendungen in der Robotik oder Augmented/Virtual Reality zu interagieren", sagt Theobalt. Konkrete Anwendungsmöglichkeiten für ihr neues System sehen er und seine Kollegen in der visuellen Verbesserung von Synchronisierungen beispielsweise bei fremdsprachigen Spielfilmen: Mit dem Verfahren könnte man die Lippenbewegungen an die Synchronsprache angleichen.

Synchronisierungen aber auch bedenklich Anwendungsmöglichkeiten

Das Konzept wirft allerdings auch Bedenken auf: Täuschend echte Manipulationen von Live-Video-Streams scheinen nun möglich zu werden. "So, wie jeder heute weiß, dass Bilder und Filme für Werbe- oder auch Propagandazwecke verfälscht werden können, müssen auch bei vermeintlichen Live-Videos Manipulationsmöglichkeiten beachtet werden", heißt es in der Mitteilung der Max-Planck-Gesellschaft.

Reload-Capcha neu laden Text der identifiziert werden soll

Bitte geben Sie zusätzlich noch den Sicherheitscode ein!

Rubriken

 


Harte Nuss
Rätsel: Berühmte Entdecker gesucht

 

Der Buchtipp

Der Autor ist ein brillant schreibender Wissenschaftler, der keinen Zweifel daran lässt, dass Tiere Freude, Liebe, Angst und Eifersucht fühlen und dass sie denken können.

Zu allen Buchtipps


Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der Konradin Mediengruppe