Microsofts KI-Tool kann Fotos in realistische Videos von sprechenden und singenden Menschen verwandeln

Microsoft Research Asia hat ein neues experimentelles KI-Tool namens VASA-1 vorgestellt, das aus einem Bild einer Person - oder der Zeichnung einer solchen - und einer vorhandenen Audiodatei in Echtzeit ein lebensechtes, sprechendes Gesicht erstellen kann. Es ist in der Lage, Gesichtsausdrücke und Kopfbewegungen für ein vorhandenes Standbild zu generieren und die passenden Lippenbewegungen für eine Rede oder ein Lied zu erzeugen. Die Entwickler haben eine ganze Reihe von Beispielen auf die Projektseite hochgeladen, und die Ergebnisse wirken so gut, dass sie den Menschen glauben machen könnten, sie seien echt.

Auch wenn die Lippen- und Kopfbewegungen in den Beispielen bei näherer Betrachtung immer noch etwas roboterhaft und nicht synchron aussehen, ist doch klar, dass die Technologie missbraucht werden könnte, um schnell und einfach gefälschte Videos von echten Menschen zu erstellen. Die Entwickler sind sich dieses Potenzials bewusst und haben beschlossen, "eine Online-Demo, eine API, ein Produkt, zusätzliche Implementierungsdetails oder damit verbundene Angebote" erst dann zu veröffentlichen, wenn sie sicher sind, dass ihre Technologie "verantwortungsvoll und in Übereinstimmung mit den entsprechenden Vorschriften verwendet wird". Sie äußerten sich jedoch nicht dazu, ob sie planen, bestimmte Sicherheitsvorkehrungen zu treffen, um zu verhindern, dass böswillige Akteure sie für missbräuchliche Zwecke wie die Erstellung von Deepfake-Pornos oder Desinformationskampagnen verwenden.

Die Entwickler sind davon überzeugt, dass ihre Technologie trotz ihres Missbrauchspotenzials eine Menge Vorteile bietet. Sie glauben, dass die Technologie zur Verbesserung der Bildungsgerechtigkeit eingesetzt werden kann und auch die Zugänglichkeit für Menschen mit Kommunikationsschwierigkeiten verbessert, indem man ihnen Zugang zu einem Avatar gibt, der für sie kommunizieren kann. VASA-1 könne auch zur Begleitung und therapeutischen Unterstützung von Menschen eingesetzt werden. Sie weisen darauf hin, dass VASA-1 in Programmen eingesetzt werden könnte, die Zugang zu KI-Figuren bieten, mit denen Menschen sprechen können.

Laut dem mit der Ankündigung veröffentlichten Dokument wurde VASA-1 auf dem VoxCeleb2-Datensatz trainiert, der "über 1 Million Äußerungen für 6.112 Prominente" enthält, die aus YouTube-Videos extrahiert wurden. Obwohl das Tool auf echten Gesichtern trainiert wurde, funktioniert es auch auf künstlerischen Fotos wie der Mona Lisa, die die Forscher auf amüsante Weise mit einer Audiodatei von Anne Hathaways viraler Interpretation von Lil Waynes Paparazzi kombiniert haben.