Microsoft, Google und Meta setzen auf gefälschte Daten zur Erstellung von KI-Modellen

Die führenden Unternehmen im Bereich der künstlichen Intelligenz experimentieren mit einem anderen Ansatz, um ihren unersättlichen Bedarf an Daten zu decken.

Ein unerschöpflicher Bedarf an Daten

Hinter jeder cleveren Antwort eines Chatbots steht ein riesiger Datenschatz - in manchen Fällen Billionen von Wörtern, die aus Artikeln, Büchern und Online-Kommentaren stammen, um einem KI-System beizubringen, die Anfrage eines Nutzers zu verstehen. Die gängige Meinung in der Branche ist, dass immer mehr Informationen benötigt werden, um die nächste Generation von KI-Produkten zu entwickeln.

Bei diesem Plan gibt es jedoch ein großes Problem: Im Internet sind nur so viele hochwertige Daten verfügbar. Um an diese Daten zu gelangen, zahlen KI-Firmen in der Regel entweder Millionenbeträge an Verlage, um deren Inhalte zu lizenzieren, oder sie nutzen Webseiten und setzen sich damit Urheberrechtsstreitigkeiten aus. Die führenden Unternehmen für künstliche Intelligenz erforschen zunehmend einen anderen Ansatz, der in der KI-Gemeinschaft für Unstimmigkeiten sorgt: die Verwendung synthetischer Daten, d. h. gefälschter Daten.

Und so funktioniert es: Technologieunternehmen können auf ihre eigenen KI-Systeme zurückgreifen, um Schrift und andere Medien zu erzeugen. Diese künstlichen Daten können dann verwendet werden, um künftige Versionen derselben Systeme zu trainieren, was Dario Amodei, Chief Executive Officer von Anthropic, als eine potenzielle "unendliche Datengenerierungsmaschine" bezeichnet hat. Auf diese Weise können KI-Unternehmen viele rechtliche, ethische und datenschutzrechtliche Bedenken vermeiden.

Die Idee synthetischer Daten in der Datenverarbeitung ist nicht neu - es handelt sich um eine Technik, die seit Jahrzehnten für alles Mögliche verwendet wird, von der Deanonymisierung persönlicher Daten bis hin zur Simulation von Straßenbedingungen für selbstfahrende Autos. Mit dem Aufkommen der generativen KI wird es jedoch einfacher, synthetische Daten in besserer Qualität und in größerem Umfang zu erstellen - und es wird auch dringender, dies zu tun.

Anthropic hat gegenüber Bloomberg erklärt, dass es synthetische Daten verwendet hat, um das neueste Modell zu erstellen, das seinen Chatbot Claude antreibt. Meta und Google haben sie für die Entwicklung ihrer jüngsten Open-Source-Modelle verwendet. Google DeepMind sagte kürzlich, dass es sich auf diese Methode stützte, um ein Modell zu trainieren, das Geometrieprobleme auf Olympia-Niveau lösen kann. Und viele haben darüber spekuliert, ob OpenAI solche Daten verwendet, um Sora zu trainieren, seinen Text-zu-Video-Bildgenerator. (OpenAI erklärte gegenüber Bloomberg, dass es die Verwendung synthetischer Daten prüft, wollte aber keine weiteren Details bestätigen).

Bei Microsoft hat sich das Forschungsteam für generative KI bei einem kürzlich durchgeführten Projekt synthetischen Daten zugewandt. Sie wollten ein kleineres, weniger ressourcenintensives KI-Modell entwickeln, das dennoch über effektive Sprach- und Denkfähigkeiten verfügt. Zu diesem Zweck wurde versucht, die Art und Weise nachzuahmen, wie Kinder durch das Lesen von Geschichten Sprache lernen.

Anstatt das KI-Modell mit einer großen Anzahl von Kinderbüchern zu füttern, erstellte das Team eine Liste von 3.000 Wörtern, die ein Vierjähriger verstehen könnte. Dann baten sie ein KI-Modell, eine Kindergeschichte mit einem Substantiv, einem Verb und einem Adjektiv aus dieser Liste zu erstellen. Die Forscher wiederholten diese Aufforderung über mehrere Tage hinweg millionenfach und erzeugten so Millionen von Kurzgeschichten, die schließlich zur Entwicklung eines weiteren, leistungsfähigeren Sprachmodells beitrugen. Microsoft hat diese neue Familie von "kleinen" Sprachmodellen, Phi-3, quelloffen und öffentlich zugänglich gemacht.