Elon Musk versteht KI nicht
Elon Musk ist entschlossen, immer wieder denselben katastrophalen, aber naheliegenden Fehler in Bezug auf KI zu begehen. Leider ist dies ein großes Problem, da er Tesla von einem EV-Giganten zu einer KI-Plattform umwandelt, die "KI in die physische Welt bringt". Der Grund dafür, dass Teslas Full-Self-Driving-System wie ein betrunkener Demenzkranker fährt und Optimus C3PO wie einen agilen Roboter aussehen lässt, liegt darin, dass das "Genie" die grundlegenden Prinzipien der Technologie hinter diesen Systemen nicht verstanden hat.
Rodney Brooks kritisiert Musk seit fast einem Jahrzehnt zu diesem Thema, und wenn jemand für diese Rolle qualifiziert ist, dann ist er es, da er einer der weltweit führenden Robotiker ist. In einem kürzlich erschienenen Essay kritisierte er die humanoide Robotikindustrie und ihre Investoren und wies darauf hin, dass sie ihr Geld verschwenden und diese Blase zum platzen verurteilt ist. Seine Kritik richtete sich jedoch insbesondere gegen das Optimus-Roboterprogramm von Tesla.
Das Problem? Die Daten, die sie zum Trainieren der KI der Roboter verwenden.
Unternehmen wie Tesla trainieren diese KIs, indem sie ihnen Videos von Menschen zeigen, die Aufgaben wie das Falten von Kleidung ausführen, und nur sehr wenige zusätzliche Daten hinzufügen. Brooks wies lediglich darauf hin, dass dieser Ansatz "reine Fantasie" sei.
Warum? Weil wir Menschen weit mehr als nur visuelle Daten verwenden, um diese Aufgaben zu erledigen.
Brooks weist darauf hin, dass wir zum Erledigen von Aufgaben deutlich mehr den Tastsinn als visuelle Daten nutzen. Unsere Hände verfügen über 17.000 spezialisierte, hochempfindliche Tastrezeptoren, die Veränderungen von nur 40 μm (etwa die Hälfte der Breite eines menschlichen Haares) wahrnehmen können und alle mit einer Geschwindigkeit von etwa einer Milliarde Bits pro Sekunde arbeiten.
Mit anderen Worten: Eine einzige menschliche Hand versorgt unser Gehirn jede Sekunde mit über zwei Gigabyte hochdetaillierter Daten! Wir brauchen all diese Genauigkeit in Kombination mit bemerkenswert geschickten und schnellen Händen, um einfache Aufgaben zu erledigen. Ohne sie oder mit einer verminderten Tastempfindung, wenn wir uns hauptsächlich auf das Sehen verlassen, wird alles viel schwieriger.
Roboter wie Optimus haben jedoch Hände mit einer exponentiell geringeren Tastgenauigkeit. Ganz zu schweigen davon, dass ihre Hände zwar beeindruckend sind, aber im Vergleich zu unseren Fingern immer noch deutlich weniger geschickt und schnell sind.
Dies schafft ein großes Problem.
Die KI wird mit einem unvollständigen Datensatz trainiert. Wie Brooks betont: "Wir haben keine solche Tradition für Berührungsdaten", daher sammeln wir diese Daten nicht, um diese KIs zu trainieren, was zu einer großen Wissenslücke bei der KI führt.
Nehmen wir das Beispiel des Kleidungsstücks: Wir nutzen den Tastsinn, um die Biegsamkeit, das Gewicht und die Textur eines Materials zu beurteilen, und das ermöglicht es uns, es schnell und präzise zu falten. Eine KI, die ausschließlich anhand visueller Daten eines Menschen, der Kleidung faltet, trainiert wird, hat keinen Zugriff auf dieselben Daten.
Eine KI kann lediglich Muster in Daten erkennen und replizieren. Das ist alles. Sie ist nicht kognitiv und versteht nicht, was sie tut. In diesem Beispiel des Kleidungsfaltens ist der Datensatz also unvollständig, was es für die KI schwierig macht, das tatsächlich auftretende Muster zu interpretieren. Wie kann sie es genau replizieren? Das kann sie nicht.
Im Wesentlichen sind die Trainingsdaten nicht ausreichend analog. Der Mensch, der die Aufgabe ausführt und die Trainingsdaten erstellt, hat Zugang zu exponentiell mehr Daten und Daten mit höherer Genauigkeit als die KI, die diese Aufgabe replizieren soll. Er trifft Entscheidungen auf der Grundlage von Daten, zu denen die KI keinen Zugang hat.
Aus diesem Grund weist Brooks darauf hin, dass dieser Ansatz eine optimale Nutzung von Optimus unmöglich macht und das gesamte Projekt zum Scheitern verurteilt ist.
Die Verfügbarkeit geeigneter Trainingsdaten ist ein Grundprinzip der KI-Technologie. Es ist eines der ersten Dinge, die man lernen muss. Die Tatsache, dass Musk diesen Fehler nicht nur bei diesem milliardenschweren KI-Projekt, sondern auch bei mehreren anderen gemacht hat, ist daher äußerst erstaunlich.
Nehmen wir das autonome Fahrsystem FSD (Full Self Driving) von Tesla. Alle anderen großen autonomen Fahrsysteme verwenden eine Vielzahl verschiedener Sensoren, um sich ein klares Bild von der Umgebung zu machen, aber nicht FSD. Musk zwang die Ingenieure, einen Ansatz zu verfolgen, der ausschließlich auf Computer Vision basiert. Das bedeutet, dass dieses System die Umgebung nur über neun Videokameras verstehen kann, die rund um das Auto angebracht sind. Warum hat Musk das getan? Nun, seiner Meinung nach nutzen wir hauptsächlich unser Sehvermögen, um uns auf der Straße zurechtzufinden, und daher sollte eine KI in der Lage sein, dasselbe zu tun.
Leider ist das menschliche Sehvermögen nicht mit einer Videokamera vergleichbar. Wir sehen so viel mehr!
Das menschliche Auge hat etwa 576 Megapixel und einen Dynamikumfang von über 20 Blendenstufen (ein Maß dafür, wie viele Details in den Schatten und Lichtern zu sehen sind) mit einer variablen Bildrate von 30 bis 60 Bildern pro Sekunde. Es verfügt außerdem über unglaubliche 3D-Informationen, nicht nur durch den binokularen Effekt der beiden nach vorne gerichteten Augen, sondern auch durch die Parallaxe, da wir unseren Kopf oft von einer Seite zur anderen bewegen, um eine noch größere dreidimensionale Genauigkeit zu erreichen.
Vergleichen Sie das mit den von Tesla verwendeten Kameras, die fünf Megapixel, weniger als zehn Blendenstufen Dynamikbereich und eine Begrenzung auf 36 Bilder pro Sekunde haben. Und obwohl die neun Kameras für die 360-Grad-Sicht rund um das Auto verteilt sind, gibt es keinen binokularen oder Parallaxeneffekt, um genaue 3D-Informationen zu erhalten. 3D muss aus einem einzigen Kamerasignal abgeleitet werden.
Tesla Vision funktioniert nicht nur völlig anders als die Art und Weise, wie wir die Welt beim Fahren "sehen", sondern auch seine Genauigkeit ist im Vergleich zum menschlichen Sehvermögen ein Witz. Wir können wichtige Details in Lichtern und Schatten erkennen, wie beispielsweise einen Radfahrer, der aus einem dunklen Tunnel kommt, oder die Worte auf einem hellen Schild in der Sonne, während Tesla Vision nur ein Schwarz-Weiß-Bild sieht. Unsere höhere Auflösung hilft uns, komplexe Objekte zu erkennen und zu identifizieren, beispielsweise um festzustellen, ob es sich bei dem Fleck am Straßenrand um ein liegengebliebenes Motorrad handelt, dem wir ausweichen müssen, während Tesla Vision nur ein Wirrwarr von Pixeln sieht. Unsere hochpräzisen 3D-Sensoren ermöglichen es uns, Entfernungen mit unglaublicher Genauigkeit in einem Augenblick zu beurteilen, während Tesla Vision immer noch damit beschäftigt ist, zu erraten, wie nah das entgegenkommende Fahrzeug tatsächlich ist.
Nichtsdestotrotz trainiert Tesla seine FSD-KI mit Daten, die von diesen Kameras gesammelt werden, während seine Kunden auf öffentlichen Straßen fahren.
Auch hier treffen die Fahrer in diesen Trainingsdaten Entscheidungen auf der Grundlage von Mikrodetails, die in den Daten, die zum Trainieren der KI verwendet werden, nicht zu sehen sind. Die KI kann das Ursache-Wirkungs-Muster des Denkprozesses eines menschlichen Fahrers nicht erkennen. Wie um alles in der Welt soll sie es dann genau nachbilden können? Das kann sie nicht. Sie wird die Muster, die sie sieht, nicht verstehen, Phantom-Muster interpretieren, die gar nicht existieren, oder falsche Ursache-Wirkungs-Zusammenhänge herstellen, weil sie nicht erkennen kann, was den Fahrer zu einem bestimmten Manöver veranlasst hat.
Musk versucht, die KI zu zwingen, menschlicher zu sein, obwohl sie das niemals sein kann. Ein selbstfahrendes Auto "sieht" die Welt anders und hat andere Fahrfähigkeiten als ein menschlicher Fahrer. Daher muss sein "Denkprozess" oder die Muster, die es nachahmt, diesen Unterschieden entsprechen. Mit anderen Worten: Die Trainingsdaten müssen auf den Daten basieren, die der KI zur Verfügung stehen, und nicht auf denen, zu denen ein Mensch Zugang hat.
Nun gibt es bei FSD noch eine ganze Reihe weiterer spannender Probleme, aber dieses Problem mit den Trainingsdaten ist einer der Hauptgründe, warum die aktuelle Version von FSD nur 493 Meilen zwischen kritischen Deaktivierungen schafft, verglichen mit 17.000 Meilen bei Waymo. Und das ist der Grund, warum Tesla im Robotaxi-Wettlauf so weit hinterherhinkt.
Auch dies ist ein Grundprinzip der KI. Der einzige Grund, warum die Chatbot-KIs von LLMs heutzutage überhaupt brauchbar sind, ist nicht der Zugang zu mehr Daten oder mehr Rechenzentren, sondern der Zugang zu den richtigen Daten, die auf die richtige Weise aufbereitet wurden. Man kann nicht einfach irgendwelche alten, von Menschen stammenden Daten in diese Dinge hineinschieben und Ergebnisse erwarten.
Die "richtigen" Daten zu erstellen ist jedoch zeitaufwändig, teuer und begrenzt, da Musk mühsam Unmengen an Trainingsdaten intern erstellen muss, anstatt sie einfach von anderen zu stehlen oder halbherzig zu bearbeiten. Die Tatsache, dass Musk trotz der Warnungen von Experten immer wieder denselben Fehler macht, zeigt nicht nur, dass er die Grundlagen der KI nicht versteht, sondern auch, dass er gefährlich ignorant ist.