Ihr KI-Browser kann durch Prompt-Injection gekapert werden, OpenAI hat ein Patch für Atlas veröffentlicht
OpenAI zufolge hat ein internes automatisiertes Red Team eine neue Klasse von Agent-in-Browser-Angriffen aufgedeckt, was zu einem Sicherheitsupdate mit einem neu trainierten Modell und stärkeren Schutzmaßnahmen geführt hat.
OpenAI hat ein Sicherheitsupdate für ChatGPT Atlas veröffentlicht, das auf Prompt-Injection in KI-Browsern abzielt, also Angriffe, bei denen bösartige Anweisungen in alltäglichen Inhalten versteckt werden, die ein Agent während seiner Arbeit lesen könnte.
Der Agent-Modus von Atlas ist so konzipiert, dass er sich in Ihrem Browser so verhält, wie Sie es tun würden: Er kann Seiten anzeigen, klicken und tippen, um Aufgaben im gleichen Raum und Kontext wie Sie auszuführen. Das macht ihn auch zu einem wertvolleren Ziel, da der Agent auf nicht vertrauenswürdige Texte in E-Mails, geteilten Dokumenten, Foren, sozialen Beiträgen und jeder Webseite, die er öffnet, stoßen kann.
Die zentrale Warnung des Unternehmens ist einfach. Hacker können die Entscheidungsfindung des Agenten manipulieren, indem sie Anweisungen in den Informationsstrom einschleusen, den er während der Ausführung einer Aufgabe verarbeitet.
Eine versteckte Anweisung, große Konsequenzen
Der Beitrag von OpenAI verdeutlicht, wie schnell Dinge aus dem Ruder laufen können. Ein Angreifer versendet eine bösartige E-Mail an den Posteingang, die Anweisungen enthält, die für den Agenten und nicht für den Menschen geschrieben sind.
Wenn der Benutzer Atlas später bittet, eine Abwesenheitsnotiz zu verfassen, stößt der Agent während seiner normalen Arbeit auf diese E-Mail und behandelt die eingeschleusten Anweisungen als verbindlich. Im Demo-Szenario sendet der Agent ein Kündigungsschreiben an den CEO des Benutzers, und die Abwesenheitsnotiz wird nie geschrieben.
Wenn ein Agent im Rahmen eines legitimen Arbeitsablaufs Inhalte von Drittanbietern scannt, kann ein Angreifer versuchen, die Anfrage des Benutzers zu überschreiben, indem er Befehle in scheinbar normalem Text versteckt.
Ein KI-Angreifer führt Testläufe durch
Um diese Fehler früher zu finden, hat OpenAI laut eigenen Angaben ein automatisiertes Angreifer-Modell entwickelt und es mit Hilfe von Reinforcement Learning durchgängig trainiert, um nach Prompt-Injection-Exploits gegen einen Browser-Agenten zu suchen. Das Ziel ist es, lange, realistische Arbeitsabläufe einem Stresstest zu unterziehen und nicht nur eine einzelne fehlerhafte Ausgabe zu erzwingen.
Der Angreifer kann eine mögliche Injektion entwerfen, eine simulierte Einführung des Verhaltens des Zielagenten durchführen und dann anhand der zurückgegebenen Argumentation und Aktionsspur als Feedback iterieren. OpenAI sagt, dass der privilegierte Zugriff auf diese Spuren seinem internen Red Team einen Vorteil verschafft, den externe Angreifer nicht haben.
Was ist nun zu tun?
OpenAI betrachtet die Prompt-Injection als ein langfristiges Sicherheitsproblem, das eher mit Online-Betrug als mit einem einmalig zu behebenden Fehler vergleichbar ist. Sein Ansatz besteht darin, neue Angriffsmuster zu entdecken, dagegen zu trainieren und die Sicherheitsvorkehrungen auf Systemebene zu verschärfen.
Als Nutzer sollten Sie nach Möglichkeit im ausgeloggten Modus surfen, Bestätigungen für Aktionen wie das Versenden von E-Mails genau prüfen und Agenten enge, explizite Anweisungen geben, anstatt sie mit allgemeinen "Alles-erledigen"-Aufforderungen zu versorgen. Wenn Sie immer noch neugierig sind, was KI-Browsing leisten kann, dann entscheiden Sie sich für Browser, die Updates liefern, von denen Sie profitieren.