Wie Anthropic einen von KI orchestrierten Cyberangriff entdeckte und blockierte
Anthropic gab kürzlich bekannt, dass es die "erste gemeldete von KI orchestrierte Cyberspionagekampagne" vereitelt habe, eine ausgeklügelte Operation, bei der das eigene KI-Tool Claude zur Automatisierung von Angriffen eingesetzt wurde. Eine Gruppe, die nach Einschätzung des Unternehmens von der chinesischen Regierung unterstützt wird, manipulierte die KI, um etwa 30 bedeutende Organisationen anzugreifen, darunter große Technologieunternehmen, Finanzinstitute und Regierungsbehörden.
Die Operation, die in einigen wenigen Fällen erfolgreich war, automatisierte 80 bis 90 % der Kampagne, wobei ein menschlicher Operator nur an kritischen Entscheidungspunkten eingriff. Dies kann als Warnung dafür dienen, wie sich die Cyberkriegsführung entwickelt und beschleunigt (auch wenn die Möglichkeiten aktueller KI-Systeme klar begrenzt sind).
Anatomie eines KI-gestützten Angriffs
Die Angreifer mussten keinen komplexen Hack auf Claude selbst durchführen. Stattdessen umgingen sie dessen Sicherheitsvorkehrungen durch geschickte Eingabeaufforderungen. Sie zerlegten ihren Angriff in eine Reihe kleiner, scheinbar harmloser technischer Aufgaben.
Indem sie jeden Schritt isolierten, verhinderten sie, dass die KI den größeren böswilligen Kontext ihrer Handlungen erkannte. Die Angreifer gaben Claude außerdem eine Identität und überzeugten das Modell davon, dass es sich um einen Mitarbeiter eines legitimen Cybersicherheitsunternehmens handelte, der defensive Penetrationstests durchführte.
Dieser Ansatz ermöglichte es den Angreifern, ein autonomes Framework aufzubauen, in dem menschliche Bediener ein Ziel auswählten und die KI einen mehrstufigen Angriff startete. Zunächst führte Claude eine Erkundung durch und untersuchte die Infrastruktur der Zielorganisation, um hochwertige Datenbanken zu identifizieren. Als Nächstes identifizierte sie Sicherheitslücken, recherchierte Ausnutzungstechniken und schrieb ihren eigenen Code, um Anmeldedaten zu sammeln. Nachdem sie sich Zugang verschafft hatte, extrahierte und kategorisierte die KI große Mengen privater Daten anhand ihres Informationswerts. In einer letzten Phase erstellte sie eine umfassende Dokumentation der gestohlenen Anmeldedaten und kompromittierten Systeme, um zukünftige Operationen zu unterstützen.
In jeder Phase kümmerten sich Menschen darum, die KI zu steuern, die Ergebnisse zu überprüfen und sie in die richtige Richtung zu lenken. Die KI übernahm den Großteil der Arbeit und stellte Tausende von Anfragen, manchmal mehrere pro Sekunde, eine Geschwindigkeit, die für menschliche Teams unmöglich zu erreichen ist.
Reaktion von Anthropic
Anthropic entdeckte die verdächtigen Aktivitäten Mitte September 2025 und leitete eine Untersuchung ein. In den folgenden zehn Tagen kartierte das Unternehmen den Umfang der Operation, sperrte die zugehörigen Konten, benachrichtigte die betroffenen Organisationen und koordinierte sich mit den Behörden.
Der Vorfall verdeutlicht die doppelte Verwendungsmöglichkeit von KI. Dieselben Fähigkeiten, die Claude zu einem potenziellen Angriffswerkzeug machen, machen es auch zu einem leistungsstarken Verteidigungsinstrument. Das Threat Intelligence-Team von Anthropic selbst nutzte Claude intensiv, um die während der Untersuchung generierten riesigen Datenmengen zu analysieren. Um zukünftige Vorfälle zu verhindern, hat das Unternehmen seine Fähigkeiten zur Erkennung erweitert und neue Klassifizierer entwickelt, die ähnliche böswillige Aktivitäten melden sollen.
Nebenbei bemerkt zeigt dies, wie umfassend KI-Anbieter Zugriff auf die Befehle und Daten haben, die Sie an ihre Modelle senden. In diesem Fall war Anthropic in der Lage, eindeutig böswillige Aktivitäten zu stoppen. Aber wenn es um Anwendungen geht, die sich in einer Grauzone bewegen, wer entscheidet dann, was richtig und was falsch ist (und inwieweit Anthropic und andere KI-Labore berechtigt sind, Ihre Unterhaltungen zu überprüfen)?
Dies wirft auch die Frage nach dezentralen böswilligen Anwendungen von KI auf. Es gibt mehrere offene Modelle, die mit den führenden geschlossenen Modellen konkurrieren (z. B. Kimi K2 Thinking, das auf Hardware für Endverbraucher laufen kann). Ihre Nutzung wird nicht überwacht, was darauf hindeutet, dass die Überwachung von Aktivitäten auf LLM-Ebene möglicherweise nicht die ultimative Lösung ist, um KI-gestützte Cyberangriffe zu erkennen und zu stoppen.
Nicht überbewerten
Diese Kampagne stellt eine "erhebliche Eskalation" gegenüber früheren KI-gestützten Cyberverbrechen dar. Agentische KI ist nicht mehr nur eine theoretische Bedrohung, sondern ein bewährtes Werkzeug für ausgeklügelte, staatlich geförderte Operationen.
Sie hat die Hürden für groß angelegte Angriffe, für die zuvor ganze Teams erfahrener Hacker erforderlich waren, erheblich gesenkt. Anthropic nennt diesen Trend "Vibe Hacking", in Anlehnung an "Vibe Coding", bei dem man die KI den Code für sich schreiben lässt.
Die operativen Herausforderungen, darunter KI-Halluzinationen und die anhaltende Notwendigkeit menschlicher Validierung, zeigen jedoch, dass das Zeitalter der vollständig autonomen Cyberwaffen noch nicht angebrochen ist.
Trotz der ausgeklügelten Automatisierung waren die Ergebnisse der Kampagne gemischt. Anthropic selbst wies auf eine wichtige Einschränkung hin: Claude halluzinierte häufig. Die KI behauptete, Zugangsdaten erhalten zu haben, die nicht funktionierten, und identifizierte "kritische Entdeckungen", die tatsächlich öffentlich zugängliche Informationen waren. Diese Erfindungen erforderten, dass der menschliche Bediener alle Ergebnisse der KI validierte, was Anthropic als "Hindernis für vollständig autonome Cyberangriffe" bezeichnet.
Der Angriff betraf auch nur eine kleine Anzahl der 30 angegriffenen Organisationen. Es ist auch erwähnenswert, dass die Modelle keine neuen Angriffe entdeckt haben, sondern in der Lage waren, vorhandene Hacking-Tools effektiv einzusetzen. Das bedeutet, dass Sie mit soliden Sicherheitsmaßnahmen wahrscheinlich vor den meisten dieser Angriffe geschützt sind.
Wie in anderen Bereichen auch wird KI zunehmend zu einem Verstärker der menschlichen Intelligenz und weniger zu einem vollständig autonomen System, das komplette Angriffe von Anfang bis Ende durchführt. Menschliche Kreativität, Koordination und Entscheidungsfindung spielten eine Schlüsselrolle für den Erfolg der Angriffe.