Der Cloudflare-Ausfall, der das halbe Internet lahmlegte (und der kleine Fehler dahinter)

Der Internetausfall am 18. November lag nicht an Ihrem WLAN, sondern an einem massiven Ausfall von Cloudflare, der Millionen von Webseiten für drei Stunden lahmlegte. Und der Schuldige? Ein Unternehmen, von dem die meisten Menschen noch nie gehört haben.
Inhaltsverzeichnis
- Der Ausfall der Internetinfrastruktur, den niemand kommen sah
- Was tatsächlich passiert ist
- Die fünfminütige Berg und Talfahrt
- Der Schadensbericht
- Warum Sie sich (ein wenig) Sorgen machen sollten
- Was Cloudflare richtig und was es falsch gemacht hat
- Die Lektion, die wir immer wieder vergessen
- Wir sollten daraus lernen
- Die unangenehme Wahrheit
- Fazit
Der Internetausfall am 18. November lag nicht an Ihrem WLAN, sondern an einem massiven Ausfall von Cloudflare, der Millionen von Webseiten für drei Stunden lahmlegte. Und der Schuldige? Ein Unternehmen, von dem die meisten Menschen noch nie gehört haben.
Der Ausfall der Internetinfrastruktur, den niemand kommen sah
Die Sache mit dem Internet ist folgende: Es wird von einer Handvoll Unternehmen zusammengehalten, die Sie wahrscheinlich nicht einmal kennen. Cloudflare ist eines davon.
Stellen Sie sich Cloudflare als eine Mischung aus Sicherheitsdienst, Verkehrspolizist und Geschwindigkeitsbooster des Internets vor. Wenn Sie eine Webseite besuchen, nutzen Sie oft Cloudflare, ohne es zu wissen. Das Unternehmen schützt Webseiten vor Hackern, sorgt dafür, dass Seiten schneller geladen werden, und gewährleistet einen reibungslosen Ablauf.
Das ist prima ... solange es funktioniert.
Gegen 11:20 Uhr UTC begannen die Systeme von Cloudflare auszufallen. Und zwar massiv.
Innerhalb weniger Minuten zeigten Webseiten auf der ganzen Welt Fehlermeldungen an. ChatGPT reagierte nicht mehr. Spotify fror ein. Selbst Seiten wie Uber Eats konnten keine Bestellungen mehr bearbeiten.
Und das Traurigste daran? DownDetector, die Webseite, mit der man überprüfen kann, ob andere Webseiten offline sind, war ebenfalls offline, weil sie Cloudflare nutzt.
Was tatsächlich passiert ist
Die technischen Analysen von Cloudflare zu lesen, ist sehr interessant und erschreckend zugleich, da es zeigt, wie etwas so Kleines ein solch großes Chaos verursachen kann.
Hier ist die Zusammenfassung:
Das "Bot Management"-System von Cloudflare hilft Webseiten dabei, echte Menschen von Bots zu unterscheiden. Es nutzt eine Konfigurationsdatei, eine Liste von Anweisungen, die alle paar Minuten aktualisiert wird, um neue Bedrohungen zu erkennen.
Am 18. November änderte jemand die Datenbankberechtigungen, um die Sicherheit zu gewährleisten. Diese einzelne Änderung führte versehentlich zu doppelten Einträgen in der Konfigurationsdatei, wodurch sich deren Größe verdoppelte.
Das Problem? Die Software von Cloudflare hatte eine feste Obergrenze von 200 Funktionen, aber die fehlerhafte Datei enthielt plötzlich viel mehr.
Als die Server versuchten, diese übergroße Datei zu laden, stürzten sie ab. Und da diese Datei alle fünf Minuten an jeden Rechner im globalen Netzwerk von Cloudflare verteilt wird, breitete sich das Problem schnell aus.
Die fünfminütige Berg und Talfahrt
Was die Situation besonders verwirrend machte, war, dass die Störung immer wieder auftrat und wieder verschwand.
Alle fünf Minuten generierte das System eine neue Datei. Manchmal fragte es eine aktualisierte Datenbank ab (fehlerhafte Datei = Absturz). Manchmal fragte es eine alte Datenbank ab (fehlerfreie Datei = alles funktioniert).
Das Internet funktionierte also ... dann fiel es aus ... dann funktionierte es wieder ... dann fiel es wieder aus.
Das Team von Cloudflare dachte zunächst, es handele sich um einen massiven Cyberangriff. Ihre Systeme verhielten sich unberechenbar, und ihre Statusseite (die auf einer separaten Infrastruktur läuft) fiel zufällig genau zur gleichen Zeit aus.
Sie verbrachten Stunden damit, einem Geist nachzujagen, bis sie den wahren Schuldigen fanden: eine Konfigurationsdatei, die zu viele Daten enthalten hatte.
Der Schadensbericht
Der Ausfall dauerte von 11:20 UTC bis etwa 14:30 UTC, wobei die vollständige Wiederherstellung um 17:06 UTC erfolgte. Das sind etwa drei Stunden Chaos, von denen folgende Dienste betroffen waren:
- ChatGPT: Weigerte sich zu antworten
- Spotify: Eingefrorene Wiedergabelisten
- Discord: Kommunikationsausfall
- Uber Eats & PayPal: Zahlungsfehler
- X (Twitter): Beiträge konnten nicht geladen werden
- League of Legends & Valorant: Probleme mit der Serververbindung
- Unzählige andere Webseiten und Apps
Wenn Sie sich nicht in das Dashboard von Cloudflare einloggen konnten, um Ihre Einstellungen zu korrigieren, dann liegt das daran, dass deren Login-Seite eine Sicherheitsfunktion namens Turnstile verwendet (Sie wissen schon, diese "Ich bin kein Roboter"-Checks). Und was ist wohl von dem System abhängig, das abgestürzt ist? Genau. Turnstile.
Warum Sie sich (ein wenig) Sorgen machen sollten
Hier ist die unangenehme Wahrheit: Unser Internet ist gefährlich zentralisiert.
Mit der Aussage, dass Cloudflare "die Hälfte des Internets" lahmgelegt hat, ist kaum übertrieben. Ein einziges Unternehmen wickelt den Datenverkehr für Millionen von Webseiten ab. Wenn dieses Unternehmen einen Fehler macht, bekommt das gesamte Internet Probleme.
Das ist auch nicht das erste Mal:
- Oktober 2025: Amazon Web Services fiel aus, wodurch Snapchat und die Medicare-Anmeldung für mehrere Stunden offline waren.
- 2019: Der letzte große Ausfall von Cloudflare (vor diesem)
- Unzählige kleinere Vorfälle, die kaum in den Nachrichten erwähnt werden
Was Cloudflare richtig und was es falsch gemacht hat
Was sie richtig gemacht haben:
Die Reaktion von Cloudflare war eigentlich ziemlich solide. Ihr CTO entschuldigte sich öffentlich auf X (ironisch, wenn man bedenkt, dass X ausgefallen war). Sie veröffentlichten einen detaillierten, transparenten Nachbericht, in dem sie genau erklärten, was passiert war, mit Code-Schnipseln und Zeitachsen.
Keine Schuldzuweisungen. Nur: "Wir haben Mist gebaut, hier ist, wie es passiert ist, und hier ist, was wir tun, um es zu beheben."
Dieses Maß an Transparenz? Das ist selten. Und es ist wichtig.
Was sie falsch gemacht haben:
Das hätte verhindert werden können.
Das Kernproblem ist, dass Cloudflare seine eigenen Konfigurationsdateien wie vertrauenswürdige Daten behandelt hat. Sie gingen davon aus, dass diese Dateien immer eine bestimmte Größe haben würden, weil sie sie ja selbst erstellt hatten. Sie haben keine Sicherheitsvorkehrungen für den Fall getroffen, dass etwas schiefgeht.
Das ist so, als würde man davon ausgehen, dass dem Auto nie das Benzin ausgeht, weil man immer voll tankt. Ein großartiges System ... bis man es einmal vergisst.
Sie arbeiten jetzt daran:
- Ihre eigenen Konfigurationsdateien mit der gleichen Vorsicht zu behandeln, die sie für benutzergenerierte Daten anwenden würden
- Weitere "Kill-Switches" hinzuzufügen, um Funktionen schnell zu deaktivieren
- Sicherzustellen, dass Fehlerberichte ihre Systeme nicht überlasten
- Zu überprüfen, wie andere Teile ihres Netzwerks ausfallen könnten
Die Lektion, die wir immer wieder vergessen
Wir lernen diese Lektion immer wieder, aber wir lernen sie nie wirklich.
Jeder größere Ausfall folgt dem gleichen Muster:
- Etwas Kleines geht schief
- Daraus entwickelt sich was Großes
- Millionen von Menschen sind betroffen
- Das Unternehmen entschuldigt sich und verspricht Besserung
- Wir alle machen weiter wie bisher ... bis zum nächsten Ausfall
Das Problem ist nicht, dass Ausfälle passieren. Systeme versagen. Code hat Fehler. Das Problem ist, dass wir ein Internet aufgebaut haben, in dem ein einziger Fehler die halbe digitale Welt lahmlegen kann.
Wir sollten daraus lernen
Natürlich sollen Sie nicht in Panik geraten oder alle Ihre Apps löschen. Dennoch sollten Sie ein paar Dinge berücksichtigen:
Für normale Nutzer:
- Gehen Sie nicht davon aus, dass das Internet unverwundbar ist (das ist es eindeutig nicht).
- Erstellen Sie Offline-Backups wichtiger Arbeiten.
- Denken Sie daran, dass "die Cloud" nur der Computer von jemand anderem ist... und Computer gehen kaputt.
Für Entwickler und Techniker:
- Diversifizieren Sie Ihre Infrastruktur (setzen Sie nicht alles auf eine Karte).
- Testen Sie Ihre Systeme mit fehlerhaften Daten, nicht nur mit korrekten Daten.
- Bauen Sie Schutzvorrichtungen und Notschalter ein.
- Gehen Sie davon aus, dass irgendwann alles ausfallen wird, denn das wird es auch.
Für Unternehmen:
- Haben Sie einen Notfallplan für den Fall, dass Ihre primären Dienste ausfallen.
- Verlassen Sie sich bei kritischer Infrastruktur nicht auf einen einzigen Anbieter.
- Testen Sie Ihre Notfallpläne (wann haben Sie das zuletzt getan?).
Die unangenehme Wahrheit
Ich komme immer wieder auf Folgendes zurück: Cloudflare hat nichts Böswilliges getan. Sie haben keine Warnungen ignoriert. Sie waren nicht fahrlässig.
Sie haben eine kleine Änderung vorgenommen, um die Sicherheit zu verbessern, und dadurch das Internet lahmgelegt.
So fragil ist unsere digitale Infrastruktur. Eine gut gemeinte Änderung der Datenbankberechtigungen führte zu einem dreistündigen globalen Chaos, von dem Millionen von Menschen betroffen waren.
Und das Schlimmste daran: Das wird wieder passieren.
Vielleicht nicht morgen. Vielleicht nicht bei Cloudflare. Aber irgendwo, irgendwann in naher Zukunft, wird eine weitere "kleine Änderung" zu einem großen Ausfall führen. Denn wir haben Systeme geschaffen, die so komplex und so miteinander vernetzt sind, dass niemand vollständig versteht, auf welche Weise sie ausfallen können.
Fazit
Der Ausfall von Cloudflare am 18. November ist nun neben anderen Internetausfällen in die Geschichtsbücher eingegangen. Sie bezeichneten ihn als ihren schlimmsten Ausfall seit 2019, und das ist keine Übertreibung.
Was tun wir dagegen?
Wir können weiterhin zentralisierte Systeme bauen, die zu 99,9 % der Zeit funktionieren und zu 0,1 % der Zeit katastrophal ausfallen. Oder wir können in eine widerstandsfähigere, verteilte Infrastruktur investieren, die zwar schwieriger zu realisieren ist, aber weniger wahrscheinlich wie ein Kartenhaus zusammenbricht.
Das moderne Internet ist nicht zufällig fragil, es ist von Grund auf fragil. Es ist erstaunlich, leistungsstark und wird mit Klebeband und gekreuzten Fingern zusammengehalten.