Postmortem-Bibliothek

Google Cloud: Quotenrichtlinien Änderung hat viele betroffen

Google Cloud hatte einen weltweiten Ausfall durch eine interne Änderung der Quota-Policy, die zentrale Services weltweit beeinträchtigte. Erfahre, was passiert ist, welche Services betroffen waren, wie Google reagiert hat, welche Maßnahmen zur Behebung ergriffen wurden und welche wichtigsten Learnings für mehr Zuverlässigkeit in der Zukunft gezogen wurden

Link zur Quelle

Das Unternehmen

Google Cloud stellt eine weltweite Cloud-Infrastruktur für Unternehmen, Behörden und Entwickler bereit. Die Plattform unterstützt Rechenleistung, Speicher, Datenbanken, Analytics und KI-Services in verschiedenen Regionen. Zu den wichtigsten Angeboten zählen Compute Engine, BigQuery, Cloud Run und Vertex AI, die täglich Millionen von Workloads verarbeiten.

Was passierte während der Google Cloud-Störung?

Am 12. Juni 2025 kam es bei Google Cloud zu einer weltweiten Störung, die etwa 3 Stunden dauerte. Eine fehlerhafte Änderung im Quota-Enforcement-System „Service Control“ führte dazu, dass fehlerhafte Metadaten erzeugt wurden, die Crash-Loops in den Binaries auslösten, welche für die Validierung des API-Traffics zuständig sind.

‍
Der Fehler verbreitete sich durch globale Replikation schnell. Hunderte Google-Cloud- und Google-Workspace-Services, darunter Compute Engine, Cloud Storage, BigQuery und Gmail, verzeichneten erhöhte 503-Fehlermeldungen und eingeschränkten Zugriff. Die meisten Regionen konnten innerhalb von 2 Stunden stabilisiert werden, während us-central1 wegen zusätzlicher Infrastrukturbelastung durch Wiederholungsanfragen erst später wiederhergestellt werden konnte.

Timeline

Wann begann der Google Cloud-Incident?

Die Störung begann am 12. Juni um 10:49 PDT, als fehlerhafte Quota-Daten ausgerollt wurden. Innerhalb von Sekunden folgten Crash-Loops in regionalen Binaries, was bei vielen Services zu 503-Fehlern führte.

‍

Wie wurde der Google Cloud-Incident erkannt und eskaliert?

Die SRE-Teams starteten um 10:53 PDT mit der Analyse. Die Ursache wurde innerhalb von 10 Minuten auf die Policy-Verarbeitung von Service Control eingegrenzt. Um 11:30 PDT wurde ein globaler Mitigation-Switch ausgerollt, der die meisten APIs wiederherstellen konnte.

‍

Wann wurde die Google Cloud-Störung behoben?

us-central1 brauchte wegen vieler Wiederholungsanfragen und Drosselungen länger zur Wiederherstellung. Um 13:49 PDT war der API-Traffic in allen Regionen wieder stabil.

MTTD: ca. 4 Minuten
MTTR: ca. 3 Stunden

‍

Wie hat Google Cloud auf die Störung reagiert?

Das SRE-Team von Google reagierte schnell, nachdem fehlerhafte Nutzeranfragen erkannt wurden. Die Triage begann innerhalb von Minuten, und die Gegenmaßnahmen starteten mit einem internen Override-Mechanismus. Ein Rollback-Plan lag bereit und wurde global umgesetzt. Das Team übernahm während des gesamten Incidents die Verantwortung – regionale Koordination und abgestimmte Wiederherstellungsmaßnahmen sorgten für eine zügige Stabilisierung der Services.

‍

Wer war von der Google Cloud Störung betroffen?

Die Störung betraf zentrale APIs in mehreren Google-Cloud-Regionen. Betroffene Services waren:

‍

Am stärksten betroffen:

Compute Engine, Cloud Storage, BigQuery, IAM: API-Fehler und eingeschränkte Performance.
Cloud Run, Cloud Functions, Vertex AI: Verzögerungen bei Deployments und zeitweise kein Zugriff.
Google Workspace (Gmail, Drive, Meet): Langsamer Zugriff und ausgefallene Hintergrundaufgaben.

‍

Teilausfälle:

Streaming- und IaaS-Services blieben größtenteils online, hatten jedoch Störungen in der Control Plane.
Dashboards und quota-basierte Services konnten nicht geladen oder bereitgestellt werden.
Das Problem betraf Entwickler, Operations-Teams und Unternehmenskunden, die auf quota-basierte APIs und Metadatenreplikation angewiesen sind.

‍

Wie hat Google Cloud während der Störung kommuniziert?

Google veröffentlichte das erste öffentliche Update fast eine Stunde nach Beginn des Incidents, nachdem die internen Monitoring-Systeme stabilisiert waren. Nachdem die Kommunikations-Infrastruktur wiederhergestellt war, wurden Status-Updates auf dem Google Cloud Dashboard veröffentlicht, gefolgt von einer detaillierten Ursachenanalyse am nächsten Tag. Nach der Wiederherstellung war die Kommunikation zwar transparent, aber anfängliche Verzögerungen schränkten den frühzeitigen Nachrichtenfluss ein, insbesondere für Kunden ohne direkten Einblick auf API-Ebene.

‍

Das unterstreicht die Bedeutung von entkoppeltem Monitoring und Kommunikationswegen bei Incidents mit großer Reichweite. Wie das SRE-Playbook von Google hervorhebt, erfordert gute Incident-Kommunikation nicht nur Genauigkeit, sondern auch Timing, Ton und Empathie. Google erfüllte viele dieser Standards, aber frühere Transparenz hätte die Verunsicherung bei indirekt betroffenen Nutzern verringern können.

Welche Muster hat die Google Cloud Störung aufgezeigt?

Der Incident zeigte typische Risiken in großen Cloud-Umgebungen:

Globale Verbreitung ungültiger Konfiguration: Replizierte Metadaten verbreiteten den Fehler systemweit.
Single Point of Failure in Control-Plane-Binaries: Ein System beeinflusste viele APIs.
Crash-Loops ohne Backoff-Logik: Wiederholte Neustarts erschwerten die Wiederherstellung.
Enges Koppeln von Monitoring und Infrastruktur: Sichtbarkeit für Nutzer war verzögert.

Kurzfassung

Am 12. Juni 2025 kam es bei Google Cloud zu einer dreistündigen, globalen Störung durch eine fehlerhafte Policy im Service-Control-System. Der Ausfall beeinträchtigte zentrale APIs und Produkte in Cloud- und Workspace-Services. Google reagierte schnell mit einem globalen Rollback, doch Lücken bei Früherkennung und Monitoring verzögerten die Kommunikation mit den Nutzern. Die Störung verdeutlicht typische Herausforderungen bei Control-Plane-Design, Konfigurationsverteilung und dem Umgang mit Crash-Loops.

‍

Weitere Postmortems finden:

SEV-2

03.09.2025

1Password: Ausfall der Sign-in-Funktion verhindert Logins

1Password-Ausfall am 5.8.2025 verhindert Sign-ins für 1 Std. Alles zu Timeline, Kommunikation & Learnings für Ihre Incident Response

SEV-2

28.07.2025

GitHub: Enterprise Importer-Migrationen für über 5 Stunden unterbrochen

GEI-Migrationen nach einer Infrastrukturänderung für 5h34m unterbrochen. Neue IP-Bereiche erforderlich. Alles über Timeline, Reaktion, Kommunikation und getroffene Maßnahmen.

SEV-1

10.06.2025