Postmortem-Bibliothek

Optus: Fatale Auswirkungen der Firewall-Aktualisierung auf Notrufe

Überblick über das Unternehmen

Optus ist der zweitgrößte Telekommunikationsanbieter Australiens und ein kritischer Carrier für das Routing von Notrufen über Triple Zero (000). Am 18. September 2025 unterbrach eine Netzwerkänderung bei Optus den speziellen Anrufpfad, der für 000-Anrufe verwendet wird. Normale Telefonanrufe funktionierten größtenteils weiterhin.

So kam es zu der Störung

Während eines routinemäßigen Firewall-Upgrades verhinderte ein technischer Fehler, dass einige 000-Anrufe über das Optus-Netz getätigt werden konnten. Die Auswirkungen betrafen South Australia (SA), Western Australia (WA), das Northern Territory (NT) sowie für einige wenige Anrufe die Grenzregionen zwischen South Australia und New South Wales (NSW), die über SA-Funkmasten geroutet wurden. Optus bestätigte später, dass etwa 600 Notrufe betroffen waren. Behörden und Medien berichteten zunächst von mindestens drei, später von vier Todesfällen im Zusammenhang mit dem Störungszeitraum; gerichtsmedizinische Untersuchungen sollen einen eventuellen Zusammenhang klären.

Timeline

Start: Donnerstag, 18. September 2025, ca. 00:30 Uhr Ortszeit, während eines Firewall-Upgrades.
Erkennung und Eskalation: Erste Tests zeigten Berichten zufolge, dass normale Anrufe verbunden wurden, und Überwachungen des nationalen Anrufvolumens lösten keine Alarmierungen aus. Berichte über fehlgeschlagene Notrufe unter der Nummer 000 führten jedoch dazu, dass das Problem auffälliger wurde; Kunden und Behörden äußerten den ganzen Tag über ihre Besorgnis. Berichten zufolge wurden Hinweise von Kunden und Behörden übersehen. Eskalationsverfahren wurden nicht zeitnah befolgt. In den folgenden Tagen begann eine formale regulatorische Untersuchung.‍
Behebung: Donnerstag, 18. September 2025, ca. 13:30 Uhr Ortszeit. Gesamtfenster ungefähr 13 bis 14 Stunden mit beeinträchtigter 000-Erreichbarkeit.‍
TTD (time to detect): Unklar/unter Untersuchung; öffentlich verfügbare Berichte deuten darauf hin, dass Stunden vergingen, bevor das Ausmaß des Incidents vollständig erkannt und eskaliert wurde.‍
TTR (time to resolve): ca. 13 bis 14 Stunden vom Beginn des Updates bis zur Wiederherstellung.‍
Wer war betroffen: Etwa 600 Notrufe waren beeinträchtigt.

Auswirkungen auf Menschenleben

Während des Störungsfensters wurden mehrere Todesfälle gemeldet, darunter Fälle in SA und WA. Offizielle Stellen und Medien sprachen zunächst von mindestens drei, später vier Todesfällen, wobei gerichtsmedizinische Untersuchungen den Zusammenhang mit den nicht möglichen Notrufen bestätigen sollen. Unabhängig davon zeigt das Ereignis, dass Ausfälle bei Notfalldiensten direkt zum Verlust von Menschenleben führen können – nicht nur zu finanziellen oder Reputationsschäden.

Wie das Unternehmen reagierte

Optus leitete eine interne Untersuchung ein, veröffentlichte öffentliche Updates und führte nach der Wiederherstellung der Dienste Überprüfungen bei Haushalten mit fehlgeschlagenen Notrufen durch, um das Wohlergehen der betroffenen Menschen sicherzustellen. Die Unternehmensführung entschuldigte sich öffentlich und erkannte die Schwere des Fehlers an. Optus erklärte, dass Überwachung und Kontrollen speziell für das Routing von Notrufen verbessert werden. Regulatorische Untersuchungen durch die ACMA laufen.

Kommunikation während der Störung

Die Kommunikation von Optus sowie Benachrichtigungen an Regierungen und Regulierungsbehörden wurden hinsichtlich ihrer Rechtzeitigkeit und Vollständigkeit kritisiert. Die Australian Communications and Media Authority äußerte ernsthafte Bedenken und leitete eine neue Compliance-Untersuchung ein. Regierungsvertreter auf Landes- und Bundesebene verurteilten den Fehler öffentlich und signalisierten die Einführung von zusätzlichen Überwachungsmaßnahmen (z. B. wurden ein Triple-Zero-Custodian mit neuen Befugnissen vorgeschlagen sowie Störungsmeldungen in Echtzeit).

Zentrale Erkenntnisse für andere Organisationen

Lebenswichtige Dienste definieren: Identifizieren Sie Workflows, bei deren Ausfall Menschen zu Schaden kommen können (Gesundheit, Sicherheit, Schutz). Statten Sie diese mit strengeren Change-Kontrollen, unabhängigen Freigaben und einem trainierten, zeitlich begrenzten Rollback aus.
Änderungen mit End-to-End-Tests überprüfen: Führen Sie vor und nach jeder Änderung synthetische Transaktionen auf dem tatsächlichen kritischen Pfad pro Region/Benutzersegment durch. Machen Sie die Bereitstellung von Pass/Fail-„Go/No-Go“-Prüfungen abhängig.
Programmierung nach dem Graceful Degradation-Prinzip: Sehen Sie Fallbacks (alternative Provider, Pfade, Funktionen) vor und prüfen Sie diese kontinuierlich. Jeder Ausfall einer Umleitung soll eine Alarmierung auslösen, nicht nur Totalausfälle.
Wichtiges überwachen – nicht nur Volumina: Erstellen Sie dedizierte SLOs für kritische Pfade (Erfolgsrate, Latenz bis zum Start und Abschluss, Abbruch- und „Ring-no-answer“-Muster).
Früh eskalieren, selbst mit unvollständigen Daten: Definieren Sie SLAs, um interne Führung, Frontline-Teams, Regulierungsbehörden, Partner und betroffene Kunden zu benachrichtigen, sobald ein glaubwürdiger Impact erkannt wird. Verwenden Sie vorab genehmigte Vorlagen und Kontaktlisten.
Menschen während der Störung schützen: Definieren Sie “Welfare-Check” und “At-Risk User”-Workflows: Extrahieren Sie schnell fehlgeschlagene/ abgebrochene Versuche, priorisieren Sie nach Risiko und übergeben Sie über sichere Kanäle an die richtigen Einsatzkräfte.
Abhängigkeiten und einzelne Fehlerquellen abbilden: Halten Sie stets eine aktuelle Service-Map bereit (Infrastruktur, Anbieter, Authentifizierung, DNS, Zahlungen, Messaging). Fügen Sie Circuit Breaker, Bulkheads und Rate Limits hinzu, um Auswirkungen einzudämmen.
Nachvollziehbarkeit instrumentieren: Protokollieren Sie jeden Schritt in kritischen Pfaden mit genügend Details für schnelle Triage und für Compliance-Reviews; bewahren Sie Nachweise, verknüpft mit Change-Tickets und Runbooks, auf.
Post-Incident-Accountability verpflichtend machen: Führen Sie eine blameless Root Cause Analysis mit klaren Verantwortlichen, Fristen und Verifizierung der Fixes durch. Verfolgen Sie regulatorische und vertragliche Verpflichtungen auf Vorstandsebene.
Menschen immer in den Mittelpunkt stellen: Bieten Sie in Statusseiten, IVRs und Apps praktische Alternativen (Backup-Kanäle, Notfallkontakte, Offline-Anleitungen) und aktualisieren Sie häufig – Klarheit und Empathie reduzieren Schaden.

Zusammenfassung

Am 18. September 2025 störte ein Firewall-Upgrade-Fehler bei Optus den Notruf-Anrufpfad für Triple Zero (000) und blockierte über ca. 13 bis 14 Stunden hinweg in mehreren Regionen Australiens rund 600 Anrufe. Während des Störungsfensters wurden mehrere Todesfälle gemeldet; die Untersuchungen hierzu laufen noch. Der Fehler beruhte auf einem technischen Defekt speziell im Pfad für das Notruf-Routing, der sich vom normalen Sprachdienst unterscheidet. Das Monitoring erfasste das Problem nicht früh genug, um eine schnelle Eindämmung zu ermöglichen. Optus entschuldigte sich, leitete “Welfare”-Checks ein und kooperierte mit den Untersuchungen, während Regierungen stärkere Aufsicht signalisierten. Dies war nicht nur ein kostspieliger operativer Zusammenbruch, sondern auch eine menschliche Tragödie.

Weitere Postmortems finden:

SEV-1

28.08.2025

PagerDuty: Verzögerte Benachrichtigungen an Kunden

Ein Logging-Bug löste Millionen von Kafka-Producer-Verbindungen pro Stunde aus, überlastete das PagerDuty-Cluster und verursachte API-Fehler, verzögerte Benachrichtigungen und ein langsameres Incident Handling, insbesondere in US-Regionen.

SEV-1

20.10.2025

AWS: Störung bei US-EAST-1 Load Balancern löst Ausfälle im gesamten Internet aus

Ein schwerwiegender Vorfall in der Region US-EAST-1 bei AWS führte am 20.–21. Oktober zu einer weltweiten Störung, die Tausende von Apps und Websites aus den Bereichen Soziale Medien, Finanzen, Gaming, Regierung, Einzelhandel und mehr beeinträchtigte oder außer Betrieb setzte.

SEV-2

03.09.2025