Postmortem-Bibliothek

1Password: Ausfall der Sign-in-Funktion verhindert Logins

Am 5. August 2025 konnten sich 1Password-Kundinnen und -Kunden für etwa eine Stunde nicht anmelden. Diese Übersicht erläutert, was passiert ist, wie der Vorfall öffentlich kommuniziert wurde, und welche Playbook-Updates Sie jetzt übernehmen können, um Ihre primäre User Journey zu schützen.

Link zur Quelle

Unternehmen & Produkt

1Password ist ein plattformübergreifender Passwortmanager für Privatpersonen und Unternehmen. Er speichert Anmeldedaten, Passkeys und Secrets geräte- und browserübergreifend und trägt diese automatisch ein.

Was führte zu der Störung?

Am 5. August 2025 gab es bei 1Password eine Störung, die Nutzer an der Anmeldung hinderte. Sie bekamen Fehlermeldungen wie „Anmeldung nicht möglich. Anfrage hat zu lange gedauert.“ 1Password ergriff Gegenmaßnahmen und konnte das Problem noch am selben Tag beheben. Auf der Incident-Statusseite wurde keine Root Cause veröffentlicht.

Timeline

Start: Dienstag, 5. August 2025, 16:46 EDT (20:46 UTC / 22:46 CEST).
Behebung: Dienstag, 5. August 2025, 17:59 EDT (21:59 UTC / 23:59 CEST).
TTD (Time to Detect): Die öffentliche Statusseite zeigte den Beginn der Störung um 16:46 EDT. Drittanbieter-Monitore deuteten darauf hin, dass erste Nutzerberichte bereits etwa 11 Minuten früher eingingen.
TTR (Time to Resolve): 1 h 13 min.

Reaktion

Die Triage und Identifizierung begann mit der Bestätigung des Incidents nach einer ersten Untersuchungsphase, gefolgt von Abhilfemaßnahmen. Dabei führte 1Password „Änderungen zur Schadensbegrenzung” ein und leitete den Incident weiter zum Monitoring.

‍

Der Dienst kehrte wieder in den Normalzustand zurück und wurde um 17:59 EDT als behoben erklärt. Zur Wahrung der Kontinuität wurden die Kunden darauf hingewiesen, dass sie offline auf Elemente in der App zugreifen können (sofern dies von den Administratoren zugelassen ist), mit dem Vorbehalt, dass Änderungen erst nach der Wiederherstellung synchronisiert werden – eine Aktualisierung, die auch von IsDown übernommen wurde.

Kommunikation

Kanäle: Die Kommunikation auf der Statusseite erfolgte gemäß dem Schema Investigation → Identified → Monitoring → Resolved mit klaren, leicht verständlichen Updates und einem praxisnahen Workaround (Offline-Zugriff).
Zeitlicher Rahmen: Mehrere Updates über das etwa einstündige Zeitfenster, abschließend mit der Mitteilung über die Behebung der Störung.

Wichtigste Erkenntnisse für andere Teams

Schützen Sie Ihren primären User-Journey (Auth) mit Canary-Checks. Führen Sie synthetische Sign-ins pro Region und Tenants durch; alarmieren Sie bei erhöhter Auth-Latenz und Fehlerspitzen, um den TTD zu verkürzen.
Entwickeln Sie für Offline-Resilienz. Wenn Ihre Client-Apps sicher Read-only offline arbeiten können, dokumentieren und genehmigen Sie diesen Pfad vorab, damit der Support ihn sofort teilen kann (wie bei 1Password).
Setzen Sie auf stufenweise Risikominderung hinter Feature Flags. Die Möglichkeit „Eindämmungsänderungen“ schnell auszurollen, impliziert vorab geprüfte Toggles und sicheres Rollback – machen Sie das zum Standard.
Steuern Sie die Kommunikation. Geben Sie eine kurze Zusammenfassung der Auswirkungen (Ausweitung, Fehlerrate in %, Regionen), bekannte Workarounds und die Zeit bis zum nächsten Update, um Erwartungen zu lenken.
Erfassen Sie Auth-Abhängigkeiten. Kartieren Sie Third-Party-/Infra-Abhängigkeiten (IdP, Network Edges, DBs). Definieren Sie degradierte Modi (Rate Limits, Circuit Breaker) vorab, um bei Partial Failures stabil zu bleiben.

So kann ilert Sie unterstützen

Zuverlässige Eskalationsrichtlinien: Mehrstufige Dienstpläne und servicebasiertes Routing sorgen dafür, dass der richtige Ansprechpartner schnell erreicht wird, inklusive automatischer Übergabe, wenn keine Bestätigung erfolgt. Fail-safe-Fallbacks über Voice, SMS, Push und Chat stellen sicher, dass keine Alarmierung verloren geht.
KI-gestützte Incident-Kommunikation: ilert erstellt in wenigen Sekunden aussagefähige Updates für Statusseiten und Stakeholder-Informationen, die über alle Kanäle einen konsistenten Ton beibehalten.
Auswertungen für bessere Learnings nach einem Incident: Out-of-the-box Dashboards verfolgen MTTA/MTTR, Alarmierungen und Eskalationseffektivität, damit Sie sehen, was funktioniert und was nicht. Trend- sowie SLO/SLA-Impact-Ansichten priorisieren die wirklich wichtigen Fixes.

‍

Weitere Postmortems finden:

SEV-1

08.01.2026

Wie die „Ni8mare“-Lücke 100.000 Server für eine vollständige Übernahme öffnete

Anfang 2026 veröffentlichte n8n eine kritische Sicherheitslücke, die als CVE-2026-21858 geführt und mit dem Spitznamen „Ni8mare“ versehen wurde. Die Schwachstelle erlaubte es nicht authentifizierten Angreifern, Remote Code Execution (RCE) auf selbstgehosteten Instanzen auszuführen. Durch Ausnutzen eines „Content-Type Confusion“-Bugs bei der Verarbeitung von Webhooks und Formularübermittlungen konnten Angreifer die Authentifizierung umgehen, sensible Serverdateien lesen und letztlich die vollständige Kontrolle über das Host-System erlange

SEV-1

09.01.2026

Intercom: Leere Database Routing Map verursacht vollständigen US-Serviceausfall

In diesem Artikel untersuchen wir den Ausfall im Januar 2026, bei dem ein Fehler im Datenbank-Routing zu einem totalen Blackout führte. Wir analysieren, wie ein Logikfehler in einer Sharded-Datenbank-Schicht eine gesamte Anwendung von ihren Daten isolieren kann.

SEV-1

26.11.2025

PostHog: npm-Installationen ermöglichten für fünf Stunden die verdeckte Exfiltration von Secrets

Kompromittierte PostHog-npm-Releases exfiltrierten kurzzeitig Entwickler-Secrets. Wer betroffen war, wie es behoben wurde und Maßnahmen zum Schutz Ihrer CI/CD.

Bereit, dein Incident-Management zu verbessern?

Starte kostenlos

1Password: Ausfall der Sign-in-Funktion verhindert Logins

Unternehmen & Produkt

Was führte zu der Störung?

Timeline

Reaktion

Kommunikation

Wichtigste Erkenntnisse für andere Teams

So kann ilert Sie unterstützen

‍

Wie die „Ni8mare“-Lücke 100.000 Server für eine vollständige Übernahme öffnete

Intercom: Leere Database Routing Map verursacht vollständigen US-Serviceausfall

PostHog: npm-Installationen ermöglichten für fünf Stunden die verdeckte Exfiltration von Secrets

Die Lösung für Betriebsteams.