1Password: Ausfall der Sign-in-Funktion verhindert Logins
Am 5. August 2025 konnten sich 1Password-Kundinnen und -Kunden für etwa eine Stunde nicht anmelden. Diese Übersicht erläutert, was passiert ist, wie der Vorfall öffentlich kommuniziert wurde, und welche Playbook-Updates Sie jetzt übernehmen können, um Ihre primäre User Journey zu schützen.
Unternehmen & Produkt
1Password ist ein plattformübergreifender Passwortmanager für Privatpersonen und Unternehmen. Er speichert Anmeldedaten, Passkeys und Secrets geräte- und browserübergreifend und trägt diese automatisch ein.
Was führte zu der Störung?
Am 5. August 2025 gab es bei 1Password eine Störung, die Nutzer an der Anmeldung hinderte. Sie bekamen Fehlermeldungen wie „Anmeldung nicht möglich. Anfrage hat zu lange gedauert.“ 1Password ergriff Gegenmaßnahmen und konnte das Problem noch am selben Tag beheben. Auf der Incident-Statusseite wurde keine Root Cause veröffentlicht.
Timeline
- Start: Dienstag, 5. August 2025, 16:46 EDT (20:46 UTC / 22:46 CEST).
- Behebung: Dienstag, 5. August 2025, 17:59 EDT (21:59 UTC / 23:59 CEST).
- TTD (Time to Detect): Die öffentliche Statusseite zeigte den Beginn der Störung um 16:46 EDT. Drittanbieter-Monitore deuteten darauf hin, dass erste Nutzerberichte bereits etwa 11 Minuten früher eingingen.
- TTR (Time to Resolve): 1 h 13 min.
Reaktion
Die Triage und Identifizierung begann mit der Bestätigung des Incidents nach einer ersten Untersuchungsphase, gefolgt von Abhilfemaßnahmen. Dabei führte 1Password „Änderungen zur Schadensbegrenzung” ein und leitete den Incident weiter zum Monitoring.
Der Dienst kehrte wieder in den Normalzustand zurück und wurde um 17:59 EDT als behoben erklärt. Zur Wahrung der Kontinuität wurden die Kunden darauf hingewiesen, dass sie offline auf Elemente in der App zugreifen können (sofern dies von den Administratoren zugelassen ist), mit dem Vorbehalt, dass Änderungen erst nach der Wiederherstellung synchronisiert werden – eine Aktualisierung, die auch von IsDown übernommen wurde.
Kommunikation
- Kanäle: Die Kommunikation auf der Statusseite erfolgte gemäß dem Schema Investigation → Identified → Monitoring → Resolved mit klaren, leicht verständlichen Updates und einem praxisnahen Workaround (Offline-Zugriff).
- Zeitlicher Rahmen: Mehrere Updates über das etwa einstündige Zeitfenster, abschließend mit der Mitteilung über die Behebung der Störung.
Wichtigste Erkenntnisse für andere Teams
- Schützen Sie Ihren primären User-Journey (Auth) mit Canary-Checks. Führen Sie synthetische Sign-ins pro Region und Tenants durch; alarmieren Sie bei erhöhter Auth-Latenz und Fehlerspitzen, um den TTD zu verkürzen.
- Entwickeln Sie für Offline-Resilienz. Wenn Ihre Client-Apps sicher Read-only offline arbeiten können, dokumentieren und genehmigen Sie diesen Pfad vorab, damit der Support ihn sofort teilen kann (wie bei 1Password).
- Setzen Sie auf stufenweise Risikominderung hinter Feature Flags. Die Möglichkeit „Eindämmungsänderungen“ schnell auszurollen, impliziert vorab geprüfte Toggles und sicheres Rollback – machen Sie das zum Standard.
- Steuern Sie die Kommunikation. Geben Sie eine kurze Zusammenfassung der Auswirkungen (Ausweitung, Fehlerrate in %, Regionen), bekannte Workarounds und die Zeit bis zum nächsten Update, um Erwartungen zu lenken.
- Erfassen Sie Auth-Abhängigkeiten. Kartieren Sie Third-Party-/Infra-Abhängigkeiten (IdP, Network Edges, DBs). Definieren Sie degradierte Modi (Rate Limits, Circuit Breaker) vorab, um bei Partial Failures stabil zu bleiben.
So kann ilert Sie unterstützen
- Zuverlässige Eskalationsrichtlinien: Mehrstufige Dienstpläne und servicebasiertes Routing sorgen dafür, dass der richtige Ansprechpartner schnell erreicht wird, inklusive automatischer Übergabe, wenn keine Bestätigung erfolgt. Fail-safe-Fallbacks über Voice, SMS, Push und Chat stellen sicher, dass keine Alarmierung verloren geht.
- KI-gestützte Incident-Kommunikation: ilert erstellt in wenigen Sekunden aussagefähige Updates für Statusseiten und Stakeholder-Informationen, die über alle Kanäle einen konsistenten Ton beibehalten.
- Auswertungen für bessere Learnings nach einem Incident: Out-of-the-box Dashboards verfolgen MTTA/MTTR, Alarmierungen und Eskalationseffektivität, damit Sie sehen, was funktioniert und was nicht. Trend- sowie SLO/SLA-Impact-Ansichten priorisieren die wirklich wichtigen Fixes.
