Slack Ausfall Mai 2025: Datenbank Routing Problem verursachte Ausfallzeit
Slack hatte einen weltweiten Serviceausfall durch eine fehlerhafte Datenbank-Routing-Konfiguration, die Nutzer:innen weltweit betroffen hat. Sieh dir eine detaillierte Analyse an: Was ist schiefgelaufen? Was waren die Ursachen? Wie hat Slack reagiert und welche Maßnahmen zur Wiederherstellung wurden ergriffen? Erfahre die wichtigsten Learnings zur Verbesserung von Zuverlässigkeit und Resilienz
Das Unternehmen
Slack ist eine cloudbasierte Kollaborationsplattform, die von Teams und Unternehmen für Echtzeit-Messaging, Dateifreigabe und Workflow-Automatisierung genutzt wird. Zu den Kernfunktionen gehören Channels, Direktnachrichten, Integrationen sowie Enterprise-Features wie SSO und Compliance-Funktionen.
Was passierte bei der Slack-Störung am 12. Mai 2025?
Slack einen weitreichenden Ausfall, der 1 Stunde und 58 Minuten dauerte. Die Störung betraf weltweit eine Vielzahl von Nutzern, die keine Nachrichten senden, Channels laden oder zentrale Funktionen wie Threads, Canvases und Aktivitätsprotokolle nutzen konnten.
Die Ursache der Störung war ein Ausfall in der Kommunikation zwischen der Slack-Webanwendung und dem Datenbank-Routing-Layer. Durch das schnelle Infrastrukturwachstum waren statische Konfigurationen nicht mehr ausreichend, sodass Routing-Updates den Web-Layer nicht erreichten. In der Folge konnten Clients keine aktuellen Gateway-Daten abrufen, was zu erhöhten Fehlerraten und eingeschränkter Funktionalität auf der gesamten Plattform führte.
Zeitstrahl
Wann begann der Slack-Incident?
Der Incident begann am 12. Mai 2025 um 15:00 PDT, als Slack erhöhte Fehlerraten verzeichnete. Das interne Monitoring stellte einen Anstieg fehlgeschlagener Nachrichten, defekter Threads und Fehler beim Laden von Channels fest.
Wie wurde der Slack-Incident erkannt und eskaliert?
Die Engineering-Teams von Slack wurden alarmiert, als die Echtzeitkommunikation in Web- und Desktop-Clients ausfiel. Erste Updates wurden auf der Slack-Statusseite veröffentlicht, während Umfang und Ursache noch untersucht wurden.
Wann wurde die Slack-Störung behoben?
Bis 16:00 PDT identifizierten die Techniker den fehlerhaften Datenbank-Routing-Layer als Ursache. Infrastruktur-Anpassungen wurden ausgerollt, um der Webanwendung wieder den Zugriff auf die Datenbank-Gateways zu ermöglichen.
Ab 16:58 PDT erhielten Nutzer wieder Zugriff auf Slack-Funktionen. Backend-Queues wurden geleert, und die Performance stabilisierte sich kurz danach.
Die vollständige Behebung der Störung wurde am 13. Mai um 14:52 Uhr (GMT+2) bestätigt.
MTTD: ca. 10 Minuten
MTTR: ca. 1 Stunde 58 Minuten

Wer war von der Slack-Störung betroffen und wie schwerwiegend war sie?
Der Slack-Ausfall am 12. Mai betraf einen großen Teil der weltweiten Nutzer in allen Regionen, mit unterschiedlich starker Service-Beeinträchtigung.
Betroffene Funktionen:
- Messaging
- Zugriff auf Channels und Threads
- Slack-Aktivitätsprotokolle
- Slack Canvas
- App-Starts und Integrationen
Wie hat Slack während der Störung kommuniziert?
Das Engineering-Team von Slack veröffentlichte während des gesamten Incidents regelmäßige Updates, beginnend kurz nach den ersten Anzeichen der Störung. Die Kommunikation war klar und thematisierte die Auswirkungen auf zentrale Funktionen; Fortschritte bei der Problemlösung wurden transparent mitgeteilt. Die Update-Frequenz war zwar konstant, jedoch fehlten anfangs Details zum genauen Umfang und zu betroffenen Nutzergruppen, und die Zeitpläne für die Wiederherstellung wurden nicht immer eindeutig kommuniziert.
Welche Muster hat die Slack-Störung offengelegt?
Die Störung zeigte wiederkehrende Risiken bei skalierter Infrastruktur:
- Überschreitung von Konfigurationsgrenzen durch Infrastrukturwachstum
- Fehlende Feedback-Loops zwischen Routing und Web-Clients
- Eingeschränkte Transparenz hinsichtlich des Zustands der internen Service Discovery
Kurzfassung
Am 12. Mai 2025 gab es bei Slack einen fast zweistündigen, globalen Ausfall durch einen fehlerhaften Datenbank-Routing-Layer. Messaging, Channels und App-Funktionen fielen für einen großen Teil der Nutzer aus. Slack reagierte schnell mit Infrastruktur-Fixes und konsistenter Kommunikation. Der Ausfall hat Risiken im Zusammenhang mit stillen Konfigurationsbeschränkungen, Sichtbarkeitslücken und dem Zustand der Routing-Layer aufgezeigt.