Glossary

Was bedeutet Downtime (Ausfallzeit)?

‍

Downtime ist die Zeit, in der ein IT-System, ein Dienst oder eine Anwendung nicht verfügbar oder so langsam bzw. beeinträchtigt ist, dass Nutzer ihre Aufgaben nicht wie beabsichtigt erledigen können. Downtime kann geplant sein (z. B. ein geplantes Wartungsfenster) oder ungeplant (Hardwareausfall, Softwarefehler, Cyberangriff, menschlicher Fehler).

‍

Zu viel Downtime kann Umsatz, Kundenvertrauen und SLA-Compliance beeinträchtigen.

Warum Downtime wichtig ist

Downtime ist mehr als nur eine technische Störung – sie wirkt sich direkt auf Umsatz, Reputation und regulatorische Vorgaben aus. Aktuelle Analysen beziffern die durchschnittlichen Kosten der Downtime für Unternehmen auf etwa 9.000 US-Dollar pro Minute. Die tatsächlichen Folgen reichen jedoch weit über diese Zahl hinaus:

Kundenvertrauen: Wiederholte Ausfälle erhöhen die Kündigungsrate um bis zu 12 %, da Nutzer zu zuverlässigeren Anbietern wechseln.
SLA-Strafen und Rückzahlungen: Bei einer angestrebten Uptime von 99,9 % sind nur 43,8 Minuten Downtime pro Monat erlaubt; Überschreitungen können vertraglich vereinbarte Rückzahlungen und Audits auslösen.
Produktivitätsverlust für Entwickler: Nachbearbeitung, Kontextwechsel und verpflichtende Nachbesprechungen können bis zu 20 % der Kapazität binden.
Regulatorische und rechtliche Risiken: Branchen wie Fintech und Gesundheitswesen riskieren Bußgelder oder Compliance-Verstöße, wenn Uptime-SLAs nicht eingehalten werden.

Fazit: Je schneller Sie Incidents erkennen, analysieren und beheben, desto besser schützen Sie Ihren Umsatz und Ihre Reputation. Eine robuste Architektur, proaktives Monitoring und effektives Incident-Management sind daher unverzichtbar.

Arten von Downtime

Geplante Downtime

‍

Geplante Downtime bezeichnet Serviceunterbrechungen, die gezielt für Upgrades, Migrationen oder präventive Wartung vorgesehen sind. Sie wird meist im Voraus angekündigt und außerhalb der Spitzenzeiten durchgeführt.

‍

Beispiele für geplante Downtime:

Fortnite v36.30 geplantes Wartungsfenster (29. Juli 2025) – Epic Games nahm die Server für ca. 2,5 Stunden offline, um ein großes Update auszurollen.
AWS RDS Wartungsfenster (8. Mai 2025) – Bestimmte Datenbankinstanzen in EU-central-1 waren 30 Minuten lang im Read-Only-Modus, um ein Engine-Patch einzuspielen.

Ungeplante Downtime

‍

Ungeplante Downtime ist jeder unerwartete Ausfall, verursacht durch Hardwaredefekte, Softwarefehler, Konfigurationsfehler, Cyberangriffe oder externe Faktoren.

Google Cloud Quota-Policy-Ausfall (12. Juni 2025) – Eine fehlerhafte Änderung der Quoten-Richtlinie führte zu Ausfällen bei Compute Engine, Cloud SQL und weiteren Diensten über mehrere Regionen für über eine Stunde.
Slack Datenbank-Routing-Ausfall (12. Mai 2025) – Eine Routing-Fehlkonfiguration verhinderte weltweit Logins, Nachrichtenversand und Datei-Uploads für etwa drei Stunden.

Tipp: In der ilert Postmortem-Bibliothek finden Sie ausführliche Root-Cause-Analysen echter Incidents.

‍

Downtime und Service Level Agreements (SLAs)

‍

Downtime wird häufig im Zusammenhang mit Service Level Agreements (SLAs) erwähnt. SLAs sind Verträge zwischen Dienstanbietern und Kunden, die das erwartete Serviceniveau festlegen – etwa wie häufig ein Dienst verfügbar sein muss. SLAs setzen klare Ziele, z. B. 99,9 % Uptime, und beschreiben, was passiert, wenn diese Ziele nicht erreicht werden (Rückerstattungen oder Servicegutschriften). Anbieter müssen Downtime minimieren, um SLA-Ziele zu erreichen und Strafen zu vermeiden.

‍

Die Kosten von Downtime

‍

Die finanziellen Auswirkungen von Downtime variieren je nach Unternehmensgröße, Branche und Kritikalität der Systeme – im Schnitt jedoch sind sie erschreckend hoch: Laut Forbes Tech Council kostet Downtime Unternehmen rund 9.000 US-Dollar pro Minute.

Aber die Kosten gehen über den direkten Umsatzverlust hinaus:

Produktivitätsverlust: Teams unterbrechen Projekte, um Incidents zu bearbeiten, was die Liefergeschwindigkeit hemmt.
Verlorene Transaktionen: E-Commerce-Systeme oder SaaS-Plattformen können Verkäufe nicht realisieren, Anmeldungen scheitern oder Warenkörbe werden abgebrochen.
Compliance-Strafen: SLAs, behördliche Auflagen oder Audits können bei Verfügbarkeitsproblemen zu Bußgeldern führen.
Imageschaden: Downtime führt zu negativer Presse, Kritik in den sozialen Medien und langfristigem Kundenverlust.

Selbst kurzzeitige Ausfälle können sich auf Quartalsziele auswirken, besonders bei kundenorientierten Diensten.

‍

Strategien zur Minimierung von Downtime

‍

Es gibt keine einfache Antwort auf die Frage, wie sich Downtime reduzieren lässt. Um 99,99 % Uptime zu erreichen, setzen Unternehmen auf verschiedene Strategien. Beispiele:

Regelmäßige Wartung: Führen Sie Systemchecks und Updates durch, um Probleme frühzeitig zu erkennen und zu beheben.
Redundanz und Failover: Setzen Sie Backup-Systeme ein, die beim Ausfall des Hauptsystems einspringen und so den Betrieb sichern.
Mitarbeiterschulungen: Schulen Sie Teams zu Best Practices, um menschliche Fehler als Ausfallursache zu minimieren.
Robuste Cybersicherheit: Verwenden Sie moderne Sicherheitslösungen, um Angriffe zu verhindern, die Downtime verursachen könnten.

Incident-Management-Plattformen: Plattformen wie ilert ermöglichen es Unternehmen, Incidents schneller zu erkennen, zu eskalieren und zu lösen. Sie automatisieren Alarmierung und Bereitschaft, stellen sicher, dass kritische Themen direkt an das zuständige Team gehen, und bieten Echtzeit-Zusammenarbeit sowie Postmortem-Analysen, um zukünftige Ausfälle zu minimieren.

‍

Industriestandards und Uptime-Messung

‍

Standard uptime goals — Source: DORA Accelerate State of DevOps report 2024

Häufig gestellte Fragen

Was ist Downtime im IT-Kontext?
Downtime bezeichnet jede Zeit, in der Systeme, Netzwerke oder Anwendungen nicht verfügbar sind oder nicht wie vorgesehen funktionieren. Ursachen können geplante Wartungen oder ungeplante Störungen sein.

Was verursacht ungeplante Downtime?
Ungeplante Downtime entsteht meist durch Hardwaredefekte, Softwarefehler, menschliche Fehler, Konfigurationsänderungen, Cyberangriffe oder Cloud-Ausfälle.

Wie wird Downtime gemessen?
Downtime wird als die gesamte Zeitspanne gemessen, in der ein System innerhalb eines definierten Zeitraums (meist monatlich oder jährlich) nicht verfügbar ist. Üblich ist die Angabe als prozentualer Uptime-Wert (z. B. 99,9 %).

Welche Risiken birgt Downtime?
Längere Downtime kann zu Umsatzverlusten, SLA-Verstößen, Imageschäden, Kundenabwanderung und in regulierten Branchen zu Bußgeldern führen.

Wie können Unternehmen Downtime minimieren?
Durch Investitionen in Observability, Incident-Management-Tools, Failover-Systeme, regelmäßige Wartung und die Vorbereitung von Teams durch Schulungen und Postmortems lassen sich Häufigkeit und Auswirkungen von Downtime senken.