Glossary

Der Unterschied zwischen MTTA und MTTR erklärt

MTTA (Mean Time to Acknowledge) gibt an, wie schnell ein Incident nach Auslösung bestätigt wird. MTTR (Mean Time to Resolve) ist die Zeit bis zur vollständigen Behebung eines Incidents. Beide Kennzahlen sind wichtige Metriken im Incident-Management – sie dienen dazu, Ausfallzeiten zu reduzieren und SLAs zu verbessern.

Was ist MTTA?

MTTA, oder Mean Time to Acknowledge, bezeichnet die durchschnittliche Zeit zwischen dem Auslösen einer Alarmierung und deren Bestätigung durch eine Person. Diese Kennzahl betrifft die Reaktionsgeschwindigkeit der Bereitschafts- oder Support-Teams. Ein niedriger MTTA-Wert bedeutet:

  • Alarmierungen werden schnell bemerkt und priorisiert.
  • Ihre Bereitschaftsdienste arbeiten effizient.
  • Eskalationsrichtlinien sind korrekt konfiguriert.

Was ist MTTR?

MTTR, oder Mean Time to Resolve, misst die durchschnittliche Zeitspanne zwischen dem Erkennen eines Incidents und seiner vollständigen Behebung. Dazu zählen die Zeit für die Ursachenanalyse, die Behebung der Ursache und die Verifizierung der Lösung. Ein niedriger MTTR-Wert bedeutet:

  • Probleme werden effizient erkannt und gelöst.
  • Ihre Tools und Kollaborationsprozesse sind wirksam.
  • Weniger Serviceunterbrechungen für Ihre Kunden.

Wie berechnet man MTTA und MTTR?

Beide Kennzahlen werden als zeitbasierte Durchschnittswerte berechnet:

  • MTTA = (Gesamte Zeit zwischen Auslösung einer Alarmierung und ihrer Bestätigung) / (Anzahl bestätigter Incidents)
  • MTTR = (Gesamte Zeit zwischen Erkennung eines Incidents und Behebung) / (Anzahl behobener Incidents)

Für eine genaue Berechnung sollten Incidents in jeder Phase (ausgelöst, bestätigt, behoben) mit Zeitstempeln versehen und konsistent in einer Incident-Management-Plattform wie ilert nachverfolgt werden.

Beispiel (MTTA):

  • Incident 1: Alarmierung ausgelöst um 14:00 h, bestätigt um 14:02 h → 2 Minuten
  • Incident 2: Alarmierung ausgelöst um 15:00 h, bestätigt um 15:03 h → 3 Minuten
  • MTTA = (2 + 3) / 2 = 2,5 Minuten

Beispiel (MTTR):

  • Incident 1: Erkannt um 09:00 h, behoben um 09:45 h → 45 Minuten
  • Incident 2: Erkannt um 11:00 h, behoben um 12:00 h → 60 Minuten
  • MTTR = (45 + 60) / 2 = 52,5 Minuten

Praxisbeispiele für MTTA & MTTR

Im Folgenden finden Sie Beispiele für größere Ausfälle mit dokumentierten MTTA- und MTTR-Werten:

  • Slack-Ausfall (Mai 2025): Während der Störung beim Datenbank-Routing wurde die erste Alarmierung in unter 2 Minuten bestätigt (TTA), die vollständige Behebung dauerte jedoch fast 3 Stunden (TTR).
  • Cloudflare Third-Party-Storage-Ausfall (Juni 2025): Das Monitoring löste bei erhöhten Fehlerraten eine Alarmierung aus, die in 3 Minuten bestätigt wurde (TTA). Aufgrund von Storage-Failover-Komplexität dauerte die vollständige Lösung ca. 45 Minuten (TTR).
  • Microsoft 365 Admin Center-Ausfall (April 2025): Die Alarmierung wurde in 4 Minuten bestätigt (TTA), die Wiederherstellung aller Dienste dauerte ca. 4 Stunden (TTR).

Warum sind MTTA und MTTR wichtig?

Beide Kennzahlen sind zentrale KPIs für SRE und DevOps. Sie helfen Unternehmen

  • ihre Incident-Response-Performance zu messen und zu verbessern,
  • Engpässe bei Alarmierung und Problemlösung zu erkennen
  • und SLA-Compliance über Teams und Zeiträume hinweg zu überwachen.

Die Nachverfolgung dieser Metriken deckt auch versteckte Schwächen im Incident-Management auf, z. B. langsame Bestätigungen oder unklare Zuständigkeiten. Eine regelmäßige Messung dieser Kennzahlen gibt Führungskräften einen besseren Überblick über die Reaktionsfähigkeit ihrer Teams und die Resilienz des gesamten Systems.

Weitere Details finden Sie in unserem Leitfaden zu Kennzahlen im Incident-Management.

Eine Analyse von Performance-Clustern im State of DevOps Report 2024 zeigt, dass Unternehmen, die als “Elite” eingestuft wurden, sowohl höchste Geschwindigkeit als auch Stabilität erreichen – schnelle Wiederherstellungszeiten (MTTR) gehen meist mit kurzen Umsetzungszeiten einher. Die Korrelation unterstreicht, warum MTTA und MTTR gemeinsam betrachtet werden sollten, um operative Exzellenz zu erkennen.

Bildquelle: State of DevOps Report 2024

Wie ilert hilft, MTTR und MTTA zu senken

So unterstützt ilert Unternehmen bei der Senkung der beiden Werte:

  • Automatisierte Alarmierung: ilert leitet Alarmierungen sofort über Eskalationsregeln an die richtigen Bereitschaftsteams weiter.
  • Schnelle Bestätigungskanäle: Die ilert-App, E-Mail, Telefon und Chat-Integrationen (z. B. Slack, Microsoft Teams) ermöglichen eine schnelle Bestätigung von Alarmierungen.
  • Kontextreiche Benachrichtigungen: Alarmierungen enthalten detaillierte Informationen aus Monitoring-Tools und der ilert Responder hilft bei der Ursachenanalyse.

Häufig gestellte Fragen

Q: Was ist der Unterschied zwischen MTTA und MTTR?

MTTA misst, wie schnell Incidents im Durchschnitt bestätigt werden, während MTTR misst, wie lange es dauert, Störungen vollständig zu beheben. MTTA steht für Reaktionsgeschwindigkeit, MTTR für Effizienz bei der Problemlösung.

Q: Wie oft sollte man MTTA und MTTR erfassen?

Erfassen Sie beide Metriken kontinuierlich – idealerweise in Echtzeit über eine Incident-Management-Plattform – und prüfen Sie sie mindestens monatlich, um Trends und Verbesserungsbedarf zu erkennen.

Q: Bezieht MTTR auch geplante Wartungen ein oder nur ungeplante Incidents?

MTTR misst in der Regel die Zeit zur Behebung ungeplanter Incidents. Geplante Wartungsfenster sind ausgeschlossen; hierfür werden separate Wartungsmetriken verwendet.

Q: Wie werden Anomalien in MTTA/MTTR-Werten behandelt?

Große Ausfälle oder gescheiterte Upgrades können zu einer Verzerrung der Durchschnittswerte führen. Die Verwendung von Medianwerten oder prozentilbasierten Messgrößen (z. B. 95. Perzentil MTTR) liefert zuverlässige Erkenntnisse.

Letzte Beiträge