Guide Overview
Leitfaden für Käufer von Incident-Management-Plattformen
/
Erfolg messen und kontinuierlich verbessern

Metriken für das Incident-Management

Die wichtigsten Kennzahlen (KPIs)

Um kontinuierliche Verbesserungen zu erreichen, ist es entscheidend, die wichtigsten Metriken zu identifizieren, die Ihr Team überwachen sollte. Diese Metriken variieren je nach Ihren spezifischen Anforderungen und Prioritäten, dennoch gibt es einige branchenweit anerkannte Kennzahlen, die als Benchmark dienen.

Diese lassen sich in vier Kategorien einteilen: operative Performance, Stabilität, On-Call-Metriken und Durchsatz.

Metriken zur operativen Performance

Die operative Performance zeigt, wie effektiv ein Service die Erwartungen der Nutzer erfüllt – also ob er verfügbar ist, wenn er benötigt wird, und ob er seine optimale Leistung erbringt. Die wichtigste Kennzahl zur Messung der operativen Performance ist die Uptime, die den Prozentsatz der Zeit angibt, in der ein System innerhalb eines bestimmten Zeitraums – zum Beispiel eines Monats oder Jahres – funktionsfähig bleibt.

Die folgende Tabelle zeigt gängige Uptime-Ziele und die jeweils zulässige Ausfallzeit pro Jahr und Monat:

Uptime

Zulässige Ausfallzeit pro Jahr

pro Monat

95 %

18.25 Tage

1.5 Tage

99 %

3.65 Tage

7.2 Stunden

99.5 %

1.83 Tage

3.6 Stunden

99.9%

8.76 Stunden

10.1 Minuten

99.99 %

52.6 Minuten

4.23 Minuten

99.999 %

5.26 Minuten

25.9 Sekunden

Andere Metriken sind:

  • Latenz: Die Zeit, die benötigt wird, um eine Anfrage zu verarbeiten oder die Antwortverzögerung – beides sollte minimiert werden, um eine optimale Benutzererfahrung sicherzustellen.
  • Performance: Wird typischerweise anhand von Metriken wie Antwortzeit, Durchsatz und Fehlerraten gemessen, um sicherzustellen, dass das System effizient arbeitet.
  • Skalierbarkeit: Die Fähigkeit des Systems, erhöhte Lasten zu bewältigen, ohne die Leistung oder Nutzererfahrung zu beeinträchtigen.

Stabilitätsmetriken

Stabilität spiegelt die Belastbarkeit des Systems wider und seine Fähigkeit, sich an Änderungen anzupassen, ohne Kettenreaktionen oder Folgefehler auszulösen. Die wichtigsten Metriken, die helfen, Probleme zu identifizieren und das Verhalten des Systems nach der Bereitstellung zu verstehen, sind Change Failure Rate (CFR) und Mean Time to Resolve (MTTR).

  • MTTR misst die durchschnittliche Zeit, die benötigt wird, um einen Incident zu beheben.
  • CFR quantifiziert den Prozentsatz der Änderungen, die zu Fehlern führen, und wird wie folgt gemessen: CFR = Fehlgeschlagene Deployments / Gesamte Deployments

On-Call-Metriken

On-Call-Metriken bewerten die Reaktionsfähigkeit und Effizienz des Incident-Management-Prozesses. Zu diesen Metriken gehören:

  • Mean Time to Acknowledge (MTTA): misst die durchschnittliche Zeit, die benötigt wird, um einen Incident zu bestätigen.
  • Incident Response Time: misst die Dauer vom Zeitpunkt der Meldung eines Incidents bis zu seiner Weiterleitung an das richtige Teammitglied, einschließlich der Zeit für Bestätigung und erste Antwort.
  • On-Call-Zeit: misst die Zeit im Bereitschaftsdienst, um eine ausgewogene Arbeitslast sicherzustellen und Burnout zu verhindern.

Durchsatzmetriken

Durchsatzmetriken ermöglichen es dem Team, die Effizienz des Workflows und der Prozesse innerhalb des Incident-Management-Frameworks zu bewerten. Dies hilft, das Tempo zu verstehen, mit dem Änderungen durch die Pipeline laufen, und wie gut das Team Incidents und Alerts verwaltet.


Die wichtigsten Metriken, die im Auge behalten werden sollten, sind:

  • Change Lead Time: misst die Dauer vom Commit einer Änderung bis zum Live-Gang in Produktion und spiegelt die Effizienz des Deployment-Prozesses wider.
  • Deployment-Frequenz: die Anzahl der Deployments in die Produktion über einen bestimmten Zeitraum.

Weitere wichtige Metriken, die Sie verfolgen sollten, sind die Anzahl der Incidents und Alarme*:

  • Anzahl der Incidents: misst die Zahl der Incidents in einem bestimmten Zeitraum. Diese Metrik kann Trends und Muster sichtbar machen und so ein proaktives Incident-Management ermöglichen.
  • Anzahl der Alarme: misst die Zahl der Alarme in einem bestimmten Zeitraum. Dies hilft, Fehlalarme zu reduzieren und eine Alarmüberlastung zu vermeiden.

* Zum Unterschied zwischen Incidents und Alarmen:

IT-Incidents sind Ereignisse, die zu einer Störung oder Abweichung von den regulären Betriebsstandards eines Computersystems oder Netzwerks führen. IT-Alarme hingegen sind Systembenachrichtigungen an Administratoren, Netzwerkbetreiber, Incident Commander oder On-Call-Teams, dass ein IT-Incident eingetreten ist oder eintreten wird, wenn keine Maßnahmen ergriffen werden.

Zusammenfassung der wichtigsten Metriken:

Incident-Management-Metriken-Pyramide

Sobald berechnet, können die folgenden Benchmarks zur Bewertung der Performance herangezogen werden:

Performance-Level

Change Lead time

Deployment Frequency

Uptime

MTTR

Elite

< 1 Tag

On demand

5%

< 1 Stunde

High

1 Tag - 1 Woche

1 Tag - 1 Woche

20%

< 1 Tag

Medium

1 Woche - 1 Monat

1 Woche - 1 Monat

10%

< 1 Tag

Low

1 Monat - 6 Monate

1 Monat - 6 Monate

40%

Zwischen einem Monat und sechs Monaten

Quelle: DORA Accelerate State of DevOps Report 2024

Die regelmäßige Analyse dieser Metriken liefert Ihrem Team Echtzeitdaten, um wiederkehrende Probleme, Engpässe und Möglichkeiten zur Optimierung des Incident-Response-Prozesses zu identifizieren – und ermöglicht so fundiertere Entscheidungen.


Nachdem Sie die wichtigsten Metriken identifiziert haben, ist es ebenso wichtig, Feedback direkt von Ihrem Team einzuholen, da Feedbackschleifen entscheidend sind, um die kontinuierliche Verbesserung der Systemleistung und betrieblichen Effizienz voranzutreiben.

Sind Sie bereit, Ihr Incident-Management zu verbessern?

Start for free