Guide Overview
Incident-Management für MSPs
Incident-Management für MSPs
/
Herausforderungen

Die Incident-Management-Strategie für MSPs

Durch die Investition in eine durchdachte Incident-Management-Strategie können MSPs eine höhere Serviceverfügbarkeit, kürzere Lösungszeiten und eine höhere Kundenzufriedenheit sicherstellen. Außerdem positionieren sie sich so als zuverlässige Partner, die in der Lage sind, komplexe IT-Umgebungen effizient zu verwalten. 

Unser Tipp: Unterteilen Sie Ihre Incident-Management-Strategie in die Phasen “vor”, “während” und “nach” der Störung. So können Sie besser verstehen, wo Ihre Schwachstellen liegen und welche Tools Ihnen noch fehlen, um bessere Ergebnisse zu erzielen. 

Stufe 1: Die Grundlagen für Resilienz schaffen

Leistungsfähiges Incident-Management beginnt lange vor dem Auftreten eines Problems. MSPs müssen klare Prozesse festlegen und sicherstellen, dass ihre Teams mit den richtigen Tools und dem richtigen Wissen ausgestattet sind. Zur Vorbereitung gehören auch die Einrichtung von Überwachungssystemen, die Definition von Service Level Agreements (SLAs) und die Erstellung von Runbooks für bekannte Probleme. Die folgende Checkliste hilft Ihnen bei der Bewertung Ihres aktuellen Zustands.

Überwachung einrichten

  • Implementieren Sie eine proaktive Überwachung für Server, Netzwerke, Anwendungen, Datenbanken und Cloud-Umgebungen. Ziehen Sie etablierte Lösungen in Betracht, die sich im MSP-Bereich bewährt haben, wie N-able N-central, ConnectWise, Paessler PRTG Network Monitor, Zabbix, usw.
  • Richten Sie Alarmierungsschwellenwerte für kritische Systeme und Kundenumgebungen ein.
  • Deployment von synthetischen Überwachungsfunktionen für die wichtigsten Nutzerabläufe (optional, aber empfohlen): Auch hier sollten Sie Tools wählen, die gut auf die Bedürfnisse von MSPs zugeschnitten sind, zum Beispiel Pingdom, Datadog, Site24x7.
  • Integrieren Sie Monitoring-Tools mit Plattformen zur Reaktion auf Störungen, die für mandantenfähige Umgebungen geeignet sind, zum Beispiel ilert.

Service Level Agreements (SLAs)

  • Definieren Sie SLAs für verschiedene Servicekategorien (zum Beispiel Reaktionszeit, Lösungszeit).
  • Dokumentieren Sie SLAs eindeutig und stellen Sie sicher, dass die Kunden die Vereinbarungen unterzeichnet haben.
  • Verknüpfen Sie SLAs mit Überwachungs- und Warnsystemen (automatische Kennzeichnung von SLA-Verletzungen).

Runbooks und Wissensdatenbank

  • Erstellen Sie Runbooks für alle bekannten und wiederkehrenden Störungen (zum Beispiel „Festplatte voll“, „Serverausfall“, „VPN-Verbindungsprobleme“).
  • Standardisieren Sie das Format der Runbooks und geben Sie Erkennungsschritte, Eskalationskontakte und Wiederherstellungsverfahren an.
  • Pflegen Sie eine leicht zugängliche und aktuelle Wissensdatenbank zur Fehlerbehebung und stellen Sie sicher, dass alle Teammitglieder Zugriff auf die Runbooks haben.

Stufe 2: Schnelle Erkennung und erste Maßnahmen 

Wenn eine Störung auftritt, ist eine rechtzeitige und effektive Reaktion entscheidend. Dazu gehören die Erkennung, Klassifizierung und Eskalation von Incidents. MSPs benötigen einen standardisierten Prozess für die Erfassung von Störungen, die Zuweisung an die richtigen Teams und die Einleitung von Wiederherstellungsmaßnahmen. Automatisierung und Alarmierungssysteme verkürzen die Reaktionszeiten und verhindern eine Verschärfung der Situation.

Einrichtung von Alarmierungen

  • Definieren Sie klare, umsetzbare Schwellenwerte für Alarmierungen sowohl in Ihren Monitoring-Tools als auch auf Ihrer Incident-Management-Plattform.
  • Ordnen Sie jedem Schwellenwert eine bestimmte Reaktion zu, damit jede Alarmierung eine konkrete Aktion erfordert – andernfalls unterdrücken Sie ihn oder stufen ihn herab. Verwenden Sie Priorisierungen, intelligente Gruppierungen und zeitbasierte Unterdrückungsfenster, um die wirklich kritischen Signale zu erkennen und Ihre Teams vor Alarmüberflutung zu schützen.
  • Definieren Sie Workflows für Eskalationen auf der Grundlage von Reaktionszeiten und Schweregrad.
  • Stellen Sie Ihrem Team verschiedene Alarmierungsoptionen zur Verfügung, damit es über die gängigsten Kanäle benachrichtigt werden kann. Lösungen wie ilert können Techniker über SMS, Telefonanruf, Push-Benachrichtigung in der App, Messenger usw. benachrichtigen.
  • Bieten Sie eine 24×7-Kundenhotline für die manuelle Meldung von Störungen und die sofortige Erstellung von Alarmierungen an.
  • Verwenden Sie eine spezielle Telefonnummer, die direkt in Ihre Incident-Management-Plattform integriert ist, automatisch die Details des Anrufers protokolliert und die passende Eskalationsrichtlinie auslöst. Statten Sie Ihre Mitarbeiter mit einem schnellen „5-W“-Skript (wer, was, wann, wo, warum) aus, um den vollständigen Kontext zu erfassen, und richten Sie eine Ausfallsicherung von der Voicemail zum Ticket sowie Zweitnummern ein, um sicherzustellen, dass kein Anruf oder Kunde während eines Ausfalls verloren geht.

Hotlines für MSPs

Manche Störungen können nur von Menschen entdeckt und gemeldet werden. Dies gilt umso mehr für Umgebungen, in denen Techniker nur Fernzugriff haben. Hotlines, auch bekannt als Call Routing, können und sollten im besten Fall Teil Ihres Incident-Management-Systems sein. Integrierte Hotlines leiten Anrufe auf der Grundlage von Dienstplänen und Eskalationsrichtlinien weiter, ermöglichen es Anrufern, Sprachnachrichten zu hinterlassen oder Störungen an KI-Sprachassistenten zu melden, und erstellen automatisch Alarmierungen.ilert bietet eines der fortschrittlichsten Call-Routing-Systeme für MSPs.

Wenn Sie mehr darüber erfahren möchten, buchen Sie eine Demo oder sehen Sie sich ein Einführungsvideo über die Verwendung von Call Routing in ilert an.

Organisieren Sie den Bereitschaftsdienst

  • Legen Sie das Dienstplanmodell fest (individuelle Rotation, teambasiert, “Follow-the-Sun” usw.).
  • Legen Sie klare Schichtpläne fest, zum Beispiel 24/7-Abdeckung, nur Wochenenden oder Nachtschichten.
  • Legen Sie Verfahren für die Schichtübergabe fest und dokumentieren Sie offene Störungen und Zusammenhänge, bevor Sie die Schicht übergeben.
  • Verteilen Sie die Bereitschaftsdienste gerecht auf die qualifizierten Teammitglieder.
  • Überwachen Sie die Arbeitsbelastung durch den Bereitschaftsdienst (verfolgen Sie, wie oft die Mitarbeiter alarmiert werden).
  • Bieten Sie eine Vergütung, Freistellung oder andere Vorteile für die Übernahme von Bereitschaftsdiensten an.

Automatisierung

  • Automatisieren Sie, wann immer möglich, grundlegende Wiederherstellungsschritte, wie zum Beispiel den Neustart von Diensten oder die Skalierung von Ressourcen. In ilert können Sie dies durch das Erstellen von Alarmierungsaktionen erreichen.

Stufe 3: Transparente Kommunikation mit Kunden und Ihrem Team

Lebenszyklus eines Incidents

Eine klare Kommunikation sowohl mit internen Abteilungen als auch mit Kunden ist entscheidend für eine schnelle Lösung. MSPs sollten regelmäßig über den Stand der Dinge informieren, den Umfang und die Auswirkungen der Störung erklären und die Erwartungen steuern. Eine transparente Kommunikation schafft Vertrauen und verringert die Frustration der Kunden.

Für die interne Kommunikation in Ihrem Unternehmen

  • Verbinden Sie Ihre Incident-Management-Plattform mit einem Chat-Tool für Echtzeit-Updates. Die gängigsten Lösungen sind Microsoft Teams und Slack.
  • Stellen Sie sicher, dass Sie einen Backup-Kanal für die Kommunikation haben, wie zum Beispiel Kommentare direkt in der Incident-Management-Plattform, für den Fall, dass Ihr Chat-Tool einmal ausfällt. 
  • Nutzen Sie ChatOps-Methoden, zum Beispiel die automatische Erstellung eines speziellen Incident-Chats und die Durchführung wichtiger Incident-Aktionen über Chats.
  • Definieren Sie Regeln für die Veröffentlichung von Störungs-Updates.
  • Veröffentlichen Sie alle wichtigen Aktionen und Entscheidungen für den Audit Trail.

Für die externe Kommunikation mit Kunden

  • Stellen Sie sicher, dass jeder Kunde, der von einer Ausfallzeit betroffen ist, Zugriff auf die Statusseite hat.
  • Aktualisieren Sie die Statusseite manuell oder automatisch, wenn sich der Status der Störung ändert (Untersuchung → Identifizierung → Überwachung → Behebung).
  • Kommunizieren Sie proaktiv mit den Kunden innerhalb der vereinbarten SLA-Zeiten (beispielsweise innerhalb von 15 Minuten bei größeren Störungen).

Kommunikation bei größeren Störungen, die mehrere Kunden betreffen

Audience-specific status page

Der Alptraum jedes MSP, aber durchaus möglich. Es gibt Tools, die Ihnen bei der Kommunikation mit mehreren Kunden helfen können. So können Sie beispielsweise eine einzige Statusseite für einige wenige Kunden erstellen und nur die relevanten Dienste auf der Grundlage der ID oder E-Mail-Domäne des Besuchers anzeigen. Auf zielgruppenspezifischen Statusseiten werden dynamisch Dienste und Kennzahlen angezeigt, die auf die Teamzugehörigkeit der einzelnen Nutzer zugeschnitten sind, so dass jeder nur die für ihn relevanten Informationen sieht. 

Weitere Informationen zu den Möglichkeiten der zielgruppenspezifischen Statusseiten finden Sie in der ilert-Dokumentation.

Stufe 4: Analyse und Reflexion nach einer Störung

Nachdem eine Störung behoben ist, ist es wichtig, eine Nachbetrachtung durchzuführen. Dies hilft den MSPs, die Ursache zu verstehen, die Effizienz der Reaktion zu bewerten und Bereiche mit Verbesserungspotenzial zu identifizieren.

  • Vereinbaren Sie, wie und wo Sie Zusammenfassungen von Störungen dokumentieren. Alle beteiligten Teammitglieder sollten mit der Struktur vertraut sein und Zugang zu den Postmortem-Vorlagen haben.
  • Stellen Sie sicher, dass jeder einen „schuldlosen“ Ansatz verfolgt: Konzentrieren Sie sich auf Systeme und Prozesse, nicht auf Einzelpersonen. 
  • Prüfen Sie, wie Sie den Status der SLA-Einhaltung ermitteln. Bereiten Sie eine Vorlage für den Bericht für Kunden vor.
  • Aktualisieren Sie die SLA-Bedingungen bei Bedarf (zum Beispiel neue Schwellenwerte oder Verpflichtungen nach Kundengesprächen).

Automatisierte Erstellung von Postmortem-Dokumenten mit AI

Automatic creation of postmortems with AI

Die ilert-KI vereinfacht die Post-Incident-Analyse durch die automatische Erstellung von Postmortem-Dokumenten auf der Grundlage von Incident-Daten. Unsere KI sammelt Schlüsselinformationen wie den zeitlichen Ablauf der Störung, die ergriffenen Maßnahmen, Kommunikation und Lösungsschritte direkt aus dem Störungsverlauf und dem Audit Trail. Anhand dieser Daten erstellt die ilert-KI einen strukturierten Postmortem-Entwurf, der eine Zusammenfassung des Incidents, eine Auswirkungsanalyse, eine Ursachenanalyse und die Erkenntnisse daraus enthält. So können Teams Zeit sparen, Konsistenz sicherstellen und sich auf die kontinuierliche Verbesserung konzentrieren, anstatt die Dokumentation manuell vorzunehmen.

Erfahren Sie mehr über diese Funktion in unserem Blogartikel „Automatisierung von Postmortem-Berichten mit KI“.

Stufe 5: Kontinuierliche Verbesserung

Der letzte Schritt besteht in der Umsetzung der gewonnenen Erkenntnisse. MSPs sollten ihre Dokumentation aktualisieren, ihre Tools oder Arbeitsabläufe verbessern und bei Bedarf zusätzliche Schulungen anbieten. Die kontinuierliche Verbesserung stärkt den gesamten Incident-Management-Prozess und hilft, ähnliche Probleme in Zukunft zu vermeiden.

  • Erstellen Sie regelmäßig Berichte über wichtige Kennzahlen wie die mittlere Zeit bis zur Erkennung (MTTD), die mittlere Zeit bis zur Bestätigung (MTTA), die mittlere Zeit bis zur Lösung (MTTR), die Anzahl der SLA-Verletzungen usw. 
  • Führen Sie regelmäßig Schulungen zur Reaktion auf Störungen für Technik- und Support-Teams durch. Sie können frühere Störungen als Beispielszenarien für die Schulung verwenden. 
  • Überprüfen und optimieren Sie die Überwachungsschwellenwerte und Alarmierungsrichtlinien, wobei Sie sich auf die wichtigsten Metriken und das Feedback der Techniker zur Belastung durch Alarmierungen stützen.

Nachdem Sie die Checklisten für jede Phase durchgegangen sind, werden Sie besser verstehen, wie gut Sie und Ihr Unternehmen mit unerwarteten Unterbrechungen umgehen können. Passen Sie die Empfehlungen an Ihre Größe und Organisationsstruktur an. 

Im nächsten Kapitel beschäftigen wir uns im Detail mit den Herausforderungen, mit denen MSPs und IT-Service-Provider konfrontiert sind, wenn sie zum ersten Mal einen strukturierten Incident-Management-Prozess einführen.  

Sind Sie bereit, Ihr Incident-Management zu verbessern?
Start for free