Incident-Management für MSPs
Effective incident management is a cornerstone for maintaining a robust operational framework in any tech-driven organization.

Managed Service Provider (MSPs) stehen unter wachsendem Druck, ihren Kunden in zunehmend heterogenen IT-Umgebungen qualitativ hochwertige, stets verfügbare Dienste bereitzustellen. Dieser Leitfaden soll MSPs einen praktischen und strategischen Ansatz für ihr Incident-Management an die Hand geben – ein entscheidender Faktor, um SLAs einzuhalten, die Zuverlässigkeit von Services zu gewährleisten und das Vertrauen der Kunden zu erhalten.
Ob Sie eine Handvoll kleiner Unternehmen betreuen oder den IT-Betrieb für Kunden aus verschiedenen Branchen verwalten – die Fähigkeit, Störungen effizient zu erkennen, darauf zu reagieren und sie zu beheben, ist von zentraler Bedeutung für Ihren Erfolg.
Dieser Leitfaden bietet deshalb eine Roadmap für den Aufbau eines skalierbaren und ausgereiften Incident-Management-Prozesses, der Sie dabei unterstützt:
- Strenge SLAs mit schnelleren Reaktions- und Lösungszeiten zu erfüllen
- Die wachsende IT-Komplexität zu bewältigen, von Cloud-nativen Systemen bis hin zu hybriden Umgebungen
- Ihr Unternehmen zu skalieren, ohne die Servicequalität oder die Effizienz Ihres Teams zu beeinträchtigen.
Dieser Leitfaden ist gleichermaßen wertvoll für Bereitschaftsteams, die unter Zeitdruck klare, effiziente Arbeitsabläufe benötigen, und für MSP-Führungskräfte, die für den Aufbau belastbarer Teams und die Aufrechterhaltung hervorragender Dienstleistungen in großem Maßstab verantwortlich sind. Ziel ist es, Ihr Team mit umsetzbaren Strategien, bewährten Tools und praxisnahen Erkenntnissen auszustatten, die speziell auf die Bedürfnisse und Herausforderungen von MSPs zugeschnitten sind.
Herausforderungen und Risiken für MSPs und IT-Dienstleister
MSPs und IT-Dienstleister arbeiten in einem Umfeld, in dem viel auf dem Spiel steht. Sie sind nicht nur für ihre eigene Infrastruktur und ihre Dienste verantwortlich, sondern bilden auch das Rückgrat des digitalen Betriebs ihrer Kunden.
Herausforderungen für MSPs:
- Hohe Verantwortung: Jede Sekunde Ausfallzeit wirkt sich direkt auf ihre Reputation und das Vertrauen der Kunden in ihr Unternehmen aus.
- Wachsende Komplexität: MSPs verwalten mandantenfähige, hybride und oft global verteilte Umgebungen.
- Rund um die Uhr im Einsatz: Kunden verlangen durchgängige Verfügbarkeit und proaktive Problemlösung.
- Personelle Engpässe: Die Teams müssen mit weniger Mitteln mehr erreichen und gleichzeitig einen hohen Servicestandard aufrechterhalten.
Die Zahlen sprechen für sich: Laut einer von Datto durchgeführten Umfrage meldeten 94 % der MSPs einen Anstieg der Kundennachfrage nach 24/7-Support. Darüber hinaus nannten MSPs die Bewältigung steigender Arbeitslasten und die Anpassung an neue Technologien, wie zum Beispiel Cloud-Lösungen, als zentrale betriebliche Herausforderungen.

Die Bedeutung eines effektiven Incident-Managements für MSPs
Managed Service Provider arbeiten in einer Umgebung, in der Betriebszeit, Zuverlässigkeit und schnelle Reaktionszeiten für den geschäftlichen Erfolg ihrer Kunden entscheidend sind. Daher ist ein leistungsstarkes Incident-Management von entscheidender Bedeutung für die Aufrechterhaltung der Servicequalität und des Kundenvertrauens.
Effektives Incident-Management ist ein strukturierter Ansatz zur Identifizierung, Analyse und zeitnahen Behebung von IT-Störungen, um deren Auswirkungen zu minimieren und die Servicekontinuität zu gewährleisten.
Was ist ein Incident im Kontext von MSPs?
Als Incident (Ereignis, Störung) wird in der Regel jede ungeplante Unterbrechung oder Beeinträchtigung eines IT-Dienstes bezeichnet. Dies können Hardwareausfälle und Softwarefehler, aber auch Netzwerkausfälle und Sicherheitsprobleme sein. Im Gegensatz zu regulären Serviceanfragen erfordern Störungen eine sofortige Reaktion, um den normalen Betrieb wiederherzustellen.
Incidents können über verschiedene Kanäle gemeldet werden, zum Beispiel über automatische Überwachungstools, Kundensupportportale oder direkte Kundenkommunikation per Telefon oder E-Mail. Die dezentrale und ferngesteuerte Arbeitsweise MSP-Betriebs macht die Reaktion auf Störungen noch komplexer: Die Techniker haben oft keinen physischen Zugang zu den betroffenen Systemen, was die Diagnose und Fehlerbehebung verzögern kann.
Außerdem bedeutet der Umgang mit mandantenfähigen Umgebungen, dass Störungen schnell isoliert werden müssen, um größere Auswirkungen zu vermeiden. In Anbetracht des breiten Spektrums an Dienstleistungen, die MSPs anbieten – zum Beispiel Fernüberwachung, Datensicherung und Cybersicherheit – ist ein klares Verständnis und eine klare Klassifizierung von Incidents wichtig, um Prioritäten bei der Reaktion zu setzen und eine koordinierte Lösung zu gewährleisten.

Die Incident-Management-Strategie für MSPs
Durch die Investition in eine durchdachte Incident-Management-Strategie können MSPs eine höhere Serviceverfügbarkeit, kürzere Lösungszeiten und eine höhere Kundenzufriedenheit sicherstellen. Außerdem positionieren sie sich so als zuverlässige Partner, die in der Lage sind, komplexe IT-Umgebungen effizient zu verwalten.
Unser Tipp: Unterteilen Sie Ihre Incident-Management-Strategie in die Phasen “vor”, “während” und “nach” der Störung. So können Sie besser verstehen, wo Ihre Schwachstellen liegen und welche Tools Ihnen noch fehlen, um bessere Ergebnisse zu erzielen.
Stufe 1: Die Grundlagen für Resilienz schaffen
Leistungsfähiges Incident-Management beginnt lange vor dem Auftreten eines Problems. MSPs müssen klare Prozesse festlegen und sicherstellen, dass ihre Teams mit den richtigen Tools und dem richtigen Wissen ausgestattet sind. Zur Vorbereitung gehören auch die Einrichtung von Überwachungssystemen, die Definition von Service Level Agreements (SLAs) und die Erstellung von Runbooks für bekannte Probleme. Die folgende Checkliste hilft Ihnen bei der Bewertung Ihres aktuellen Zustands.
Überwachung einrichten
- Implementieren Sie eine proaktive Überwachung für Server, Netzwerke, Anwendungen, Datenbanken und Cloud-Umgebungen. Ziehen Sie etablierte Lösungen in Betracht, die sich im MSP-Bereich bewährt haben, wie N-able N-central, ConnectWise, Paessler PRTG Network Monitor, Zabbix, usw.
- Richten Sie Alarmierungsschwellenwerte für kritische Systeme und Kundenumgebungen ein.
- Deployment von synthetischen Überwachungsfunktionen für die wichtigsten Nutzerabläufe (optional, aber empfohlen): Auch hier sollten Sie Tools wählen, die gut auf die Bedürfnisse von MSPs zugeschnitten sind, zum Beispiel Pingdom, Datadog, Site24x7.
- Integrieren Sie Monitoring-Tools mit Plattformen zur Reaktion auf Störungen, die für mandantenfähige Umgebungen geeignet sind, zum Beispiel ilert.
Service Level Agreements (SLAs)
- Definieren Sie SLAs für verschiedene Servicekategorien (zum Beispiel Reaktionszeit, Lösungszeit).
- Dokumentieren Sie SLAs eindeutig und stellen Sie sicher, dass die Kunden die Vereinbarungen unterzeichnet haben.
- Verknüpfen Sie SLAs mit Überwachungs- und Warnsystemen (automatische Kennzeichnung von SLA-Verletzungen).
Runbooks und Wissensdatenbank
- Erstellen Sie Runbooks für alle bekannten und wiederkehrenden Störungen (zum Beispiel „Festplatte voll“, „Serverausfall“, „VPN-Verbindungsprobleme“).
- Standardisieren Sie das Format der Runbooks und geben Sie Erkennungsschritte, Eskalationskontakte und Wiederherstellungsverfahren an.
- Pflegen Sie eine leicht zugängliche und aktuelle Wissensdatenbank zur Fehlerbehebung und stellen Sie sicher, dass alle Teammitglieder Zugriff auf die Runbooks haben.
Stufe 2: Schnelle Erkennung und erste Maßnahmen
Wenn eine Störung auftritt, ist eine rechtzeitige und effektive Reaktion entscheidend. Dazu gehören die Erkennung, Klassifizierung und Eskalation von Incidents. MSPs benötigen einen standardisierten Prozess für die Erfassung von Störungen, die Zuweisung an die richtigen Teams und die Einleitung von Wiederherstellungsmaßnahmen. Automatisierung und Alarmierungssysteme verkürzen die Reaktionszeiten und verhindern eine Verschärfung der Situation.
Einrichtung von Alarmierungen
- Definieren Sie klare, umsetzbare Schwellenwerte für Alarmierungen sowohl in Ihren Monitoring-Tools als auch auf Ihrer Incident-Management-Plattform.
- Ordnen Sie jedem Schwellenwert eine bestimmte Reaktion zu, damit jede Alarmierung eine konkrete Aktion erfordert – andernfalls unterdrücken Sie ihn oder stufen ihn herab. Verwenden Sie Priorisierungen, intelligente Gruppierungen und zeitbasierte Unterdrückungsfenster, um die wirklich kritischen Signale zu erkennen und Ihre Teams vor Alarmüberflutung zu schützen.
- Definieren Sie Workflows für Eskalationen auf der Grundlage von Reaktionszeiten und Schweregrad.
- Stellen Sie Ihrem Team verschiedene Alarmierungsoptionen zur Verfügung, damit es über die gängigsten Kanäle benachrichtigt werden kann. Lösungen wie ilert können Techniker über SMS, Telefonanruf, Push-Benachrichtigung in der App, Messenger usw. benachrichtigen.
- Bieten Sie eine 24×7-Kundenhotline für die manuelle Meldung von Störungen und die sofortige Erstellung von Alarmierungen an.
- Verwenden Sie eine spezielle Telefonnummer, die direkt in Ihre Incident-Management-Plattform integriert ist, automatisch die Details des Anrufers protokolliert und die passende Eskalationsrichtlinie auslöst. Statten Sie Ihre Mitarbeiter mit einem schnellen „5-W“-Skript (wer, was, wann, wo, warum) aus, um den vollständigen Kontext zu erfassen, und richten Sie eine Ausfallsicherung von der Voicemail zum Ticket sowie Zweitnummern ein, um sicherzustellen, dass kein Anruf oder Kunde während eines Ausfalls verloren geht.
Hotlines für MSPs

Manche Störungen können nur von Menschen entdeckt und gemeldet werden. Dies gilt umso mehr für Umgebungen, in denen Techniker nur Fernzugriff haben. Hotlines, auch bekannt als Call Routing, können und sollten im besten Fall Teil Ihres Incident-Management-Systems sein. Integrierte Hotlines leiten Anrufe auf der Grundlage von Dienstplänen und Eskalationsrichtlinien weiter, ermöglichen es Anrufern, Sprachnachrichten zu hinterlassen oder Störungen an KI-Sprachassistenten zu melden, und erstellen automatisch Alarmierungen.ilert bietet eines der fortschrittlichsten Call-Routing-Systeme für MSPs.
Wenn Sie mehr darüber erfahren möchten, buchen Sie eine Demo oder sehen Sie sich ein Einführungsvideo über die Verwendung von Call Routing in ilert an.
Organisieren Sie den Bereitschaftsdienst
- Legen Sie das Dienstplanmodell fest (individuelle Rotation, teambasiert, “Follow-the-Sun” usw.).
- Legen Sie klare Schichtpläne fest, zum Beispiel 24/7-Abdeckung, nur Wochenenden oder Nachtschichten.
- Legen Sie Verfahren für die Schichtübergabe fest und dokumentieren Sie offene Störungen und Zusammenhänge, bevor Sie die Schicht übergeben.
- Verteilen Sie die Bereitschaftsdienste gerecht auf die qualifizierten Teammitglieder.
- Überwachen Sie die Arbeitsbelastung durch den Bereitschaftsdienst (verfolgen Sie, wie oft die Mitarbeiter alarmiert werden).
- Bieten Sie eine Vergütung, Freistellung oder andere Vorteile für die Übernahme von Bereitschaftsdiensten an.
Automatisierung
- Automatisieren Sie, wann immer möglich, grundlegende Wiederherstellungsschritte, wie zum Beispiel den Neustart von Diensten oder die Skalierung von Ressourcen. In ilert können Sie dies durch das Erstellen von Alarmierungsaktionen erreichen.
Stufe 3: Transparente Kommunikation mit Kunden und Ihrem Team

Eine klare Kommunikation sowohl mit internen Abteilungen als auch mit Kunden ist entscheidend für eine schnelle Lösung. MSPs sollten regelmäßig über den Stand der Dinge informieren, den Umfang und die Auswirkungen der Störung erklären und die Erwartungen steuern. Eine transparente Kommunikation schafft Vertrauen und verringert die Frustration der Kunden.
Für die interne Kommunikation in Ihrem Unternehmen
- Verbinden Sie Ihre Incident-Management-Plattform mit einem Chat-Tool für Echtzeit-Updates. Die gängigsten Lösungen sind Microsoft Teams und Slack.
- Stellen Sie sicher, dass Sie einen Backup-Kanal für die Kommunikation haben, wie zum Beispiel Kommentare direkt in der Incident-Management-Plattform, für den Fall, dass Ihr Chat-Tool einmal ausfällt.
- Nutzen Sie ChatOps-Methoden, zum Beispiel die automatische Erstellung eines speziellen Incident-Chats und die Durchführung wichtiger Incident-Aktionen über Chats.
- Definieren Sie Regeln für die Veröffentlichung von Störungs-Updates.
- Veröffentlichen Sie alle wichtigen Aktionen und Entscheidungen für den Audit Trail.
- Stellen Sie sicher, dass jeder Kunde, der von einer Ausfallzeit betroffen ist, Zugriff auf die Statusseite hat.
- Aktualisieren Sie die Statusseite manuell oder automatisch, wenn sich der Status der Störung ändert (Untersuchung → Identifizierung → Überwachung → Behebung).
- Kommunizieren Sie proaktiv mit den Kunden innerhalb der vereinbarten SLA-Zeiten (beispielsweise innerhalb von 15 Minuten bei größeren Störungen).
Kommunikation bei größeren Störungen, die mehrere Kunden betreffen

Der Alptraum jedes MSP, aber durchaus möglich. Es gibt Tools, die Ihnen bei der Kommunikation mit mehreren Kunden helfen können. So können Sie beispielsweise eine einzige Statusseite für einige wenige Kunden erstellen und nur die relevanten Dienste auf der Grundlage der ID oder E-Mail-Domäne des Besuchers anzeigen. Auf zielgruppenspezifischen Statusseiten werden dynamisch Dienste und Kennzahlen angezeigt, die auf die Teamzugehörigkeit der einzelnen Nutzer zugeschnitten sind, so dass jeder nur die für ihn relevanten Informationen sieht.
Weitere Informationen zu den Möglichkeiten der zielgruppenspezifischen Statusseiten finden Sie in der ilert-Dokumentation.
Stufe 4: Analyse und Reflexion nach einer Störung
Nachdem eine Störung behoben ist, ist es wichtig, eine Nachbetrachtung durchzuführen. Dies hilft den MSPs, die Ursache zu verstehen, die Effizienz der Reaktion zu bewerten und Bereiche mit Verbesserungspotenzial zu identifizieren.
- Vereinbaren Sie, wie und wo Sie Zusammenfassungen von Störungen dokumentieren. Alle beteiligten Teammitglieder sollten mit der Struktur vertraut sein und Zugang zu den Postmortem-Vorlagen haben.
- Stellen Sie sicher, dass jeder einen „schuldlosen“ Ansatz verfolgt: Konzentrieren Sie sich auf Systeme und Prozesse, nicht auf Einzelpersonen.
- Prüfen Sie, wie Sie den Status der SLA-Einhaltung ermitteln. Bereiten Sie eine Vorlage für den Bericht für Kunden vor.
- Aktualisieren Sie die SLA-Bedingungen bei Bedarf (zum Beispiel neue Schwellenwerte oder Verpflichtungen nach Kundengesprächen).
Automate postmortem document creation with AI

ilert AI simplifies post-incident analysis by automatically generating draft postmortem documents based on incident data. It collects key information like incident timelines, actions taken, communications, and resolution steps directly from the incident history and audit trail. Using this data, ilert AI creates a structured postmortem draft that includes the incident summary, impact analysis, root cause, and lessons learned — helping teams save time, ensure consistency, and focus on continuous improvement instead of manual documentation.
Learn more about this feature in the blog post “Enhancing Postmortem Reports with AI.”
Stufe 5: Kontinuierliche Verbesserung
Der letzte Schritt besteht in der Umsetzung der gewonnenen Erkenntnisse. MSPs sollten ihre Dokumentation aktualisieren, ihre Tools oder Arbeitsabläufe verbessern und bei Bedarf zusätzliche Schulungen anbieten. Die kontinuierliche Verbesserung stärkt den gesamten Incident-Management-Prozess und hilft, ähnliche Probleme in Zukunft zu vermeiden.
- Erstellen Sie regelmäßig Berichte über wichtige Kennzahlen wie die mittlere Zeit bis zur Erkennung (MTTD), die mittlere Zeit bis zur Bestätigung (MTTA), die mittlere Zeit bis zur Lösung (MTTR), die Anzahl der SLA-Verletzungen usw.
- Führen Sie regelmäßig Schulungen zur Reaktion auf Störungen für Technik- und Support-Teams durch. Sie können frühere Störungen als Beispielszenarien für die Schulung verwenden.
- Überprüfen und optimieren Sie die Überwachungsschwellenwerte und Alarmierungsrichtlinien, wobei Sie sich auf die wichtigsten Metriken und das Feedback der Techniker zur Belastung durch Alarmierungen stützen.
Nachdem Sie die Checklisten für jede Phase durchgegangen sind, werden Sie besser verstehen, wie gut Sie und Ihr Unternehmen mit unerwarteten Unterbrechungen umgehen können. Passen Sie die Empfehlungen an Ihre Größe und Organisationsstruktur an.

Im nächsten Kapitel beschäftigen wir uns im Detail mit den Herausforderungen, mit denen MSPs und IT-Service-Provider konfrontiert sind, wenn sie zum ersten Mal einen strukturierten Incident-Management-Prozess einführen.
So werden Sie den Herausforderungen des Incident-Managements für MSPs gerecht
In diesem Kapitel gehen wir auf die wichtigsten Herausforderungen ein, mit denen MSPs in jeder Phase des Incident-Lebenszyklus konfrontiert sind, und stellen bewährte Lösungen vor, um sie zu bewältigen. Diese Empfehlungen basieren auf dem Feedback unserer MSP-Kunden aus ihrer täglichen Arbeit und beinhalten Best Practices, die wir in jahrelanger Zusammenarbeit mit führenden Dienstleistern optimiert haben.
Dieser Leitfaden soll nicht nur häufige Fallstricke aufzeigen, sondern auch praxisnahe Strategien liefern, mit denen MSPs ihre Incident-Management-Prozesse stärken und ihren Kunden einen erstklassigen Service bieten können.
Die größten Probleme, mit denen MSPs zu Beginn des Incident-Managements konfrontiert sind
Fehlen einer klaren Richtlinie für das Störungsmanagement
Viele MSPs arbeiten reaktiv, ohne einen standardisierten Plan für die Reaktion auf Störungen. Dies führt zu Ad-hoc-Entscheidungen, Verwirrung bei stressigen Incidents und uneinheitlichen Kundenerfahrungen.
Die Lösung:
Erstellen Sie ein standardisiertes, dokumentiertes Rahmenwerk für die Reaktion auf Störungen – ITIL ist ein guter Ausgangspunkt – und machen Sie daraus ein Regelwerk für den täglichen Gebrauch. ITIL bietet einen strukturierten Ansatz für das IT-Servicemanagement, einschließlich definierter Prozesse für die Erkennung, Eskalation, Kommunikation und Lösung von Störungen. Passen Sie die Richtlinie bei Bedarf an den jeweiligen Kunden an, aber stellen Sie sicher, dass Ihre Teams einer einheitlichen Struktur folgen. Ein gemeinsames Verständnis von Rollen, Verantwortlichkeiten, Eskalationspfaden und Kommunikationsverfahren bildet die Grundlage für schnellere, koordinierte Reaktionen.
Inkonsistente Risikobewertung
Ohne regelmäßige und systematische Risikobewertungen bleiben Schwachstellen verborgen, bis es zu spät ist. Auch dies führt dazu, dass MSPs eher reaktiv als proaktiv handeln, was zu einer Kaskade von Problemen führt, wenn es zu Zwischenfällen kommt.
Die Lösung:
Führen Sie regelmäßige Risikobewertungen sowohl für interne Systeme als auch für Kundenumgebungen ein. Tools wie Schwachstellen-Scanner und Konfigurations-Audits helfen bei der Ermittlung von Schwachstellen. Integrieren Sie die Ergebnisse in einen nach Prioritäten geordneten Lösungsplan. Richten Sie Ihre Bewertungen an den für die Branche des jeweiligen Kunden relevanten Compliance-Standards aus (zum Beispiel HIPAA, GDPR, ISO 27001).
Schwierigkeiten bei der SLA-Verwaltung
Jeder Kunde hat möglicherweise unterschiedliche Erwartungen in Bezug auf Antwort und Lösung, was zu Verwirrung bei der Priorisierung und zur Verletzung von vertraglichen Verpflichtungen führt.
Die Lösung:
Nutzen Sie Ihre Incident-Management-Plattform, um Incidents auf der Grundlage kundenspezifischer SLA-Einstellungen automatisch zu priorisieren und Alarmierungen oder Eskalationen auszulösen, wenn Fristen näher rücken.
Mit ilert zum Beispiel können Alarmierungen automatisch nach definierten Regeln eskaliert werden.
Raus aus dem Chaos: Herausforderungen beim Auftreten der ersten Störungen
Doppelte Alerts
Alarmierungen von verschiedenen, sich überschneidenden Überwachungstools können mehrere Benachrichtigungen über dasselbe zugrunde liegende Problem auslösen. Statt eines eindeutigen Signals sehen sich die Mitarbeiter mit einer Flut von redundanten Alarmierungen konfrontiert. Dies führt zu einer Alarmflut, die es den Teams erschwert, die Grundursache schnell zu identifizieren.
Die Lösung:
Nutzen Sie Ihre Incident-Management-Plattform als zentrale Schaltstelle. Stellen Sie sicher, dass alle Monitoring- und Beobachtungslösungen Alarmierungen direkt an Ihr Incident-Management-System weiterleiten, das Ähnlichkeiten erkennen und Alerts gruppieren kann.
Verschiedene Überwachungsmethoden über mehrere Kunden hinweg
MSPs verwalten oft eine Vielzahl von Kunden, die jeweils unterschiedliche Überwachungstools und Infrastrukturen nutzen. Einige Kunden verfügen möglicherweise über ein ausgefeiltes Cloud-natives Monitoring, während andere auf ein einfaches Server-Monitoring oder Legacy-Systeme zurückgreifen. Diese Vielfalt führt zu fragmentierten Alarmierungs-Workflows, inkonsistenter Erkennung von Störungen und Verzögerungen bei der Eskalation. Das macht es schwierig, konsistente Service-Levels aufrechtzuerhalten und SLA-Verpflichtungen für alle Kunden einzuhalten.
Die Lösung:
Durch die Zentralisierung von Alarmierungen aus allen Client-Monitoring-Systemen in einer einzigen Incident-Management-Plattform können MSPs verschiedene Umgebungen verwalten, ohne an Effizienz zu verlieren. Durch die Integration verschiedener Überwachungstools in ilert werden alle Alarmierungen konsistent an die richtigen Teams weitergeleitet, wobei kundenspezifischer Kontext und Runbooks für eine schnellere Lösung zur Verfügung stehen.
Manuelle Alarmierung funktioniert nicht
Kunden melden Probleme oft manuell durch Anrufe oder Tickets. Beides kann übersehen werden, wodurch sich die Zeit bis zur Bestätigung des Problems verlängert.
Die Lösung:
Schließen Sie die Lücke zwischen manueller und automatischer Alarmierung. Achten Sie bei den Tickets auf die Integration von ITSM- und PSA-Systemen in Ihre Incident-Management-Plattform. ilert arbeitet mit den gängigsten Anwendungen zusammen, wie zum Beispiel Autotask PSA, HaloPSA, ServiceNow und anderen. Tickets werden hierbei stets als Alarmierung behandelt. Bei Bedarf werden SMS oder Anrufe ausgelöst, sobald Ihr Kunde ein Problem meldet.
Das Thema “Hotlines” hatten wir schon angesprochen. So funktionieren sie im Detail: Sie stellen Ihren Kunden eine spezielle Telefonnummer zur Verfügung, die in der Regel an einen bestimmten Servicevertrag oder ein SLA gebunden ist. Wenn ein Nutzer diese Nummer anruft, leitet das System den Anruf entsprechend den Bereitschaftsplänen und Eskalationsrichtlinien weiter, um sicherzustellen, dass das richtige Team schnell erreicht wird – auch außerhalb der regulären Geschäftszeiten. Ein IVR-Menü (“Interactive Voice Response” / Sprachdialogsystem) hilft den Kunden, ihr Problem zu kategorisieren (zum Beispiel: Ausfall, technischer Support usw.), was eine schnellere Triage ohne manuellen Aufwand ermöglicht. PIN-Codes sichern die Hotline, sodass nur autorisierte Kontakte kritische Vorfälle auslösen können.
Ressourcenknappheit und Arbeitsüberlastung
MSPs arbeiten oft mit kleinen Teams, die ein hohes Aufkommen an Alarmierungen bewältigen müssen. Das führt zur Überlastung der Mitarbeiter, einer langsameren Bearbeitung von Störungen und einem erhöhten Fehlerrisiko.
Die Lösung:
Konzentrieren Sie die Energien Ihres Teams dort, wo sie am wichtigsten sind. Nutzen Sie ilert, um überflüssige Alarmierungen herauszufiltern, verwandte Alarmierungen zu gruppieren und nur kritische Probleme zu eskalieren. Automatisieren Sie wiederkehrende Aufgaben und verteilen Sie die Dienstbereitschaften gleichmäßig, um eine Überlastung der einzelnen Mitarbeiter zu vermeiden. Überprüfen Sie regelmäßig Ihre Alarmierungsrichtlinien und die Arbeitsbelastung, um die Leistungsfähigkeit und Ausgeglichenheit Ihres Teams zu erhalten und für echte Notfälle gerüstet zu sein.
Unzureichender Zugang zu Client-Umgebungen
Wenn die dienstbereiten Techniker während einer Störung nicht den richtigen Zugang zu den Client-Systemen haben, verzögert dies die Analyse, Fehlerbehebung und Wiederherstellung und macht aus einem kleinen Problem eine große Störung.
Die Lösung:
Bereiten Sie sich vor, bevor es zu Störungen kommt. Richten Sie einen sicheren, rollenbasierten Zugang zu kritischen Client-Umgebungen für Ihre Bereitschaftsteams ein. Verwenden Sie Tools wie VPNs, Bastion Hosts oder Remote-Management-Systeme, die regelmäßig getestet werden. Dokumentieren Sie die Zugriffsverfahren klar in Runbooks und halten Sie Notfallzugriffspfade (mit Genehmigung des Kunden) bereit. Schneller Zugriff bedeutet schnellere Lösungen – und weniger Ausfallzeiten für Ihre Kunden.

Kommunikationsprobleme
Verspätete oder inkonsistente Updates für Kunden
Bei Störungen, insbesondere bei größeren Ausfällen oder Service-Verschlechterungen, erwarten die Kunden klare, regelmäßige und proaktive Updates. Viele MSPs haben mit uneinheitlichen Zeitplänen, vagen Formulierungen oder manuellem Aufwand zu kämpfen, was zu Kommunikationslücken führt, das Vertrauen der Kunden beschädigt und möglicherweise gegen SLA-Verpflichtungen verstößt.
Die Lösung:
Definieren und standardisieren Sie zunächst, wie oft Kunden bei verschiedenen Störungen Updates erhalten sollten. Bei kritischen Störungen sollte die erste Kundenbenachrichtigung innerhalb von 15 Minuten nach der Entdeckung erfolgen, mit nachfolgenden Aktualisierungen alle 15 bis 30 Minuten bis zur Lösung. Bei schwerwiegenden Störungen sollte die erste Aktualisierung innerhalb von 30 Minuten erfolgen und mindestens jede Stunde aktualisiert werden. Bei geringfügigen Problemen sollten Sie innerhalb der ersten Stunde informieren und alle paar Stunden weitere Aktualisierungen bereitstellen. Bei informativen Störungen mit geringer Priorität reicht in der Regel eine Antwort innerhalb von 24 Stunden und eine Aktualisierung nach Lösung des Incidents aus. Selbst wenn es keine neuen Informationen gibt, können Sie Ihren Kunden mit einem „Keine Änderung“-Update versichern, dass aktiv an dem Problem gearbeitet wird.
Zweitens sollten MSPs bei jedem Kunden-Update eine strukturierte und proaktive Kommunikation nutzen. Jede Nachricht sollte den aktuellen Status der Störung, eine klare Beschreibung der Auswirkungen auf den Kunden, die bisher getroffenen Maßnahmen und eine Ankündigung des nächsten Updates enthalten (zum Beispiel: „Wir werden in 30 Minuten ein weiteres Update bereitstellen). Es ist wichtig, in prägnanter, klarer und nicht-technischer Sprache zu kommunizieren, es sei denn, der Kunde erwartet ausdrücklich technische Details. Vermeiden Sie vage Formulierungen wie „wir arbeiten daran“ – Ihr Kunde sollte immer das Gefühl haben, dass er mit aussagekräftigen Updates auf dem Laufenden gehalten wird.
Unklare Kundenerwartungen
Kunden überschätzen häufig die Zuständigkeiten des MSPs und erwarten sofortige Lösungen für komplexe Probleme.
Die Lösung:
Setzen Sie von Anfang an klare Erwartungen und wiederholen Sie diese regelmäßig. Führen Sie Ihre Kunden beim Onboarding und bei Vertragsverlängerungen durch den Leistungsumfang, die standardmäßigen Reaktionszeiten und die Inhalte (sowie Ausschlüsse) des SLAs. Bei größeren Incidents sollten Sie frühzeitig über die Komplexität, die geschätzte Bearbeitungszeit und die bereits eingeleiteten Maßnahmen informieren. Gehen Sie niemals davon aus, dass Ihre Kunden „wissen, wie es läuft“ – proaktives Erwartungsmanagement schafft Vertrauen und beugt Frustration in kritischen Situationen vor.
Interne Kommunikationssilos
Wenn Teams wie Support, Engineering und Security bei Incidents isoliert arbeiten, entstehen Informationssilos. Wichtige Details gelangen nicht schnell genug von einem Team zum anderen, was zu Verzögerungen bei der Diagnose, doppeltem Arbeitsaufwand und verpassten Chancen für eine schnelle Lösung führt. In Stresssituationen können solche Ineffizienzen die Lage verschärfen und den MSP gegenüber Kunden unorganisiert wirken lassen.
Die Lösung:
Überwinden Sie Silos durch gemeinsame Kommunikationskanäle und klare Kollaborationsprozesse. Nutzen Sie eine Incident-Management-Plattform wie ilert, um eine zentrale Informationsquelle für Incident-Updates zu schaffen. Üben Sie regelmäßig teamübergreifende Incident-Simulationen, um schnelle und offene Kommunikation im Ernstfall zu festigen. Ein gut vernetztes Team reagiert schneller, arbeitet effektiver und bietet ein besseres Kundenerlebnis.
Herausforderung Incident-Management in Multi-Tenant-Umgebungen
Das Incident-Management über verschiedene Kunden mit jeweils individuellen Umgebungen hinweg erhöht die Komplexität von Status-Updates und Reporting.
Die Lösung:
MSPs benötigen eine Incident-Management-Plattform, die speziell für Multi-Client-Umgebungen entwickelt wurde. Mit Lösungen wie ilert können Störungen automatisch nach Kunde, SLA-Stufe und Priorität gekennzeichnet werden, sodass kundenspezifische Workflows ohne zusätzlichen manuellen Aufwand möglich sind. Zielgruppenspezifische Statusseiten ermöglichen es, Echtzeit-Updates gezielt pro Kunde bereitzustellen – so sehen nur die jeweils relevanten Empfänger die Benachrichtigungen zu Incidents, die ihre Umgebung, Infrastruktur oder ihr Service-Level betreffen.
Die schwierige Phase nach einer IT-Störung
Unklare Ursachenanalyse
In vielen Post-Incident-Reviews brechen Teams die Analyse zu früh ab. Sie benennen zwar das unmittelbare technische Problem (zum Beispiel „Festplatte voll“ oder „Dienst abgestürzt“), identifizieren jedoch nicht die tieferliegenden Ursachen wie fehlendes Monitoring, mangelhafte Kapazitätsplanung oder versäumte Wartungsaufgaben. Ohne die tatsächlichen Ursachen zu erkennen, besteht ein hohes Risiko, dass ähnliche Störungen erneut auftreten.
Die Lösung:
1. Nutzen Sie strukturierte Methoden zur Root-Cause-Analyse (RCA), wie zum Beispiel die „5 Whys“ oder das Fischgräten-Diagramm, um der Ursache einer Störung systematisch auf den Grund zu gehen.
2. Beziehen Sie funktionsübergreifende Teams in die Analyse ein, um sowohl technische als auch prozessuale Schwachstellen sichtbar zu machen.
3. Dokumentieren Sie in jedem Postmortem sowohl die technischen Ursachen als auch Faktoren, die zu dem Problem beigetragen haben, wie menschliche Fehler, Prozessmängel oder Systemschwächen.
4. Verwenden Sie Incident-Management-Plattformen wie ilert, um einen vollständigen Audit-Trail zu erhalten – eine wichtige Grundlage für eine präzise Rekonstruktion des Incident-Verlaufs.
Blame Culture oder defensives Verhalten
Wenn Post-Incident-Reviews zu Schuldzuweisungen führen, vermeiden Teammitglieder es, Fehler offenzulegen oder ehrliches Feedback zu geben. Eine solche defensive Atmosphäre verhindert echtes Lernen und fördert langfristig eine toxische Kultur – das schwächt die gesamte Incident-Management-Praxis.
Die Lösung:
MSP-Führungskräfte sollten einen Postmortem-Prozess ohne Schuldzuweisungen etablieren, der sich auf Systemverbesserung statt auf persönliche Kritik fokussiert. Incident-Reviews sollten stets als Lernchance und Möglichkeit zur Stärkung der Betriebsabläufe verstanden werden – nicht als Mittel zur Sanktionierung. Es ist entscheidend, Verantwortliche in konstruktiver, nicht-wertender Gesprächsführung zu schulen und die Haltung zu verankern, dass Fehler meist auf systemische Schwächen hinweisen.
Fehlende Umsetzung der Erkenntnisse in den operativen Betrieb
Viele MSPs führen zwar Incident-Reviews durch, setzen die daraus gewonnenen Erkenntnisse jedoch nicht konsequent um. Die Learnings werden zwar besprochen, aber nicht systematisch in Monitoring-Setups, Runbooks, Eskalationsrichtlinien oder Kundenkonfigurationen überführt. Ohne diesen Feedback-Loop bleiben Schwachstellen bestehen – und die gleichen Fehler wiederholen sich.
Die Lösung:
Nach jedem größeren Incident müssen Korrekturmaßnahmen dokumentiert, klaren Verantwortlichen zugewiesen und bis zur Umsetzung nachverfolgt werden. Dazu gehören unter anderem die Aktualisierung von Runbooks, Anpassung von Monitoring-Schwellenwerten, Verfeinerung von Eskalationswegen oder Optimierung von Kundenkonfigurationen.
Mit einer Incident-Management-Plattform wie ilert lassen sich diese Aufgaben direkt dem jeweiligen Incident zuordnen, wodurch sie sichtbar und nachvollziehbar bleiben. In regelmäßigen operativen Meetings sollte der Status offener Maßnahmen überprüft werden, um die Umsetzung der Maßnahmen sicherzustellen.
Erfolg messen: Incident-Metriken und SLA-Reporting für MSPs
Am Ende des Incident-Management-Zyklus ist die Erfolgsmessung entscheidend für eine kontinuierliche Verbesserung und für den Aufbau starker Kundenbeziehungen. Für MSPs bedeutet die Überwachung der richtigen Metriken und deren transparente Darstellung nicht nur eine Steigerung der internen Leistung, sondern auch die Stärkung des Kundenvertrauens und der Rechenschaftspflicht.
Wichtige Metriken im Überblick
Mean Time to Acknowledge (MTTA) – misst die durchschnittliche Zeit bis zur Bestätigung einer Störung nach ihrer Meldung. Ein niedriger MTTA-Wert deutet auf einen reaktionsschnellen Incident-Management-Prozess hin – entscheidend für Kundenzufriedenheit und SLA-Erfüllung.
Mean Time to Resolve (MTTR) – misst die durchschnittliche Zeit bis zur vollständigen Behebung einer Störung. Die Überwachung der MTTR hilft, die Effizienz und Wirksamkeit von Reaktions- und Wiederherstellungsprozessen zu bewerten.
Anzahl der Incidents pro Kunde – hilft dabei, Muster zu erkennen, gefährdete Accounts zu identifizieren und die Service-Stabilität zu messen. Ein Anstieg des Incident-Volumens kann auf tieferliegende Probleme hinweisen, die behoben werden müssen.
Die kontinuierliche Beobachtung dieser Kennzahlen (monatlich oder quartalsweise) liefert wertvolle Einblicke in Serviceverbesserungen oder Bereiche mit Handlungsbedarf. Trendanalysen helfen MSPs dabei, Risiken proaktiv zu managen und ihren Kunden kontinuierliche Serviceverbesserungen aufzuzeigen. Zudem kann das Management Schulungsbedarf, Ressourcenengpässe oder Optimierungsmöglichkeiten im Prozess identifizieren.

Überwachung der Einhaltung von SLAs
Die SLA-Einhaltung ist zentral, um Zuverlässigkeit, Reaktionsfähigkeit und die Gesamtqualität Ihrer Dienstleistungen als MSP unter Beweis zu stellen. Kunden verlassen sich darauf, dass Sie die vereinbarten Service-Level einhalten – die konsequente Einhaltung stärkt Ihre Glaubwürdigkeit und schafft die Basis für langfristige Partnerschaften. Eine effektive SLA-Überwachung erfordert die systematische Erfassung, Analyse und kontinuierliche Optimierung Ihrer Leistungen im Vergleich zu den vertraglich festgelegten Service-Standards.
Reaktions- und Lösungszeiten: Zentrale SLA-Kennzahlen
Zwei der wichtigsten Metriken für die SLA-Erfüllung sind die Reaktionszeit (wie schnell ein Incident nach Meldung bestätigt wird) und die Lösungszeit (wie schnell das Problem vollständig behoben wird). Um diese effektiv zu managen, sollten Sie:
- Kritische Zeitpunkte erfassen: Dokumentieren Sie genaue Zeitstempel für Erstellung, Bestätigung, Eskalation (falls zutreffend) und Behebung einer Störung. So entsteht eine klare Zeitlinie des Ereignisses.
- Mit SLA-Schwellen vergleichen: Überprüfen Sie automatisch bei jedem Incident, ob Reaktions- und Lösungszeiten innerhalb der SLA-Vorgaben lagen. Je nach Incident-Schweregrad oder Serviceart gelten unterschiedliche SLAs.
- Verstöße identifizieren und kategorisieren: Nicht alle SLA-Verstöße sind gleich schwerwiegend. Unterscheiden Sie beispielsweise zwischen einer verpassten Reaktion bei einem kritischen Serverausfall und einem Fehler in einer Nebenfunktion, um Verbesserungen gezielt dort umzusetzen, wo sie den größten Effekt haben.
- Trends und Engpässe analysieren: Gehen Sie über einzelne Incidents hinaus. Analysieren Sie Muster, etwa ob bestimmte Teams, Uhrzeiten oder Incident-Typen regelmäßig Verzögerungen verursachen. Eine Ursachenanalyse kann hier die operative Effizienz deutlich steigern.
- Transparente Berichte erstellen: Teilen Sie SLA-Leistungsdaten offen mit Ihren Kunden. Auch bei SLA-Verstößen schätzen Kunden Ehrlichkeit und eine klare Strategie zur Verbesserung mehr als das Verschweigen von Problemen.
Uptime-Ziele
Viele SLAs enthalten Zielwerte für minimale Serviceverfügbarkeit (zum Beispiel 99,9 % Verfügbarkeit). Um die Einhaltung korrekt zu messen:
- Überwachen Sie die Verfügbarkeit kontinuierlich mit automatisierten Tools.
- Protokollieren Sie alle Serviceunterbrechungen inklusive Dauer und Auswirkung.
- Berechnen Sie die tatsächliche Uptime über die vereinbarten Berichtszeiträume.
- Vergleichen Sie die Ergebnisse mit den SLA-Vorgaben.
Reporting an Kunden
Transparente, regelmäßige Kommunikation über die Einhaltung von SLAs ist der Schlüssel zu starken Kundenbeziehungen und zur Verdeutlichung Ihres Servicewerts. Effektives Reporting stärkt nicht nur das Vertrauen, sondern positioniert Ihren MSP als proaktiven und zuverlässigen Partner.
Bieten Sie Kunden Zugang zu Statusseiten, auf denen sie Metriken eigenständig einsehen können. Uptime-Diagramme und zentrale Kennzahlen liefern einen schnellen Überblick über den Systemzustand.
Geben Sie eine klare Zusammenfassung aller Störungen für den gewählten Berichtszeitraum (monatlich oder vierteljährlich). Folgende Punkte sollten enthalten sein:
- Gesamtanzahl der Störungen, aufgeschlüsselt nach Schweregrad
- Reaktions- und Lösungszeiten im Vergleich zu den SLA-Zielen
- Prozentsatz der SLA-konformen bzw. -verletzenden Störungen
- Vergleich mit vorherigen Berichtszeiträumen zur Darstellung von Verbesserungen oder neuen Trends
Darstellung der Systemzuverlässigkeit anhand der gemessenen Uptime im Vergleich zum SLA-Ziel (zum Beispiel „99,95 % Uptime-Ziel erreicht“). Bei Ausfällen: Angabe von Dauer, Ursache und Lösung.
Gehen Sie über reine Daten hinaus und liefern Sie analytische Zusammenfassungen mit Erkenntnissen. Heben Sie Verbesserungen hervor (zum Beispiel kürzere Lösungszeiten oder weniger SLA-Verstöße), erklären Sie SLA-Brüche transparent und zeigen Sie auf, welche Maßnahmen umgesetzt wurden und wie zukünftige Risiken minimiert werden sollen.
Best Practices für die Kommunikation der SLA-Leistung
Proaktiv statt reaktiv: Warten Sie nicht auf Kundenrückfragen zu SLA-Verstößen. Regelmäßige, geplante Reports zeigen, dass Sie die Servicequalität aktiv überwachen und den Anspruch haben, Erwartungen zu erfüllen – und zu übertreffen.
Ehrlich und transparent: SLA-Verletzungen sollten offen benannt werden. Kunden schätzen Ehrlichkeit, vor allem wenn sie mit konkreten Maßnahmen zur Verbesserung einhergehen. Probleme unter den Teppich zu kehren, schadet dem Vertrauen in Ihren Service deutlich mehr.
Berichte an die jeweilige Zielgruppe anpassen: Entscheidungsträger bevorzugen meist kompakte Zusammenfassungen mit Risikoeinschätzungen, während technische Teams detaillierte Incident-Listen und Kennzahlen erwarten. Bieten Sie beides – Executive Summary und technischen Anhang.
Daten visualisieren: Nutzen Sie Diagramme, Tabellen und Grafiken, um SLA-Leistungen verständlich darzustellen. SLA-Entwicklungskurven, Zeitachsen für Ausfälle und Aufschlüsselungen nach Schweregrad helfen dabei, Trends schnell zu erfassen.
Fortschritte hervorheben: Zeigen Sie nicht nur aktuelle Leistungswerte, sondern auch Entwicklungen. Nennen Sie Initiativen wie verbessertes Monitoring oder neue Eskalationsprozesse, die zur SLA-Verbesserung beitragen.
Vergleiche mit Kontext: Wo möglich, zeigen Sie Benchmarks, zum Beispiel im Vergleich zum Branchendurchschnitt oder zu früheren Zeiträumen: „Während der Branchendurchschnitt für die Lösung kritischer Incidents bei 3 Stunden liegt, liegen wir bei 2,5 Stunden.“
Review-Meetings planen: Ergänzen Sie wichtige SLA-Berichte durch optionale Review-Calls oder Meetings. Der persönliche Austausch ermöglicht Rückfragen, Feedback – und stärkt die Kundenbeziehung.
.png)
Wie geht es nun weiter?
Dieser Leitfaden wurde entwickelt, um MSPs eine praxisnahe und strategische Orientierung für den Aufbau eines skalierbaren, professionellen Incident-Management-Prozesses zu geben. Von der Erkennung und Klassifikation bis hin zu Reaktion, Lösung und Berichterstattung zeigen wir die Frameworks, Tools und Best Practices auf, die notwendig sind, um anspruchsvolle SLAs zu erfüllen, Servicequalität zu sichern und Kundenvertrauen zu stärken.
Ganz gleich, ob Sie kleine Unternehmen betreuen oder Enterprise-Infrastrukturen managen – die Fähigkeit, Störungen effizient zu bearbeiten, erlaubt Ihnen, steigende Anforderungen an 24/7-Support zu erfüllen, ohne an Qualität einzubüßen. Sie können die zunehmende Komplexität hybrider Multi-Tenant-Umgebungen meistern und Ihr Geschäft selbstbewusst skalieren – mit Fokus auf Stabilität und Reputation.
Durch den Einsatz strukturierter Workflows, robuster Monitoring- und Eskalationsprozesse und einer betont transparenten Kommunikation können MSPs Ausfallzeiten nicht nur minimieren, sondern sich auch im Wettbewerb differenzieren.
Denn Incident-Management für MSPs bedeutet nicht nur, Probleme zu lösen – sondern Vertrauen aufzubauen, kritische digitale Prozesse abzusichern und die Grundlage für nachhaltigen Geschäftserfolg zu schaffen.
Wenn Sie bereit sind, den nächsten Schritt zur Stärkung Ihrer Incident-Management-Strategie zu gehen, ist unser Incident Management Buyer’s Guide (auf Englisch) der perfekte Ausgangspunkt. Er bietet tiefergehende Einblicke in die Bewertung der richtigen Tools und Kriterien, um Ihre Abläufe zu skalieren und gleichzeitig höchste Servicelevels zu gewährleisten. Ob Sie bestehende Prozesse optimieren oder eine neue Grundlage schaffen – der Guide hilft Ihnen dabei, Lösungen zu wählen, die zu Ihren Wachstumszielen, SLA-Vorgaben und Kundenerwartungen passen.