ilert AIOps

Eine Plattform für Alarmierung, Rufbereitschaften und Status­seiten.

Managen Sie Rufbereitschaften, reagieren Sie auf Vorfälle und kommunizieren Sie diese über Statusseiten mit einer Software.

Führende Unternehmen vertrauen uns

Highlights

Die Funktionen, die Sie für den Betrieb von Always-On-Services benötigen

Jede Funktion in ilert wurde entwickelt, um Ihnen zu helfen, schneller auf Vorfälle zu reagieren und die Verfügbarkeit zu erhöhen.

Nutzen Sie das Potenzial generativer AI

Verbessern Sie die Kommunikation bei Vorfällen und optimieren Sie die Erstellung von Post Mortems mit ilert AI. ilert AI unterstützt Ihr Unternehmen dabei, schneller auf Vorfälle zu reagieren.

Mehr erfahren
Integrationen

Starten Sie sofort mit unseren Integrationen

ilert stellt mithilfe unserer vorgefertigten Integrationen oder per E-Mail eine nahtlose Verbindung zu Ihren Tools her. Ilert lässt sich in Überwachungs-, Ticketing-, Chat- und Kollaborationstools integrieren.

Transform your Incident Response today - start free trial
Start for free
Kundenstimmen

So erreichen führende Unternehmen mit ilert eine Uptime von 99,9 %

Unternehmen weltweit vertrauen auf ilert, um ihr Incident-Management zu optimieren, die Zuverlässigkeit zu steigern und Ausfallzeiten zu minimieren. Lesen Sie, was unsere Kunden über ihre Erfahrungen mit unserer Plattform sagen.

Bleiben Sie auf dem Laufenden

Neues aus unserem Blog

Produkt

Neue Funktionen: Heartbeat 2.0, Feiertage, Branded Status Page Login und vieles mehr

Erfahren Sie das Neueste über ilert: optimierte Heartbeat-Überwachung, smartere Feiertagseinstellungen, Upgrades für die mobile App, AIOps-Release und erweiterte Integrationen.

Daria Yankevich
Apr 24, 2025 • 5 min read

Willkommen bei den vierteljährlichen Produkt-Updates von ilert! Wenn Sie die Winterausgabe verpasst haben, können Sie sie hier lesen und mehr über diese Themen erfahren: ilert Deployment Events, Call Flow AI Voice Agent, aktualisierte Berichte und mehr.

ilert Heartbeat Monitoring 2.0

Wir möchten Ihnen so viele Quellen wie möglich zur Verfügung stellen, um Alarmierungen an unsere Plattform zu senden. Während unser Integrationskatalog ständig wächst, ist Heartbeat die einzige Überwachungsoption, die in ilert standardmäßig verfügbar ist. Sie hilft dabei, die Konnektivität zwischen den Systemen und Tools der Nutzer und ilert zu überprüfen. Mit dem neuesten Update haben wir diese Funktion deutlich verbessert.

Falls Sie ilert Heartbeat Monitoring noch nicht ausprobiert haben: ein Monitor sendet in regelmäßigen Abständen HTTP-Anfragen – sogenannte Heartbeats – an ein ausgewähltes Ziel und prüft, ob das Signal rechtzeitig ankommt. Bleibt der Heartbeat aus, bedeutet dies, dass etwas nicht in Ordnung ist, und das Überwachungstool löst eine Warnung aus.

Heartbeat-Monitore sind jetzt eine separate Komponente in ilert. Unsere Nutzer werden feststellen, dass die Monitore jetzt in einem separaten Abschnitt der Navigationsleiste zu finden sind. Dies ist nicht nur eine Umstrukturierung: durch diese Änderung verfügen Heartbeat-Monitore jetzt über die gleichen umfangreichen Alarmierungseinstellungen wie andere Drittanbieter-Integrationen in ilert, einschließlich verschiedener Gruppierungs- und Filteroptionen. Um einen neuen Monitor einzurichten, wird zunächst im Punkt „Heartbeat-Monitoring“ ein neuer Monitor erstellt, damit dieser den Dienst im gewählten Intervall anpingt. Anschließend werden im Menüpunkt “Alarmierungsquellen” die Alarmierungs-Einstellungen für den neuen Monitor konfiguriert. Außerdem vereinfacht dieser Ansatz die Verwaltung der Monitore.

Weiterhin können mit dieser Änderung alle Monitore auf eine Alarmierungsquelle abzielen, was bedeutet, dass Sie die Alarmierungseinstellungen für beliebig viele Heartbeat-Monitore vereinheitlichen können. Dies reduziert den Zeitaufwand für Anpassungen erheblich, insbesondere für Teams mit Dutzenden von Heartbeats in ilert.

Die Heartbeat-Überwachung ist in allen ilert-Tarifen enthalten, auch im Free-Tarif. Allerdings können Nutzer jetzt zusätzliche Monitore als Add-on direkt über ihren Account kaufen. Erfahren Sie mehr über das Add-on in der ilert-Preisübersicht.

Alarmierungsquelle “E-Mail” wurde überarbeitet

Die Funktion “E-Mail als Alarmierungsquelle” ist jetzt leistungsfähiger. E-Mails, die an ilert gesendet werden, werden wie Alarmierungen von anderen Überwachungstools behandelt, das heißt alle Einstellungen für Templates, Filterung und dynamisches Routing werden übernommen. Die Schnittstelle wurde ebenfalls verbessert, um die Einrichtung zu vereinfachen. 

Verwaltung von Feiertagen

Verwaltung von Feiertagen n ilert

Die Feiertagsfunktion, die in die Einstellungen für die Supportzeiten integriert ist, macht es einfach, Ausnahmen von Ihrem regulären Support-Zeitplan zu verwalten. Ganz gleich, ob es sich um einen nationalen Feiertag, einen unternehmensweiten freien Tag oder einen anderen unregelmäßigen arbeitsfreien Tag handelt, Sie können ihn berücksichtigen, ohne Ihre Bereitschaftsdienste oder Eskalationsrichtlinien manuell bearbeiten zu müssen. Dies ist ein intelligenter und effizienter Weg, um die Verfügbarkeit Ihres Teams auf dem neuesten Stand zu halten - es sind keine Anpassungen in letzter Minute erforderlich. Sie können die Feiertage entweder manuell in ilert anlegen oder die Liste der Tage aus einer länderspezifischen Liste übernehmen. Lesen Sie weiter in der Schritt-für-Schritt-Anleitung zur Einrichtung von Feiertagen in ilert.

Optimierung der Statusseiten

Live-Updates des Statusseiten-Widgets

Ihre Nutzer müssen die Seite nicht mehr aktualisieren, um die Änderungen im Widget zu sehen. Die Aktualisierung des Widgets erfolgt jetzt automatisch, so dass Ihre Kunden die Aktualisierungen in Echtzeit sehen.

Anmeldung auf der Statusseite mit Branding

Private und zielgruppenspezifische Statusseiten zeigen jetzt das Seitenlogo und das Favicon im Anmeldeformular an. Dies ist eine großartige Möglichkeit für eine reibungslose Nutzererfahrung, die Ihre Markenidentität vollständig widerspiegelt.

Benutzerdefinierte Analysen für Statusseiten

Wenn Sie eine benutzerdefinierte Domain für Ihre Statusseite verwenden, können Sie jetzt externe Analysetools integrieren, um Ihre Besucher besser zu verstehen. Ob Sie nun wissen möchten, woher Ihr Traffic kommt oder wie die Nutzer mit Ihrer Seite interagieren, ilert unterstützt zwei Optionen: Google Analytics und PostHog. Fügen Sie einfach Ihren Tracking-Schlüssel hinzu, um Ihre bevorzugte Plattform zu verbinden und Einblicke in die Leistung und Nutzung Ihrer Statusseite zu erhalten.

Verbesserungen des Call-Flows

ilert-Hotlines können nun Anrufe direkt an externe Supportnummern weiterleiten, auch wenn sie IVR-Menüs verwenden - eine Bestätigung durch die Gegenseite ist nicht erforderlich. Dieses Update gewährleistet eine reibungslose Weiterleitung von Anrufen, ohne dass manuelle Workarounds oder spezielle ilert-Nutzer erforderlich sind. Es ist ein einfacher Weg, Ihre Anrufer mit dem externen Support zu verbinden und gleichzeitig Ihre Arbeitsabläufe sauber und effizient zu halten.

Mit dem neuesten Release können Sie ganz einfach einen Knoten oder den gesamten Teilbaum kopieren oder ihn durch Klicken auf die drei Punkte entfernen. Um den Zweig einzufügen, kopieren Sie ihn einfach, wählen dann eine Stelle, an der Sie ihn einfügen möchten, klicken auf das Plus-Symbol und dann auf „Einfügen“, das als erste verfügbare Aktion im Menü erscheint.

 

Außerdem ist es jetzt einfacher, Call-Flows zu duplizieren. Gehen Sie einfach zu Ihrer Call-Flow-Liste und klicken Sie auf die drei Punkte, um eine Kopie des zuvor erstellten Baums zu erstellen.

 

Weiterhin ist es jetzt einfacher, eine Stimme auszuwählen, die Ihren Call-Flow begleitet. Oben im Call-Flow-Editor finden Sie das Menü für AI-Stimmen. Dort können Sie auch alle Stimmen testen und sich anhören, um die beste Option für Ihr Unternehmen auszuwählen. Die von Ihnen gewählte Stimme wird dann auf den gesamten Call-Flow angewendet.

 

Voicemail ist derzeit auch in den Anrufprotokollen sichtbar. Hinterlassene Nachrichten finden Sie ganz einfach mit Hilfe des Symbols in der Statusspalte.

Verbesserungen bei den Audit-Protokollen

Mit den jüngsten Updates können Sie Protokolle als CSV-Datei herunterladen.

 

Außerdem können Sie von den Detailseiten zu Call-Flows, Eskalationen, Statusseiten, Services, Metriken und anderen Funktionen innerhalb von ilert zu Audit-Protokollen navigieren. Wenn Sie beispielsweise Änderungen bei den Support-Stunden festgestellt haben, können Sie einen bestimmten Support-Dienstplan suchen, indem Sie auf das Symbol mit den drei Punkten auf der rechten Seite des Bildschirms klicken und dann zum Punkt „Zu Audit-Protokollen gehen“ navigieren. Auf diese Weise können Sie Änderungen und Nutzungsverhalten in Ihrem Unternehmen schnell nachverfolgen.

  

Zur Erinnerung: Audit-Protokolle sind für ilert Enterprise-Kunden verfügbar. Sie sind über das Menü „Einstellungen“ (das Zahnradsymbol in der oberen rechten Ecke des ilert-Navigationsfensters) zugänglich. Wenn Sie Audit-Protokolle für Ihr Konto aktivieren möchten, senden Sie uns einfach eine Nachricht an support@ilert.com.

ilert Mobile App

incident management app

Auch wenn der Ton für eine eingehende kritische Benachrichtigung nie sehr angenehm ist, haben wir unser Bestes getan, um dieses Erlebnis für Sie zu verbessern. Es gibt jetzt verschiedene Sound-Optionen, um sicherzustellen, dass Sie nie eine eingehende Benachrichtigung verpassen. Wir haben auch kurze und lange Töne eingeführt, damit Sie etwas auswählen können, das Ihre Aufmerksamkeit erregt, aber keinen Herzinfarkt verursacht.

Die Liste der Störungen in der ilert Mobile App wurde um weitere Filteroptionen erweitert. Sie können nach Diensten, Statusseiten, Status und Zeitrahmen filtern. 

Außerdem wurde die Optik der Alarmierungsliste und der Alarmierungsdetails in der App optimiert. Wir haben die Nutzeroberfläche einfacher gestaltet und bereinigt, um die Navigation im wichtigsten Bereich der Plattform intuitiver zu gestalten. 

Anrufprotokolle - eingehende Telefonanrufe, die Ihre Call-Flows in ilert durchlaufen - sind jetzt auch in der mobilen App sichtbar. Wenn Sie das Call-Flow-Add-on verwenden, finden Sie die Protokolle in der Navigationsleiste, direkt nach dem Abschnitt „Events“. 

Anfragen für Dienstübernahmen werden für 24 Stunden angezeigt, bevor sie in die Rubrik „Vergangene Anfragen“ verschoben werden, um den Nutzern mehr Zeit zu geben, zu reagieren und den Dienst eines Kollegen zu übernehmen. 

Denken Sie auf jeden Fall daran, die ilert Mobile App für Android oder iPhone herunterzuladen.

AIOps ist jetzt nicht mehr in der BETA-Phase 

ilert AIOps ist nicht mehr in der BETA-Phase und kann als Add-on erworben werden. Die Funktionen wurden entwickelt, um die Alarmierungen intelligenter und effizienter zu gestalten, indem die Alarmflut reduziert wird und nur noch relevante Alarmierungen die Teams in Rufbereitschaft erreichen. Ähnliche Alarmierungen werden gruppiert und Duplikate herausgefiltert, damit sich die Teams auf das Wesentliche konzentrieren können. Störungen können schneller erkannt, das Chaos bei Ausfällen durchbrochen und letztlich die Überlastung durch Alarmierungen verringert werden. Lesen Sie in unserem Blog einen detaillierten Überblick darüber, wie die intelligenten Alarmierungsfunktionen von ilert Klarheit und Ruhe in die Reaktion auf Vorfälle bringen.

Die Alarmierungsvorlagen wurden durch neue Felder ergänzt: eventType und alertKey, um die Feinabstimmung der Alarmierungspräferenzen zu erleichtern.

 

Für ilert-Wartungsfenster stehen mehr Optionen für die Benachrichtigungszeit zur Verfügung, so dass Sie Ihre Nutzer und Stakeholder flexibler über die anstehenden Wartungsarbeiten informieren können. Sie können auch überprüfen, wer benachrichtigt werden soll, indem Sie auf „Details anzeigen“ direkt unter der Schaltfläche „Wartungsfenster planen“ klicken.

 

Die Navigation im Menü für die Benachrichtigungsquellen wurde vereinfacht. Sie können Filter setzen, um die gewünschte Anwendung zu finden. Wenn Sie Ihre Anwendung nicht in der Liste finden können, teilen Sie uns einfach den Namen des Tools im Feld unten auf der Seite mit. Wir setzen uns dann mit Ihnen in Verbindung, um weitere Anwendungsfälle zu klären.

Weitere Integrationen

Im ilert-Katalog gibt es nun noch mehr Alarmierungsquellen!

Dash0 - eine KI-gestützte, OpenTelemetry-native Observability-Plattform, die Entwicklern und SREs hilft, Probleme schneller zu beheben, indem sie eine hochwertige Nutzererfahrung für die Untersuchung von Protokollen, Metriken und Traces bietet - alles an einem Ort.

SAP Focused Run - eine fortschrittliche Betriebsplattform, die für große IT-Landschaften entwickelt wurde und Systemüberwachung, Alarmierungen und Analysen für SAP- und Nicht-SAP-Umgebungen in großem Umfang bietet.

IT Conductor - eine patentierte, Cloud-basierte Service-Orchestrierungs- und Automatisierungsplattform zur Überwachung, Verwaltung und Orchestrierung der Unternehmens-IT durch intelligente Automatisierung. Sie bietet eine umfassende SAP-Überwachung, -Verwaltung und -Orchestrierung und rationalisiert das End-to-End-Management der gesamten SAP-Landschaft. 

Die Checkmk-Integration wurde verbessert. Sie verfügt jetzt über eine bidirektionale Option, so dass Nutzer Checkmk-Ereignisse von ilert aus bestätigen, schließen oder kommentieren können. 

Optimierte Cisco Meraki Alarmierungsquellen können nun automatisch die entsprechenden Alarmierungen in ilert lösen. Überprüfen Sie einfach, ob die IDs der Alarmtypen im ilert-Dokumentationsartikel aufgeführt sind

Außerdem haben wir Argo CD in die Liste der ilert Deployment-Integrationen aufgenommen. Argo CD ist ein GitOps-Tool für Kubernetes, das Deployments automatisiert, indem es den gewünschten Status von Git synchronisiert und so konsistente und überprüfbare Releases gewährleistet. Mit der ilert Deployment-Integration für Argo CD können Sie Ihre Deployment-Pipelines in ilert anzeigen und den Kontext von Alerts erweitern.

Insights

Die besten 5 Incident-Response-Plattformen in 2025

PagerDuty- oder OpsGenie-Alternative gesucht? Hier sind die Top 5 Incident-Management-Plattformen 2025 im direkten Vergleich.

Daria Yankevich
Apr 10, 2025 • 5 min read

Eine Incident-Response-Plattform hilft Unternehmen dabei, IT-Störungen schnell und effizient zu behandeln, zu verfolgen und zu lösen. Mit der richtigen Plattform können IT-Teams Ausfallzeiten minimieren, die Auswirkungen von Störungen verringern und insgesamt ihre Reaktionszeiten verbessern.

In diesem Artikel stellen wir die fünf besten Incident-Response-Plattformen für 2025 vor – und helfen Ihnen dabei, die passende Lösung für Ihre Anforderungen zu finden.

Diese Liste ist nicht 100 % objektiv – schließlich bieten wir selbst eine vollständige End-to-End-Plattform für Incident-Management an. Dennoch haben wir uns bemüht, die Bewertung so fair wie möglich zu gestalten. Alle aufgeführten Plattformen sind bewährt, robust und in der Lage, sämtliche operativen Anforderungen zu erfüllen. Wir zeigen außerdem Gemeinsamkeiten und Unterschiede auf, um Ihnen die Orientierung zu erleichtern – selbst wenn Sie sich dann doch nicht für uns entscheiden.

Die wichtigsten Punkte

  • Die Wahl des richtigen Incident-Management-Tools ist entscheidend für eine effektive Reaktion auf IT-Störungen – insbesondere für Unternehmen, die sich mit EU-Regularien und jüngsten Veränderungen wie dem EOL von OpsGenie auseinandersetzen müssen.
  • Zu den wichtigsten Funktionen gehören Multi-Channel-Alarmierung, automatisierte Workflows, anpassbare Eskalationsrichtlinien und leistungsstarke Integrationen in bestehende Systeme.
  • Die führenden Plattformen bieten fortschrittliche Funktionen, die auf unterschiedliche organisatorische Anforderungen zugeschnitten sind. Sie unterscheiden sich jedoch stark in Bezug auf Kosten und Eignung für verschiedene Teamgrößen.

Zentrale Funktionen führender Incident-Response-Plattformen

Bei der Bewertung von Plattformen im Jahr 2025 stechen einige Kernfunktionen besonders hervor. 

Beginnen wir mit der Alarmierung: Eine moderne Plattform muss Multi-Channel-Alerting unterstützen – also Sprachanrufe, SMS, Push-Nachrichten, E-Mail sowie Chat-Tools wie Slack oder Microsoft Teams – und eine vollständig interaktive Nutzererfahrung bieten, ohne dass sich Nutzer einloggen oder die App wechseln müssen.

Die Reaktionszeit ist entscheidend – und je reibungsloser der erste Schritt verläuft, desto eher lässt sich ein größerer Ausfall vermeiden. Fortgeschrittene Funktionen wie Deduplizierung von Alarmierungen, intelligente Gruppierung, Vermeidung von Alarmflut durch Filterregeln und wiederverwendbare Templates helfen dabei, Überlastung und Abstumpfung (Alert Fatigue) zu reduzieren, indem nur relevante und priorisierte Meldungen durchkommen.

Ein weiterer wichtiger Aspekt ist die Verwaltung von Dienstbereitschaften. Plattformen sollten automatisierte Dienstpläne mit Unterstützung für Rotationen, Ausnahmen und Übergaben bieten – sowie vollständig anpassbare Eskalationsrichtlinien. So wird sichergestellt, dass die richtige Person je nach Priorität, Tageszeit oder anderen Bedingungen informiert wird. Die Benutzeroberfläche sollte für alle Teammitglieder einfach zu bedienen sein.

Integrationsfähigkeit ist entscheidend, um den Incident-Response-Prozess nahtlos in das vorhandene Tool-Set einzubetten. Führende Plattformen bieten native Integrationen mit Monitoring- und Observability-Tools (z. B. Prometheus, Datadog, PRTG), Log-Aggregatoren (z. B. Loki), ITSM-Tools (z. B. ServiceNow, Jira Service Management) und CI/CD-Systemen (z. B. GitHub, GitLab).

Auch Statusseiten sind ein wertvolles Feature: Sie ermöglichen bei Störungen eine transparente Kommunikation mit Nutzern und Beteiligten, reduzieren die Anzahl an Supportanfragen und stärken das Vertrauen der Nutzer in das Unternehmen.

Nicht zuletzt ist die Nachbearbeitung von Störungen ein Muss. Plattformen sollten die Erstellung von Postmortems automatisieren – durch die Erfassung von Timelines, Chatverläufen, Alarmierungen und der Schritte, die zur Lösung der Störung unternommen wurden. Das reduziert nicht nur administrativen Aufwand, sondern ermöglicht auch eine effektive Ursachenanalyse und eine kontinuierliche Verbesserung der Performance.

Kurz gesagt: Eine moderne Incident-Management-Plattform sollte als zentrales Steuerungselement fungieren – perfekt in das Tool-Set integriert, nach Möglichkeit automatisiert und als Hilfsmittel dafür, dass die Beteiligten sich auf die wichtigsten Entscheidungen konzentrieren können.

ilert: die All-in-One-Lösung für Incident-Management aus Europa

ilert ist eine moderne, in Europa entwickelte Plattform für Incident-Management, die End-to-End-Workflows bietet – mit leistungsstarken Alarmierungstools, Planung von Dienstbereitschaften, Automatisierung und Statuskommunikation in einer einzigen Lösung.

Mit einer 100 % interaktiven Multi-Channel-Alarmierung (SMS, Anruf, Push, E-Mail, Slack, MS Teams), ermöglicht ilert eine schnelle Reaktion und ein nahtloses On-Call-Erlebnis.

Die intelligente Behandlung von Alarmierungen beinhaltet KI-gestützte Deduplizierung, Gruppierung, dynamisches Routing, flexible Templates und über 100 Integrationen mit Tools wie Prometheus, Zabbix, Grafana, Datadog und AWS CloudWatch. Die intuitive Bereitschaftsplanung unterstützt Rotationen, Ausnahmen und Eskalationsrichtlinien – alles konfigurierbar per Web-UI oder Mobile App.

Das erweiterte Call-Routing von ilert fungiert als smarte Hotline mit mehrsprachigem IVR, KI-Sprachagent, PIN-Schutz, Blocklist-Handling und Voicemail-Fallback – ideal für Operations-Teams und MSPs.

Integrierte Statusseiten (öffentlich, privat oder zielgruppenspezifisch) ermöglichen eine transparente Echtzeitkommunikation bei Störungen und entlasten den Support. Im Gegensatz zu Standalone-Lösungen sind sie nativ integriert – für maximale Automatisierung und Konsistenz.

Als deutsches Unternehmen ist ilert DSGVO-konform und bietet EU-Datenresidenz – eine sichere Wahl für datenschutzsensible Organisationen. Besonders nach dem EOL von Opsgenie ist ilert eine moderne, agile und kundennahe Alternative zu PagerDuty und Opsgenie.

Zu den Kunden gehören u. a. IKEA, Lufthansa Systems, Adesso und NTT Data.

ilert unterstützt vielfältige Anwendungsfälle – von DevOps und SecOps bis hin zu Industrieanwendungen – und punktet vor allem bei MSPs und IT-Dienstleistern mit Funktionen wie Multi-Tenant-Support, benutzerdefiniertem Routing und SLA-zentriertem Design.

PagerDuty: Der Veteran im Incident-Management

PagerDuty gilt seit Langem als Pionier im Bereich Incident-Management. Seit der Gründung im Jahr 2009 hat sich die Plattform zu einer umfassenden Lösung entwickelt – primär für DevOps- und SRE-Teams in großen, komplexen Umgebungen. Sie bietet einen ausgereiften Funktionsumfang, darunter Multi-Channel-Alarmierung, Planung von Bereitschaftsdiensten, Eskalationsrichtlinien und Echtzeit-Tracking von Störungen.

Eine der großen Stärken von PagerDuty ist das umfangreiche Integrations-Ökosystem: die Lösung unterstützt eine große Anzahl Tools wie Datadog, New Relic, AWS CloudWatch, Splunk und viele mehr. Zudem nutzt PagerDuty Event Intelligence: Mit Hilfe von Machine Learning werden irrelevante Alarmierungen unterdrückt, zusammengehörige Ereignisse korreliert und Störungen priorisiert – was Teams hilft, sich auf das Wesentliche zu konzentrieren.

Für große Unternehmen bietet PagerDuty zusätzliche Features wie Runbook Automation, Service Graphs und Business Impact Metrics, um Abhängigkeiten zu verwalten, Auswirkungen besser einzuschätzen und technische Vorgänge mit geschäftlichen Zielen abzugleichen.

Allerdings hat dieser große Funktionsumfang auch seinen Preis: Viele Teams – insbesondere in mittelgroßen Unternehmen oder mit einfacheren Anforderungen – empfinden PagerDuty als überladen und komplex, mit einer steilen Lernkurve und einem Preismodell, das bei wachsendem Team schnell teuer wird.

Kurz: PagerDuty ist und bleibt eine leistungsfähige und bewährte Plattform – besonders für große Unternehmen mit hohem Automatisierungs- und Integrationsbedarf. Doch für Teams, die eine agilere, kosteneffizientere und datenschutzkonforme Lösung suchen – vor allem in Europa – gibt es inzwischen moderne Alternativen, die besser zu aktuellen Anforderungen passen.


PagerDuty-Alternative gesucht? Schauen Sie sich den Vergleich zwischen PagerDuty und ilert an.

xMatters: Fortschrittliche Workflow-Automatisierung

xMatters ist ein etablierter Anbieter im Bereich Incident-Management mit einem starken Fokus auf Workflow-Automatisierung und ereignisgesteuerte Orchestrierung. Die Plattform richtet sich an DevOps-, ITOps- und Business-Continuity-Teams und ermöglicht es, individuelle Workflows zu erstellen, die Monitoring-Systeme, Benachrichtigungskanäle, Ticketing-Tools und mehr miteinander verbinden – alles über eine Low-Code-Oberfläche.

Zu den Incident-Response-Funktionen von xMatters gehören Multi-Channel-Alarmierung, Bereitschaftsplanung, Eskalationen und automatisierte Reaktionen. Das Besondere an xMatters ist die Möglichkeit, Workflows zu definieren, die bei bestimmten Bedingungen automatisch ausgelöst werden.

Allerdings kann xMatters den Eindruck vermitteln, dass es sich mehr auf die Prozessautomatisierung als auf die praktische, anwenderfreundliche Behebung von Störungen konzentriert.

IT-Teams, die eine intuitive UI und eine enge Verzahnung mit modernen DevOps-Prozessen suchen, könnten es als weniger direkt empfinden als alternative Lösungen wie ilert oder PagerDuty. Auch die Benutzeroberfläche und die Einrichtung gelten als komplex – insbesondere für kleinere Teams ohne dedizierte Experten für das Setup von Tools.

Für Unternehmen mit starkem Fokus auf ITSM und Prozessautomatisierung ist xMatters dennoch eine leistungsstarke und individuell anpassbare Lösung – für reine Incident-Response jedoch manchmal überdimensioniert.

Grafana IRM: Integriertes Incident-Management für das Grafana-Ökosystem

Grafana IRM (Incident Response & Management) ist die neue integrierte Lösung von Grafana Labs, die Grafana OnCall und Grafana Incident zu einer einzigen cloudbasierten Plattform vereint. Sie wurde speziell für IT-Teams entwickelt, die bereits auf Grafana Cloud für Observability setzen. Die Plattform deckt den gesamten Lebenszyklus einer Störung ab – von der Erkennung bis zur Behebung.

Ein wesentlicher Vorteil liegt in der nahtlosen Integration mit Tools wie Loki, Tempo und Prometheus. IT-Teams können Störungen direkt über ihre Dashboards erstellen, verfolgen und beheben – ohne zwischen Tools wechseln zu müssen. Die Plattform bietet integrierte Dienstplan-Verwaltung, Eskalationen, Incident-Tracking und anpassbare Workflows zur Steuerung von Benachrichtigungen, Eskalationen und Postmortems. Alle Beteiligten werden dabei stets über native Benachrichtigungen informiert.

Für Teams, die bereits mit Grafana Cloud arbeiten, bietet IRM Komfort und Geschwindigkeit. Es reduziert die Anzahl der Tools, verringert die Komplexität der Einbindung und sorgt dafür, dass die Reaktion auf Störungen eng mit der Überwachung und Protokollierung verknüpft bleibt. Der Einstieg ist unkompliziert, das Setup schnell erledigt – ideal für schlanke Incident-Prozesse.


Allerdings ist die Plattform stark an die Grafana Cloud gebunden. Wer hybride oder nicht-Grafana-Stacks nutzt, stößt schnell an Grenzen. Auch fortgeschrittene Features wie KI-gestützte Deduplizierung, Sprach-Routing oder Mandantenfähigkeit fehlen – Funktionen, die dedizierte Plattformen wie ilert oder PagerDuty besser abdecken.

Grafana IRM ist der offizielle Nachfolger von Grafana OnCall, das sich seit März 2025 im Wartungsmodus befindet.

Kurzum: Eine starke Lösung für Grafana-Nutzer – aber eher Ergänzung als Ersatz für komplexe oder heterogene Umgebungen.

OpsGenie: Die Lösung für Nutzer von Jira-Service-Management

Opsgenie war lange Zeit eine beliebte Lösung für Alarmierung und Dienstbereitschaft – insbesondere im Atlassian-Kontext. Mit einer übersichtlichen Benutzeroberfläche, zuverlässiger Alarmierungs-Logik und enger Integration mit Jira und Confluence war Opsgenie ideal für viele DevOps- und IT-Teams, die bereits Atlassian-Produkte nutzen.

Die Plattform bot klassische Funktionen wie On-Call-Planung, Multi-Channel-Alarmierung, Eskalationen und Integrationen mit Monitoring-Tools wie Datadog und Prometheus. Durch anpassbare Alarmierungen und Störungs-Timelines ließ sich der gesamte Incident-Response-Prozess gut nachvollziehen – inklusive Slack-Unterstützung für Team-Kommunikation.

Allerdings wird Opsgenie eingestellt und vollständig in Jira Service Management (JSM) überführt. Dieser Schritt bringt Herausforderungen für Teams mit sich, die Opsgenie bisher als schlanke, eigenständige Lösung genutzt haben. Die enge Verzahnung mit JSM erhöht die Komplexität und passt nicht zu allen agilen DevOps-Workflows.

Daher suchen viele Unternehmen nach gleich zuverlässigen Alternativen – aber mit besserem Support, einer klaren Roadmap und höherer Flexibilität. Plattformen wie ilert bieten nicht nur einfache Migrationspfade, sondern auch DSGVO-Konformität, bessere Automatisierung und modernere On-Call-Funktionen.


Für Unternehmen, die ohnehin auf JSM setzen, bleibt Opsgenie (bzw. sein Nachfolger) dennoch eine sinnvolle Option – allerdings zunehmend als Bestandteil einer größeren ITSM-Suite.

Fazit

Die Wahl der richtigen Incident-Response-Plattform ist entscheidend für eine zuverlässige Leistung und schnelle Reaktion bei Störungen. Jede der in diesem Beitrag vorgestellten Plattformen hat ihre individuellen Stärken – passend für unterschiedliche Teamgrößen, Branchen und Anforderungen.

Ob Sie nun eine hochintegrierte Enterprise-Lösung suchen oder eine agile, datenschutzfreundliche Alternative – mit der richtigen Plattform stellen Sie die Weichen für ein effizientes und modernes Incident-Management.

Produkt

Postmortem-Vorlage zur Optimierung Ihrer Incident Response

Entdecken Sie die wichtigen Elemente einer Postmortem-Vorlage und laden Sie ein kostenloses Template für ein besseres Incident Management herunter.

Marko Simon
Apr 01, 2025 • 5 min read
Download postmortem template

Eine Postmortem-Vorlage ist eine strukturierte Hilfe zur Dokumentation von Incidents, zur Analyse ihrer Ursachen und zur Ableitung von Maßnahmen zur Prävention. In diesem Artikel stellen wir die Schlüsselelemente eines effektiven Postmortems vor und zeigen, wie ilert diesen Prozess optimiert und ihre Incident Response effizienter gestaltet. Zusätzlich bieten wir eine herunterladbare Postmortem-Vorlage an – ideal, wenn Sie noch keine Incident Management Plattform in Ihrem Unternehmen einsetzen.

Wichtige Erkenntnisse

  • Postmortem-Vorlagen verwandeln Incidents in wertvolle Lernchancen, indem sie Schwachstellen aufdecken und künftige Reaktionen verbessern.
  • Postmortems dienen sowohl der teaminternen Verbesserung als auch der transparenten Kommunikation mit Stakeholdern.
  • Zentrale Bestandteile eines guten Postmortems sind Incident-Timeline, Auswirkungen, Gegenmaßnahmen und Root Cause Analysis.
  • ilert automatisiert die Datenerhebung und fördert eine blameless Postmortem-Kultur, die Lernen statt Schuldzuweisung priorisiert.

Warum Postmortems im Incident Management unverzichtbar sind

Postmortems sind weit mehr als nur Dokumente – sie sind Blaupausen für kontinuierliche Verbesserung. Die strukturierte Dokumentation hilft dabei, Systemschwachstellen zu erkennen und künftige Incidents effizienter zu bewältigen. Neben der akuten Problemlösung schaffen Postmortems eine Wissensbasis für zukünftige Vorfälle.

Stellt euch die typische Incident-Situation vor: Systeme fallen aus, User sind betroffen, und die Zeit läuft. Wenn sich der Staub gelegt hat, hilft euch eine gut strukturierte Postmortem-Vorlage dabei, das Chaos zu analysieren. Schritt für Schritt zeigt sie auf, was passiert ist, warum es passiert ist und wie man solche Vorfälle künftig verhindern kann. So wird aus einem negativen Ereignis eine wertvolle Lernerfahrung.

Ein standardisierter Postmortem-Prozess stellt außerdem sicher, dass jedes Incident gründlich analysiert wird. So lassen sich Muster und wiederkehrende Probleme erkennen – ein wichtiger Hebel für proaktives Incident Management.

Wichtige Elemente einer effektiven Postmortem-Vorlage

Eine gute Postmortem-Vorlage beginnt mit einem klaren Titel und einer kurzen Einleitung, die den Incident zusammenfasst. So erhält der Leser sofort den nötigen Kontext.

Darauf folgt die Incident-Timeline – eine chronologische Darstellung der Ereignisse inklusive Zeitstempel. Diese hilft, den Ablauf und auslösende Faktoren nachzuvollziehen.

Der Abschnitt "Auswirkungen und Schadensbegrenzung" beschreibt die Auswirkungen des Incidents auf die User und dokumentiert die umgehend ergriffenen Maßnahmen zur Schadensbegrenzung. Er verdeutlicht die reale Tragweite des Vorfalls und wie effektiv das Team darauf reagiert hat.

Das Herzstück jedes Postmortems sind die Ursachenanalyse und die gewonnenen Erkenntnisse. Durch die Identifikation der eigentlichen Ursache können präventive Maßnahmen eingeleitet werden. Die “Lessons Learned” zeigen, was gut funktioniert hat – und was nicht – und stärken die Lernkultur im Team.

Ein einheitliches Format erleichtert nicht nur die Analyse, sondern auch die langfristige Verbesserung des Incident Managements. Regelmäßige Aktualisierungen der Vorlage auf Basis von Feedback erhöhen ihre Wirksamkeit. Eine gute Postmortem-Vorlage ist also kein statisches Dokument, sondern ein dynamisches Tool für kontinuierliches Lernen.

Die integrierte Postmortem-Funktion von ilert

ilert nimmt euch den Aufwand der Postmortem-Erstellung ab. Die Plattform sammelt automatisch Daten aus incident-relevanten Kommunikationskanälen und Status-Updates. Das spart wertvolle Zeit und Ressourcen direkt nach einem Vorfall.

Dank Integration mit Slack und Microsoft Teams kann ilert automatisch Alerts und relevante Nachrichten aus verknüpften Channels zusammenstellen. Ihr müsst also keine Chatverläufe manuell durchforsten.

Nach Erstellung erhält das Dokument den Status „erstellt“. Es kann als Markdown oder Rohtext bearbeitet werden – ideal zur Feinabstimmung vor dem Teilen mit Stakeholdern.

Postmortems lassen sich direkt mit Incidents verknüpfen und auf entsprechenden Statusseiten veröffentlichen. So bleibt das gesamte Team auf dem gleichen Stand. ilert verschlankt den gesamten Prozess, damit ihr euch auf Ursachenanalyse und kontinuierliche Verbesserung konzentrieren könnt.

Beispiel-Incident und Postmortem-Erstellung mit ilert

Stellen wir uns das folgende Szenario vor, um Ihnen ilert in Aktion zu zeigen und die Struktur des Postmortem-Prozesses besser zu verstehen.

Szenario eines Vorfalls

Company XY ist ein Webhosting-Anbieter und nutzt einen Cloud Provider zur Auslieferung der Websites seiner Kunden. Bei einem Ausfall des Providers werden sie automatisch benachrichtigt.

Am späten Nachmittag lösen mehrere Alerts in ilert aus – einige Websites von Kunden sind nicht erreichbar. Etwa die Hälfte der Kunden ist betroffen. Der Responder eskaliert das Problem und erstellt einen Incident. Gregory setzt den Status auf „Investigating“, was sofort auf der Status Page erscheint. Nach der Identifikation der Ursache wird der Status auf „Identified“ gesetzt. Francesca übernimmt, holt Infos vom Provider ein und stellt auf „Monitoring“. Nach 1,5 Stunden wird der Incident behoben, der Status wechselt auf „Resolved“.

(Falls euch die Unterscheidung zwischen Alerts und Incidents unklar ist: Alerts sind technische Signale aus Monitoring-Tools, während Incidents tatsächliche Störungen mit Auswirkungen auf User darstellen und kommuniziert werden müssen.)

Postmortem creation with ilert
Das Team erhält Alarme und kommuniziert über die Incident-Management-Plattform von ilert.
Incident creation in ilert
Ein Incident wird in ilert erstellt.
How to create a postmortem automatically
Der Incident wird behoben.
Generate postmortem using ilert AI
Automatische Postmortem-Erstellung mit ilert KI.
Postmortem template from ilert
Eine Vorschau des mit ilert KI erstellten Postmortem-Dokuments.

Automatisierte Postmortem-Erstellung

Nach Behebung des Vorfalls erstellt das Engineering-Team einen Postmortem-Report. ilert analysiert alle verfügbaren Daten – Alerts, Logs, Nachrichten, Status Updates – und erstellt ein klares, strukturiertes Dokument.

Alle Postmortems werden in ilert gespeichert, können aber auch als Textdatei heruntergeladen werden.

# [00000 Partial data center outage causing some websites to be down.](https://test.ilert.com/incidents/view?id=000)
Generated by Francesca Sala on 18.03.2025 17:40.
All timestamps are local to Europe/Berlin.

# Post-Mortem Document

## Incident Timeline

### March 18, 2025
- **14:26:24.109Z**: Received event from alert source indicating website thernos.com is down.
- **14:26:25.426Z**: Francesca Sala notified via email.
- **14:26:25.437Z**: Gregory George notified via email.
- **14:26:24.129Z**: Assigned to Gregory George.
- **14:27:06.664Z**: Accepted by Gregory George.
- **14:33:52.317Z**: Gregory George linked incident 'Partial data center outage causing some websites to be down' to this alert.
- **14:36:46.682Z**: Gregory George changed linked incident status to Identified.
- **14:59:00.145Z**: Gregory George added a comment regarding an email from Thernos asking for an estimate on website restoration.
- **15:00:28.502Z**: Francesca Sala added a comment indicating the provider is restarting affected regions.
- **15:09:21.785Z**: Francesca Sala changed linked incident status to Monitoring.
- **16:03:51.741Z**: Francesca Sala changed linked incident status to Resolved.
- **16:06:36.737Z**: Francesca Sala added a comment indicating the incident is resolved and the website is online again.
- **16:06:36.737Z**: Incident resolved by Francesca Sala.

### March 18, 2025 (Additional Alerts)
- **14:26:30.692Z**: Received event from alert source indicating website akisp.com is down.
- **14:26:31.884Z**: Francesca Sala notified via email.
- **14:26:31.887Z**: Gregory George notified via email.
- **14:26:30.705Z**: Assigned to Gregory George.
- **14:27:06.640Z**: Accepted by Gregory George.
- **14:33:48.699Z**: Gregory George linked incident 'Partial data center outage causing some websites to be down' to this alert.
- **14:36:46.699Z**: Gregory George changed linked incident status to Identified.
- **15:09:21.813Z**: Francesca Sala changed linked incident status to Monitoring.
- **16:03:51.770Z**: Francesca Sala changed linked incident status to Resolved.
- **16:06:36.524Z**: Francesca Sala added a comment indicating the incident is resolved and the website is online again.
- **16:06:36.524Z**: Incident resolved by Francesca Sala.

### March 18, 2025 (Additional Alerts)
- **14:26:36.713Z**: Received event from alert source indicating website kontore.com is down.
- **14:26:37.916Z**: Gregory George notified via email.
- **14:26:37.923Z**: Francesca Sala notified via email.
- **14:26:36.737Z**: Assigned to Gregory George.
- **14:27:06.602Z**: Accepted by Gregory George.
- **14:33:08.523Z**: Gregory George linked incident 'Partial data center outage causing some websites to be down' to this alert.
- **14:36:46.716Z**: Gregory George changed linked incident status to Identified.
- **15:09:21.837Z**: Francesca Sala changed linked incident status to Monitoring.
- **16:03:51.802Z**: Francesca Sala changed linked incident status to Resolved.
- **16:06:36.209Z**: Francesca Sala added a comment indicating the incident is resolved and the website is online again.
- **16:06:36.209Z**: Incident resolved by Francesca Sala.

## Impact

The incident caused a partial outage in one of our data centers, affecting the availability of several customer websites, including Thernos, Akisp, and Kontore. Approximately half of our hosted sites were down, leading to customer inquiries and potential business disruptions. The affected websites experienced degraded performance and were unreachable for a period of time, causing inconvenience to users and potentially impacting business operations for the affected customers.

## Root Cause Analysis

The root cause of the incident was identified as an issue with our data center provider. The provider experienced an outage in one of their data centers, which led to the unavailability of several hosted websites. The provider worked on resolving the issue by restarting the affected regions, which eventually restored the services.

## Action Items

1. **Monitoring Provider Status**: Francesca Sala will continue to monitor the cloud provider's status page for updates during incidents.
2. **Customer Communication**: Gregory George will draft and update the status page to keep customers informed during incidents.
3. **Incident Documentation**: Francesca Sala will create and share a post-mortem document after the incident is resolved.

This post-mortem document provides a detailed account of the incident, its impact, root cause, and the actions taken to prevent recurrence.

Verwenden Sie ilert oder laden Sie eine Postmortem-Vorlage herunter und füllen Sie sie manuell aus

Basierend auf dem oben beschriebenen Beispiel stellen wir eine Google Docs-Vorlage zur Verfügung. Falls ihr ilert noch nicht nutzt, könnt ihr damit dennoch einen strukturierten Postmortem-Prozess etablieren. Auch wenn die manuelle Erstellung mehr Zeit kostet, ist sie ein erster wichtiger Schritt für systematisches Lernen nach Incidents.

Lade eine Postmortem-Vorlage herunter.

Ein paar Worte zur “Blameless Culture”

Ein “blameless” Postmortem konzentriert sich auf gemeinsame Erkenntnisse, nicht auf Schuldzuweisungen. Das schafft ein unterstützendes Umfeld, in dem Teammitglieder offen und ehrlich reflektieren können. Statt „Wer?“ stehen Fragen wie „Was?“ und „Wie?“ im Fokus.

Solche Fragen fördern eine Growth-Mindset-Kultur und machen Verbesserungen möglich. Eine „Keine Schuldzuweisung“-Regel während des Postmortems hält den Fokus auf Prozessen – nicht auf Personen.

ilert AI hilft zusätzlich mit datengestützten, objektiven Bewertungen von Incidents – frei von persönlichen Verzerrungen. So stärkt ihr eine Lernkultur, in der Fehler als Wachstumschancen verstanden werden.

Typische Fehler bei der Postmortem-Erstellung vermeiden

Um den Wert Ihrer Postmortems zu maximieren, sollten Sie diese häufigen Fehler vermeiden – sortiert nach ihrem Einfluss auf langfristiges Lernen und operative Resilienz:

Keine Musteranalyse über mehrere Incidents hinweg

  • Wenn jeder Incident isoliert betrachtet wird, bleiben wiederkehrende Probleme oft unentdeckt.
  • Überprüft regelmäßig mehrere Postmortems, um Muster, systemische Schwächen oder Prozesslücken zu erkennen.
  • Nutzt diese Erkenntnisse für übergreifende Verbesserungen und um ähnliche Incidents in Zukunft zu vermeiden.

Fehlende Nachverfolgung von Maßnahmen

  • Erkenntnisse sind wertlos ohne Umsetzung. Wenn Postmortem-Maßnahmen nicht abgeschlossen werden, werden sich Vorfälle wahrscheinlich wiederholen.
  • Weist jeder Maßnahme Verantwortliche und Fälligkeiten zu und verfolgt den Fortschritt konsequent.

Verwendung einer generischen Vorlage

  • Eine Postmortem-Vorlage nach dem Motto „one-size-fits-all“ lässt oft wichtige, incidentspezifische Details aus.
  • Passen Sie Ihre Vorlagen an und stellen Sie sicher, dass alle relevanten Informationen enthalten sind – z. B. Zeitachse, Auswirkungen, beitragende Faktoren und Schritte zur Behebung.

Keine “blameless” Kultur

  • Wenn sich Menschen beschuldigt fühlen, teilen sie ihre Erkenntnisse weniger offen.
  • Fördert eine Kultur der psychologischen Sicherheit und des Lernens – nicht der Schuldzuweisung.

Unklare oder unkonkrete Rückmeldungen

  • Feedback ohne Klarheit oder Handlungsbezug führt selten zu echten Verbesserungen.
  • Ermutigt zu spezifischem, konstruktivem Feedback, das auf konkrete Verbesserungen hinweist.

Schlechte Kommunikation mit Stakeholdern

  • Wenn Postmortems nicht mit relevanten Stakeholdern geteilt werden, geht wertvolles organisationales Lernen verloren.
  • Teilen Sie Ihre Erkenntnisse proaktiv mit den betroffenen Teams, der Führungsebene und anderen relevanten Beteiligten, um alle auf dem gleichen Stand zu halten.

Fazit

Postmortem-Vorlagen sind unverzichtbar, um aus Incidents zu lernen. Sie helfen Teams, Schwachstellen im System aufzudecken, Reaktionsstrategien zu verbessern und eine Kultur der kontinuierlichen Verbesserung zu etablieren.

Mit den integrierten Features und der AI-Unterstützung von ilert wird der Postmortem-Prozess deutlich effizienter. Ein strukturierter, blameless Ansatz hilft euch dabei, Incidents als Chancen für Wachstum und nachhaltige Verbesserung zu nutzen.

FAQ

Wofür ist ilert AI bei der Postmortem-Erstellung nützlich?

Sie beschleunigt den letzten Schritt der Incident Response und erlaubt euch, euch aufs Wesentliche zu konzentrieren – die Analyse statt Papierkram.

Was passiert, nachdem ein Incident den Status „Resolved“ erreicht?

Alle relevanten Infos werden gesammelt und dokumentiert, um sicherzustellen, dass alle Beteiligten auf dem gleichen Stand sind. ilert-Nutzer:innen überspringen den manuellen Teil und widmen sich direkt den Diskussionen und Aktions-Items.

Welche Informationen berücksichtigt ilert AI bei der Postmortem-Erstellung?

ilert AI berücksichtigt Incident-Kontext wie Verlauf, Slack/Microsoft Teams-Nachrichten, Abonnenten, betroffene Services, involvierte User und alle zugehörigen Alerts.

Wie können relevante Nachrichten aus Chat-Tools ins Postmortem übernommen werden?

Durch Verknüpfung Ihrer Slack- oder Microsoft Teams-Channels – der ilert Bot scannt sie automatisch. Alternativ könnt ihr Nachrichten manuell einfügen oder kopieren.

Alle entdecken
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Unsere Cookie-Richtlinie
Wir verwenden Cookies, um Ihre Erfahrung zu verbessern, den Seitenverkehr zu verbessern und für Marketingzwecke. Erfahren Sie mehr in unserem Datenschutzrichtlinie.
Open Preferences
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.