Wie wir agentische Incident Response aufgebaut haben

KI verändert bereits heute, wie wir Ausfälle erkennen, darauf reagieren und sie beheben. Herkömmliche Workflows zwingen Einsatzkräfte oft dazu, zwischen Dashboards zu wechseln, Protokolle zu durchsuchen und unter Stress über fragmentierte Kanäle zu koordinieren. Dieser reaktive, manuelle Ansatz führt zu langsameren Lösungen, höheren Betriebskosten und Burnout – insbesondere, da IT-Systeme immer komplexer werden.
Bei ilert sprechen wir nicht nur über die Zukunft des Incident-Managements – wir gestalten sie aktiv. Wir haben agentische Incident Response in die Produktion gebracht, um operative Exzellenz zu ermöglichen und gleichzeitig manuelle Arbeit sowie die kognitive Belastung für Bereitschaftsteams zu reduzieren. So haben wir diese Vision Wirklichkeit werden lassen.
Die Grundlage schaffen: Hive und der ilert AI Voice Agent
Unser Weg zur agentischen Incident Response begann mit Architekturentscheidungen, die Flexibilität, Skalierbarkeit und intelligente Aktionen über alle Phasen des Incident Response Lebenszyklus priorisieren.
Hive: Unsere LLM-Orchestrierungsschicht
Hive ist unsere proprietäre Proxy- und Orchestrierungsschicht für Large Language Models (LLMs). Sie ermöglicht intelligente Incident-Zusammenfassungen, kontextbezogene Empfehlungen und erweiterte Workflows in ilert, indem sie mehrere Modellanbieter verwaltet, Workloads optimal verteilt und ein sicheres, konsistentes sowie leistungsstarkes KI-Rückgrat für alle Anwendungsfälle bereitstellt.
Hive erlaubt es uns, neue LLMs nahtlos zu integrieren, Kosten durch die Zuweisung von Aufgaben an das passende Modell zu optimieren und den Datenschutz zu wahren, während gleichzeitig hochgradig kontextuelle Intelligenz in Echtzeit geliefert wird.
AI voice agent für nahtlose Interaktion der Responder
Communication is critical during incidents, especially when responders need to act without being tethered to keyboards. Our AI voice agent enables responders to gather updates or report incidents verbally, integrating into existing call flows as a natural part of the process. It transforms voice interactions into structured, actionable alerts while synthesising updates from diverse data sources, bridging human intuition with automated data-driven action.
Kommunikation ist während Incidents entscheidend – besonders, wenn Responder handeln müssen, ohne an Tastaturen gebunden zu sein. Unser AI Voice Agent ermöglicht es Einsatzkräften, Updates abzurufen oder Incidents verbal zu melden. Er integriert sich in bestehende Anrufabläufe (Call flows) als natürlicher Bestandteil des Prozesses, wandelt Sprachinteraktionen in strukturierte, umsetzbare Alarme um und fasst Informationen aus verschiedenen Datenquellen zusammen. So verbindet er menschliche Intuition mit datengetriebenen, automatisierten Aktionen.
Was ist MCP (Model Context Protocol)?
Das Model Context Protocol (MCP) ist ein dynamisches Echtzeit-Protokoll von Anthropic, das Ihre Daten mit dem ilert Responder verbindet und dabei den reichhaltigen, strukturierten Kontext liefert, den unsere Agents während Incidents benötigen, um intelligent handeln zu können.
Warum haben wir MCP entwickelt?
Traditionelle Integrationen lassen Systeme häufig isoliert, sodass während Incidents manuell Korrelationen zwischen Telemetrie, Logs und Infrastrukturzustand hergestellt werden müssen. MCP beseitigt diese Silos, indem es incident-relevanten Kontext automatisch in Echtzeit aggregiert, strukturiert und überträgt.
Wie funktioniert MCP?
MCP sammelt Daten aus Ihren Monitoring-Systemen, Log-Aggregatoren, Deployment-Pipelines und Infrastrukturumgebungen, verarbeitet sie in einer sicheren, EU-konformen Multi-Tenant-Architektur und liefert nur die erforderlichen Daten an unsere agentischen Responder. Dadurch
- erhält der Agent Echtzeit- und Detailkenntnis über Incidents,
- bleiben Datensicherheit, Isolation und Compliance gewahrt,
- wird manuelle Korrelation und kognitive Belastung in kritischen Momenten reduziert,
- ermöglicht MCP latenzarme, kontextreiche Interaktionen mit dem ilert Responder.
Stellen Sie sich MCP als neuronales Netzwerk vor, das Ihren Observability-Stack, Code-Repos und Ihre Infrastruktur direkt mit unseren KI-Systemen verbindet. So sind Entscheidungen und Vorschläge stets kontextgenau, umsetzbar und relevant.
Die ilert Responder-Pipeline: Vom Alarm zu agentisch vorgeschlagenen Aktionen

Wir haben eine End-to-End-Pipeline entwickelt, die Monitoring-Signale in intelligente, umsetzbare Workflows verwandelt, um die Incident-Auflösung zu beschleunigen.
Event Flow → Alert
Der ilert Event Flow nimmt Monitoring-Signale auf und wendet Ihre Regeln sowie Schwellenwerte an, um Alarme auszulösen, sobald bestimmte Bedingungen erfüllt sind. So werden die richtigen Teams sofort benachrichtigt, ohne unnötigen Lärm.
MCP tritt in Aktion
Direkt nach der Alarmerstellung ruft MCP relevante Telemetriedaten, Logs, aktuelle Deployment-Änderungen und Infrastrukturstatus ab, strukturiert sie und stellt sie dem ilert Responder sicher zur Verfügung. So hat der Responder umfassende Situational Awareness, ohne dass menschliche Beteiligte Kontext zusammensuchen müssen. Dies geschieht durch kontextbewusste Integrationen mit
- Observability-Tools: um Telemetrie- und Zeitreihendaten aus Prometheus und Grafana abzurufen;
- Code-Repositories: um Commit-Historie und Deployment-Metadaten aus GitHub einzusehen;
- Infrastruktur-Umgebungen: um Echtzeit-Status und Konfigurationen aus Kubernetes zu erfassen.
ilert Responder schlägt Aktionen vor

Der ilert Responder nimmt die Daten in Echtzeit auf, korreliert sie und wird so zu einem intelligenten Teilnehmer der Incident Response statt nur zu einem passiven Benachrichtigungssystem. Dank seines tiefen, kontextuellen Verständnisses formuliert der Responder umsetzbare Empfehlungen wie
- Vorschläge zur Grundursachenanalyse (Root Cause),
- Schritt-für-Schritt-Anleitungen zur Behebung,
- Eskalationspfade und Einblicke in Abhängigkeiten.
Diese Vorschläge erscheinen in der ilert-Chat-Oberfläche, sodass Responder Aktionen prüfen, freigeben oder anpassen können, um sie während laufender Incidents sicher auszuführen. Die interaktive Chat-UI entwickelt sich zu einem Command Center, das es Einsatzkräften ermöglicht,
- dynamisch tiefere Einblicke anzufordern,
- direkte Aktionen wie das Skalieren von Kubernetes-Pods auszuführen,
- vorgeschlagene Ursachen und Metriken nahtlos zu vertiefen.
Operative Verbesserungen

Die agentische Incident Response bei ilert liefert greifbare Ergebnisse für Engineering- und Betriebsteams:
- Echtzeit-Log-Korrelation und Root-Cause-Inference, um wahrscheinliche Ursachen innerhalb von Momenten zu identifizieren;
- Diagnostische Zusammenfassungen, die menschenlesbare, umsetzbare Incident-Überblicke bieten;
- Interaktive Q & A in natürlicher Sprache mit dem Agenten für eine schnelle Datenabfrage und kontextuelle Klarheit;
- Umsetzbare Remediation-Vorschläge mit direkten, sicheren Ausführungs-Workflows;
- Automatisierte Postmortems und Zeitachsen, die den manuellen Dokumentationsaufwand nach einem Incident reduzieren.
Durch geringere manuelle Arbeit und schnellere Klarheit verbringen Teams weniger Zeit mit Incident-Management und können sich stärker auf die Bereitstellung zuverlässiger Services konzentrieren.
Zentrale Erkenntnisse und Best Practices
Der Aufbau und Betrieb agentischer Systeme für mission-kritisches Incident-Management bei ilert hat uns Folgendes gelehrt:
- Vertrauen durch Transparenz: Autonome Datenerfassung, Korrelation und sichere, vorab genehmigte Aktionen erfolgen ohne manuelle Schritte und reduzieren die kognitive Last für Responder. Bei höherem Risiko oder geschäftskritischen Aktionen können Teams zusätzliche Freigaben einbauen. Volle Transparenz darüber, was der Agent tut und warum, schafft Vertrauen, ohne die Lösung zu verzögern.
- Schutz vor Halluzinationen: Reichhaltiger, strukturierter und verifizierter Kontext über MCP stellt sicher, dass der Agent mit konsistenten, zuverlässigen Informationen arbeitet und das Risiko ungenauer Vorschläge oder Aktionen deutlich sinkt.
- Performance-Optimierung für geringe Latenz: Incident Response ist zeitkritisch. Durch spekulative Tool-Aufrufe und optimierte Datenpfade stellen wir sicher, dass Erkenntnisse und Aktionen nahezu in Echtzeit generiert werden – entscheidend für eine geringere MTTR.
- Kontinuierliches Lernen: Integrierte Feedback-Schleifen verfeinern die Empfehlungen und Aktionen unseres Agents kontinuierlich, verbessern Genauigkeit und Effektivität mit jedem Incident.
- Sichere autonome Ausführung: Durch klar definierte, kontrollierte Bereiche für automatisierte Behebungen kann der Agent geeignete Korrekturmaßnahmen eigenständig ausführen und so die Lösung beschleunigen, während Betriebssicherheit und Rollback-Fähigkeiten erhalten bleiben.
Fazit: Agentische Incident Response ist bereits Realität
Wir bei ilert sind überzeugt, dass die Ära des manuellen, reaktiven Incident-Managements zu Ende geht und die Vorteile agentischer Automatisierung zu bedeutend sind, um sie aufzuschieben. Wir sind stolz, diese fortschrittlichen Funktionen in die Produktion gebracht zu haben, manuelle Arbeit zu reduzieren, MTTR zu senken und Teams zu befähigen, sich auf das Wesentliche zu konzentrieren: Zuverlässigkeit und Innovation.
Während der ilert Responder bereits die Datenerhebung, Analyse und Empfehlungen zur Störungsbehebung automatisiert, stellt dieses Release nur den ersten Meilenstein dar. Unser nächstes Ziel ist es, dass der ilert Responder klar definierte, risikoarme Incidents – wie fehlerhafte Health Checks oder temporäre Latenzspitzen – vollständig eigenständig löst. Menschliche Responder behalten stets die Kontrolle, doch ein Großteil der routinemäßigen Aufgaben wird entfallen.
Möchten Sie das in Aktion sehen? Entdecken Sie den ilert Responder, nehmen Sie an unserem Beta-Programm teil oder kontaktieren Sie uns für eine persönliche Demo, um agentische Incident Response in Ihren Bereitschaftsworkflow zu integrieren.