Neue Funktionen: AI SRE, Alerts zusammenführen und Statusseiten für tausende Services

Während sich die Feiertage nähern, macht das ilert Team genau das Gegenteil von langsamer werden – wir legen noch einen Gang zu. In den vergangenen Wochen haben wir eine Welle wirkungsvoller Verbesserungen in den Bereichen Alarmierung, KI-gestützte Automatisierung, Mobile App und Statusseiten ausgeliefert. Von großen Upgrades, die verändern, wie Teams Incidents triagieren, bis zu kleinen Verfeinerungen, die tägliche Reibung entfernen – dieses Release ist vollgepackt mit Updates, die Bereitschaftsdienst und Betrieb reibungsloser, smarter und schneller machen. Legen wir los.
AI SRE: Ihr kompetenter Incident-Buddy
Sie erinnern sich wahrscheinlich an unsere Ankündigung von ilert Responder – ilerts ersten intelligenten Agenten, der während Incidents umsetzbare Einblicke liefert. In den letzten Monaten haben wir deutlich mehr Funktionen, leistungsfähigere Agenten und Fähigkeiten eingeführt, die nun alle unter ilert AI SRE zusammengefasst sind. Was genau hat sich geändert?
Wie die vorherige Version kann ilert AI SRE Logs analysieren, Metriken korrelieren, jüngste Code-Änderungen prüfen und Ihnen und Ihrem Team empfohlene Maßnahmen zur Lösung des Incidents vorschlagen. Darüber hinaus können ilert Agenten nun – sofern Sie die Erlaubnis erteilen – auch autonom handeln.
Auch wenn es zunächst gewagt klingen mag, einer AI Zugriff auf eine Produktionsumgebung zu geben, werden Sie überrascht sein, wie viele Probleme eher manuelle, schnelle Fixes erfordern als große intellektuelle Analysen. Um die Last durch manulle Aufgaben mitten in der Nacht zu reduzieren und mehr wertvolle Zeit für nachhaltige langfristige Lösungen zu gewinnen, können Sie AI SRE schrittweise mehr Zugriff geben und automatische Aktionen wie Rollbacks auf die letzte stabile Version oder das Neustarten eines Services aktivieren. Damit Sie verschiedene Level agentischer Autonomie leichter erkennen, haben wir drei Stufen in unserem Agentic Incident Management Guide eingeführt.

Hinter den Kulissen wird ilert AI SRE deshalb nützlich, weil es sich tief in Ihre bestehenden Monitoring-, Observability- und Deployment-Tools integriert. Das bedeutet: Sie müssen Ihren Stack nicht ändern – Sie verbinden Ihre vorhandenen Tools und lassen den Agenten übergreifend damit arbeiten. Alles beginnt mit Deployment events, denn sie ermöglichen dem Agenten, Alarme mit jüngsten Code-Änderungen und Rollouts zu korrelieren – oft entscheidende Signale zur Identifikation von Root Causes. Wenn Sie das noch nicht getan haben, empfehlen wir Ihnen den Artikel dazu, wie Sie Ihre CI- und CD-Pipelines mit ilert verbinden.
Als nächsten Schritt machen Sie den Agenten mit Ihren Observability-Daten vertraut. Dafür verbinden Sie ihn mit Tools wie Grafana, Prometheus, Loki, Elastic usw. – Der Ablauf ist simpel und geradlinig. Und als letzter Schritt der Einrichtung definieren Sie die Root Cause Analysis Policy für den Agenten. Wir empfehlen, zunächst mit einem manuellen Trigger zu starten, um die Performance des Agenten zu beobachten.
Sobald der SRE-Agent eingerichtet ist und der erste Incident eintritt, können Sie über den Chat auf der rechten Seite der Alarmansicht mit ihm kommunizieren – genau so, als würden Sie mit Ihrer Kollegin oder Ihrem Kollegen sprechen. Schauen Sie sich die Live-Demo von ilert AI SRE auf der Öredev Conference in Malmö an, um agentische Incident Response in Aktion zu sehen.
Wenn Sie zu den Ersten gehören möchten, die die ilert AI SRE Incident Response ausprobieren, schicken Sie uns einfach eine Nachricht an support@ilert.com.
Claude, Cursor und andere MCP-Klienten mit ilert verbinden
Mit der Veröffentlichung des ilert MCP Servers wird die Integration Ihrer Alarmierungs- und Incident-Management-Workflows in AI-Assistenten nahtlos. Der MCP Server implementiert das Model Context Protocol – einen offenen Standard, der es Tools wie Claude, Cursor (oder jedem MCP-kompatiblen Client) ermöglicht, über eine einheitliche Schnittstelle mit ilert zu interagieren. Über dieses Setup kann Ihr Assistent mit korrekten Berechtigungen und Audit-Trails sicher Alarme auflisten, Dienstpläne einsehen, Incidents erstellen oder eskalieren, Alarme bestätigen oder auflösen.
Das Verbinden ist ganz einfach: Sie erzeugen in ilert einen API-Key und konfigurieren anschließend Ihren MCP-Client über einen Remote-HTTP-Transport. Ausführlichere Anleitungen finden Sie in der ilert Dokumentation. Sobald die Konfiguration abgeschlossen ist, erscheint ilert in der Tool-Liste des Clients und steht direkt in der Oberfläche des Assistenten zur Verfügung. Das reduziert Kontextwechsel, verkürzt die Time-to-Resolution und integriert Incident Response nahtlos in den KI-gestützten Workflow Ihres Teams ein.
Lesen Sie einen ausführlichen Deep Dive zu dieser Funktion in unserem Blog.

Verwandte Alarme mit nur einer Aktion zusammenführen
Mit der Funktion zum Zusammenführen von Alarmen können Sie bestehende Alarme per Klick zu einem einzigen Hauptalarm kombinieren. Das Zusammenführen stoppt sofort doppelte Eskalationen und Benachrichtigungen, hält Responder in einem gemeinsamen Kommunikationsfaden ausgerichtet und bewahrt vollständige Nachvollziehbarkeit, indem zusammengeführte Alarme im Audit-Log erhalten bleiben. Das Ergebnis ist eine aufgeräumte Incident-Arbeitsumgebung, präzise Berichte und eine bessere Grundlage für AI SRE-Funktionen – einschließlich automatischer Merge-Empfehlungen während der Root-Cause-Analyse.
Das Zusammenführen von Alarmen arbeitet Hand in Hand mit dem Event Grouping: Events werden zu Alarmen zusammengeführt, und Alarme können jetzt zu einem primären Alarm zusammengeführt werden. Klar, zielgerichtet und so gebaut, wie Teams in der Realität tatsächlich Troubleshooting betreiben.

Alarme schneller und gezielt nach Labels filtern
Die Alarmliste unterstützt jetzt ein leistungsstarkes, Label-basiertes Filtern, mit dem Sie exakt die Alarme herausfiltern können, die für Sie relevant sind. Sie können Filter mithilfe von Label-Keys und -Values samt Autovervollständigung erstellen, mehrere Bedingungen miteinander kombinieren und aktive Filter unmittelbar in einer kompakten ICL-ähnlichen Syntax sehen. Das Bearbeiten der Filter ist nur einen Klick entfernt, und dieselbe Nutzererfahrung steht auch mobil zur Verfügung. So können Teams ihren Alarmstream jederzeit und überall nach Umgebung, Region, Service oder beliebigen Custom-Labels aufschlüsseln.
Das bringt erheblich mehr Präzision in die Alarm-Triage, besonders in größeren Umgebungen, in denen Labels das primäre Mittel sind, um Daten systemübergreifend zu organisieren.
Weitere Optionen zum Alarm-Filtern
Sie können Alarme jetzt auch nach Priorität filtern – sowohl in der ilert Nutzeroberfläche als auch in der App. Egal ob Sie am Schreibtisch triagieren oder unterwegs sind: Ganz einfach, sich zuerst auf die kritischsten Alarme zu konzentrieren und die Alarmflut niedriger priorisierter Themen zu durchdringen.
Transparente Alarm-Gruppierung
Um Verwirrung durch nicht übereinstimmende Event-Zählungen zu vermeiden, haben wir die Darstellung von gruppierten Events auf der gesamten Plattform vereinheitlicht. Zuvor wurden Event-Grouping via alertKey und die auf Alarmquellen basierende Gruppierung getrennt behandelt, was zu Unterschieden in der Alarmliste und in den Alarmdetails führte. Das aktualisierte Design konsolidiert diese zu einer einzigen, konsistenten Event-Anzahl – mit klaren Gruppierungszuständen und einer detaillierten Aufschlüsselung im Dialog Event Grouping. So sehen Nutzerinnen und Nutzer stets eine korrekte Summe – unabhängig von der Gruppierungsmethode – und können leicht nachvollziehen, wie und wann Events zusammengeführt wurden.
Neuer Wait-Knoten für Event Flows

Event Flows erhalten einen leistungsstarken neuen Kontroll-Schritt: den Wait-Knoten. Diese Ergänzung ermöglicht es Teams, einen Flow entweder für eine bestimmte Dauer zu pausieren oder bis zum Beginn bzw. Ende definierter Supportzeiten zu warten. Sie bringt präzise Timing-Kontrolle in die Automatisierung und ermöglicht intelligentere Workflows – zum Beispiel das Verzögern nicht dringender Aktionen außerhalb der Geschäftszeiten oder das Einplanen fester Wartezeiten zwischen Retries. Der Knoten respektiert Supportzeiten-Konfigurationen einschließlich Feiertags-Ausnahmen und bietet so vorhersehbares, kontextbewusstes Verhalten.
Diese Verbesserung baut auf dem Fundament unseres jüngsten Deep Dives zu Event Flows auf. Der Wait-Knoten erweitert die Möglichkeiten der Flow-Automatisierung und hilft Teams, verlässlichere, menschenfreundlichere Prozesse zu gestalten.
Responsive Grid-Layout für großflächige Statusseiten
Statusseiten unterstützen nun eine dritte Layout-Option – das responsive Grid – entwickelt für Organisationen, die Hunderte oder sogar Tausende Services verwalten.
Das neue Layout führt ein hochdichtes Grid ein, das für umfangreiche Service-Kataloge optimiert ist. Auf breiten Bildschirmen werden Services in bis zu 12 Spalten innerhalb einer Inhaltsbreite von 1536 px angeordnet – für eine saubere, schnell zu erfassende Übersicht. Mit abnehmender Bildschirmbreite passt sich das Grid nahtlos an: Tablets zeigen weniger Spalten, und auf dem Smartphone wechselt die Ansicht in einen Icon-only-Modus für maximale Klarheit. Entscheidender Punkt: Dieses Layout unterstützt alle Schlüsselelemente wie aktive Incidents, vergangene Incidents, Metriken und Service-Gruppierungen, sodass Teams den Status in jeder Größenordnung effektiv kommunizieren können.
Fürr Unternehmen mit weit verzweigten Architekturen macht das responsive Grid Statusseiten sowohl performant als auch benutzerfreundlich und verwandelt umfangreiche Service-Inventare in eine klar lesbare, leicht navigierbare Darstellung.

Neuigkeiten zur Mobile App
Das Bearbeiten von Coverage-Requests auf dem Smartphone ist deutlich reibungsloser geworden. Bislang war vielen Nutzerinnen und Nutzern nicht klar, dass der obere Abschnitt im Coverage-Request-Flow lediglich als Suchfilter fungiert. Das bedeutete, dass sie die unten aufgeführten Shifts trotzdem manuell anpassen mussten, bevor sie die Anfrage absendeten – ein häufiger Punkt der Verwirrung, den mehrere Kundinnen und Kunden gemeldet haben.
Mit dem neuesten Update wendet ilert Mobile die ausgewählten Suchgrenzen nun standardmäßig auf alle passenden Shifts an. Sie können einzelne Shifts weiterhin feinjustieren, falls nötig, aber das Standardverhalten entspricht jetzt der im Filter ausgedrückten Absicht. Das Ergebnis: weniger Taps, weniger Unklarheit und ein intuitiveres Erlebnis beim Erstellen von Coverage-Requests.
Die Heartbeat-Liste in der Mobile App erscheint nicht mehr leer: Wir haben sowohl die Listen- als auch die Detailansicht von einer Abhängigkeit zu Alarmquellen mit Integrationstyp-Filtern auf die Verwendung der dedizierten Heartbeat Monitors API umgestellt. Dadurch werden Ihre Monitore korrekt und in Echtzeit angezeigt – im Einklang mit der Art, wie Heartbeats plattformweit verwaltet werden.
Laden Sie die ilert App für iPhone und Android herunter.
Und noch ein paar kleinere, aber dennoch augen- und herzerfreuende Updates.
Wir haben den Katalog für Outbound-Integrationen (Ihnen auch als Alert Actions vertraut) überarbeitet. Sie sehen jetzt alle relevanten Features zu jeder Verbindung, und die Navigation durch die Liste ist einfacher.
Außerdem zeigen die Logs der Alert Actions nun, zu welchem Alarm und welcher Alarmquelle jede Aktion gehört, und Sie können nach diesen Referenzen filtern, um schneller genau nachzuvollziehen, was passiert ist.
Statusseiten-E-Mail-Benachrichtigungen unterstützen jetzt Markdown, wodurch sich Updates klar und konsistent formatieren lassen. Fettschrift, Listen, Links und andere leichtgewichtige Formatierungen werden in ausgehenden E-Mails korrekt gerendert – Teams können also strukturierte, gut lesbare Incident-Updates teilen, ohne das Tool zu wechseln oder Inhalte neu zu verfassen.
Vorlagen für Custom Processing Rules verhalten sich nun so, wie Teams sie tatsächlich nutzen: Bedingungen werden nur dann als wahr ausgewertet, wenn wirklich eine Vorlage vorhanden ist (für alertKey oder eine der Aktionen create/accept/resolve). Zusammen mit neuen Out-of-the-box-Vorlagen für die meistgenutzten Integrationen bedeutet das weniger Rätselraten, weniger „leere“ Bedingungen und eine schnellere Einführung konsistenter, hochwertiger Alert-Payloads.
Und zum Schluss: Unser ilert Maskottchen – der blaue Frosch – hat plattformweit einen frischen Look. Freuen Sie sich bei jedem Öffnen von ilert über seinen helleren, farbenfroheren Stil.

