AI SRE für die Nachtschicht

Die AI-first Plattform für On-Call, Incident Response und Statusseiten. Weniger Unterbrechungen. Mehr Fokus für Ihr Team.
Bechtle
GoInspire
Lufthansa Systems
Bertelsmann
REWE Digital
Benefits

AI-first Technologie für moderne Teams mit schnellen Reaktionszeiten

ilert ist die AI-first Incident-Management-Plattform mit KI-Funktionen über den gesamten Incident Response Lebenszyklus hinweg.

Integrationen

Starten Sie sofort mit unseren Integrationen

ilert stellt mithilfe unserer vorgefertigten Integrationen oder per E-Mail eine nahtlose Verbindung zu Ihren Tools her. Ilert lässt sich in Überwachungs-, Ticketing-, Chat- und Kollaborationstools integrieren.

Transformieren Sie Ihre Incident Response.

Kostenlos starten
Bleiben Sie auf dem Laufenden

Neues aus unserem Blog

Produkt

ilert unterstützt jetzt eine native WhaTap-Integration.

WhaTap-Integration vereint KI-native Observability und KI-Incident Management, verwandelt Erkenntnisse in sofortige Maßnahmen. So automatisieren Teams Incident Response, reduzieren MTTR und verbessern die Koordination in komplexen IT-Umgebungen.

Sirine Karray
Nov 02, 2026 • 5 min read

ilert unterstützt ab sofort eine native WhaTap-Integration, die KI-native Observability mit KI-basiertem Incident Management in einem nahtlosen Workflow verbindet. Diese Integration ermöglicht es DevOps-, SRE- und IT-Teams, sofort von der Fehlererkennung zur Fehlerbehebung überzugehen – wodurch Alarmstörungen vermieden, die Koordination verbessert und die MTTR selbst in den komplexesten IT-Umgebungen drastisch reduziert werden.

Was ist WhaTap?

WhaTap ist eine KI-native Observability-Plattform, die eine einheitliche Überwachung von Servern, Anwendungen, Datenbanken und Kubernetes in einer einzigen SaaS-Plattform ermöglicht. Dank fortschrittlicher Datenintegrations- und Korrelationsanalysetechnologien erhalten Teams Echtzeit-Einblick in Systemprobleme und können die Ursachen schnell identifizieren. Derzeit bedient WhaTap über 1.200 Kunden auf nationalen und internationalen Märkten und expandiert weltweit, darunter in Japan, Südostasien und den Vereinigten Staaten.

Warum WhaTap mit ilert verbinden?

Die ilert-WhaTap-Integration verwandelt umfassende Observabilität in sofortige Handlungsfähigkeit. Durch die Verknüpfung der einheitlichen Überwachung von WhaTap mit der KI-gestützten Incident-Management-Plattform von ilert können DevOps- und IT-Betriebsteams ihre Incident-Reaktion vollständig automatisieren. Sobald WhaTap Anomalien oder Leistungsprobleme in Kubernetes-Umgebungen oder Datenbanken erkennt, benachrichtigt ilert sofort den zuständigen Bereitschaftsingenieur per Sprach-, SMS- oder mobiler Push-Benachrichtigung.

Das Ergebnis ist ein nahtloser Übergang von der Erkennung zur Lösung. ilert erweitert die WhaTap-Alarme um Dienstpläne, automatisierte Eskalationen und KI-gestützte Kommunikation bei Incidents. Somit eine schnellere Koordination und klarere Zuordnung von Verantwortlichkeiten ermöglicht.
Zusammen helfen die umfassende Beobachtbarkeit von WhaTap und die leistungsstarke Response-Engine von ilert SREs und IT-Teams dabei, Downtimes zu reduzieren, die Zusammenarbeit zu verbessern und die MTTR selbst in hochkomplexen IT-Umgebungen drastisch zu senken.

So richten Sie die Integration ein:

Befolgen Sie diese einfachen Schritte, um WhaTap mit ilert zu verbinden::

  1. In ilert:
    • Zu „Alarmquellen“ gehen → neue Alarmquelle für WhaTap erstellen
    • Namen festlegen, Teams zuweisen, Eskalationsrichtlinie auswählen, und Alarmgruppierung bestimmen
    • Einrichtung abschließen, um eine Webhook-URL zu generieren
  2. In WhaTap:
    • Das Projekt für Alarme öffnen → Alarm auswählen → Benachritigungen
    • Plug-in eines Drittanbieters hinzufügenn → Webhook JSON auswählen
    • ilert Webhook-URL einfügen und Webhook registrieren
  3. Alarm-empfang starten:
    • WhaTap-Ereignisse werden nun direkt an ilert weitergeleitet und lösen automatisierte Incident-Workflows aus.

Eine vollständige Schritt-für-Schritt-Anleitung finden Sie unter docs.ilert.com. Bei Problemen hilft Ihnen unser Support-Team gerne weiter unter support@ilert.com.

Insights

Referenz-Architektur: Ein Bauplan für sichere and skalierbare Autonomie in SRE und DevOps

Avoid reactive scripts. Learn how to build a Reference Architecture that acts as an immune system for safe, AI-driven, autonomous incident response.

Leah Wessels
Feb 09, 2026 • 5 min read

Alle wollen autonome Reaktionen auf Incidents, aber die meisten gehen dabei falsch vor.

Das ultimative Ziel der Autonomie in SRE und DevOps ist die Fähigkeit eines Systems, Incidents nicht nur zu erkennen, sondern sie auch unabhängig durch intelligente Selbstregulierung zu beheben. Wahre Autonomie entsteht jedoch nicht durch die Automatisierung zufälliger, isolierter Aufgaben. Sie erfordert eine stabile Grundlage: eine Referenzarchitektur.

Dieser Entwurf dient als „Immunsystem“ Ihrer Infrastruktur und stellt sicher, dass Selbstheilungsprozesse nicht unberechenbar ablaufen, sondern innerhalb klar definierter Grenzen funktionieren. Ohne diese Grundsätze ist Autonomie ein Risiko, wie ein selbstfahrendes Auto ohne Sensoren zur Überwachung der Straße.

Die Realität ist einfach: Wenn Ihre Autonomiestrategie auf Skripten, Runbooks und reaktiver Automatisierung basiert, haben Sie keine Autonomie, sondern nur schnellere Ausfälle.

In diesem Artikel erklären wir, wie Sie die Lücke zwischen manuellem Scripting und einer wirklich agentenbasierten Strategie schließen können. Wir zeigen Ihnen, warum eine solide Architektur die wesentliche Voraussetzung dafür ist, dass KI-gesteuerte Ansätze sicher und effektiv funktionieren können.

  • Die Kernprinzipien: Welche theoretischen Grundlagen jede Referenzarchitektur stützen.
  • Bausteine der Autonomie: Auf welche Komponenten diese Prinzipien angewendet werden müssen, um Sicherheit zu gewährleisten.
  • Incident Response: Warum die Reaktion auf Vorfälle fest in der Architektur verankert sein muss.
  • Cloud-Native & Skalierung: Welchen Unterschied moderne Cloud-Technologien bei der Umsetzung machen.

Grundprinzipien der Referenzarchitektur

Eine Referenzarchitektur ist weit mehr als eine bloße Empfehlung oder ein statisches Diagramm. Sie ist das destillierte Wissen aus unzähligen Fehlermodi und Best Practices. Betrachten Sie sie als eine Art „Verfassung“ für Ihre Infrastruktur: Sie schreibt vor, wie sich Komponenten verhalten müssen, damit das Gesamtsystem auch unter extremer Belastung autonom funktionsfähig bleibt.

Ohne diese Prinzipien wird Autonomie von Natur aus unsicher, da sie zwar schnelle Reaktionen ermöglicht, aber nicht die notwendigen Einschränkungen vorsieht, um systemische Schäden zu verhindern.

Hier sind die Säulen, auf denen Ihre autonome Strategie beruhen muss:

1. Modularität: Isolieren statt Eskalieren

Autonomie funktioniert nur, wenn Probleme lokal begrenzt bleiben. Durch die Zerlegung komplexer Monolithen in unabhängige, modular aufgebaute Komponenten stellen Sie sicher, dass ein autonomer Heilungsprozess in einem Bereich nicht versehentlich das gesamte System instabil macht. Modularität ist die Brandschutzmauer Ihrer Autonomie.

2. Observability: Mehr als nur Monitoring

Ein System kann sich nur selbst regulieren, wenn es seinen eigenen Zustand versteht. Dies geht weit über einfache Dashboards oder isolierte Signale hinaus. Echte Beobachtbarkeit entsteht durch die Korrelation von Protokollen, Metriken und Traces, um ein vollständiges Echtzeitbild der Vorgänge im gesamten System zu erstellen. So können autonome Agenten über Verhalten, Abhängigkeiten und Auswirkungen nachdenken, anstatt blind auf oberflächliche Signale zu reagieren.

3. Resilienz: Design für den Misserfolg

In einer autonomen Welt ist ein Fehler kein Ausnahmezustand, sondern eine statistische Gewissheit. Eine gute Referenzarchitektur antizipiert Ausfälle durch Redundanz und Failover-Mechanismen. Das Ziel ist Graceful Degradation: Das System lernt, bei Teildefekten kontrolliert "einen Gang zurückzuschalten", anstatt komplett zu versagen.

4. Skalierbarkeit: Elastizität als Reflex

Wahre Autonomie bedeutet, dass das System auf Lastspitzen reagiert, bevor der Nutzer eine Verzögerung bemerkt. Die Architektur muss so gestaltet sein, dass Ressourcen elastisch und ohne manuelles Zutun geatmet werden können – ein reflexartiges Ausdehnen und Zusammenziehen je nach Bedarf.

Diese Prinzipien bilden die Leitplanken, von denen wir in der Einleitung gesprochen haben. Sie sorgen dafür, dass die "Intelligenz" Ihres Systems eine solide Datenbasis hat und ihre Korrekturen sicher ausführen kann.

Im nächsten Schritt schauen wir uns an, mit welchen konkreten technischen Bausteinen  Sie diese Theorie in die Praxis umsetzen.

Architekturmuster für sichere Autonomie

Damit ein System eigenständig Entscheidungen treffen kann, muss die Architektur so gebaut sein, dass sie Feedbackschleifen unterstützt und Fehler isoliert. Diese Muster bilden das mechanische Skelett Ihrer autonomen Operationen.

1. Deklarative Infrastruktur (GitOps & IaC)

In einer autonomen Welt ist Code die „Single Source of Truth“. Bei GitOp beschreiben Sie nicht, wie etwas getan werden soll, sondern was der Zielzustand ist.

Ein autonomer Controller vergleicht permanent diesen Soll-Zustand mit der Realität. Weicht das System ab (Configuration Drift), korrigiert es sich von selbst. GitOps ist quasi das Gedächtnis Ihres Systems, das dafür sorgt, dass es immer wieder zu seinem gesunden Ursprung zurückfindet.

2. Service Meshes: Das intelligente Nervensystem

Microservices allein sind komplex zu verwalten. Ein Service Me Service Mesh legt eine Steuerungsebene über Ihre Dienste.

Es ermöglicht „Traffic Shifting“ ohne Code-Änderungen. Wenn eine neue Version eines Dienstes Fehler produziert, kann das System den Datenverkehr autonom und in Millisekunden auf die alte, stabile Version zurückrollen. Es fungiert als Reflexzentrum, das sofort reagiert, wenn die Kommunikation zwischen Diensten schmerzt.

3. Leistungsschalter  & Bulkheads: Die Notfall-Sicherungen

Diese Muster stammen aus der Elektrotechnik und dem Schiffbau. Ein Leistungsschalter kappt die Verbindung zu einem überlasteten Dienst, während Bulkheads Ressourcen so isolieren, dass ein Leck in einem Bereich nicht das gesamte Schiff versenkt.

Sie verhindern kaskadierende Ausfälle. Ein autonomer Agent kann innerhalb eines "Schotts" Experimente zur Heilung durchführen, ohne zu riskieren, dass ein kleiner Fehler das gesamte Rechenzentrum lahmlegt.

4. Automatisierte Rollbacks & Canar-Deployments

Das Risiko bei Änderungen wird durch schrittweise Einführung minimiert. Ein Canary Deployment rollt Updates erst für 1% der Nutzer aus.

Das System übernimmt die Rolle des Qualitätsprüfers. Es analysiert die Fehlerrate der neuen Version im Vergleich zur alten. Sind die Werte schlecht, bricht das System das Deployment autonom ab. Die Autonomie schützt hier das System vor menschlichen Fehlern beim Release.

Diese Muster sind die Werkzeuge, die Sie benötigen, um die Kontrolle sicher abzugeben. Doch ein Werkzeug ist nur so gut wie der Plan für den Ernstfall.

Die Lücke schließen: Von statischer Verteidigung zu aktiver Reaktion

Diese Architekturmuster sind unverzichtbare Werkzeuge für die Stabilität, aber für sich genommen bleiben sie reaktiv. Ein Leistungsschalter kann verhindern, dass ein „Brand“ um sich greift, und ein Service Mesh kann den Datenverkehr umleiten – aber sie lösen nicht zwangsläufig die zugrunde liegende Krise. Um von einem System, das Fehler lediglich überlebt,  zu einem System zu gelangen, das sie aktiv löst, müssen wir unsere Sicht auf den Incident-Lifecycle grundlegend ändern.

Hier findet der Übergang zu echter Autonomie statt: Incident Response darf kein manuelles Handbuch mehr sein, das verstaubt im Regal liegt; sie muss fest in die Architektur selbst „hardcoded“ werden.

In die Architektur eingebettetes Incident Management

Incident Response darf kein isolierter operativer Prozess sein; sie muss als integraler Bestandteil der Architektur selbst behandelt werden. Autonomie ist letztlich nur so verlässlich wie die Mechanismen, die im Ernstfall Fehler erkennen und darauf reagieren. Indem Erkennung, Alarmierung und Behebung direkt in die Referenzarchitektur eingebettet werden, stellen Unternehmen sicher, dass die Fehlerbehandlung über alle Dienste hinweg konsistent bleibt. Das verschiebt den Fokus weg von der manuellen Brandbekämpfung hin zu einem System, das seinen eigenen Zustand versteht und aktiv verwaltet.

In der Praxis bedeutet dies, Paging-Plattformen und automatisierte Hooks für die Alarmierung direkt in die Deployment-Manifeste zu integrieren. Moderne Architekturen nutzen automatisierte  Runbooks – oft als Code definiert –, die durch spezifische Systemereignisse ausgelöst werden können. So lassen sich Routineprobleme wie Memory Leaks oder Speicherengpässe beheben, ohne dass ein Mensch eingreifen muss. Darüber hinaus ermöglicht die Integration von Chaos Engineering in den Architektur-Lebenszyklus, gezielt Fehler zu provozieren. Dies validiert, ob die automatisierten Reaktionsmechanismen unter realen Stress wie erwartet funktionieren, und stellt sicher, dass ein einzelner Vorfall isoliert bleibt und nicht zu einem systemweiten Ausfall eskaliert.

Von lokaler Reaktion zu globaler Skalierung: Der Cloud-Native-Shift

Während das Einbetten von Runbooks in einzelne Dienste für kleine Umgebungen funktioniert, erfordert echte Autonomie eine Plattform, die diese Reaktionen über tausende von Knoten hinweg koordiniert. Hier entwickelt sich der Blueprint von einer Sammlung von Mustern hin zu einem lebendigen, atmenden Ökosystem.

Skalierung von Autonomie mit Cloud-Native-Architekturen

Der Aufstieg von Cloud-Native-Technologien hat den Bauplan für skalierbare Autonomie grundlegend verändert. Kubernetes und das dazugehörige Ökosystem nehmen Teams durch Controller und Abgleich-Schleifen zwar erheblichen operativen Aufwand ab – sie bilden das „Gehirn“, das das System permanent in den gewünschten Soll-Zustand steuert. Gleichzeitig führen sie jedoch neue Komplexitätsebenen bei der Koordination und Sicherheit ein. Um Autonomie in großem Maßstab zu erreichen, reicht es nicht aus, nur Container bereitzustellen; es bedarf einer gehärteten Infrastrukturebene, die ihren eigenen Zustand in verteilten Umgebungen eigenständig verwalten kann.

Eine robuste Cloud-Native-Referenzarchitektur konzentriert sich stark auf die Grenzen der Autonomie. Dazu gehört die Implementierung feingranularer rollenbasierter Zugriffskontrollen (RBAC) und Admission Controller, um genau zu definieren, was automatisierte Agenten innerhalb des Clusters tun dürfen. Policy-Enforcement-Layer wie OPA oder Kyverno stellen sicher, dass das System auch bei Selbstreparatur stets konform bleibt. Schließlich ruht die Zuverlässigkeit dieser autonomen Systeme auf einem Fundament aus verteiltem Konsens unter Nutzung von Tools wie etcd als „Source of Truth“ – sowie skalierbaren Speicherlösungen, die es Anwendungen ermöglichen, nahtlos über verschiedene Verfügbarkeitszonen hinweg wiederhergestellt zu werden.

Fazit: Das Fundament für Agentic SRE schaffen

Eine Referenzarchitektur ist mehr als nur ein statisches Diagramm – sie definiert, wie sich Ihre Infrastruktur unter Belastung verhalten darf. Indem Sie Modularität, Ausfallsicherheit und Skalierbarkeit in Ihrem Kerndesign festschreiben, schließen Sie die Lücke zwischen manuellen Skripten und einer wirklich agentenbasierten Strategie. Die Architektur ist jedoch nur das Fundament. Um ein „Lights-out”-Betriebsmodell vollständig zu realisieren, müssen Sie die darauf aufbauende Intelligenz orchestrieren.

Überlassen Sie die Autonomie Ihres Systems nicht dem Zufall. Sind Sie bereit, Ihren Architekturentwurf in eine aktive Verteidigung umzusetzen? Laden Sie ilert’s Agentic Incident Management Guide herunter, um zu erfahren, wie Architektur und KI zusammenwirken, um eine sichere, skalierbare und betriebsbereite Incident Response zu schaffen.

Engineering

Engineering zuverlässiger KI-Agenten: Der Leitfaden für Prompt-Strukturen

Verwandeln Sie KI-Assistenten in zuverlässige Agenten, indem Sie Prompts mit diesem 6-Teile-Blueprint wie technische Spezifikationen für SREs behandeln.

Tim Gühnemann
Jan 23, 2026 • 5 min read

Der Unterschied zwischen einem KI-Assistenten, der „fast“ funktioniert, und einem, der konsistent hochwertige Ergebnisse liefert, ist selten eine Frage der reinen Modellleistung. Stattdessen ist der Engpass in der Regel die Qualität und Struktur der bereitgestellten Anweisungen. Für DevOps- und SRE-Teams, die automatisierte Workflows erstellen, sind „magische Prompt-Tricks“ kein Ersatz für eine wiederholbare, technisch fundierte Struktur.

Dieser Artikel bietet einen praktischen Plan für den Aufbau effektiver KI-Agenten und beschreibt eine sechsteilige Struktur, die Sie für verschiedene Aufgaben wiederverwenden können, um Zuverlässigkeit, Sicherheit und klare Ergebnisse zu gewährleisten.

Das Problem: Qualität der Anweisungen vs. Modellleistung

Wenn Sie jemals das Gefühl hatten, dass ein KI-Assistent die Erwartungen nicht erfüllt, liegt das Problem oft an mangelnder struktureller Disziplin. Vage Aufgaben führen unweigerlich zu vagen Ergebnissen. Um diese Lücke zu schließen, müssen Ingenieure Prompts nicht als clevere Nachrichten, sondern als leichtgewichtige Produktspezifikationen betrachten.

Indem Sie Rollen, Inputs, Outputs und Einschränkungen mit der gleichen Strenge definieren, die auch in der Softwareentwicklung angewandt wird, erstellen Sie Agenten, die wesentlich einfacher zu integrieren, zu evaluieren und zu debuggen sind.

Das Sechs-Komponenten-Schema für Prompts

Das Herzstück jedes zuverlässigen Agenten ist ein Entwurf, der aus sechs wesentlichen Komponenten besteht. Diese Struktur stellt sicher, dass das Modell den notwendigen Kontext und die Grenzen hat, um komplexe Aufgaben zu erfüllen.

1. Rolle und Tonfall: Das „Wer“ und „Wie“ definieren

Beginnen Sie damit, die Persona und den Kommunikationsstil festzulegen. Dies bestimmt die Perspektive, durch die die Entscheidungen, das Vokabular und die Wissenstiefe des Agenten geformt werden.

Beispiel: „Agieren Sie als Senior SRE mit 10 Jahren Erfahrung in Incident Response und Postmortem-Analysen.“

2. Aufgaben-Definition: Handlungsorientierte Ziele

Geben Sie das Ziel in einer klaren, handlungsorientierten Sprache an. Formulieren Sie präzise, was der Agent erreichen muss, um ein verwertbares Ergebnis zu liefern.

3. Regeln und Leitplanken: Grenzen setzen

Geben Sie Einschränkungen und Qualitätsprüfungen explizit an, um Konsistenz zu gewährleisten.

  • Do: Verwenden Sie Aufzählungspunkte für Listen.
  • Don't: Geben Sie keine personenbezogenen Daten (PII) im Output aus.

4. Daten: Relevantes Wissen einfließen lassen

Gute Prompts fungieren sowohl als Anweisung als auch als Input. Stellen Sie alle notwendigen Kontextinformationen, Metadaten-Blöcke oder spezifische technische Dokumentationen bereit, auf die sich der Agent beziehen soll.

5. Output-Struktur: „Erledigt“ definieren

Sagen Sie dem Agenten genau, wie die Antwort aussehen soll (z. B. Markdown, JSON oder Tabellen).

6. Wichtige Erinnerung: Der Nordstern

Wiederholen Sie die kritischsten Anforderungen am Ende des Prompts. Wiederholung verbessert die Einhaltung, insbesondere bei längeren, komplexeren Anweisungen.

Formatierung für Lesbarkeit und Debugging

Um es dem Modell zu erleichtern, den Anweisungen zu folgen – und Ihnen das Debugging zu ermöglichen – nutzen Sie Markdown-Formatierung:

  • Markdown-Header: Verwenden Sie # und ##, um eine klare Hierarchie für Crawler und die KI gleichermaßen zu schaffen.
  • Hervorhebung: Nutzen Sie Fettdruck, Zitatblöcke oder GROSSBUCHSTABEN für kritische Sicherheitsanweisungen.
  • Querverweise: Erstellen Sie interne Bezüge zwischen den Abschnitten, um dem Modell zu helfen, verwandte Anweisungen logisch zu verknüpfen.

Strukturierte Prompts machen bei Fehlern sofort ersichtlich, welche spezifische Anweisung den Fehler verursacht hat, was den Zeitaufwand für das Prompt Engineering erheblich reduziert.

Prompt-Vorlage

Hier ist die Vorlage, die Sie kopieren und einfügen können:

# Role / Tone‍You are a [role] with expertise in [domain].
Tone: [clear, concise, friendly, formal, etc.].‍

# Task DefinitionYour Goal: [one sentence describing the outcome]
Sucess looks like: [2–4 bullets describing what “good” means].‍

# Rules & Guardrails
Do: [required behaviors]
Don’t: [forbidden behaviors]
Quality checks: [accuracy, safety, policy, formatting, etc.]‍

# Data / ContexAudience: [who this is for]
Inputs: [paste text, metrics, constraints, examples]
Definitions: [key terms]‍

# Output Structure
Return your answer as:Format: [Markdown / Table / JSON]
Sections: [list exact headings]‍

# Key ReminderRepeat the two most important constraints here.

Fazit

Um effektive KI-Agenten zu entwickeln, muss man sich von dialogorientierten Prompts lösen und sich stattdessen auf technische Spezifikationen konzentrieren. Durch die Verwendung des Sechs-Komponenten-Entwurfs – Regel/Tonfall, Aufgabe, Regeln/Leitplanken, Daten, Ausgabestruktur und wichtige Hinweise – stellen Sie sicher, dass Ihre KI-Assistenten vorhersehbar, zuverlässig und produktionsreif sind.

Alle entdecken
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Unsere Cookie-Richtlinie
Wir verwenden Cookies, um Ihre Erfahrung zu verbessern, den Seitenverkehr zu verbessern und für Marketingzwecke. Erfahren Sie mehr in unserem Datenschutzrichtlinie.
Open Preferences
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.