KI und Incident‑Management Leitfaden

Effective incident management is a cornerstone for maintaining a robust operational framework in any tech-driven organization.

Mit generativer KI Incident-Management transformieren

Incident-Management und Incident-Response sind für Unternehmen in jeder Branche unabdingbar. Mit dem Einsatz von generativer KI in diesem Bereich können Effizienz, Genauigkeit und Geschwindigkeit bei der Erkennung, Analyse und Behebung von Incidents deutlich gesteigert werden. In diesem Leitfaden erklären wir, wie Large Language Models (LLMs) und Generative KI die Prozesse im Incident-Management verbessern können. Wir stellen praxisnahe Beispiele vor, indem wir die GenAI-Funktionen von ilert vorstellen und beschreiben, wie wir KI-Features entwickeln.

‍

Dieser Leitfaden ist analog zu den vier entscheidenden Phasen des Incident-Response-Lebenszyklus aufgebaut und zeigt anhand von Beispielen, wie GenAI in jeder dieser Phasen eingesetzt werden kann:

‍

Vorbereitung
‍
KI-Assistenten haben die Erstellung von Dienstplänen grundlegend verändert und erleichtern die Verwaltung komplexer Zeitpläne sowie die Erfüllung der Team-Anforderungen. Dies ist ein bedeutender Schritt hin zu einer intelligenten, unterstützten Planung, die speziell auf Bereitschaftsteams zugeschnitten ist.‍

Reagieren

Text-Embedding-Modelle revolutionieren die Verwaltung von Alarmierungen, indem sie unnötige Alarmierungen minimieren und Teams somit helfen, sich auf die tatsächlichen Probleme zu konzentrieren. Sie analysieren die Bedeutung von Alarmierungen tiefgehend, sortieren sie effizient und identifizieren Duplikate für einen deutlich schlankeren Prozess.

Kommunikation
‍
Unsere KI erstellt jetzt automatisch klare und prägnante Updates während eines Incidents. Diese Verbesserung sorgt für eine konsistente Kommunikation, entlastet Techniker, damit sie Probleme effizienter beheben können, und verbessert die Nutzererfahrung für alle Beteiligten.

Lernen

Die KI zeigt ihre Stärken nach dem Auftreten von Incidents, indem sie hilft, detaillierte und präzise Postmortems zu erstellen. Diese Automatisierung beschleunigt den Lernprozess und unterstützt Organisationen dabei, ihre Reaktionsstrategien kontinuierlich zu verbessern.

KI-Assistent für die Planung von Bereitschaftsdiensten

Die Erstellung eines Dienstplans, der die Bedürfnisse des Teams ausbalanciert und gleichzeitig die Abdeckung aller erforderlichen Schichten sicherstellt, ist entscheidend für das Incident-Management. KI-Assistenten können diesen Prozess optimieren. Durch den Einsatz von KI-Assistenten werden komplexe Anforderungen an die Planung, wie etwa Follow-the-Sun-Rotationen, einfacher. Eine intuitive Chat-Oberfläche, die von einem LLM (Large Language Model) unterstützt wird, führt die Nutzer durch die Erstellung der Pläne und stellt gezielte Fragen, um spezifische Anforderungen und Präferenzen zu verstehen. Dieser KI-unterstützte Ansatz vereinfacht die Planung, macht sie weniger zeitaufwendig und besser auf die individuellen Dynamiken jedes Teams zugeschnitten.

‍

Wir nutzen die Funktion „Function Calling“ von OpenAI innerhalb des Assistenten, die konversationelle KI-Fähigkeiten mit der programmgesteuerten Ausführung von Funktionen verbindet. Diese Funktion ermöglicht es dem Assistenten, Nutzereingaben nicht nur über natürliche Sprache zu verstehen und zu verarbeiten, sondern auch Funktionen basierend auf diesen Eingaben auszuführen und strukturierte Ausgaben wie JSON-Dokumente zu generieren. Hier ist eine Übersicht, wie wir die OpenAI Assistants API zusammen mit Function Calling bei der Erstellung eines Bereitschaftsplans einsetzen:

‍

Schritt 1: Verstehen der Nutzereingaben

Der Prozess beginnt damit, dass der Assistent in einem Dialog mit dem Nutzer alle notwendigen Details für den Dienstplan erfasst. Dies beinhaltet Fragen zu den betroffenen Teammitgliedern, Rotationsarten und der Abdeckung von Zeiten. Die Fähigkeit des Assistenten, natürliche Sprache zu analysieren, ermöglicht es ihm, die Antworten der Nutzer zu verstehen und in strukturierte Daten zu kategorisieren, die in den nächsten Schritten verwendet werden können. Der Prompt für dieses Gespräch ist in den Anweisungen des Assistenten hinterlegt:

‍


As an AI assistant, your primary function is to aid users in generating schedules for ilert using the `create_recurring_schedule` function.

Include the function only if all the requirements are met, otherwise follow the steps below if requirements are missing.

### Basic Requirements
// list of requirements

### Handling Missing Requirements
// instructions on how to handle missing requirements

### JSON Output
// instructions how to output the JSON document

### Additional Guidelines
// additional instructions (e.g. language, how to deal with prompts beyond this scope, etc)

‍

Step 2: Executing Functions to Generate the Schedule

Once the input data is processed and organized, the Assistant leverages the function calling feature to execute a custom function designed for schedule creation. This function uses the prepared data to compute the on-call schedule, ensuring that all requirements and constraints are met. The culmination of this process is the generation of a JSON document that represents the finalized on-call schedule.

‍

	
  	{
        "name": "create_recurring_schedule",
        "description": "create a recurring on-call",
        "parameters": {
            "type": "object",
            "properties": {
                "name": {
                    "type": "string",
                    "description": "the name of the schedule"
                },
                "timezone": {
                    "type": "string",
                    "description": "the ISO timezone e.g. Europe/Berlin"
                },
                "type": {
                    "type": "string",
                    "enum": [
                        "RECURRING"
                    ],
                    "description": "the type of the schedule"
                },
                "scheduleLayers": {
                    "type": "array",
                    "items": {
                        "type": "object",
                        "properties": {
                            "name": {
                                "type": "string",
                                "description": "name of this layer"
                            },
                            "startsOn": {
                                "type": "string",
                                "description": "start of the layer"
                            },
                            "endsOn": {
                                "type": "string",
                                "description": "end of the layer, null if the layer has no end"
                            },
                            "users": {
                                "type": "array",
                                "items": {
                                    "type": "object",
                                    "properties": {
                                        "id": {
                                            "type": "number",
                                            "description": "the identifier of the user"
                                        }
                                    },
                                    "required": [
                                        "id"
                                    ]
                                }
                            },
                            "rotation": {
                                "type": "string",
                                "description": "ISO 8601 period, e.g. P1D"
                            },
                            "restrictionType": {
                                "type": "string",
                                "enum": [
                                    "TIMES_OF_WEEK"
                                ]
                            },
                            "restrictions": {
                                "type": "array",
                                "items": {
                                    "type": "object",
                                    "description": "Restrictions for each day",
                                    "properties": {
                                        "from": {
                                            "type": "object",
                                            "properties": {
                                                "dayOfWeek": {
                                                    "type": "string",
                                                    "enum": [
                                                        "MONDAY",
                                                        "TUESDAY",
                                                        "WEDNESDAY",
                                                        "THURSDAY",
                                                        "FRIDAY",
                                                        "SATURDAY",
                                                        "SUNDAY"
                                                    ]
                                                },
                                                "time": {
                                                    "type": "string",
                                                    "description": "start of the restriction e.g. 08:15 "
                                                }
                                            }
                                        },
                                        "to": {
                                            "type": "object",
                                            "properties": {
                                                "dayOfWeek": {
                                                    "type": "string",
                                                    "enum": [
                                                        "MONDAY",
                                                        "TUESDAY",
                                                        "WEDNESDAY",
                                                        "THURSDAY",
                                                        "FRIDAY",
                                                        "SATURDAY",
                                                        "SUNDAY"
                                                    ]
                                                },
                                                "time": {
                                                    "type": "string",
                                                    "description": "end of the parent restriction e.g. 17:15"
                                                }
                                            }
                                        }
                                    },
                                    "required": [
                                        "from",
                                        "to"
                                    ]
                                }
                            }
                        },
                        "required": [
                            "startsOn",
                            "users",
                            "rotation"
                        ]
                    }
                },
            },
            "required": [
                "name",
                "timezone",
                "type",
                "scheduleLayers"
            ]
        }
    }

Dieser Einsatz der “Function Calling”-Funktion von OpenAI zeigt die Fähigkeit des Assistenten, konversationelle Eingaben mit programmatischen Ausgaben zu verbinden. Dadurch wird die Automatisierung komplexer Aufgaben wie die Erstellung eines Dienstplans direkt innerhalb einer Chat-Oberfläche ermöglicht.

‍
Nachfolgend finden Sie ein Beispiel für eine Unterhaltung mit der ilert KI zur Erstellung eines Follow-the-Sun-Plans:

‍

Alarmflut durch die Deduplizierung von Alarmierungen verringern

In diesem Abschnitt erklären wir, wie Text-Embedding-Modelle für die automatisierte Deduplizierung von Alarmierungen eingesetzt werden können, um die Alarmflut in der Incident-Response zu reduzieren.

‍

Was ist Alarm-Deduplizierung?
‍

Unter Deduplizierung von Alarmierungen versteht man den Prozess, bei dem mehrere Alarmierungen, die sich auf dasselbe zugrunde liegende Problem beziehen, erkannt und zu einer einzelnen Alarmierung zusammengefasst werden, um Redundanz zu vermeiden. Das Hauptziel der Alarm-Deduplizierung besteht darin, die Alarmflut zu reduzieren und zu verhindern, dass Incident-Response-Teams mit mehreren Benachrichtigungen für dasselbe Problem überflutet werden.

‍

Verwendung der Embeddings-Ähnlichkeitssuche zur Alarm-Deduplizierung

Es gibt viele Methoden, um Alarm-Deduplizierung umzusetzen. Diese Methoden reichen von einfachen regelbasierten Systemen bis hin zu komplexeren Machine-Learning-Modellen, die jeweils ihre eigenen Vorteile und Anwendungsbereiche haben. Traditionelle Machine-Learning-Techniken wie Clustering und Klassifikation erfordern jedoch oft ein solides Verständnis von Data-Science-Grundlagen und die Unterstützung durch Data Scientists. In diesem Abschnitt stellen wir einen Ansatz vor, der auf Vektor-Embeddings und der Nutzung vortrainierter Modelle basiert. Dadurch wird die Alarm-Deduplizierung auch für Personen zugänglicher, die keine tiefgehenden Data-Science-Kenntnisse besitzen.

‍

Zunächst erläutern wir die notwendigen Konzepte für diese Methode.

‍

‍Vektor-Embeddings sind eine mathematische Darstellung von Daten in einem hochdimensionalen Raum, wobei jeder Punkt (bzw. Vektor) ein bestimmtes Datenelement darstellt, zum Beispiel ein Wort, einen Satz oder ein ganzes Dokument. Diese Embeddings erfassen die semantischen Beziehungen zwischen den Datenpunkten, sodass ähnliche Elemente im Vektorraum näher beieinander liegen.

‍

Diese Technik wird häufig im Bereich Natural Language Processing (NLP) und im Machine Learning eingesetzt, um Computern das Verstehen und Verarbeiten von menschlicher Sprache zu ermöglichen, indem Texte in eine Form umgewandelt werden, mit der Algorithmen arbeiten können.

‍

Wenn Sie beispielsweise ChatGPT nutzen, werden Ihre Eingaben zunächst in eine Zahlenreihe (einen Vektor) umgewandelt. In ähnlicher Weise transformieren wir Alarmierungen mithilfe eines Embedding-Modells in Vektoren.

Ein Embedding-Modell ist eine Art von Machine-Learning-Modell, das lernt, komplexe Daten – wie Wörter, Sätze, Bilder oder Graphen – als dichte Vektoren aus reellen Zahlen in einem niedrigdimensionalen Raum darzustellen.

‍

Der zentrale Gedanke hinter Embedding-Modellen ist es, die semantischen Beziehungen und Merkmale der Daten so zu erfassen, dass ähnliche Elemente im Embedding-Raum näher beieinander liegen.

‍

Durch diese Transformation können Algorithmen mathematische Operationen auf diesen Embeddings durchführen und Aufgaben wie Ähnlichkeitsvergleiche, Clustering und Klassifikation effektiver ausführen.

‍

// Input
"A sentence like this will be transformed into a series of (thousands) number"

// Output
[
	-0.006929283495992422,
  -0.005336422007530928,
  -4.547132266452536e-05,
  -0.024047505110502243,
  ...
	// thousands more numbers
]

‍

Wie kann das nun für die Alarm-Deduplizierung genutzt werden?

Wir wandeln Alarmierungen mit dem Text-Embedding-Modell von OpenAI in Vektor-Embeddings um. Durch den Vergleich dieser Vektoren können wir Alarmierungen identifizieren und deduplizieren, die semantisch ähnlich sind – selbst wenn sie sich auf Textebene nicht exakt entsprechen.

‍

Die folgenden Abschnitte erläutern die einzelnen Schritte dieses Prozesses:

‍

Steps of alert processing into vector embeddings

‍

Schritt 1: Vorverarbeitung der Alarmierungen

Standardisierung: Das Format eingehender Alarmierungen wird standardisiert, um Konsistenz sicherzustellen. Wenn Sie ein Alarmierungssystem wie ilert verwenden, das auf mehreren Alarmierungsquellen und Observability-Tools aufbaut, werden Alarmierungen bereits in ein einheitliches Format standardisiert.
Bereinigung::
- Irrelevante Informationen oder Störfaktoren werden aus Alarmierungen entfernt, wie beispielsweise Zeitstempel (die bei jeder Alarmierung einzigartig, aber für die Deduplizierung unerheblich sind) oder Alarm-IDs.
- Es wird nur das Textformat verwendet und Markdown oder JSON vermieden. Dies reduziert nicht nur die Anzahl der verwendeten Tokens, sondern verhindert auch, dass das Format die Deduplizierung beeinflusst.

Schritt 2: Vektorisierung / Erzeugen von Text-Embeddings

Auswahl eines Text-Embedding-Modells: Mit einem geeigneten Text-Embedding-Modell werden Alarmierungen in Vektoren umgewandelt. Modelle wie BERT, Text Embeddings von OpenAI oder Sentence-BERT (speziell für Satz-Embeddings entwickelt) sind dafür geeignet.

Vektorisierung: Jede eingehende Alarmierung wird mit dem gewählten Modell in einen Vektor umgewandelt und in einer Vektor-Datenbank gespeichert. Modelle, die mit großen Datensätzen aus natürlicher Sprache trainiert wurden, können vielfältige semantische Bedeutungen erfassen und sind daher gut geeignet, um die in Alarmierungen enthaltenen Informationen zu codieren.

‍

Schritt 3: Deduplizierungs-Logik

Ähnlichkeitsmessung: Mithilfe einer Ähnlichkeitsmessung werden die vektorisierten Alarme verglichen. Die Ähnlichkeit zwischen Embeddings wird mithilfe von Metriken wie Kosinus-Ähnlichkeit oder euklidischem Abstand gemessen. Diese Metriken quantifizieren, wie nah zwei Embeddings im Vektorraum beieinander liegen. Je näher die Embeddings, desto ähnlicher sind sie im Hinblick auf ihren semantischen Inhalt. OpenAI empfiehlt die Verwendung der Kosinus-Ähnlichkeit.

Festlegung von Schwellenwerten: Es wird ein Schwellenwert festgelegt, ab dem zwei Alarmierungen als Duplikate betrachtet werden. Überschreitet der Ähnlichkeitswert zwischen einer eingehenden Alarmierung und einer bestehenden Alarmierung diesen Schwellenwert, gelten sie als Duplikate. Dieser Schwellenwert kann je nach Präzisions- und Recall-Anforderungen eines Anwendungsfalls angepasst werden.

Deduplizierung und Clustering: Wenn zwei Alarmierungen als Duplikate erkannt werden, werden sie zu einem einzigen Datensatz zusammengefasst, wobei ein Zähler die Anzahl der empfangenen Duplikate anzeigt.

Optionale Zusammenfassungs: Generierung: Mit einem GenAI-Modell werden präzise Zusammenfassungen für Gruppen von doppelten Alarmierungen generiert. Auf diese Weise lassen sich die wichtigsten Informationen aus mehreren Alarmierungen zu einer einzigen, leicht verständlichen Benachrichtigung zusammenfassen.

‍

Schritt 4: Feedback-Schleife

Implementieren eines Feedback-Mechanismus, mit dem Operatoren Fehlalarme (False Positives) oder übersehene Duplikate markieren können. Mit diesem Feedback wird der Schwellenwert für Ähnlichkeiten weiter optimiert. Der Screenshot unten zeigt, wie die intelligente Gruppierung von Alarmierungen in den Einstellungen aktiviert wird.

Group alerts by content similarity or time frame in ilert

Vorteile

Folgende Vorteile hat die Verwendung von Embeddings für die Alarm-Deduplizierung:

‍

Semantisches Verständnis:

Im Gegensatz zum exakten Textabgleich können Embeddings die Bedeutung von Alarmierungen erfassen, sodass auch Alarmierungen dedupliziert werden können, die semantisch ähnlich, aber nicht textuell identisch sind.

Flexibilität:

Diese Methode kann mit Variationen in der Formulierung oder Struktur von Alarmierungen umgehen und ist somit robust gegenüber Änderungen im Alarmierungsformat oder bei den Quellen.

Skalierbarkeit:

Embeddings und Ähnlichkeitssuchen können effizient mit Vektor-Datenbanken und -Bibliotheken implementiert werden, wodurch sich dieser Ansatz problemlos auf große Mengen von Alarmierungen skalieren lässt.

‍

Challenges and Considerations

Modellauswahl:

‍Die Wirksamkeit von Embeddings für die Deduplizierung hängt von der Qualität des Embedding-Modells ab. Domänenspezifische oder feinabgestimmte Modelle können durch das Erfassen relevanter Nuancen eine bessere Leistung bieten.

Anpassung des Schwellenwerts:
‍
‍Die Festlegung des optimalen Schwellenwerts für die Deduplizierung erfordert ein Gleichgewicht zwischen False Positives (fälschlicherweise unterschiedliche Alarmierungen zusammenführen) und False Negatives (Duplikate nicht erkennen). Dies kann empirische Tests und Anpassungen erfordern.

Kontinuierliches Lernen:

Mit der Zeit kann sich die Art der Alarmierungen ändern, was Aktualisierungen des Modells oder eine erneute Bewertung des Ähnlichkeitsschwellenwerts erforderlich macht, damit die Deduplizierung weiterhin effizient funktioniert.

‍

KI-unterstützte Incident-Kommunikation

Der Einsatz von LLMs für KI-gestützte Incident-Kommunikation ermöglicht automatische Updates, die Effizienz mit einem menschlichen Touch verbinden. Dieser Ansatz sorgt für klare, verständliche Informationen zum Status und zur Lösung von Störungen, verbessert das Nutzererlebnis und gibt den Technikern mehr Zeit, sich auf die Problemlösung zu konzentrieren. Automatisierte Mitteilungen können sich an den jeweiligen Kontext und die Empfängergruppen anpassen. Das sorgt dafür, dass die Updates relevant und verständlich sind und der Kommunikationsprozess im Incident-Management insgesamt optimiert wird

‍

Hier ein Beispiel-Prompt für die Incident-Erstellung:

‍

You are a member of the incident response team of a company. Our platform offers various services, which may occasionally experience issues. When problems arise, it’s crucial to inform our users in a straightforward, reassuring manner.

### Your Task
Based on the brief notes provided, generate an incident report in JSON format. This report should include:- **Incident Status**: Use one of the following: Investigating, Identified, Monitoring, or Resolved.

- **Summary**: Craft a concise, one-sentence summary of the incident (no more than 250 characters). This should provide a clear snapshot of the issue at hand.
- **Description**: Write a detailed explanation in simple, non-technical language. Aim to reassure our users by explaining what happened and what we're doing about it.
- **Affected Services**: List any services that are not fully operational, along with their current state (Operational, Under Maintenance, Degraded, Minor Outage, Major Outage). Choose from the following services: {{#each services}} {{name}}{{#unless @last}},{{/unless}}{{else}}No services{{/each}}.

Limit this list to a maximum of 6 services.

### Guidelines

1. **Incident Status Explained**:   
 - **Investigating**: The issue's cause is currently unknown.   
 - **Identified**: The cause of the issue has been discovered.   
 - **Monitoring**: The issue has been addressed, and we are now closely monitoring the situation to ensure stability.   
 - **Resolved**: All services are back to normal operation.
 
 2. Ensure the incident report is clear and avoids technical jargon. Remember, our audience may not have a technical background.
 
 3. Present the information in a JSON format, adhering to the structure and content guidelines provided.### Notes for the Incident```{{input}}```

‍

Wir haben die Erstellung neuer Incidents und Incident-Updates vollständig in ilert integriert:

Das Beispiel zeigt, wie ein einfacher Prompt wie “payment apis down” automatisch in eine vollständige Incident-Beschreibung umgewandelt wird. Dabei werden eine Zusammenfassung und eine Nachricht generiert, der Incident-Status gesetzt und die betroffenen Services sowohl aus dem Prompt als auch aus den verfügbaren Services im Servicekatalog ausgewählt.

‍

Zu den Vorteilen der KI-gestützten Kommunikation gehören:

Kohärenz und Klarheit:

Der Einsatz von KI stellt sicher, dass alle Mitteilungen in Stil und Ton konsistent sind, was Unsicherheiten reduziert und für Professionalität sorgt.

Effizienz:

‍‍Dadurch, dass die Techniker keine Updates selbst verfassen müssen, können sie sich auf die Behebung des Incidents konzentrieren, was die gesamte Reaktionszeit verkürzt.‍

KI-gestützte Postmortem-Analyse

Im Incident-Management ist der Postmortem-Prozess entscheidend, damit Teams aus vergangenen Incidents lernen und zukünftige Risiken minimieren können. Bisher war die Erstellung solcher Postmortem-Analysen immer eine Aufgabe, die viel Aufwand erforderte, um aus unterschiedlichen Datenquellen eine verständliche Darstellung zu erstellen. Mit der Einführung von KI und Large Language Models (LLMs) gibt es nun einen neuen Ansatz für die Incident-Analyse, der die Erstellung von Postmortem-Dokumenten einfacher und effizienter macht.

‍

Einsatz von KI für effiziente Analysen

KI-gestützte Postmortems machen die Analyse von Incidents unkompliziert und leistungsstark. Sie nutzen Chats, Alarmierungen und Berichte und verwandeln diese in eine detaillierte Incident-Beschreibung. Die Daten, die jede Entscheidung, Beobachtung und Aktion enthalten, werden mithilfe der KI leicht durchsuchbar, sodass eine zuvor komplexe Aufgabe nun einfach und automatisiert wird.

‍

KI-Systeme können große Mengen an Text aus Chats und Protokollen schnell lesen und verstehen. Sie konzentrieren sich darauf, die wichtigsten Ereignisse, die getroffenen Entscheidungen und die ergriffenen Maßnahmen herauszuarbeiten. Mithilfe fortschrittlicher Sprachmodelle kann die KI wichtige Details wie die Auswirkungen auf das Business, die Ursache des Incidents und die ergriffenen Maßnahmen zur Behebung erkennen.

‍

Erstellung eines kohärenten Narrativs

LLMs sind besonders effektiv darin, Informationen zu sammeln und zu einem gut strukturierten, kompakten Bericht zusammenzufassen. Dieser Bericht umfasst den gesamten Incident – von den Ursachen über den Ablauf bis zu den getroffenen Maßnahmen. Die KI liefert eine verständliche und klare Darstellung, die eine solide Grundlage für die weitere Analyse und Diskussion bietet.

‍

Darüber hinaus können KI-gestützte Postmortems Verbesserungspotenziale aufzeigen. Indem der Incident im Kontext früherer Ereignisse und bekannter Probleme analysiert wird, kann die KI Muster erkennen und umsetzbare Erkenntnisse liefern. Dazu gehören Empfehlungen für die Anpassung von Prozessen, Schulungsbedarf oder Systemverbesserungen, um künftige Störungen zu vermeiden.

‍

Vorteile, die über die Effizienz hinausgehen

Die Vorteile der Integration von KI in den Postmortem-Prozess gehen über die reine Zeitersparnis hinaus. Indem sie Genauigkeit und Vollständigkeit sicherstellen, bieten KI-generierte Berichte mehrere Vorteile:

Konsistenz:

Der Einsatz von KI stellt sicher, dass Format und Detailtiefe für jeden Postmortem-Bericht gleich sind. Das erleichtert den Vergleich und die Trendanalyse über verschiedene Incidents hinweg..

Objektivität:

Durch die Nutzung von Daten und Analysen minimiert die KI die Gefahr von Verzerrungen und das Übersehen von Details und liefert eine objektive Darstellung der Ereignisse.

‍Umfassende Erkenntnisse:‍

Dank der Fähigkeit, große Datenmengen zu verarbeiten, kann die KI Erkenntnisse gewinnen, die bei einer manuellen Analyse möglicherweise übersehen werden könnten. Dadurch entsteht ein tieferes Verständnis für die zugrundeliegenden Probleme.

Handlungsorientierte Empfehlungen:

KI-Modelle können Incident-Daten mit historischen Trends in Beziehung setzen und so praxisnahe Empfehlungen zur Vermeidung zukünftiger Störungen geben.

‍

KI-gestützte Postmortem-Erstellung mit ilert

‍

Diese Postmortem-Analyse wurde vollständig von der ilert-KI generiert:

‍

Beispiel für einen von ilert AI erstellen Postmortem-Bericht

Sicherstellung der Datensicherheit bei LLMs

Um die Sicherheit und Integrität unserer Systeme beim Einsatz von Large Language Models (LLMs) zu gewährleisten, halten wir uns an strenge Richtlinien für Datenverarbeitung und Betrieb. Hier ein Überblick über unsere wichtigsten Maßnahmen:

Alle Daten werden in Rechenzentren innerhalb der EU verarbeitet. Wir nutzen den Microsoft Azure OpenAI Service. Der Azure OpenAI Service wird vollständig von Microsoft kontrolliert und betrieben; Microsoft hostet die OpenAI-Modelle in der eigenen Azure-Umgebung und der Service interagiert NICHT mit Diensten, die von OpenAI betrieben werden.
Wir ermöglichen es unseren Kunden, die Nutzung sämtlicher KI-Services jederzeit abzulehnen.Zum Schutz unserer Systeme vor typischen LLM-Schwachstellen und Risiken verfolgen wir folgende Vorgehensweise:
- Alle Operationen, die im Zusammenhang mit einer LLM-Interaktion ausgeführt werden, sind nicht-destruktiv und können rückgängig gemacht werden.
- Die mit LLMs geteilten Daten werden niemals vom Output des LLM beeinflusst. Die von uns geteilten Daten sind festgelegt und Bestandteil des ersten Prompts. Nachfolgende Interaktionen mit dem LLM verändern die Menge der geteilten Daten nicht. LLMs sind nicht direkt mit unseren Services oder Datenbanken verbunden
- Wir beschränken die Daten, die mit dem LLM geteilt werden, auf das absolute Minimum.

Aufbau einer Incident-Response mit LLMs

Unser Weg zur Integration von Large Language Models in unsere Incident-Response-Plattform war in Bezug auf Möglichkeiten und Komplexität gleichermaßen eine Offenbarung. LLMs sind von Natur aus nicht-deterministische Black Boxes, die einerseits eine enorme Leistungsfähigkeit bieten, andererseits aber auch ganz eigene Herausforderungen mit sich bringen. Eine der wichtigsten Erkenntnisse ist, dass sich der tatsächliche Einsatz von LLMs auf eine Weise entfaltet, die in der Entwicklungsphase niemals vollständig vorhersehbar ist. Nutzer interagieren mit LLM-basierten Anwendungen auf eine Weise, die Anpassungsfähigkeit und Verständnis erfordert.

‍

Als Antwort darauf haben wir eine Philosophie entwickelt, bei der reale Nutzungsdaten die Grundlage für die Entwicklung und Verbesserung unserer KI-Funktionen bilden. Wir haben erkannt, dass Interaktionen mit Anwendern die wertvollsten Einblicke zur Optimierung liefern. Daher integrieren wir Nutzerfeedback und haben eine Zwischenebene für Observability implementiert, die Telemetriedaten für jede Interaktion mit einem LLM sammelt:

‍

1. Nutzerfeedback-Erfassung: Einfach, aber wirkungsvoll – wir fordern direktes Feedback von unseren Nutzern in Form einer Daumen-hoch- oder Daumen-runter-Bewertung an. Dieses unmittelbare Stimmungsbild ermöglicht es uns, Verbesserungsbedarf schnell zu erkennen und umzusetzen..

‍

2. Intermediate Observability Layer: Um unser Verständnis zu vertiefen und die Reaktionsfähigkeit unserer KI-Funktionen zu erhöhen, haben wir eine Zwischenebene eingerichtet, die Telemetriedaten erfasst, wie zum Beispiel

Nutzereingaben:
‍
Wir erfassen, welche Anfragen oder Befehle die Nutzer an das System stellen.

LLM-Ausgaben:

Die vom LLM generierten Antworten sind entscheidend, um die Angemessenheit und Genauigkeit der Modellausgaben zu beurteilen.

Fehlerprotokollierung:

Wir verfolgen nicht nur Systemfehler, sondern auch Fälle, in denen die vom LLM generierte Antwort zwar erfolgreich erstellt wurde, jedoch nachgelagert zu Fehlern führt – beispielsweise weil sie kontextuell nicht passt oder unangebracht ist.

Token-Nutzungsmetriken:

Wir überwachen die Gesamtanzahl der verwendeten Input- und Output-Tokens, um unsere Modelle hinsichtlich Effizienz und Kosteneffektivität zu optimieren.

Antwortzeiten des LLM:

Wir tracken und überwachen die Antwortzeiten der LLMs. Die fortschrittlichsten Modelle haben in der Regel eine längere Antwortzeit.

Prompt-Version und LLM-Modell:

Für jede Interaktion speichern wir, welches Modell und welche Prompt-Version verwendet wurde.

Feedback-Integration:
‍
Das direkte Nutzerfeedback wird mit den jeweiligen Interaktionen verknüpft, sodass wir Optimierungspotenziale gezielt identifizieren und priorisieren können.

Strategie zur Modellauswahl

Unser Ansatz für die Modellauswahl legt den Fokus zunächst auf leistungsstarke Modelle, um bestmögliche Ergebnisse zu erzielen Ergebnisqualität steht vor Kosten und Antwortzeit. In der Anfangsphase ermöglicht uns diese Strategie, die Wirksamkeit einer KI-Funktion zu bestätigen.

‍

Anschließend prüfen wir, nach erfolgreicher Validierung und ausreichend gesammelten Nutzungsdaten aus dem Realbetrieb, einen Wechsel zu kosteneffizienteren Modellen. So stellen wir sicher, dass der Umstieg auf ein weniger leistungsstarkes Modell nicht die Nutzererfahrung beeinträchtigt.

‍

Dieses umfassende Observability-Framework sorgt dafür, dass unsere KI-Funktionen nicht isoliert entwickelt werden, sondern sich in einer symbiotischen Beziehung zu unserer Nutzerbasis weiterentwickeln. Es trägt dem dynamischen Charakter von LLM-Anwendungen Rechnung und unterstreicht die Notwendigkeit eines iterativen Entwicklungsprozesses, der durch reale Anwendungsfälle gesteuert wird. Wir sind überzeugt: Der Schlüssel zum Aufbau verlässlicher, nutzerzentrierter KI-Systeme liegt darin, die Unvorhersehbarkeit der Nutzerinteraktion als wertvolle Quelle für Feedback und Innovation zu nutzen.

‍

Optimierung der LLM-App-Entwicklung

Bei der Entwicklung und Weiterentwicklung unserer LLM-basierten Funktionen aktualisieren wir regelmäßig unsere Prompts und experimentieren mit verschiedenen Modellen sowie deren Parametern. Um Änderungen systematisch zu testen, setzen wir auf bewährte Methoden:

‍

Nutzung von JSON für strukturiertes Testen
‍
Wo immer möglich, verwenden wir den JSON mode von OpenAI, um die Ausgaben zu verifizieren. Dieser strukturierte Ansatz ermöglicht es uns, auf weniger zuverlässige Methoden wie String-Vergleiche oder Prüfungen von Ausgabestrings zu verzichten.

Verwendung einer Bibliothek zum Schreiben von Tests für LLMs

Wir setzen promptfoo ein - eine Bibliothek, die das Schreiben von Tests für LLMs erleichtert – um eine umfassende Testsuite zu erstellen. Diese Tests werden mit sorgfältig ausgewählten Beispiel-Prompts und den dazugehörigen erwarteten Ergebnissen erstellt. Dieser Ansatz vereinfacht nicht nur den Testprozess, sondern stellt auch sicher, dass unsere Tests langfristig robust und relevant bleiben.

Kontinuierliche Verbesserung und stetiges Experimentieren

Unser Anspruch auf beste Qualität motiviert uns, unsere Prompts kontinuierlich zu verfeinern. Durch das Experimentieren mit verschiedenen Modellen und die Anpassung ihrer Parameter streben wir eine optimale Performance an. Systematisches Testen ist hierbei entscheidend, da es uns ermöglicht, unsere LLMs objektiv zu bewerten und stetig zu verbessern.

‍

Erkenntnisse und Ausblick zur GenAI-Integration

Die Integration von Generative AI in das Incident-Management stellt nicht nur eine Weiterentwicklung, sondern eine Revolution der Art und Weise dar, wie Unternehmen sich auf Incidents vorbereiten, darauf reagieren, bei einer Störung kommunizieren und daraus lernen. Die Zukunft des Incident-Managements ist untrennbar mit der kontinuierlichen Innovation und Anwendung von KI-Technologien verbunden – sie begleiten uns von der Vorbereitung bis zur Lösung mit gesteigerter Präzision und Effizienz.

‍

Einsatz von LLMs und GenAI über den gesamten Incident-Response-Lifecycle hinweg

Wir haben praktische Anwendungsfälle für GenAI im gesamten Lebenszyklus der Incident-Response betrachtet:

‍

Der Weg zur Integration von KI in ilert

Unser Weg zur Integration von Large Language Models (LLMs) und Generative AI in unsere Plattform unterstreicht die entscheidende Bedeutung von Feedback aus der realen Anwendung. Durch den Fokus auf Nutzerfeedback, die Einführung einer zusätzlichen Observability-Schicht und die Feinabstimmung der KI-Modelle auf Basis tatsächlicher Nutzung setzt ilert einen Maßstab für die Entwicklung von KI-Funktionen, die wirklich auf die Bedürfnisse und Erwartungen der Anwender eingehen.

‍

Fazit

Unsere Integration von Generative-AI-Technologien in das Incident-Management ist ein revolutionärer Schritt. Im gesamten Incident-Response-Lebenszyklus werden die Fähigkeiten von GenAI deutlich unter Beweis gestellt – und damit eine Zukunft aufgezeigt, in der jede Phase des Zyklus durch die Effizienz und Skalierbarkeit von Generative AI unterstützt und verbessert wird.