Aufbau einer Incident-Response mit LLMs
Unser Weg zur Integration von Large Language Models in unsere Incident-Response-Plattform war in Bezug auf Möglichkeiten und Komplexität gleichermaßen eine Offenbarung. LLMs sind von Natur aus nicht-deterministische Black Boxes, die einerseits eine enorme Leistungsfähigkeit bieten, andererseits aber auch ganz eigene Herausforderungen mit sich bringen. Eine der wichtigsten Erkenntnisse ist, dass sich der tatsächliche Einsatz von LLMs auf eine Weise entfaltet, die in der Entwicklungsphase niemals vollständig vorhersehbar ist. Nutzer interagieren mit LLM-basierten Anwendungen auf eine Weise, die Anpassungsfähigkeit und Verständnis erfordert.
Als Antwort darauf haben wir eine Philosophie entwickelt, bei der reale Nutzungsdaten die Grundlage für die Entwicklung und Verbesserung unserer KI-Funktionen bilden. Wir haben erkannt, dass Interaktionen mit Anwendern die wertvollsten Einblicke zur Optimierung liefern. Daher integrieren wir Nutzerfeedback und haben eine Zwischenebene für Observability implementiert, die Telemetriedaten für jede Interaktion mit einem LLM sammelt:
1. Nutzerfeedback-Erfassung: Einfach, aber wirkungsvoll – wir fordern direktes Feedback von unseren Nutzern in Form einer Daumen-hoch- oder Daumen-runter-Bewertung an. Dieses unmittelbare Stimmungsbild ermöglicht es uns, Verbesserungsbedarf schnell zu erkennen und umzusetzen..
2. Intermediate Observability Layer: Um unser Verständnis zu vertiefen und die Reaktionsfähigkeit unserer KI-Funktionen zu erhöhen, haben wir eine Zwischenebene eingerichtet, die Telemetriedaten erfasst, wie zum Beispiel
Wir erfassen, welche Anfragen oder Befehle die Nutzer an das System stellen.
Die vom LLM generierten Antworten sind entscheidend, um die Angemessenheit und Genauigkeit der Modellausgaben zu beurteilen.
Wir verfolgen nicht nur Systemfehler, sondern auch Fälle, in denen die vom LLM generierte Antwort zwar erfolgreich erstellt wurde, jedoch nachgelagert zu Fehlern führt – beispielsweise weil sie kontextuell nicht passt oder unangebracht ist.
Wir überwachen die Gesamtanzahl der verwendeten Input- und Output-Tokens, um unsere Modelle hinsichtlich Effizienz und Kosteneffektivität zu optimieren.
Wir tracken und überwachen die Antwortzeiten der LLMs. Die fortschrittlichsten Modelle haben in der Regel eine längere Antwortzeit.
Für jede Interaktion speichern wir, welches Modell und welche Prompt-Version verwendet wurde.
Das direkte Nutzerfeedback wird mit den jeweiligen Interaktionen verknüpft, sodass wir Optimierungspotenziale gezielt identifizieren und priorisieren können.
Strategie zur Modellauswahl
Unser Ansatz für die Modellauswahl legt den Fokus zunächst auf leistungsstarke Modelle, um bestmögliche Ergebnisse zu erzielen Ergebnisqualität steht vor Kosten und Antwortzeit. In der Anfangsphase ermöglicht uns diese Strategie, die Wirksamkeit einer KI-Funktion zu bestätigen.
Anschließend prüfen wir, nach erfolgreicher Validierung und ausreichend gesammelten Nutzungsdaten aus dem Realbetrieb, einen Wechsel zu kosteneffizienteren Modellen. So stellen wir sicher, dass der Umstieg auf ein weniger leistungsstarkes Modell nicht die Nutzererfahrung beeinträchtigt.
Dieses umfassende Observability-Framework sorgt dafür, dass unsere KI-Funktionen nicht isoliert entwickelt werden, sondern sich in einer symbiotischen Beziehung zu unserer Nutzerbasis weiterentwickeln. Es trägt dem dynamischen Charakter von LLM-Anwendungen Rechnung und unterstreicht die Notwendigkeit eines iterativen Entwicklungsprozesses, der durch reale Anwendungsfälle gesteuert wird. Wir sind überzeugt: Der Schlüssel zum Aufbau verlässlicher, nutzerzentrierter KI-Systeme liegt darin, die Unvorhersehbarkeit der Nutzerinteraktion als wertvolle Quelle für Feedback und Innovation zu nutzen.