BLOG

Alles über den KI-gestützten Voice-Agenten von ilert

Jan Arnemann
August 15, 2025
Table of Contents:

Der ilert KI Voice Agent wurde entwickelt, um die Art und Weise zu verändern, wie On-Call-Engineers dringende Anrufe bearbeiten. Anstatt Techniker um 3 Uhr morgens mit minimalem Kontext zu wecken, sammelt der AI Voice Agent zunächst wichtige Details und leitet Anrufe intelligent auf Basis relevanter, aktueller Informationen weiter.

Der Agent arbeitet Hand in Hand mit dem ilert Call Flow Builder – einem visuellen Tool, mit dem Nutzer benutzerdefinierte Call-Flows erstellen können, indem sie konfigurierbare Knoten verbinden. Jeder Knoten steht für einen Schritt in der Verwaltung von Anrufen – der AI Voice Agent ist einer dieser Knoten.

So können Sie die KI genau an der richtigen Stelle in Ihre Anruflogik einfügen – nahtlos und hochflexibel anpassbar.

In diesem Artikel erläutern wir, für welche Problemlösungen der Voice Agent eingesetzt wird, wie er aufgebaut ist, wie er natürliche und kontextbezogene Gespräche ermöglicht und wie wir sicherstellen, dass er sicher und zuverlässig arbeitet.

Beta-Hinweis: Der ilert AI Voice Agent ist derzeit in der Beta-Phase verfügbar. Nutzer mit dem Call Flow Builder Add-on können einen Early-Access-Zugang anfordern, indem sie eine Nachricht an support@ilert.com.

Welche Herausforderungen können Sie mit dem ilert Voice Agent meistern – und warum ist er für On-Call-Engineers so wichtig?

IT-Techniker in Bereitschaft erhalten oft dringende Anrufe mit minimalem Kontext, sodass sie wiederholt dieselben Fragen stellen müssen, bevor sie handeln können. Das kostet in Stresssituationen wertvolle Zeit.

Der ilert AI Voice Agent löst dieses Problem, indem er:

  • Zeitersparnis: Die KI sammelt wichtige Details, bevor ein Techniker angerufen wird. So kann dieser sofort mit der Problemlösung beginnen. Außerdem werden unnötige Eskalationen reduziert, indem der Agent prüft, ob es bereits offene Incidents gibt, und den Anrufer darüber informiert.
  • Visuelle Call-Flow-Integration: AI Voice Agent-Knoten lassen sich direkt in den Call Flow einfügen – einfach und ohne manuelle Workarounds.
  • Individuelle Datenerfassung: Sie bestimmen, welche Daten gesammelt werden (z. B. Name, Telefonnummer, E-Mail, Incident-Beschreibung, betroffene Services oder benutzerdefinierte Felder).

Architektur: So funktioniert der ilert AI Voice Agent

Im Kern ist der AI Voice Agent für modulare, konfigurierbare Interaktionen mit niedriger Latenz konzipiert.

Wichtige Komponenten:

  • WebSockets: Bereitstellung eines Kanals mit niedriger Latenz für dialogorientierte KI mit OpenAI
  • Twilio-Integration: Live-Audio zu und von Anrufern streamen
  • Visueller Flow Builder: Direkte Konfiguration von AI Voice Agent-Knoten.

Modulare Konfiguration:

  • Intents: Vorgefertigt oder benutzerdefiniert – definieren, wie Anrufe je nach Zweck des Anrufers weitergeleitet werden.
  • Gathers: Strukturierte Datenerfassung (z. B. Kontaktdetails, Incident-Beschreibungen).
  • Enrichment: Optionale Datenanreicherung aus Quellen wie ilert-Statusseiten, Service-Status, offenen Incidents oder laufenden Wartungsfenstern.
  • Audio-Messages: Vollständig anpassbare Begrüßungen und Ansagen.
  • Fallback-Handling: "Catch-all"-Zweig für nicht erkannte Gespräche.

Während der Entwicklung des AI Voice Agent stand das Team vor mehreren komplexen technischen Herausforderungen.


Eine der ersten Hürden war das Nachverfolgen, wer zu einem bestimmten Zeitpunkt sprach. Sowohl Twilio als auch OpenAI senden Sprecher-Ereignisse, und das System musste in Echtzeit zuverlässig erkennen, ob der Bot oder der Nutzer sprach. Dies war entscheidend, um Unterbrechungen oder verpasste Nachrichten während eines Gesprächs zu vermeiden.

Eine weitere große Herausforderung bestand darin, einen natürlichen Gesprächsfluss sicherzustellen. Um flüssige, menschlich wirkende Interaktionen zu schaffen, waren umfangreiches Prompt Engineering und Feinabstimmungen erforderlich. Tempo, Tonfall und Reaktionsfähigkeit der KI mussten sorgfältig gesteuert werden, damit die Erfahrung für die Nutzer intuitiv und ansprechend wirkt.

Schließlich erwies sich die Synchronisierung von Multi-Stream-Verbindungen als kritische Aufgabe. Das System musste den genauen Zustandskontext zwischen Twilio-Streams, OpenAI-Antworten und dem ilert-Backend beibehalten. Diese Synchronisierung war entscheidend, um während des gesamten Gesprächs eine konsistente Kontextwahrnehmung sicherzustellen.

Natürliche, präzise und kontextbezogene Gespräche

Der Voice Agent geht über traditionelle Sprachmenüs hinaus, indem er Intent-Erkennung mit optionaler Kontextanreicherung kombiniert.

Mit aktivierter Kontextanreicherung kann der Agent zusätzliche Informationen wie offene Incidents, aktuelle Service-Status und Wartungsfenster abrufen. So liefert er relevantere und zeitgerechtere Antworten.

Intent-basiertes Routing ordnet die Anfrage des Anrufers dem richtigen Call-Flow-Zweig zu – für schnellere und präzisere Problemlösungen.

Sicherheit, Compliance und Kontrollierbarkeit im Betrieb

Zuverlässigkeit und Compliance sind von Anfang an integriert. Hier sind drei wichtige Grundsätze:

  • Zustandsloses Design: Keine dauerhafte Speicherung von Anruferdaten zwischen verschiedenen Anfragen.
  • System-Prompts mit operativen Regeln: Die KI folgt strikten, vordefinierten Richtlinien für Sicherheit und Konsistenz.

Detailliertes Call-Logging: Protokolliert alle Anrufereignisse für Fehleranalyse und Performance-Reviews.

Gewonnene Erkenntnisse

In der Entwicklung und frühen Beta-Phase zeigte sich, dass die Möglichkeit zur Unterbrechung durch den Nutzer wichtig ist – viele Anrufer möchten Fragen überspringen oder nachträglich Details ergänzen. Dies erfordert jedoch präzises Tracking, wer gerade spricht.

Durch Überwachung der Sprecheraktivität können wir lange Pausen erkennen und verhindern, dass Anrufe unbegrenzt laufen.

Die Koordination mehrerer Live-Verbindungen (Twilio, OpenAI, ilert-Backend) war entscheidend, um den Gesprächskontext konsistent zu halten. Prompt Engineering war unabdingbar, um die Gespräche natürlich klingen zu lassen und gleichzeitig die Sicherheitsregeln einzuhalten.

Ausblick

Die Beta-Version hat bereits neue Ideen für Verbesserungen hervorgebracht.Wir planen, die Protokollierungsfunktionen zu erweitern und vollständige Aufzeichnungen von Gesprächen für Überprüfungs- und Compliance-Zwecke bereitzustellen.

Um die Flexibilität zu erhöhen, wird der AI Voice Agent einstellbare Parameter für Sprechgeschwindigkeit und Ausführlichkeit erhalten, sodass Teams den Interaktionsstil individuell anpassen können. Außerdem prüfen wir Möglichkeiten, zu erkennen, wenn Anrufer frustriert sind, und ihnen sofort die Option zu geben, mit einem menschlichen Operator zu sprechen.

Im Bereich der Transkription wollen wir das Benutzererlebnis in ilert verbessern, indem wir von Twilios integrierter Transkription zu KI-gestützter Sprachtranskription wechseln. Dies ermöglicht genauere und kontextbezogene Briefings für On-Call-Ingenieure, noch bevor ein Anruf durchgestellt wird.

Fazit

Der ilert AI Voice Agent schließt die Lücke zwischen dringenden Incident-Anrufen und den umsetzbaren Details, die Engineers benötigen.

Durch direkte Integration in die ilert-Incident-Management-Plattform bietet er natürliche, kontextbezogene und sichere Gespräche – mit der Flexibilität, die Interaktion an die eigenen Workflows anzupassen.

Mit geplanten Funktionen wie mehrsprachiger Unterstützung, Transkripten und tieferen Integrationen wird der Voice Agent den On-Call-Prozess weiter vereinfachen und die Incident Response beschleunigen.

Blog-Beiträge, die dir gefallen könnten:

Sind Sie bereit, Ihr Incident-Management zu verbessern?

Start for free
Unsere Cookie-Richtlinie
Wir verwenden Cookies, um Ihre Erfahrung zu verbessern, den Seitenverkehr zu verbessern und für Marketingzwecke. Erfahren Sie mehr in unserem Datenschutzrichtlinie.
Open Preferences
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.