09.12.2025
Blog
Data & AI

Conversational AI 2025 im Realitätscheck – Teil 1

Zu Beginn des Jahres 2025 hatten wir einen Blick nach vorn geworfen und acht Entwicklungen identifiziert, die das Jahr im Bereich Conversational AI und KI-gestützter Interaktion prägen würden. Jetzt, Ende 2025, ist es Zeit für einen Realitätscheck: Welche Trends haben sich bestätigt, welche Erwartungen wurden übertroffen – und wo hat sich gezeigt, dass manches noch Zukunftsmusik bleibt?

Potrait von Ansprechpartner Carsten Dahlmann
Carsten Dahlmann
Conversational AI Consultant

Viele der Prognosen haben sich in Form konkreter Produkte, Plattformen und Pilotprojekte materialisiert. Andere Themen hingegen wurden stärker von Hype, Buzzwords oder regulatorischen Debatten geprägt. In diesem Rückblick ordnen wir unsere Vorhersagen ein, vergleichen sie mit der tatsächlichen Entwicklung über das Jahr hinweg und setzen die Erkenntnisse in einen größeren Kontext: Was bedeutet das für Unternehmen, für Technologie-Teams und für die nächsten Schritte im Jahr 2026?

Agentensysteme & Multi-Agentensysteme

Im Jahresausblick hatten wir moderne Agentensysteme und Multi-Agentensysteme als einen der zentralen strategischen Trends hervorgehoben. Unserer Einschätzung nach würden KI-Agenten im Laufe des Jahres beginnen, echte Aufgaben zu übernehmen: eigenständig Informationen beschaffen, Entscheidungen treffen und Prozessschritte ausführen. Rückblickend betrachtet war diese Prognose im Kern richtig – allerdings mit deutlichen Nuancen.

Was 2025 wirklich erreicht wurde

Agentic AI hat 2025 den Sprung aus theoretischen Konzepten und Demo-Videos in die Unternehmenspraxis geschafft – allerdings meist in Form klar abgegrenzter, gut strukturierter Use Cases. Laut aktuellen Marktstudien und Analystenberichten setzen inzwischen viele Unternehmen auf sogenannte Task-Agenten oder Workflow-Agenten, die definierte Schritte automatisiert durchführen. Komplexere agentische Architekturen, die mehrere spezialisierte Agenten koordinieren, sind selten, aber es gibt erste produktive Pilotprojekte, insbesondere im Kundenservice und im Backoffice-Automatisierungsbereich.

Hype vs. Realität

Die große Vision – vollständig autonome Agenten, die flexibel planen, lernen und im offenen Unternehmenskontext handeln – ist 2025 noch nicht Realität. Ein Teil der anfänglichen Erwartungen relativierte sich im Laufe des Jahres; zahlreiche Expert:innen sprechen inzwischen offen darüber, dass Agentic AI auch als Marketingbegriff benutzt wurde. Gleichzeitig bestätigt sich aber, dass agentische Systeme einen echten Mehrwert schaffen können, wenn die technischen und organisatorischen Voraussetzungen gegeben sind.

Einordnung mit dem Dextralabs-Reifegradmodell

Besonders hilfreich zur Einordnung ist das im November 2025 veröffentlichte Agentic AI Maturity Model von Dextralabs. Es unterscheidet vier Stufen – von einfachen Task-Agenten (L1) über koordinierte Multi-Agent-Systeme (L2) und autonome Orchestrierungsschichten (L3) bis hin zu selbstlernenden Agenten-Ökosystemen (L4). Die Mehrheit der Unternehmen bewegt sich derzeit zwischen L1 und L2. Erste Vorreiter arbeiten an L3-Architekturen, während L4 – trotz viel Diskussion – klar Zukunft bleibt.

Fazit

Unsere Prognose hat sich damit überwiegend bestätigt: Agentensysteme sind 2025 zu einem der sichtbarsten Weiterentwicklungen im KI-Bereich geworden, allerdings mit deutlich pragmatischerem Reifegrad, als es die frühen Visionen erwarten ließen. Agentic AI ist real – aber noch selten wirklich autonom.

Multimodale Konversationsschnittstellen

Im Jahresausblick hatten wir erwartet, dass multimodale KI-Interaktion 2025 an Bedeutung gewinnt und die klassische Text- oder Sprachschnittstelle zunehmend durch reichhaltigere Dialogformen ergänzt wird. Die Vision: Systeme, die Sprache, Text, Bilder oder sogar Gesten gleichzeitig verstehen und kombinieren, um natürlicher und intuitiver mit Nutzerinnen und Nutzern zu interagieren.

Was 2025 tatsächlich erreicht wurde

Multimodalität hat in diesem Jahr klar an Dynamik gewonnen. Große KI-Modelle wie Google Gemini oder OpenAI-Systeme verarbeiten heute selbstverständlich Text, Bild und Audio in einer einzigen Architektur. Auch in Forschung und Produktentwicklung gibt es Fortschritte: von multimodalen Agenten über visuell unterstützte KI-Assistenten bis hin zu ersten Experimenten mit non-verbalen Signalen wie Mimik oder Gestik. Damit hat sich der Trend grundsätzlich bestätigt – multimodale Interaktion ist kein Randthema mehr, sondern fester Bestandteil vieler KI-Roadmaps.

Was jedoch noch nicht flächendeckend Realität ist

Trotz technologischer Reife im Kern bleiben echte, voll integrierte multimodale Konversationsschnittstellen in der Praxis noch die Ausnahme. Unternehmen setzen Multimodalität bislang vor allem dort ein, wo sie klaren, unmittelbaren Nutzen stiftet – etwa in Form von Sprachsteuerung mit begleitender visueller Ausgabe oder durch die Kombination von Chat und Bildanalyse im Support. Die ganzheitliche Interaktion über mehrere Modalitäten hinweg, wie sie häufig in Demonstrationen zu sehen ist, bleibt hingegen noch überwiegend Pilotstatus und ist außerhalb großer Plattformanbieter selten.

Einordnung

Damit hat sich unsere Prognose im Grundsatz erfüllt: Die Interaktion zwischen Mensch und KI wird 2025 abwechslungsreicher, natürlicher und vielseitiger. Gleichzeitig zeigt sich, dass echte Multimodalität nicht von heute auf morgen zum Standard wird. Die Branche bewegt sich schrittweise voran – und Multimodalität tritt eher als gezielt eingesetzte Funktion auf denn als durchgängig neue Interface-Generation.

Emotionale intelligente KI

Im Jahresausblick hatten wir erwartet, dass KI-Systeme 2025 besser auf Stimmungen und emotionale Signale reagieren und Interaktionen dadurch natürlicher und menschlicher wirken. Rückblickend zeigt sich: Die emotionale Komponente der KI hat sich weiterentwickelt – allerdings deutlich nüchterner und vorsichtiger, als es manche frühen Visionen vermuten ließen.

Was 2025 tatsächlich erreicht wurde

Mehrere KI-Modelle wurden im Laufe des Jahres stilistisch angepasst, um in Dialogsituationen freundlicher, unterstützender und „menschennäher“ zu klingen. Besonders sichtbar wurde das bei Modellen wie GPT-5.1, die im November ein Update mit stärker konversationsorientiertem, wärmerem Ton erhielten. Auch in Forschung und Pilotprojekten gab es Fortschritte bei der Analyse von Stimmungsindikatoren wie Tonfall oder Textbedeutung, und diese können in stabilen Kontexten durchaus hilfreich sein.

Was weiterhin ungelöst bleibt

Die komplexe Aufgabe, echte Emotionen zuverlässig zu erkennen – über Stimme, Mimik oder Körperhaltung hinweg – bleibt weiterhin ein offenes Forschungsproblem. Viele Verfahren funktionieren nur in kontrollierten Umgebungen oder liefern unzuverlässige Ergebnisse, insbesondere über kulturelle oder sprachliche Grenzen hinweg. Das, was im Alltag als „empathisch“ wahrgenommen wird, ist häufig eher eine stilistische Optimierung als eine tiefere affektive Intelligenz. Von echter emotionaler Sensibilität im Sinne menschlicher Wahrnehmung sind KI-Systeme nach wie vor weit entfernt.

Regulatorische Grenzen

Zusätzlich setzt der EU AI Act dem Thema enge Leitplanken. Der Einsatz von Emotionserkennung am Arbeitsplatz, in Schulen oder im öffentlichen Raum ist untersagt, und auch in weniger sensiblen Bereichen gelten hohe Anforderungen an Transparenz und Nichtdiskriminierung. Diese regulatorischen Rahmenbedingungen haben viele ambitionierte Umsetzungspläne ausgebremst und dafür gesorgt, dass Unternehmen sich vor allem auf risikofreie, klar begrenzte Szenarien konzentrieren.

Einordnung

Damit fällt die Bilanz gemischt aus: Emotionale Intelligenz in KI-Interaktionen hat sich 2025 spürbar weiterentwickelt – jedoch vor allem auf Ausdrucks- und Gesprächsebene. Die tiefergehende technologische Vision einer KI, die menschliche Emotionen präzise erkennt und angemessen darauf reagiert, bleibt anspruchsvoll und durch Regulierung stark begrenzt. Der Trend ist real, doch seine Umsetzung in der Praxis bleibt bisher vorsichtig, selektiv und klar kontextabhängig.

Hier geht es weiter zum zweiten Teil.

Potrait von Ansprechpartner Carsten Dahlmann

Carsten Dahlmann
Conversational AI Consultant

Carsten Dahlmann ist als Conversational AI Consultant bei Materna an der Schnittstelle zwischen Sprache und Technik tätig. Er begleitet Kunden bei der Konzeption, Redaktion und Optimierung von digitalen Assistenten – vom Dialogdesign bis hin zur Integration generativer KI. Derzeit beschäftigt er sich intensiv mit der Frage, wie generative KI sinnvoll und verständlich in Unternehmenskontexte eingebettet werden kann – und gibt dieses Wissen in Schulungen weiter.