Wie funktionieren Chatbots und Sprachassistenten?

Immer öfter werden heute grundlegende Aufgaben des Kundendialogs auf sogenannte Chatbots und Sprachassistenten ausgelagert, digitale Dialogsysteme, über die sich in natürlicher Sprache kommunizieren lässt. Aber wie funktionieren diese Systeme?

Auf Chatbots trifft man klassischerweise in Form eines herkömmlichen „Messengers“, wie WhatsApp oder der Chatversion von Facebook („Facebook Messenger“) und bestehen aus einer simplen Textmaske, die für die Nutzereingaben und die systemseitigen, computergenerierten Antworten genutzt wird. Grundsätzlich sind aber auch Anwendungen für das gesprochene Wort denkbar, vergleichbar mit Apples Sprachsteuerungsfunktion „Siri“ oder den autonomen Haushaltslösungen Amazon Alexa oder Google Home, mit denen dann tatsächlich nahezu „richtige Gespräche“ möglich sind. Diese „Sprachassistenten“ funktionieren im Prinzip genauso wie die Chatbots, müssen jedoch zunächst die Inhalte „dekodieren“, also maschinell verarbeitbar machen. Gewöhnlich werden dazu die akustischen Äußerungen in die Textform übertragen. Von da an verläuft das weitere Verfahren in aller Regel analog.

Künstliche Erstellung natürlicher Sprache

Technisch können beide Anwendungsarten grundsätzlich auf „Natural Language Processing“ zurückgreifen, um den erfassten menschlichen und damit aus Sicht des Systems „unstrukturierten“ Inhalt für die Datenverarbeitung aufzubereiten. In einem als „Preprocessing“ bezeichnetem Verfahrensschritt werden zunächst im Abgleich mit vorhandenen „Sprachbibliotheken“ Schreibweisen (Groß- und Kleinschreibung, Umlaute, etc.) und Synonymverwendungen harmonisiert und Tippfehler ausgeglichen. Im Anschluss daran wird die Eingabe oder „Äußerung“ des Anwenders in einzelne eindeutig bestimmbare Textbestandteile zerlegt. Die weitere Verarbeitung erfolgt dann nach zuvor aufgestellten Regeln. Diese sind heute oft noch menschlich „programmiert“, können aber auch (zusätzlich) im Rahmen maschineller Lernfahren abgeleitet worden sein. Das System erstellt daraus dann die entsprechenden „Softwarebefehle“, um zielführend auf die hinterlegte Datenbank zuzugreifen.

Chatbots und Spracherkennung

Bei einer Bestellung in einem Online Shop über einen Chatbot („Ich möchte Produkt XY kaufen…“) würde das System demgemäß erst den Eigennamen des Produktes („XY“) und die Intention des Nutzers („…kaufen…“) extrahieren und damit die bestehende Aufgabe identifizieren. Diese kann dann an das Backend-System übertragen werden, um dort mittels einer Schnittstelle zum CRM- und zum Warenwirtschaftssystem automatisiert und autonom die Bestellung zu bearbeiten. Die Güte der Inhaltserkennung steht und fällt mit der semantischen Tiefe der verwendeten Verfahren und der hinterlegten Sprachbibliotheken. Diese können von der bedeutungsfreien Keyword-Erkennung bis hin zum Rückgriff auf voll ausgereifte semantische Analysen reichen, die auch subjektive „Haltungs- und Einstellungselemente“ erfassen.

Erster Schritt: Daten sammeln

Damit der Chatbot diese Einordnung vornehmen und darauf situativ reagieren kann, muss zuvor eine entsprechende Datenbank aufgebaut werden, die die entsprechenden unternehmensrelevanten Informationen, wie Produktnamen und mögliche Kundenintentionen enthält. Während dies im genannten Beispiel entlang des Shop-Systems und des dort hinterlegten Sortiments sowie der bereits gesammelten Nutzerdaten möglich ist, greift man im Service-Bereich oft auf bereits existierende „FAQs“ („Frequently Asked Questions“) sowie auf die damit korrespondierenden und bereits ausformulierten Antworten zurück. Intelligentere Systeme indizieren eigenständig die Websiteinhalte und versuchen diese semantisch zu erfassen.

Das US-Start-Up Guestfriend bietet seinen Kunden aus der Gastronomie an, Chatbots für Restaurants automatisch, direkt aus den verfügbaren Website-Informationen – wie Speisekarte, Öffnungszeiten sowie Zusatzstoffe und Allergene in den Gerichten – zu erstellen, ohne dass sich die Eigner dazu um einen zu implementierenden Konversationsverlauf kümmern müssten. Auch in diesen Kontexten setzt man inzwischen verstärkt auf selbstlernende Verfahren, die die „Customer Experience“ eigenständig optimieren, indem die Ergebnisse und die Zufriedenheit der Kunden mit dem Chatbot erhoben und bei der permanenten Justierung des Dialogs miteinbezogen werden.

Die künstliche Erstellung von Sprache

Neben dem Verstehen von Useranfragen und deren Bedeutung („Language Understanding“) umfasst die Sprachverarbeitung auch die systemseitige Erstellung von Antworten und Dialogtexten („Language Generation“). Damit ist der Chatbot in der Lage, die Konversation „aktiv“ in „menschlicher“ Sprache zu betreiben. Dabei kann es sich um simple Bestätigungen („Ihre Bestellung ist unterwegs“), um präzisierende Nachfragen („Ist die Bestellung so in Ordnung?“, „Stimmt die folgende Adresse noch?“) oder weiterführende Dialoge (Cross-Selling/Up-Selling, …) handeln. Auch hier ist ein breites Leistungsspektrum denkbar – von vorformulierten Standardsätzen bis hin zu aus den Versatzstücken der Sprachdatenbank eigenständig, „intelligent“ geformten Textelementen. In der Praxis vorherrschend ist allerdings im Moment noch der Rückgriff auf „vorgefertigte Sprach-Templates“, die standardisierte Textbausteine enthalten und über entsprechende Variablen und Platzhalter auf die spezifische Situation angepasst werden.

Vom Chatbot zum Sprachassistenten

Bei Sprachassistenten läuft die Dialogverarbeitung, wie erwähnt, grundsätzlich genauso. Der Unterschied besteht darin, dass zu Beginn und zum Ende des Prozesses der inhaltliche Transfer zwischen akustischer und geschriebener Sprache in die jeweilige Richtung erfolgt. Bei der „Eingabe“ eines Sprachbefehls wird zunächst das Tonsignal digitalisiert. Im Anschluss durchläuft dieser „Input“ ein mitunter mehrstufiges Verfahren, das zunächst zum Ziel hat, einzelne Laute beziehungsweise Silben zu identifizieren, um deren Zusammenhänge dann als Wörter zu erkennen, die dann schließlich wiederum im Satzbau-Kontext analysiert werden. Jede höhere Instanz wirkt dann als „Prüfstelle“ für die Sinnhaftigkeit der von der vorherigen Stufe übergebenen Ergebnisse – also etwa, ob ein Wort aus bestimmten Lauten/Silben in dieser Form existiert oder nicht – und passt dann den weiterzuverarbeitenden Inhalt gegebenenfalls – analog zu einer „Autokorrektur“ in einem Textverarbeitungsprogramm – an. Damit ist die Umwandlung in Schriftform schließlich vollzogen und es setzt der für die Chatbots beschriebene Prozess ein.

Simulation menschlicher Lautsprache

Entsprechend gilt es an dessen Ende wieder bei den Sprachassistenten das geschriebene Wort in Tonsignale umzuwandeln. Dazu greift man auf „Sprachsynthese“ zurück, die entweder einzelne, zuvor gespeicherte Laute entsprechend der Textfolge zusammenfügt oder, in der „vollsynthetischen“ Ausprägung, versucht, die Funktionsweise des menschlichen Vokaltrakts softwareseitig abzubilden. In der Regel kommen hierbei auch künstliche neuronale Netzwerke zum Einsatz, die nach ermittelnden Mustern, Sprache „modulieren“ sollen. Ein gutes Beispiel für die vollsynthetische Spracherzeugung dürfte Googles „Duplex“ darstellen, das mit einer künstlichen generierten Stimme – die nicht mehr von einer natürlichen menschlichen zu unterscheiden war –, erfolgreich einen Frisörtermin vereinbaren konnte, wie Google auf seiner „I/O Conference“ im Jahr 2018 demonstrierte.

Erstellung von Sprachangeboten

Unternehmen, die auf Chatbots im Marketing zurückgreifen möchten, müssen nicht zwingend selbst die komplette Entwicklung und Programmierung übernehmen, sondern können auf bereits existierende Chatbot-Frameworks zurückgreifen, welche bestimmte Funktionen standardmäßig bereitstellen. Auch Plattformen, welche die komplette technische Infrastruktur bereitstellen, gibt es. Nicht zu unterschätzen ist jedoch in beiden Fällen die Verknüpfung mit den zu übermittelnden Inhalten und die Konzeption der Dialoge. Die Qualität der Kundenkommunikation hängt schließlich ganz entscheidend von der Tiefe und der Güte der übermittelten Informationen sowie insbesondere auch von der Dialogfähigkeit des Systems ab. Diese Eigenschaften kommen nur dann zur Geltung, wenn nicht nur das technische Rahmenwerk funktioniert, sondern eben auch die entsprechenden Inhalte zielgerichtet aufbereitet und mit dem System verknüpft wurden.

KI: Sind Chatbots intelligent?

Umstritten ist immer noch, ob es sich bei Chatbots um KI im eigentlichen Sinne handelt. In der Tat ist der Übergang vom programmierten System zur autonom agierenden Einheit fließend. Viele der derzeit existierenden Chatbots beruhen noch auf eher simplen „wenn – dann“-Verknüpfungen, die auf Basis mehr oder weniger händisch eingepflegter Inhalte einen Output zu einem menschlichen Input liefern. Gleichwohl hat sich hier, gerade bei den akustisch getriebenen Sprachassistenten der großen Technologieanbieter, wie Amazon oder Google, in den letzten Jahren eine erstaunliche Entwicklung vollzogen. Spracherkennung beruht heute in vielen Fällen auf der Erkennung von Mustern, die Systeme werden mittels Verfahren des maschinellen Lernens trainiert und sind in der Folge in der Lage „eigenständig“ hinzuzulernen, wenn die kontinuierliche Versorgung mit Daten nicht abreißt und es gelingt, eine entsprechende Feedback-Systematik zu etablieren. Das erklärt vermutlich auch gerade den Erfolg von Alexa, Google Home & Co, die nun schon seit geraumer Zeit durch uns, die Vielzahl der Anwender, systematisch in „realer“ Umgebung mit einem steten Zufluss an Input versorgt werden.

Conversational AI?

In diesem Zusammenhang fällt heute des Öfteren der Begriff der „Conversational AI“, der sich auf die Fähigkeit der intelligenten Gesprächsführung weitgehend autonomer Systeme bezieht. Dies geht deutlich über simple „Frage-Antwort“-Spiele hinaus, sondern umfasst ein erheblich weiter gefasstes Konzept von Kommunikation, das auf einem tiefen Sprachverständnis basiert. Dazu gehört, dass das System den Gesprächskontext erkennt, Informationen aus vorausgegangenen Dialogen berücksichtigt, deren Relevanzunterschiede erfasst und die womöglich tiefere Bedeutung einzelner Formulierung versteht. Selbst Emotionen der menschlichen Gesprächspartner sollen in Zukunft entschlüsselt und bei der Gestaltung des Dialoges miteinbezogen werden. Die chinesische Firma „emotibot“ etwa verspricht Kundengespräche anhand von akustischen und textlichen „Emotionsmustern“ zu analysieren und daran in Echtzeit die Antworten ihrer Chatbots auszurichten.

Von der Mustererkennung zu menschlichem Verhalten?

Letztlich geht es darum, den zwischenmenschlichen Kommunikationsprozess so weitgehend wie möglich technisch zu simulieren. Auch wenn auf diesem Feld in den letzten Jahren in kurzer Zeit erhebliche Weiterentwicklungen zu verzeichnen waren, sind wir aktuell von einer gänzlich natürlichen Gesprächsführung mit intelligenten Systemen immer noch ein gutes Stück entfernt. Gleichwohl ist durchaus denkbar, dass einiges von dem, was wir heute als „originär menschlich“ in der Kommunikation betrachten, durch Mustererkennung und maschinelles Lernen für die Technik abbildbar wird.

Die Qualität der Customer Experience mit Chatbots und Sprachassistenten hängt maßgeblich von deren Sprachfähigkeiten und letztlich von deren „Intelligenz“ ab. Entscheidend ist hierbei, den optimalen Ausgleich zu finden, zwischen Automatisierung und Kundenzufriedenheit. Sofern die Systeme in ihrer Leistungsfähigkeit noch beschränkt sind, stellen sie keinen vollfunktionsfähigen Ersatz für ein menschliches Service- oder Sales-Team dar. Gleichwohl können sie bereits jetzt als Ergänzung in der Kundenbearbeitung und perspektivisch der Gestaltung eines reibungslosen Übergangs zu einem erhöhten Automatisierungsgrad dienen, bis hin zur Entwicklung einer letztlich vollständigen Autonomie des Kundendialogs.

Der Artikel beruht auf dem Buch von Andreas Wagener Künstliche Intelligenz im Marketing – ein Crashkurs, Haufe, Freiburg, 2019

Mehr zum Thema hier:

Vortrag/Keynote von Prof. Dr. Andreas Wagener: „Ein neues Zeitalter im Marketing: Künstliche Intelligenz, maschinelle Kreativität, virtuelle Realitäten & DNA-Targeting„:

Mehr Informationen zum Thema KI im Marketing finden Sie im Buch von Andreas Wagener Künstliche Intelligenz im Marketing, Haufe, Freiburg, 2023

Mehr zu Themen wie Industrie 4.0, Big Data, Künstliche Intelligenz, Digital Commerce und Digitaler Ökonomie finden Sie auf unserer Newsseite auf XING sowie auf Facebook.

3 Gedanken zu „Wie funktionieren Chatbots und Sprachassistenten?“

Pingback: KI im Customer Experience Management - Nerdwärts.de
Susanne Meier 20. Juli 2020 um 9:25

Sehr interessanter und ausführlicher Beitrag zu diesem Thema der Sprachassistenten. Vielen Dank.

Antworten ↓
Pingback: Chatbots & Sprachassistenten im Kundenmanagement - Nerdwärts.de

Nerdwärts.de

Digitaler Wandel & Digitale Bildung

Wie funktionieren Chatbots und Sprachassistenten?

Künstliche Erstellung natürlicher Sprache

Chatbots und Spracherkennung

Erster Schritt: Daten sammeln

Die künstliche Erstellung von Sprache

Vom Chatbot zum Sprachassistenten

Simulation menschlicher Lautsprache

Erstellung von Sprachangeboten

KI: Sind Chatbots intelligent?

Conversational AI?

Von der Mustererkennung zu menschlichem Verhalten?

3 Gedanken zu „Wie funktionieren Chatbots und Sprachassistenten?“

Schreibe einen Kommentar Antworten abbrechen