„Voice Commerce“ – the next big thing

Spracherkennung gepaart mit Künstlicher Intelligenz (KI) feiert den Durchbruch im Smart Home. Mit Steuern, Einkaufen und Bestellen per „Voice“ gilt es, einen Milliardenmarkt zu besetzen. Die Player beim Kampf um die Vorherrschaft der Mensch-Maschine-Schnittstelle sind die „Big 6“: Amazon, IBM, Google, Facebook, Microsoft und Samsung. Wie weit haben uns Alexa, Siri & Co. schon unterwandert?

Foto: metamorworks - Thinkstock.com

„Wir erleben gerade den rasanten Aufstieg intelligenter Sprachassistenten“, stellt Christopher Meinecke fest. „In den nächsten Jahren werden wir immer mehr Geräte wie selbstverständlich mit unserer Stimme steuern. Hier entsteht gerade ein neuer Milliardenmarkt“, fügt der Leiter Digitale Transformation im Digitalverband Bitkom hinzu.

Ein Markt, in dem die Big 6 die Nase vorn haben. Schließlich haben sie Milliarden von Dollar in die Entwicklung von Sprachassistenten gesteckt. Mehr als 1.000 Mitarbeiter sind etwa bei Amazons „Echo“ seit dem Jahr 2014 daran, „Alexa“ in alle Haushalte zu bringen – und das funktioniert, denn 2017 haben rund zehn Prozent der Echo-Anwender bereits wiederholt per Alexa eingekauft. Echo ist ein „Smart Speaker“, also ein spezieller Lautsprecher mit Mikrofon, der durch Sprachbefehle eines Menschen gesteuert wird, Aktionen durchführt bzw. veranlasst. Mehr als 100.000 „Skills“ beherrscht Alexa mittlerweile, die dank offener Schnittstellen von der Steuerung des smarten Heimes über die Wiedergabe individueller Playlisten diverser Musik(streaming-)Anbieter bis zum Einkauf von Waren reicht. Echo gibt es bereits auf den neuesten Modellen der Amazon-Fernbedienung und wahrscheinlich ist es bald auf den Smartphones zu finden. Damit werden die Amazon Web Services ausgelastet und Amazon selbst sitzt auf einem Datenschatz von verhaltensorientierten Kundendaten, der Goldes wert ist.

Nicht zuletzt auch aufgrund der hohen Zahl an Werbespots haben laut Bitkom bereits vier von fünf deutschen Bundesbürgern von digitalen Sprachassistenten gehört. Vor zwei Jahren waren das gerade mal fünf Prozent. 27 Prozent der Deutschen können sich vorstellen, zukünftig per Sprache Geräte zu steuern (laut Trendstudie „Consumer Technology 2018“; Bitkom und Deloitte).

Visionär war die Entscheidung von Apples Steve Jobs, das damalige Start-up Siri zu kaufen und als Spracherkennung bzw. Sprachsteuerung serienmäßig ins iPhone 4s zu integrieren. Siri hat es in den letzten fünf Jahren neben den iPhones auf den Desktop und auf die Apple Watch geschafft, allerdings ist die Kundenakzeptanz schwindend. Googles Sprachdienst wird, schon als er noch Now hieß, laut den Experten von Creative Strategies öfter verwendet, mehr als ein Viertel der Suchanfragen wird bereits via Voice gestellt. Meinecke prophezeit: „Sprachassistenten werden in immer mehr Geräte integriert. Entscheidend für den Erfolg wird ein großes Angebot an Anwendungen sowie die Vernetzung mit anderen smarten Geräten sein.“

Kein Wunder also, wenn zahlreiche Start-ups und Geräteproduzenten – vom Roboter-Staubsauger iRobot (siehe Seite 24) über jeden Unterhaltungselektroniker etc. – die Schnittstellen der Big 6 nutzen und eine Sprachsteuerung in ihre Modelle einbauen. Händler und Anbieter von Dienstleistungen können sich etwa mit ihrem eigenen Sprachassi in das Google-Assistant-Ökosystem einklinken. Prominentes Beispiel ist der börsennotierte US-Blumenversandhändler 1-800-Flowers. In Österreich gibt es noch keine derartigen „Actions“.
Was die Menschen derzeit mit den gscheiten Speakern so brabbeln? „Noch spielen Sprachassistenten vor allem Musik ab und geben das Wetter durch“, erklärt Meinecke. Für Early Adopters ist es eben keine Frage, wie weiland Captain Kirk auf der Enterprise zu kommunizieren: Computer, Licht an. Allerdings hat eine Analyse von VoiceLabs 2017 ergeben, dass zwei Drittel der Alexa-Skills keine oder nur wenige Kundenrezensionen haben, was auf eine insgesamt noch niedrige Kundennutzung schließen lässt.

Akquisitionen

Aus Investmentsicht hat es noch keine nennenswerten Auswirkungen auf die Aktienkurse von Amazon und Alphabet. Es ist noch zu früh, um hier von einem Trend zu sprechen, der sich tatsächlich auf die Performance der Unternehmen an der Börse auswirkt. Der Anteil von Künstlicher Intelligenz und Voice Commerce liegt im Promillebereich. Dank sprudelnder Gewinne sitzen die Tech-Giganten auf einem Geldberg, der im Monatstakt für Akquisitionen genutzt wird. So ist der Amazon Fonds von Techstar mit 100 Millionen US-Dollar befüllt, der Entwicklungen rund um die Voice-Steuerung unterstützt. Im Blickpunkt sind vor allem diese Themen: Connected Home und Car, Kommunikation, Wearables wie smarte Uhren, Gesundheit oder Wellness.
Auf der gerade zu Ende gegangenen Internationalen Funkausstellung in Berlin hat Samsung beispielsweise angekündigt, bis 2020 alle seine Haushaltsgeräte Smart-Home- fähig zu machen, um damit den hauseigenen Sprachdienst Bixby zu unterstützen.

Der bekannte New Yorker Start-up-Investor Betaworks (Eigentümer z. B. der Crowd-Funding-Plattform Kickstarter) betreibt einen Start-up-Accelerator namens ­Voicecamp für Unternehmen, die Lösungen für KI-gestützte virtuelle Assistenten wie Alexa, Google Assistant oder Microsofts Cortana entwickeln.
Neben bekannten Unternehmen wie WhatsApp, Instagram und der virtuellen Brille von Oculus Rift hat Facebook quasi im Jahrestakt Milliardenbeträge in Zukäufe inves­tiert. Im Zusammenhang mit der Akquisition von Oculus Rift dürfte die vielbeachtete Übernahme des damals nur 16 Monate alten Start-up Wit.ai stehen, wo auf einen Schlag mehr als 6.000 Entwickler zur Verfügung standen. Bewegt man sich mit seiner Augmented-Reality-Brille frei im Raum, macht es Sinn, diese Bewegungsfreiheit durch Sprachsteuerung zu unterstützen, um die Hände frei zu haben.

Samsung wiederum hat sich das Start-up Viv Labs angelacht, das von den ehemaligen Machern von Siri wie Dag Kittlaus geführt wird – bereits die zweite Übernahme in nur fünf Jahren. Nachdem Siri an Apple ging, bleibt Viv unter der Ägide von Samsung aber deutlich eigenständiger.

Rasante Entwicklung

Staunen und Kritik hat Google im Mai mit der Präsentation von „Duplex“ hervorgerufen, bei der (in englischer Sprache) der Computer telefonisch einen Frisörtermin vereinbart und eine Tischbestellung in einem Restaurant durchgeführt hat. Der Computer klang dabei so menschlich, dass es für das Gegenüber nicht möglich war zu erkennen, dass es sich um eine Maschine handelt. Google gelobte Besserung und will solche Anrufe künftig für das Gegenüber als Computeranrufe kennzeichnen. Tätigkeiten, wie für eine „Runde Freunde einen Tisch beim Lieblingsitaliener“ zu bestellen, wird somit in ein, zwei Jahren aus dem Zusammenspiel KI (wer ist aktuell mein Lieblingsitaliener und wer sind meine Freunde) und Sprachsoftware erledigt werden, dann auch schon in (hoch-)deutscher Sprache.

Und seit wenigen Tagen verfügbar ist die Mehrsprachigkeit von Googles Assistant, der nunmehr Englisch, Deutsch, Französisch, Italienisch und Spanisch versteht. Bisher war der Assi – so wie Amazons Alexa oder Siri von Apple – auf eine bestimmte Sprache eingestellt. Die Unterstützung weiterer (etwa aus Asien) und die Aufrüstung auf drei parallel verfügbare Sprachen stehen in den Startlöchern, damit kann die Schweiz mit den drei Sprachen Deutsch, Französisch und Italienisch flächendeckend versorgt werden.

Erkennungsgenauigkeit 99 Prozent

Das Netz lacht heute noch über die frustrierenden Versuche, etwa einem Bahnauskunftssystem einen Fahrplan zu entlocken, selbst in hochdeutscher Sprache. Durch hinterlegte Wörterbücher war es bis dato nur Medizinern und Juristen gegönnt, mit besonderer Diktierformulierung nahezu fehlerfrei Stimme in Schrift zu übersetzen. Die Herausforderung liegt aktuell darin, Stimmen einzelnen Personen zuzuordnen und andererseits die Spracherkennung in lauten Umgebungen wie z. B. im Auto oder im öffentlichen Raum zu optimieren. Lag 2017 die Erkennungsgenauigkeit bei rund 95 Prozent, ist sie aktuell bei bis zu 99 Prozent angelangt und damit massentauglich. Auch der Erkennung von Dialekten wird Forschungsraum gewidmet, genauso wie der Erkennung von Stimmungen der Person, die spricht.

Wobei so manche Anwendung polarisiert. So wie einst ein Lügendetektor Verbrecher überlisten sollte, will der deutsche Talanx-Konzern beim Recruiting von Führungskräften „hinter die Kulissen schauen“. Auch für den Flughafenbetreiber Fraport oder die Zeitarbeitsfirma Ranstadt liefert die Software des Aachener Start-ups „Precire“ nach wenigen Minuten Sprachanalyse eine Bewertung des Bewerbers, wofür Psychologen tagelange Tests in Assessment-Centern benötigen, und das mit über 90 Prozent Trefferquote. Im medizinischen Bereich eingesetzt wird diese Software frühzeitig und kostengünstig Depressionen erkennen und behandeln können.

Wo spielt Europa mit?

Die Big 6 haben eines gemeinsam – ihre Zent­ralen liegen außerhalb Europas. Schaut der alte Kontinent bald auch hier alt aus, und gibt es wenigstens ein paar gallische Dörfer? Der ehemalige Chef von StudiVZ jedenfalls glaubt an die technologische Revolution durch Spracherkennung und will mit seinem 30 Köpfe starken Team bei i2x Echtzeitspracherkennung und KI unter einen Hut bringen. NLP, diesmal die Kurzform von Natural Language Processing, die Verarbeitung natürlicher Sprache soll die Qualität von Sales- und Service-Telefonaten verbessern helfen.

Die Software schreibt das, was der Verkaufs- oder Servicemitarbeiter sagt, in Echtzeit mit, erkennt Lautstärke, Tonlage, Sprechanteil der Telefonierenden, Sprechpausen, Wörter und Phrasen, Sprechgeschwindigkeit. Vordefinierte Phrasen werden als gut („Wir haben ein neues Angebot für Sie“) oder schlecht („Da brauche ich eine schriftliche Kündigung“) gekennzeichnet. Verwendet der Mitarbeiter solche vordefinierten Formulierungen, lobt oder korrigiert ihn die Software. Fünf Millionen Euro sind aktuell in den Aufbau weiterer Mitarbeiter und zur Vermarktung gesteckt worden.

Dass im D-A-CH-Raum Spracherkennungssysteme mehr verstehen müssen als Standarddeutsch, zeigen die Schweizer Bundesbahnen in der neuen Version ihrer App vor. Verbindungen lassen sich per (Schweizer) Mundartbefehl heraussuchen, lästige Tasteneingaben gehören der Vergangenheit an. Auch die neue A-Klasse von Mercedes hat mit dem „MBUX“ ein Multimediasystem mit Sprachsteuerung für Fahrziele, Anrufe, oder um SMS zu schreiben oder vorlesen zu lassen. Die Sprachsteuerung lernt dabei ständig dazu und soll mit der Zeit auch auf Befehle im Dialekt reagieren.

Statt durch ein Passwort kann zukünftig der Zugang zur Hausbank mittels Stimme ­authentifiziert werden. Ist dazu aktuell für die sprachbiometrische Identifikation noch das Sprechen eines vorgefertigten Satzes ­notwendig, zeigen die Lösungen etwa von spitch.ch dass zukünftig die Authentifikation bereits mit normal gesprochenen Sätzen erfolgen kann („Überweise bitte 150 Euro auf das Konto von Susanne“). 

Kindermund

Wer schon mit einem Sprachroboter zu tun hatte oder einem Chatbot begegnet ist, wird sich gewundert haben, dass die Antworten meist sehr einfach gehalten sind. Auf viele Fragen reagieren Alexa & Co. mit einem „Das weiß ich leider nicht“. Je nach Studie wird der künstlichen Intelligenz hinter der Spracherkennung der Wissensstand eines fünf- bis achtjährigen Kindes unterlegt.

Das darf aber nicht unterschätzt werden, so wie sich Achtjährige schnell zu jungen Menschen entwi­ckeln, so lernt die Künstliche Intelligenz dazu.

GEWINN verwendet Cookies um die Website möglichst benutzerfreundlich zu gestalten und Ihnen damit den bestmöglichen Service zu gewährleisten.
Wenn Sie fortfahren, stimmen Sie der Cookie-Nutzung zu.