Wieso reagieren Sprachassistenten auf ihren Namen?

Digitale KI Assistenten

Unser Software Entwickler Marcel erklärt alles zum Thema Wake Word Erkennung von Sprachassistenten.

Was ist ein Wake Word?

Ein Wake Word, Trigger oder auch Aktivierungswort ist ein fest definierter Sprachbefehl, welcher den Sprachassistenten ohne eine haptische Eingabe aktiviert. Berühmte Wake Words sind z. B. “OK Google” von Google oder Apples “Hey Siri”. Bei einer erfolgreichen Erkennung des Wake Words verarbeitet das System automatisch die nachfolgende Anfrage und reagiert mit der passenden Antwort oder Aktion. Nach der Abfrage deaktiviert sich die Anwendung wieder. Idealerweise erkennt ein Sprachassistent sein Wake Word immer fehlerfrei und aktiviert sich, abgesehen von der manuellen Aktivierung, niemals ohne dieses.

Wie erkennt der Sprachassistent das richtige Wake Word?

Die Prüfung nach dem Wake Word läuft dauerhaft auf dem Audiostream, der über das Mikrofon aufgenommen wird. Dabei werden aus den aufgenommenen Schallwellen Bilder in kleinen, in sich versetzten Zeitintervallen erzeugt. Diese nennt man MFCCs und repräsentieren unsere sprachlichen Laute über einen bestimmten Zeitraum hinweg.

Mit ML-Methoden (z.B. Deep Learning zur Bilderkennung) werden die Bilder dauerhaft mit einem trainierten Modell abgeglichen, welches gelernt hat, wie Bilder des Wake Words aussehen. In einigen Verfahren werden aus den MFCCs über Deep Learning auch direkt konkrete Laute ermittelt, wobei die Prüfung des Wake Words über den Vergleich der Laute erfolgt. Das Gesprochene wird demnach nicht semantisch ausgewertet, der Sprachassistent erkennt beim Zuhören lediglich grafische Muster. Da der Stream dauerhaft läuft und ausgewertet wird, ist es wichtig, dass der gesamte Prozess möglichst wenig Energie benötigt.

Wake Word vs. Speech To Text

Im Vergleich zur Wake Word Erkennung ermitteln Speech to Text (STT) Engines konkrete Worte und verarbeiten den Audiostream in semantischen Teilabschnitten, wie z. B. Sätze oder Absätze. Dadurch wird es möglich Gewichtungen aufgrund von Wahrscheinlichkeiten vorzunehmen, um zu entscheiden, welche Wörter in welcher Reihenfolge sinnig sind. Die Bedeutung des Gesprochenen wird dabei also tatsächlich erkannt und ausgewertet. Dieser gesamte Prozess verbraucht deutlich mehr Zeit und Energie. Aus diesem Grund wird STT häufig in Kombination mit einem vorher definierten Wake Word genutzt.

Individuelle Wake Words als Marketingmittel

Möchte man sich als Unternehmen von den großen Playern wie Google und Apple unabhängig machen, kann es sinnvoll sein, den eigenen Sprachassistenten mit einem Custom Wake Word auszurüsten. Dabei ist es wichtig, ein Wake Word zu wählen, welches einerseits von Nutzenden leicht zu merken ist und andererseits vom Sprachassistenten gut erkannt werden kann. Auch die Länge des Wake Words ist entscheidend. Ist das Wort zu kurz, kann es für das System schwierig werden, das richtige Muster in Umgebungsgeräuschen und Gesprächen eindeutig zu erkennen. Zu lange Wörter oder Sätze sind wiederum für Nutzer:innen umständlich und führen zu einer schlechteren User Experience. Erfüllt z. B. der eigene Unternehmensname die Kriterien, kann das Wake Word als wertvolles Marketingmittel eingesetzt werden, da Nutzende zum Starten des Systems stetig den Namen aussprechen und automatisch verinnerlichen.