Wieso reagieren Sprachassistenten auf ihren Namen?

Unser Software Entwickler Marcel erklärt alles zum Thema Wake Word Erkennung von Sprachassistenten.

Was ist ein Wake Word?

Ein Wake Word, Trigger oder auch Aktivierungswort ist ein fest definierter Sprachbefehl, welcher den Sprachassistenten ohne eine haptische Eingabe aktiviert. Berühmte Wake Words sind z. B. “OK Google” von Google oder Apples “Hey Siri”. Bei einer erfolgreichen Erkennung des Wake Words verarbeitet das System automatisch die nachfolgende Anfrage und reagiert mit der passenden Antwort oder Aktion. Nach der Abfrage deaktiviert sich die Anwendung wieder. Idealerweise erkennt ein Sprachassistent sein Wake Word immer fehlerfrei und aktiviert sich, abgesehen von der manuellen Aktivierung, niemals ohne dieses.

Wie erkennt der Sprachassistent das richtige Wake Word?

Die Prüfung nach dem Wake Word läuft dauerhaft auf dem Audiostream, der über das Mikrofon aufgenommen wird. Dabei werden aus den aufgenommenen Schallwellen Bilder in kleinen, in sich versetzten Zeitintervallen erzeugt. Diese nennt man MFCCs und repräsentieren unsere sprachlichen Laute über einen bestimmten Zeitraum hinweg.

Mit ML-Methoden (z.B. Deep Learning zur Bilderkennung) werden die Bilder dauerhaft mit einem trainierten Modell abgeglichen, welches gelernt hat, wie Bilder des Wake Words aussehen. In einigen Verfahren werden aus den MFCCs über Deep Learning auch direkt konkrete Laute ermittelt, wobei die Prüfung des Wake Words über den Vergleich der Laute erfolgt. Das Gesprochene wird demnach nicht semantisch ausgewertet, der Sprachassistent erkennt beim Zuhören lediglich grafische Muster. Da der Stream dauerhaft läuft und ausgewertet wird, ist es wichtig, dass der gesamte Prozess möglichst wenig Energie benötigt.

Wake Word vs. Speech To Text

Im Vergleich zur Wake Word Erkennung ermitteln Speech to Text (STT) Engines konkrete Worte und verarbeiten den Audiostream in semantischen Teilabschnitten, wie z. B. Sätze oder Absätze. Dadurch wird es möglich Gewichtungen aufgrund von Wahrscheinlichkeiten vorzunehmen, um zu entscheiden, welche Wörter in welcher Reihenfolge sinnig sind. Die Bedeutung des Gesprochenen wird dabei also tatsächlich erkannt und ausgewertet. Dieser gesamte Prozess verbraucht deutlich mehr Zeit und Energie. Aus diesem Grund wird STT häufig in Kombination mit einem vorher definierten Wake Word genutzt.

Individuelle Wake Words als Marketingmittel

Möchte man sich als Unternehmen von den großen Playern wie Google und Apple unabhängig machen, kann es sinnvoll sein, den eigenen Sprachassistenten mit einem Custom Wake Word auszurüsten. Dabei ist es wichtig, ein Wake Word zu wählen, welches einerseits von Nutzenden leicht zu merken ist und andererseits vom Sprachassistenten gut erkannt werden kann. Auch die Länge des Wake Words ist entscheidend. Ist das Wort zu kurz, kann es für das System schwierig werden, das richtige Muster in Umgebungsgeräuschen und Gesprächen eindeutig zu erkennen. Zu lange Wörter oder Sätze sind wiederum für Nutzer:innen umständlich und führen zu einer schlechteren User Experience. Erfüllt z. B. der eigene Unternehmensname die Kriterien, kann das Wake Word als wertvolles Marketingmittel eingesetzt werden, da Nutzende zum Starten des Systems stetig den Namen aussprechen und automatisch verinnerlichen.

Entdecken
Zurück zur Stories-Übersicht
Interessiert?
Wir freuen uns auf Sie!
Bild vom Geschäftsführenden Gesellschafter Henrik Johannsen
Ihre Ansprechperson
Henrik Johannsen
Kontakt
Teaser Bild der Story oder des Projektes
Teaser Bild der Story oder des Projektes
Teaser Bild der Story oder des Projektes
Teaser Bild der Story oder des Projektes
1KLANG Algorithmus: smarte Haltestellenerkennung für digitale Assistenten
1KLANG Algorithmus: smarte Haltestellenerkennung für digitale Assistenten
1KLANG Algorithmus: smarte Haltestellenerkennung für digitale Assistenten
1KLANG Algorithmus: smarte Haltestellenerkennung für digitale Assistenten
Digitale Assistenten

So findet unser digitaler Assistent die Haltestelle, die ich wirklich meinte. Die ganze Story auf 1klang.mobi:

Entdecken
Entdecken
Teaser Bild der Story oder des Projektes
Teaser Bild der Story oder des Projektes
Teaser Bild der Story oder des Projektes
Teaser Bild der Story oder des Projektes
Alexa Skill für Nordrhein-Westfalen
Alexa Skill für Nordrhein-Westfalen
Alexa Skill für Nordrhein-Westfalen
Alexa Skill für Nordrhein-Westfalen
Digitale Assistenten

Eine Alexa Fahrplanauskunft für ganz Nordrhein-Westfalen zu erstellen ist eine solche Herausforderung, dass diese mit Amazon eigenen Mitteln nicht zu lösen ist. Für uns jedoch schon. So entwickelten wir eine eigene NLU (Sprachverständniseinheit), um die großen Datenmengen verarbeiten und den Skill für die Nutzer anbieten zu können.

Entdecken
Entdecken

Kontakt

Wir freuen uns auf Sie!

Bild vom Geschäftsführenden Gesellschafter Henrik Johannsen
Ihre Ansprechperson
Henrik Johannsen
PROJEKTIONISTEN® GmbH
Schaufelder Straße 11
30167 Hannover
Vielen Dank für Ihre Nachricht! Wir werden uns so schnell wie möglich bei Ihnen melden.
Ihre Nachricht konnte nicht gesendet werden. Schreiben Sie uns bitte per Mail (info@projektionisten.de).