Wie man die KI-Spracherkennung für digitale Assistenten im ÖPNV gezielt verbessern kann

Digitale KI Assistenten

Forschung

Internes

Unsere Software-Entwicklerin Lotte zeigt in ihrer Bachelorarbeit, wie man die Fehlerquote der KI-Spracherkennung für virtuelle Assistenten im ÖPNV von 30% auf 3% reduzieren kann.

In den letzten Jahren ist die KI-Spracherkennung, also die Umwandlung von gesprochener Sprache in Text (Speech-to-Text), in der Softwareentwicklung von virtuellen Assistenten immer besser geworden. Und trotzdem schleichen sich häufig Fehler ein. Statt der Haltestelle „Desbrocksheidering“ in Hannover wird dann plötzlich der „Text Box Heidering“ erkannt. Auch wenn diese Wörter lustig klingen, machen sie die Weiterverarbeitung des Inhaltes schwer. Die Fahrplanauskunft hat schließlich noch nie von einem „Text Box Heidering“ gehört.

Zum Glück ist es möglich, das Machine-Learning-Model, mit dem die Spracherkennung stattfindet, anzupassen. Wie genau, habe ich im Rahmen meiner Bachelorarbeit untersucht. Dazu habe ich das Framework Vosk und ein dazugehörendes ML-Model verwendet.

Anfrage einer Haltestelle, die von der Spracherkennung nicht erkannt wird

Warum werden nicht einfach die KI-Modell-Lösungen von Google oder iOS verwendet?

In einigen Softwareentwicklungs-Projekten ist dies natürlich auch eine sinnvolle Möglichkeit. Es gibt allerdings auch mehrere Vorteile, wenn andere Lösungen verwendet werden. Zunächst ist man damit unabhängig von den großen Firmen. Das betrifft sowohl die Kosten, als auch die Anpassungsmöglichkeiten und den Datenschutz. Die Software-Anwendungen laufen komplett auf unseren eigenen Servern, sodass wir sicherstellen können, dass mit den Daten verantwortungsvoll umgegangen wird. Außerdem können wir die Spracherkennung sehr gezielt an das Einsatzgebiet des digitalen Assistenten anpassen, da wir keine generische Lösung entwickeln müssen, welche in allen Kontexten funktioniert. Stattdessen können wir uns auf einen Bereich, wie den ÖPNV, ganz gezielt konzentrieren.

Wie kann man die KI-Spracherkennung verbessern?

Die Spracherkennung wird mit Methoden des Machine Learning umgesetzt. Das bedeutet, dass zur Verbesserung der Spracherkennung Trainingsdaten benötigt werden, mit denen ein Machine-Learning-Modell lernen kann. Zur Kontrolle der Ergebnisse werden zusätzlich Testdaten verwendet, um zu bewerten, wie gut das Training der KI funktioniert hat. Neben der Auswahl der Daten, gab es noch eine Vielzahl von Parametern, welche verändert werden konnten.

Aufgrund des Datenschutzes ist es schwierig, echte Nutzerdaten für das Training zu verwenden. Stattdessen wurden von den Projektionisten Texte mit typischen Nutzeranfragen bereitgestellt. Diese lauteten zum Beispiel: „Wie komme ich von hier zum Aegidientorplatz?“. Diese Texte wurden dann von verschiedenen Sprechern vorgelesen. Dann konnten gezielt Änderungen am KI-Model gemacht werden. Dazu wurden zum Beispiel verschiedene Texte generiert, um dem Model zu zeigen, welche Art von Anfragen zu erwarten ist.

Und wie gut wurden die Daten erkannt?

Um die Qualität der KI-Spracherkennung zu bewerten, wird z. B. die Word Error Rate (WER) verwendet. Umso höher diese ist, desto stärker weicht der erkannte Text vom eigentlichen Inhalt ab.

Die WER des ML-Models ohne Anpassungen liegt bei 30 %. Das ist viel zu hoch, um das Model im produktiven Einsatz zu verwenden. Besonders, da die Ursache für die Fehler vor allem die Haltestellennamen zu sein scheinen. Von 945 Haltestellen konnten gerade einmal 534 korrekt erkannt werden. Die Anpassungen des KI-Modells hat jedoch zu einer guten Verbesserung geführt. Die Fehlerrate konnte von 30 % auf 3 % gesenkt werden. Von den 945 Haltestellen werden jetzt insgesamt 940 erkannt.

Vergleich Standardmodel und Adaptiertes Modell, adaptiertes Modell hat deutlich geringere WER — Durch die Anpassung im Modell konnte die WER deutlich gesenkt werden.

Herzlichen Glückwunsch Lotte!

Wir gratulieren Lotte zur bestandenen Bachelorprüfung und wünschen ihr alles Gute für ihren weiteren Weg. Lotte hat Medieninformatik an der Uni Hannover studiert und bei uns ihre Abschlussarbeit geschrieben.

Kurz zusammengefasst

Warum ist die Anpassung des Machine-Learning-Models für die KI-Spracherkennung wichtig?

Die Anpassung des Models ermöglicht es, die Spracherkennung für den jeweiligen Einsatzbereich zu optimieren. Generische Lösungen funktionieren nicht immer optimal in allen Kontexten, was zu vermehrten Fehlern in der Erkennung führen kann.

Wie wird die Qualität von KI-Spracherkennung bewertet?

Die Qualität von Spracherkennung wird z. B. durch die Word Error Rate (WER) bewertet. Eine hohe WER bedeutet, dass der erkannte Text vom eigentlichen Inhalt stark abweicht. Um die WER zu senken, können gezielte Änderungen am Model vorgenommen werden.

Welche Vorteile bietet die Verwendung individueller Software-Lösungen für KI-Spracherkennung?

Da die Anwendungen vollständig auf eigenen Servern laufen, kann ein verantwortungsvoller Umgang mit den Daten sichergestellt werden. Zusätzlich kann die Spracherkennung sehr gezielt an das Einsatzgebiet angepasst werden, was eine drastische Reduzierung von Fehlern bedeutet.

What is Webflow and why is it the best website builder?