Wie man die KI-Spracherkennung für digitale Assistenten im ÖPNV gezielt verbessern kann

Unsere Software-Entwicklerin Lotte zeigt in ihrer Bachelorarbeit, wie man die Fehlerquote der KI-Spracherkennung für virtuelle Assistenten im ÖPNV von 30% auf 3% reduzieren kann.

In den letzten Jahren ist die KI-Spracherkennung, also die Umwandlung von gesprochener Sprache in Text (Speech-to-Text), in der Softwareentwicklung von virtuellen Assistenten immer besser geworden. Und trotzdem schleichen sich häufig Fehler ein. Statt der Haltestelle „Desbrocksheidering“ in Hannover wird dann plötzlich der „Text Box Heidering“ erkannt. Auch wenn diese Wörter lustig klingen, machen sie die Weiterverarbeitung des Inhaltes schwer. Die Fahrplanauskunft hat schließlich noch nie von einem „Text Box Heidering“ gehört.

Zum Glück ist es möglich, das Machine-Learning-Model, mit dem die Spracherkennung stattfindet, anzupassen. Wie genau, habe ich im Rahmen meiner Bachelorarbeit untersucht. Dazu habe ich das Framework Vosk und ein dazugehörendes ML-Model verwendet.

Anfrage einer Haltestelle, die von der Spracherkennung nicht erkannt wird

Warum werden nicht einfach die KI-Modell-Lösungen von Google oder iOS verwendet?

In einigen Softwareentwicklungs-Projekten ist dies natürlich auch eine sinnvolle Möglichkeit. Es gibt allerdings auch mehrere Vorteile, wenn andere Lösungen verwendet werden. Zunächst ist man damit unabhängig von den großen Firmen. Das betrifft sowohl die Kosten, als auch die Anpassungsmöglichkeiten und den Datenschutz. Die Software-Anwendungen laufen komplett auf unseren eigenen Servern, sodass wir sicherstellen können, dass mit den Daten verantwortungsvoll umgegangen wird. Außerdem können wir die Spracherkennung sehr gezielt an das Einsatzgebiet des digitalen Assistenten anpassen, da wir keine generische Lösung entwickeln müssen, welche in allen Kontexten funktioniert. Stattdessen können wir uns auf einen Bereich, wie den ÖPNV, ganz gezielt konzentrieren.

Wie kann man die KI-Spracherkennung verbessern?

Die Spracherkennung wird mit Methoden des Machine Learning umgesetzt. Das bedeutet, dass zur Verbesserung der Spracherkennung Trainingsdaten benötigt werden, mit denen ein Machine-Learning-Modell lernen kann. Zur Kontrolle der Ergebnisse werden zusätzlich Testdaten verwendet, um zu bewerten, wie gut das Training der KI funktioniert hat. Neben der Auswahl der Daten, gab es noch eine Vielzahl von Parametern, welche verändert werden konnten.

Aufgrund des Datenschutzes ist es schwierig, echte Nutzerdaten für das Training zu verwenden. Stattdessen wurden von den Projektionisten Texte mit typischen Nutzeranfragen bereitgestellt. Diese lauteten zum Beispiel: „Wie komme ich von hier zum Aegidientorplatz?“. Diese Texte wurden dann von verschiedenen Sprechern vorgelesen. Dann konnten gezielt Änderungen am KI-Model gemacht werden. Dazu wurden zum Beispiel verschiedene Texte generiert, um dem Model zu zeigen, welche Art von Anfragen zu erwarten ist.

Und wie gut wurden die Daten erkannt?

Um die Qualität der KI-Spracherkennung zu bewerten, wird z. B. die Word Error Rate (WER) verwendet. Umso höher diese ist, desto stärker weicht der erkannte Text vom eigentlichen Inhalt ab.

Die WER des ML-Models ohne Anpassungen liegt bei 30 %. Das ist viel zu hoch, um das Model im produktiven Einsatz zu verwenden. Besonders, da die Ursache für die Fehler vor allem die Haltestellennamen zu sein scheinen. Von 945 Haltestellen konnten gerade einmal 534 korrekt erkannt werden. Die Anpassungen des KI-Modells hat jedoch zu einer guten Verbesserung geführt. Die Fehlerrate konnte von 30 % auf 3 % gesenkt werden. Von den 945 Haltestellen werden jetzt insgesamt 940 erkannt.

Vergleich Standardmodel und Adaptiertes Modell, adaptiertes Modell hat deutlich geringere WER
Durch die Anpassung im Modell konnte die WER deutlich gesenkt werden.

Herzlichen Glückwunsch Lotte!

Wir gratulieren Lotte zur bestandenen Bachelorprüfung und wünschen ihr alles Gute für ihren weiteren Weg. Lotte hat Medieninformatik an der Uni Hannover studiert und bei uns ihre Abschlussarbeit geschrieben.

Kurz zusammengefasst

Warum ist die Anpassung des Machine-Learning-Models für die KI-Spracherkennung wichtig?

Die Anpassung des Models ermöglicht es, die Spracherkennung für den jeweiligen Einsatzbereich zu optimieren. Generische Lösungen funktionieren nicht immer optimal in allen Kontexten, was zu vermehrten Fehlern in der Erkennung führen kann.

Wie wird die Qualität von KI-Spracherkennung bewertet?

Die Qualität von Spracherkennung wird z. B. durch die Word Error Rate (WER) bewertet. Eine hohe WER bedeutet, dass der erkannte Text vom eigentlichen Inhalt stark abweicht. Um die WER zu senken, können gezielte Änderungen am Model vorgenommen werden.

Welche Vorteile bietet die Verwendung individueller Software-Lösungen für KI-Spracherkennung?

Da die Anwendungen vollständig auf eigenen Servern laufen, kann ein verantwortungsvoller Umgang mit den Daten sichergestellt werden. Zusätzlich kann die Spracherkennung sehr gezielt an das Einsatzgebiet angepasst werden, was eine drastische Reduzierung von Fehlern bedeutet.

What is Webflow and why is it the best website builder?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

What is your favorite template from BRIX Templates?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

How do you clone a template from the Showcase?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

Why is BRIX Templates the best Webflow agency?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

When was Webflow officially launched?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

How do you integrate Jetboost with Webflow?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

What is Webflow and why is it the best website builder?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

What is your favorite template from BRIX Templates?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

How do you clone a template from the Showcase?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

Why is BRIX Templates the best Webflow agency?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

When was Webflow officially launched?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

How do you integrate Jetboost with Webflow?

Vitae congue eu consequat ac felis placerat vestibulum lectus mauris ultrices. Cursus sit amet dictum sit amet justo donec enim diam porttitor lacus luctus accumsan tortor posuere.

Entdecken
Zurück zur Stories-Übersicht
Startet euer Projekt mit uns!
Wir freuen uns auf euch!
Bild vom Geschäftsführenden Gesellschafter Henrik Johannsen
Deine Ansprechperson
Henrik Johannsen
Kontakt
Teaser Bild der Story oder des Projektes
Chatbots und Sprachassistenten „made in Germany“
Chatbots und Sprachassistenten „made in Germany“
Chatbots und Sprachassistenten „made in Germany“
Chatbots und Sprachassistenten „made in Germany“
Digitale KI Assistenten

Um unseren Kunden unabhängig von den amerikanischen Softwaregiganten wie Amazon, Google und Apple Produkte wie Chatbots und Sprachassistenten anbieten zu können, entwickeln wir eigene NLU-Engines (Sprachverständniseinheiten). So kann die Verarbeitung auf eigener Infrastruktur oder sogar lokal beim Nutzer im Smartphone durchgeführt werden.

EntdeckenEntdecken
Entdecken
Viola und Lina bei ihrem Vortrag “Barrierefreiheit und Innovation – Mobilität so einfach wie ein Gespräch”
Viola und Lina bei ihrem Vortrag “Barrierefreiheit und Innovation – Mobilität so einfach wie ein Gespräch”
Teaser Bild der Story oder des Projektes
Viola und Lina bei ihrem Vortrag “Barrierefreiheit und Innovation – Mobilität so einfach wie ein Gespräch”
Vortrag "Digitale Barrierefreiheit" beim Hansecom Forum 2023
Vortrag "Digitale Barrierefreiheit" beim Hansecom Forum 2023
Vortrag "Digitale Barrierefreiheit" beim Hansecom Forum 2023
Vortrag "Digitale Barrierefreiheit" beim Hansecom Forum 2023
Digitale KI Assistenten

Unsere Designerinnen Lina und Viola haben beim diesjährigen HanseCom Forum in Hamburg über das Potenzial von Sprachassistenten für digitale Barrierefreiheit gesprochen. Du möchtest mehr über den Vortrag erfahren?

EntdeckenEntdecken
Entdecken

Kontakt

Wir freuen uns auf euch!

Bild vom Geschäftsführenden Gesellschafter Henrik Johannsen
Deine Ansprechperson
Henrik Johannsen
PROJEKTIONISTEN® GmbH
Schaufelder Straße 11
30167 Hannover
Vielen Dank für deine Nachricht! Wir werden uns so schnell wie möglich bei dir melden.
Ihre Nachricht konnte nicht gesendet werden. Schreibe uns bitte per Mail (info@projektionisten.de).