Challenge
In vielen Unternehmensbereichen, wie dem Kundenservice und der Dokumentenverwaltung, ist es entscheidend, dass Spracherkennungssysteme genaue und relevante Informationen liefern. Oftmals sind jedoch die allgemeinen Spracherkennungssysteme nicht in der Lage, spezifische Fachbegriffe und domänenspezifische Ausdrücke korrekt zu erkennen und zu verarbeiten. Unsere Herausforderung bestand darin, die Leistung cloud-basierter automatischer Spracherkennungssysteme (ASR) zu verbessern, indem wir die allgemeine Erkennungsausgabe in spezifische, domänenrelevante Informationen umwandeln.
Lösung
Wir entwickelten eine innovative Nachverarbeitungstechnik, die auf phonetischer Ähnlichkeit basiert und die Erkennungsergebnisse von cloud-basierten ASR-Systemen, wie Google ASR, mit domänenspezifischem Wissen abgleicht. Durch die Umwandlung der Erkennungsergebnisse in Phoneme und deren erneute Bewertung anhand eines domänenspezifischen Sprachmodells konnten wir die Erkennungsleistung erheblich verbessern. Diese Technologie kann in Kundenservicezentren und der Dokumentenverwaltung eingesetzt werden, um die Genauigkeit und Effizienz zu steigern.
Benefits
- Verbesserte Wortfehlerrate
Unsere Methode reduzierte die Wortfehlerrate von 50,2% auf beeindruckende 3,1%, insbesondere bei domänenspezifischen Sätzen. - Erhöhte Satzgenauigkeit
Durch die Nachverarbeitung wurde die Satzfehlerquote erheblich gesenkt, was zu einer Satzgenauigkeit von bis zu 88,0% führte. - Flexibilität bei der Verwendung von Sprachmodellen
Unser System integriert verschiedene Sprachmodelle wie N-Gramme und gewichtete Grammatiken, um unterschiedlichen Anforderungen gerecht zu werden. - Robustheit gegenüber variierenden Eingaben
Dank phonetischer Nachverarbeitung liefert unser System robuste Erkennungsergebnisse, selbst bei variierenden Eingabesätzen. - Einfache Implementierung und Verwaltung
Basierend auf offenen Ressourcen wie Sphinx-4 ist unsere Lösung einfach zu implementieren und zu verwalten, ohne tiefgehende Expertenkenntnisse zu erfordern.
Diese Lösung ist ideal für Unternehmen im Kundenservice und der Dokumentenverwaltung, die ihre Spracherkennungssysteme verbessern und effizienter gestalten möchten.