Automatische Transkription von Gespr?chssituationen

?berblick

Das Projekt befasst sich mit der maschinenlesbaren Verschriftung von Gespr?chssituationen unter Verwendung von Raummikrofonen, seien es professionelle Besprechungen oder lockere Treffen unter Freunden. Derzeitige technische L?sungen erreichen bei weitem nicht die Erkennungsleistung eines Menschen. Dies hat vornehmlich drei Gründe: Zum einen ist die Signalqualit?t aufgrund von Raumhall und anderen h?ufig nichtstation?ren Ger?uschquellen im Raum schlecht. Weiterhin fallen sich gerade bei informellen Gespr?chssituationen die Personen h?ufig ins Wort, und in einem signifikanten Anteil der Zeit sprechen mehr als ein Sprecher gleichzeitig. Schlie?lich ist es die Dynamik einer Gespr?chssituation, die Probleme bereitet, da sich Segmente von Stille, Aktivit?t von einem oder gleichzeitig mehreren Sprechern abwechseln. Ein Transkriptionssystem sollte auf beliebig langen Eingangssignalen arbeiten k?nnen, Situationen mit keinem, einem oder mehreren Sprechern korrekt behandeln k?nnen und die Verschriftung der ?u?erungen unterschiedlicher Sprecher konsistent separaten Ausgaben zuordnen k?nnen. Existierende L?sungen bestehen aus mehr oder weniger unabh?ngig entwickelten Komponenten für die Segmentierung der Daten in homogene Bl?cke, für die Sprechertrennung und schlie?lich für die Erkennung. Wir sind überzeugt, dass eine signifikante Leistungssteigerung m?glich ist, wenn diese Aufgaben unter einem einheitlichen Optimierungskriterium gemeinsam betrachtet werden. Ziel dieses Projektes ist es, eine solche koh?rente Formulierung zu entwickeln. Wir entwickeln Verfahren zur Verschriftung von Gespr?chen, bei denen die Anzahl der aktiven Sprecher und das Ma? an Sprecherüberlapp vorab unbekannt und zeitver?nderlich sind. Die Algorithmen zur Bestimmung, wer wann spricht, zur Sprechertrennung und Signalverbesserung, und schlie?lich zur Erkennung werden unter einer einheitlichen Zielfunktion hergeleitet, um schlie?lich ein gemeinsames "Ende-zu-Ende" Training aller Komponenten zu erm?glichen. Wir streben auch eine "Ende-zu-Ende" Erkennung an, um vorl?ufige Entscheidungen, bei denen nicht alle Wissensquellen berücksichtigt wurden, zu vermeiden. Dabei werden unterschiedliche (g?nzlich neuronale, hybride, kaskadierte, integrierte) Architekturen betrachtet. Die entwickelten Verfahren werden bezüglich der erreichbaren Erkennungsgenauigkeit, aber auch bezüglich der Interpretierbarkeit der Teilkomponenten und der Handhabbarkeit bewertet.

DFG-Verfahren Sachbeihilfen

Antragsteller Professor Dr.-Ing. Reinhold H?b-Umbach; Privatdozent Dr. Ralf Schlüter

Key Facts

Laufzeit:
05/2021 - 12/2024
Gef?rdert durch:
DFG
Website:
DFG-Datenbank gepris

Detailinformationen

Projektleitung

contact-box image

Prof. Dr. Reinhold H?b-Umbach

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Zur Person
contact-box image

Ralf Schlüter

Rheinisch-Westf?lische Technische Hochschule Aachen (RWTH)

Zur Person (Orcid.org)