Lernen tiefer Sprachrepr?sentationen für die Phonetikforschung

?berblick

Neben dem linguistischen Inhalt enth?lt ein Sprachsignal weitere, extra/paralinguistische Informationen, wie beispielsweise Geschlecht, emotionaler Zustand, Alter, sozialer Status oder die Identit?t von Sprecherinnen oder Sprechern. Diese Charakteristika sind jedoch in komplexen, nicht unmittelbar transparenten Variationen des Sprachsignals verborgen und der phonetischen Forschung nur schwer zug?nglich. Mit der Verbesserung, die tiefe neuronale Netze, insbesondere tiefe generative Modelle, im Bereich der Sprachsynthese und der Sprecherkonversion erzielt haben, erwarten wir, dass diese Verfahren auch zu einem nützlichen Werkzeug für die Phonetikforschung werden k?nnen.Das übergreifende Ziel dieses Vorhabens ist daher, das Potenzial tiefer generativer Modelle als Werkzeug für die phonetische Grundlagenforschung auszuloten und ggf. zu etablieren. Dabei beschr?nken wir uns auf die gezielte Modifikation von existierenden Sprachbeispielen, um Signale mit gewünschten dedizierten Eigenschaften zu erzeugen, und betrachten nicht die Erzeugung von Sprachstimuli auf der Basis von Text. Es sollen tiefe generative Modelle entwickelt werden, die latente Variablen aus einem Sprachsignal berechnen, welche kompakt und informativ über das zugrundeliegende Sprachsignal sind, und welche verschiedene Ursachen von Variationen im Signal in verschiedenen Dimensionen der latenten Repr?sentation enkodieren. Weiterhin sollen sie eine dedizierte Manipulation des Sprachsignals entlang phonetisch plausibler Dimensionen erlauben und somit einer menschlichen Interpretation zug?nglich sein. Damit soll der Phonetik ein Werkzeug in die Hand gegeben werden, welches ihr Kontrolle sowohl über grunds?tzliche akustisch-phonetische Eigenschaften als auch über abstrakte Konzepte erm?glicht. Als Beispiele für solche abstrakten Konzepte werden hier die Entflechtung von vom Sprecher und vom linguistischen Inhalt hervorgerufenen Variationen im Signal sowie die Extraktion von von einem Dialekt hervorgerufenen Variationen im Signal betrachtet. Da die zu entwickelnden Verfahren datengetrieben sind, k?nnen sie jedoch auch auf andere Konzepte angewandt werden, wenn entsprechende Trainingsdaten vorhanden sind. Die Qualit?t und Nützlichkeit der entwickelten Methoden werden sowohl mit maschinellen Klassifikationstests als auch mit menschlichen Perzeptionsstudien bewertet, sowie durch Signalanalyse durch phonetische Expertinnen oder Experten.

DFG-Verfahren Sachbeihilfen

Antragstellerinnen / Antragsteller Professor Dr.-Ing. Reinhold H?b-Umbach; Professorin Dr. Petra Wagner

Key Facts

Laufzeit:
04/2021 - 12/2024
Gef?rdert durch:
DFG
Websites:
DFG-Datenbank gepris
Tiefe generative Modelle für die Phonetikforschung

Detailinformationen

Projektleitung

contact-box image

Prof. Dr. Reinhold H?b-Umbach

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Zur Person
contact-box image

Petra Wagner

Universit?t Bielefeld

Zur Person (Orcid.org)