RWTH Aachen
University
Institute for Communication
Systems and Data Processing
Skip to content
Direkt zur Navigation
Home
Home

Publications – Details

Beiträge zum selbstüberwachten Training Neuronaler Phonem Klassifikatoren

Author:
Harald Finster
Editor:
Peter Vary
Type:
Dissertation
Series:
Aachener Beiträge zu Digitalen Nachrichtensystemen (ABDN)
Number:
2
School:
IND, RWTH Aachen
Publisher:
Verlag Mainz
Location:
Aachen, Germany
Date:
1995
Language:
German

Abstract

Systeme zur Erkennung fließend gesprochener Sprache basieren auf phonetischen Grundelementen (z.B. Phoneme oder Diphone), deren Erkennung in einer Trainingsphase mit Hilfe repräsentativer Sprachproben erlernt wird. Für dieses Training steht die Phonetische Transkription (Lautschrift-Text) zur Verfügung. Dabei ist die Segmentierung, d.h. die zeitliche Zuordnung zwischen Sprachsignal und Phonetischer Transkription zunächst nicht bekannt. Eine manuelle Zuordnung ist extrem zeitaufwendig und fehlerträchtig. In der vorliegenden Arbeit werden für Neuronale Phonem-Klassifikatoren neue Trainingsverfahren mit automatischer Segmentierung entwickelt. Das vorgestellte Konzept besteht aus einem dreistufigen Iterationszyklus. Im ersten Schritt erfolgt eine Phonem-Klassifikation. Darauf basierend wird im zweiten Schritt eine zeitliche Zuordnungsschätzung zwischen dem Sprachsignal und dem Lautschrift-Text ermittelt. Mit Hilfe dieser Schätzung erfolgt im dritten Schritt das Training des Phonem-Klassifikators. Aus der verbesserten Phonem-Klassifikation resultiert eine genauere Zuordnungsschätzung, die wiederum zum Training des Klassifikators ausgenutzt werden kann. Es werden zwei Hauptvarianten entwickelt. Das Training mit "hartem Pfad" berücksichtigt nur einen optimalen Zuordnungspfad zwischen der Merkmalsvektorfolge und der Phonetischen Transkription. Dagegen erfolgt das Training mit "weichem Pfad" auf der Basis von Zuordnungswahrscheinlichkeiten zwischen der Merkmalsvektorfolge und der Phonetischen Transkription. Dies führt dazu, daß "sichere" Zuordnungen mit höherem Gewicht in das Training eingehen als 'unsichere' Zuordnungen. Daraus ergeben sich bessere Konvergenzeigenschaften. Der Rechenaufwand ist bei beiden Verfahren sehr hoch. Die Algorithmen sind jedoch parallelisierbar, so daß sich die Rechenzeit bei Einsatz geeigneter paralleler Prozessoren erheblich reduzieren läßt. Die hier vorgestellten Verfahren ermöglichen das automatische, d.h. selbstüberwachte Training und liefern im Vergleich zum Stand der Technik genauere Segmentierungsgrenzen. Es wird schließlich gezeigt, daß die in dieser Arbeit entwickelten Methoden nicht nur für die Sprachsegmentierung, sondern auch für die allgemeinere Aufgabenstellung der automatischen Zuordnung zwischen den Elementen zweier Symbolfolgen geeignet sind.