DE19753454C2

DE19753454C2 - Text/Sprache-Umsetzungssystem zur Synchronisierung synthetisierter Sprache mit einem Film in einer Multimediaumgebung und Verfahren für eine derartige Synchronisierung

Info

Publication number: DE19753454C2
Application number: DE19753454A
Authority: DE
Inventors: Jung Chul Lee; Min Soo Hahn; Hang Seop Lee; Jae Woo Yang; Youngiik Lee
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 1997-05-08
Filing date: 1997-12-02
Publication date: 2003-06-18
Anticipated expiration: 2017-12-03
Also published as: US6088673A; JP2004361965A; KR19980082608A; JP4344658B2; JP3599549B2; KR100240637B1; USRE42647E1; JPH10320170A; DE19753454A1

Description

Die vorliegende Erfindung bezieht sich auf ein Text/Sprache-Umsetzungssystem (im folgenden mit TTS- System bezeichnet) zur Synchronisierung synthetisierter Sprache mit einem Film in einer Multimedia umgebung sowie ein Verfahren für eine derartige Synchronisierung und insbesondere auf ein Text/Sprache-Umsetzungssystem (TTS-System) zur Synchronisierung synthetisierter Sprache mit einem Film in einer Multimediaumgebung und ein Verfahren für eine derartige Synchronisierung, um die Natürlichkeit der synthetisierten Sprache zu verbessern.

Der Zweck des Sprachsynthesizers ist im allgemeinen, für einen Menschen, der einen Computer benutzt, unterschied liche Formen von Informationen zur Verfügung zu stellen. Zu diesem Zweck sollte der Sprachsynthesizer den Benutzer mit aus einem gegebenen Text synthetisierter Sprache mit hoher Qualität bedienen. Außerdem sollte der Sprachsyn thesizer die synthetisierte Sprache synchron zu Videodaten wie z. B. einem Film, einer Animation usw. erzeugen. Die Synchronisierungsfunktion des TTS-Systems in der Multimediaumgebung ist insbeson dere wichtig, um dem Benutzer einen Dienst mit hoher Qualität zur Verfügung zu stellen.

Wie in Fig. 3 gezeigt, durchläuft ein typisches herkömm liches TTS-System einen aus drei Stufen bestehenden Prozeß wie folgt, bis die synthetisierte Sprache aus einem eingegebenen Text erzeugt wird.

In einem ersten Schritt setzt ein Sprachprozessor 1 den Text in eine Serie von Phonemen um, schätzt prosodische Informationen aus der Textinformation und symbolisiert diese Informationen. Die prosodische Information wird anhand einer Grenze der Phrasen und des Satzes, einer Position der Betonung im Wort, eines Satzmusters usw. unter Verwendung der Analyseergebnisse der Syntax jedes Satzes geschätzt.

In einem zweiten Schritt berechnet ein prosodischer Prozessor 2 einen Wert eines prosodischen Steuerparame ters anhand der symbolisierten prosodischen Informationen unter Verwendung einer Regel und einer Tabelle. Der prosodische Steuerparameter enthält die Dauer des Pho nems, den Tonhöhenverlauf, den Energieverlauf und die Pausenintervallinformationen.

In einem dritten Schritt erzeugt ein Signalprozessor 3 eine synthetisierte Sprache unter Verwendung einer Syn theseeinheit-Datenbank 4 und der prosodischen Steuerpara meter. Mit anderen Worten bedeutet dies, daß das herkömm liche TTS-System die der Natürlichkeit und der Sprechge schwindigkeit zugeordneten Informationen im Sprachprozes sor 1 und im prosodischen Prozessor 2 nur anhand des eingegebenen Textes schätzen soll.

Ferner hat das herkömmliche TTS-System die einfache Funktion zum Ausgeben von Daten, die von der Einheit als Satz eingegeben worden sind, als synthetisierte Sprache. Um die in einer Datei gespeicherten Sätze oder die über ein Kommunikationsnetz eingegebenen Sätze der Reihe nach als synthetisierte Sprache auszugeben, ist ein Hauptsteu erprogramm erforderlich, das die Sätze aus den eingegebe nen Daten liest und diese zum Eingang eines TTS-Systems sendet. Ein solches Hauptsteuerprogramm enthält ein Verfahren zum Trennen des Textes von den eingegebenen Daten und zum einmaligen Ausgeben der synthetisierten Sprache vom Anfang bis zum Ende, ein Verfahren zum Erzeu gen der synthetisierten Spräche in Verschränkung mit einem Texteditor, ein Verfahren zum Verschränken der Sätze unter Verwendung eines Graphikschnittstelle und zum Erzeugen der synthetisierten Sprache usw., wobei jedoch die Anwendbarkeit dieser Verfahren auf Text beschränkt ist.

Ein TTS-System gemäß dem Oberbegriff des Anspruchs 1, wie es vorstehend beschrieben wurde, ist bekannt aus der Veröffentlichung von Jung-chul Lee und Yeongjik Lee, "Korean TTS system with prosodic features of dialogue speech", Acoustic Society of Korean Symposium Proceedings 1996, Band 15, Nr. 1 (s), Seiten 103-106.

Als weiterer Stand der Technik ist auf folgende Dokumente hinzuweisen:
Die WO 85/04747 A1 offenbart ein TTS-System, welches in Echtzeit synthetisierte Sprache basierend auf empfangenen Textinformationen erzeugen kann. Sie befasst sich hingegen nicht mit Multimediasystemen und somit auch nicht mit dem Problem einer Synchronisierung von synthetisierter Sprache mit einem Film, da Filminformationen in diesem Dokument gar nicht vorgesehen sind.

Die AT 72083 E offenbart ein Gerät zum Kodieren eines sich bewegenden Bildes, insbesondere eines menschlichen Gesichts eines Sprechers, mit dem Ziel, niedrige Bilddatenübertragungsraten zu erzielen. Hierzu wird nur ein Gesichtsbild des Sprechers übertragen, sowie eine Folge von Codeworten, die nachfolgende Mundstellungen identifizieren, die auf einem Bildschirm angezeigt werden sollen. Um eine Synchronisierung zwischen den angezeigten Mundstellungen und synthetisierter Sprache aus einem Sprachsynthesizer herbeizuführen, wird nicht die eigentlich übertragene Bildinformation auf dem Bildschirm angezeigt, vielmehr wird dann, wenn eine eigentlich anzuzeigende Mundstellung nicht zu der gleichzeitig wiederzugebenden synthetisierten Sprache passt, der relevante Bereich des empfangenen Gesichtsbilds mit geeigneten Mundstellungsbildern überschrieben, die den synthetisierten Worten entsprechen.

Die US 5608839 offenbart ein Verfahren zur Synchronisierung eines Stroms unsynchronisierter Sprach- und Videosignale eines Sprechers. Sie betrifft jedoch kein TTS-System, da das offenbarte System keine Textdaten empfängt, aus denen dann synthetisierte Sprache erzeugt wird. Vielmehr empfängt das hier offenbarte System Audiodaten, die mit Videodaten von der gleichen Quelle synchronisiert werden.

Die DE 41 01 022 A1 offenbart ein Verfahren zur geschwindigkeitsvariablen Wiedergabe von Audiosignalen ohne spektrale Veränderung der Signale. Hierzu wird das digitalisierte Audiosignal in Blöcke unterteilt, transformiert, dann werden Blöcke hinzugefügt oder weggeschnitten, bevor eine Rücktransformation erfolgt. Das Hinzufügen von Blöcken verringert die Geschwindigkeit, das Weglassen von Blöcken erhöht sie. Dieses Verfahren kann bei der Synchronisierung von Audio- und Videosignalen eingesetzt werden. Dieses Dokument betrifft jedoch ebenfalls kein TTS-System, das heißt es betrifft nicht die Erzeugung synthetisierter Sprache aus ursprünglicher Textinformation.

Als weiterer Stand der Technik wird auf die US 4305131 verwiesen, aus der die Synchronisation eines Films mit Sprachsignalen in Zusammenhang mit einem Video-Unterhaltungssystem offenbart wird, bei dem ein oder mehrere Zuschauer den Verlauf eines Spielfilms so beeinflussen können, als ob jeder einzelne Zuschauer Teilnehmer an einem tatsächlichen Geschehen oder einem Dialog wäre.

Derzeit haben Studien über TTS-Systeme für Landessprachen in unterschiedlichen Ländern beträchtliche Fortschritte gemacht, wobei in einigen Ländern eine gewerbliche Ver wendung erreicht worden ist. Dies gilt jedoch nur für die Verwendung der Synthese der Sprache aus dem eingegebenen Text. Da es unmöglich ist, nur anhand des Textes die Informationen zu schätzen, die erforderlich sind, wenn ein Film unter Verwendung eines TTS-Systems nachsynchro nisiert werden soll oder wenn die natürliche Synchronisie rung zwischen der synthetisierten Sprache und der Multi mediaumgebung, wie z. B. bei einer Animation, implemen tiert werden soll, gibt es außerdem mit einer Organisa tion des Standes der Technik kein Verfahren zum Realisie ren dieser Funktionen. Ferner liegt kein Ergebnis der Studien über die Verwendung zusätzlicher Daten zur Ver besserung der Natürlichkeit der synthetisierten Sprache und der Organisation dieser Daten vor.

Es ist daher die Aufgabe der vorliegenden Erfindung, ein Text/Sprache-Umsetzungssystem (TTS-System) zur Synchronisierung synthetisierter Sprache mit einem Film in einer Multimediaumgebung sowie ein Verfahren für eine derartige Synchronisierung zu schaffen, um die Natürlichkeit der synthetisierten Sprache zu verbessern und eine Synchronisierung der Multimediaumge bung mit dem TTS-System zu erreichen, indem zusätzliche prosodische Informationen, die für die Synchronisierung des TTS-Systems mit der Multimediaumgebung erforderlichen Informationen sowie die Schnittstelle zwischen diesen Informationen und dem TTS-System für die Verwendung bei der Erzeugung der synthetisierten Sprache definiert werden.

Diese Aufgabe wird erfindungsgemäß gelöst durch ein Text/Sprache-Umsetzungssystem nach Anspruch 1 bzw. durch ein Verfahren nach Anspruch 2 oder 14. Die abhängigen Ansprüche sind auf bevorzugte Ausführungsformen gerichtet.

Weitere Merkmale und Vorteile der vorliegenden Erfindung werden deutlich beim Lesen der folgenden Beschreibung bevorzugter Ausführungsformen, die auf die beigefügten Zeichnungen Bezug nimmt; es zeigen:

Fig. 1 eine Konstruktionsansicht eines Text/Sprache- Umsetzungssystems gemäß der vorliegenden Erfin dung;

Fig. 2 eine Konstruktionsansicht einer Hardware, auf die die vorliegende Erfindung angewendet wird; und

Fig. 3 die bereits erwähnte Konstruktionsansicht eines Text/Sprach-Umsetzungssystems des Standes der Technik.

Im folgenden wird die vorliegende Erfindung anhand der bevorzugten Ausführungsform genauer beschrieben.

In Fig. 2 ist eine Konstruktionsansicht der Hardware gezeigt, auf die die vorliegende Erfindung angewendet wird. Wie in Fig. 2 gezeigt, umfaßt die Hardware eine Multimediadateneingabeeinheit 5, eine Zentraleinheit 6, eine Synthese-Datenbank 7, einen Digital/Analog-(D/A)- Umsetzer 8 sowie eine Bildausgabevorrichtung 9.

Die Multimediadateneingabeeinheit 5 empfängt Daten, die Multimediadaten wie z. B. ein Bild und einen Text umfas sen, und gibt diese Daten an die Zentraleinheit 6 weiter.

Die Zentraleinheit 6 verteilt die Multimediadateneingabe der vorliegenden Erfindung, stellt die Synchronisierung ein und führt einen darin enthaltenden Algorithmus zum Erzeugen der synthetisierten Sprache aus.

Die Synthese-Datenbank 7 ist eine Datenbank, die im Algorithmus zum Erzeugen der synthetisierten Sprache verwendet wird. Diese Synthese-Datenbank 7 ist in einer Speichervorrichtung gespeichert und sendet die erforder lichen Daten zur Zentraleinheit 6.

Der Digital/Analog-(D/A)-Umsetzer 8 setzt das syntheti sierte Digitalsignal in ein Analogsignal um und gibt dieses aus.

Die Bildausgabevorrichtung 9 gibt die eingegebenen Bild informationen auf einem Bildschirm aus.

Die Tabellen 1 und 2 sind Algorithmen, die den Zustand der organisierten Multimediaeingangsinformationen zeigen, die Text, Filminformationen, prosodische Informationen, die Informationen für die Synchronisierung mit dem Film, die Lippenforminformationen und individuelle Eigenschaftsinformationen umfassen.

Tabelle 1

Hierbei ist TTS_Sequence_Start_Code eine Bitkette, die hexadezimal "XXXXX" dargestellt wird und einen Beginn des TTS-Satzes bezeichnet.

TTS_Sentence_ID ist eine 10-Bit-ID und stellt eine geeig nete Nummer jedes TTS-Datenstroms dar.

Language_Code stellt eine Objektsprache wie z. B. Korea nisch, Englisch, Deutsch, Japanisch, Französisch und dergleichen dar, die synthetisiert werden soll.

Prosody_Enable ist ein 1-Bit-Merker und besitzt einen Wert von "1", wenn in den organisierten Daten prosodische Daten des Orginaltons enthalten sind.

Video_Enable ist ein 1-Bit-Merker und besitzt einen Wert von "1", wenn ein TTS-System mit einem Film verschränkt ist.

Lip_Shape_Enable ist ein 1-Bit-Merker und besitzt einen Wert von "1", wenn in den organisierten Daten Lippen formdaten enthalten sind.

Trick_Mode_Enable ist ein 1-Bit-Merker und besitzt einen Wert von "1", wenn die Daten so organisiert sind, daß sie einen Trickmodus unterstützen, wie z. B. Stopp, Neustart, Vorwärts und Rückwärts.

Tabelle 2

Hierbei ist TTS_Sentence_Start_Code eine Bitkette, die hexadezimal "XXXXX" dargestellt wird und einen Beginn eines TTS-Satzes bezeichnet. TTS_Sentence_Start_Code ist eine 10-Bit-ID und stellt eine geeignete Nummer jedes TTS-Datenstroms dar.

TTS_Sentence_ID ist eine 10-Bit-ID und stellt eine geeig nete Nummer jedes TTS-Satzes dar, der im TTS-Strom vor handen ist.

Silence wird gleich "1", wenn ein vorliegender Eingangs rahmen des 1-Bit-Merkers ein stiller Sprachabschnitt ist.

In der Stufe von Silence_Duration wird eine Zeitdauer des vorliegenden stillen Sprachabschnitts in Millisekunden dargestellt.

In der Stufe von Gender wird das Geschlecht einer synthe tisierten Sprache unterschieden.

In der Stufe von Age wird ein Alter der synthetisierten Sprache unterschieden zwischen Kleinkindalter, Jugendal ter, mittlerem Alter und hohem Alter.

Speech_Rate stellt eine Sprechgeschwindigkeit der synthe tisierten Sprache dar.

In der Stufe von Length_of_Text wird eine Länge des eingegebenen Textsatzes durch ein Byte dargestellt.

In der Stufe von TTS_Text wird ein Satztext mit optiona ler Länge dargestellt.

Dur_Enable ist ein 1-Bit-Merker und wird gleich "1", wenn in den organisierten Daten eine Zeitdauerinformation enthalten ist.

FO_Contour_Enable ist ein 1-Bit-Merker und wird gleich "1", wenn in den organisierten Daten eine Tonhöheninfor mation für jedes Phonem enthalten ist.

Energy_Contour_Enable ist ein 1-Bit-Merker und wird gleich "1", wenn in den organisierten Daten eine Energie information für jedes Phonem enthalten ist.

In der Stufe von Number_of_phonemes, ist die Anzahl der Phoneme dargestellt, die zum Synthetisieren eines Satzes benötigt werden.

In der Stufe von Symbol_each_phoneme ist ein Symbol wie z. B. IPA dargestellt, das das jeweilige Phonem repräsen tiert.

Dur_each_phoneme stellt eine Zeitdauer des jeweiligen Phonems dar.

In der Stufe von FO_contour_each_phoneme wird ein Tonhö henmuster des Phonems mittels eines Tonhöhenwerts des Anfangspunkts, des Mittelpunkts und des Endpunkts des Phonems dargestellt.

In der Stufe von Energy_Contur_each_phoneme wird das Energiemuster des Phonems dargestellt, wobei ein Energie wert des Anfangspunkts, des Mittelpunkts und des End punkts des Phonems in Dezibel (dB) dargestellt wird.

Sentence_Duration stellt eine Gesamtzeitdauer der synthe tisierten Sprache des Satzes dar.

Position_in_Sentence stellt eine Position des vorliegen den Rahmens im Satz dar.

In der Stufe von Offset wird dann, wenn die syntheti sierte Sprache mit einem Film verschränkt ist und ein Anfangspunkt des Satzes in der Bildgruppe GOP (Group Of Pictures) liegt, eine Verzögerungszeit dargestellt, die vom Anfangspunkt der GOP zum Anfangspunkt des Satzes verstreicht.

Number_of_Lip_Event stellt die Anzahl der Änderungspunkte der Lippenform im Satz dar.

Lip_in_Sentence zeigt die Stelle eines Lippenformänderungspunkts in einem Satz an.

Lip_Shape stellt eine Lippenform an einem Lippenformände rungspunkt des Satzes dar.

Textinformationen enthalten einen Klassifizierungscode für eine verwendete Sprache und einen Satztext. Prosodi sche Informationen enthalten die Anzahl der Phoneme im Satz, Phonemstrominformationen, die Dauer jedes Phonems, das Tonhöhenmuster jedes Phonems sowie das Energiemuster jedes Phonems und werden zum Verbessern der Natürlichkeit der synthetisierten Sprache verwendet. Die Synchronisie rungsinformationen des Films und der synthetisierten Sprache können als das Nachsynchronisierungskonzept betrachtet werden, wobei die Synchronisierung auf drei Wegen erreicht werden kann.

Erstens mit einem Verfahren zum Synchronisieren des Films mit der synthetisierten Sprache durch die Satzeinheit, mit der die Dauer der synthetisierten Sprache unter Verwendung der Synchronisierungs-Informationen, umfassend die Anfangspunkte der Sätze, die jeweilige Dauer der Sätze und die Verzöge rungszeiten der Anfangspunkte der Sätze, eingestellt wird. Die Anfangspunkte der jeweiligen Sätze zeigen die Stellen der Szenen an, an denen die Ausgabe der synthetisierten Sprache für den jeweiligen Satz innerhalb des Films eingeleitet wird. Die jeweilige Dauer der Sätze gibt die Anzahl der Bilder an, die die synthetisierte Sprache für den jeweiligen Satz andauert. Außerdem sollte der Film des MPEG-2- und MPEG-4-Bildkompressionstyps, bei dem das Group-Of-Picture-(GOP)-Konzept verwendet wird, nicht in einer beliebigen Szene, sondern an einem Szenenbeginn innerhalb der Gruppe der Bilder für die Reproduktion beginnen. Somit ist die Verzögerungszeit des Anfangs punkts die zum Synchronisieren der Gruppe der Bilder und dem TTS-System benötigte Information und gibt eine Verzö gerungszeit zwischen der beginnenden Szene und einem Sprachanfangspunkt an. Dieses Verfahren ist leicht zu realisieren und minimiert den zusätzlichen Aufwand, wobei es jedoch schwierig ist, eine natürliche Synchronisierung zu erreichen.

Zweitens mit einem Verfahren zur Synchronisierung auf Grundlage von Phoneminformationen, mit dem die Anfangspunktin formationen und die Endpunktinformationen für jedes Phonem innerhalb eines Intervalls, das einem Sprachsignal im Film zugeordnet ist, markiert werden, wobei diese Informationen verwendet werden, um die synthetisierte Sprache zu erzeugen. Dieses Verfahren hat den Vorteil, daß der Grad der Genauigkeit hoch ist, da die Synchronisierung des Films mit der synthetisierten Sprache durch die Phonemeinheit erreicht werden kann, hat jedoch den Nachteil, daß ein zusätzlicher Aufwand erfor derlich ist, um die Zeitdauerinformationen mit der Phonemeinheit innerhalb des Sprachintervalls des Films zu detektieren und aufzuzeichnen.

Drittens mit einem Verfahren zum Aufzeichnen der Synchro nisationsinformationen auf der Grundlage des Anfangs punkts der Sprache, des Endpunkts der Sprache, der Lip penform und einer Information über die Lippenformänderung. Die Lippenforminformation wird quantisiert als der Abstand (Maß der Öffnung) zwischen der Oberlippe und der Unterlippe, der Abstand (Maß der Breite) zwischen den linken und rechten Punkten der Lippe und das Maß des Vorstehens der Lippe und wird als quantisiertes und normiertes Muster in Abhängigkeit vom Artikulationsort und der Artikulations art des Phonems auf der Grundlage eines Musters mit hoher Unterscheidungsfähigkeit definiert. Dieses Verfahren ist ein Verfahren zum Steigern der Effizienz der Synchroni sierung, wobei der zusätzliche Aufwand zum Erzeugen der Informationen für die Synchronisierung minimiert werden kann.

Die organisierten Multimediaeingangsinformationen, die der vorliegenden Erfindung zugeführt werden, ermöglichen einem Informationslieferanten, optional unter drei Syn chronisierungsverfahren wie oben beschrieben auszuwählen und dieses zu implementieren.

Ferner werden die organisierten Multimediaeingangsinfor mationen zum Implementieren der Lippenanimation verwen det. Die Lippenanimation kann implementiert werden unter Verwendung des Phonemstroms, der aus dem eingegebenen Text im TTS-System und der Dauer jedes Phonems, oder unter Verwendung des Phonemstroms, der von den Eingangs informationen verteilt wird, und der Dauer jedes Phonems, oder unter Verwendung der Informationen über die Lippen form, die in den eingegebenen Informationen enthalten sind, vorbereitet worden ist.

Die individuelle Eigenschaftsinformation umfaßt das Geschlecht, das Alter und die Sprechge schwindigkeit der synthetisierten Sprache. Das Geschlecht kann männlich oder weiblich sein, während das Alter in vier Stufen klassifiziert wird, z. B. 6-7 Jahre, 18 Jahre, 40 Jahre und 65 Jahre. Die Änderung der Sprech geschwindigkeit kann zehn Stufen zwischen dem 0,7fachen und dem 1,6fachen einer Normgeschwindigkeit umfassen. Die Qualität der synthetisierten Sprache kann unter Verwen dung dieser Informationen diversifiziert werden.

Fig. 1 ist eine Konstruktionsansicht des Text/Sprache- Umsetzungssystems (TTS) gemäß der vorliegenden Erfindung. Wie in Fig. 1 gezeigt, umfaßt das TTS-System eine Multi mediainformationseingabeeinheit 10, einen Datenverteiler 11, einen genormten Sprachprozessor 12, einen prosodischen Prozessor 13, eine Synchronisierungs einstellvorrichtung 14, einen Signalprozessor 15, eine Syntheseeinheit-Datenbank 16 sowie eine Bildausgabevor richtung 17.

Die Multimediaeingabeeinheit 10 ist in Form der Tabelle 1 und 2 konfiguriert und umfaßt Text und Filminformationen, prosodische Informa tionen, die Informationen für die Synchronisierung, die Informationen über die Lippenform und Informationen über individuelle Eigenschaften. Von diesen ist der Text die notwendige Information, während die anderen Informationen von einem Informationslieferan ten optional als optionales Element zum Verbessern der individuellen Eigenschaft und der Natürlichkeit und zum Erreichen der Synchronisierung mit der Multimediaumgebung zur Verfügung gestellt werden können, wobei sie bei Bedarf von einem TTS-Benutzer mittels einer Zeicheneinga bevorrichtung (Tastatur) oder einer Maus geändert werden können. Diese Informationen werden zum Datenverteiler 11 gesendet.

Der Datenverteiler 11 empfängt die Multimediainformationen, von denen die Bildinforma tionen zur Bildausgabevorrichtung 17 gesendet werden, der Text zum Sprachprozessor 12 gesendet wird und die Syn chronisierungsinformationen in eine Datenstruktur, die in der Synchronisierungseinstellvorrichtung 14 verwendet werden können, umgesetzt und zur Synchronisierungsein stellvorrichtung 14 gesendet werden. Wenn in den eingege benen Multimediainformationen prosodische Informationen enthalten sind, werden diese prosodischen Informationen in eine Datenstruktur umgesetzt, die der Signalprozessor 15 verwenden kann, und werden anschließend zum prosodischen Prozessor 13 gesendet. Wenn in den eingegebenen Multimediainforma tionen individuelle Eigenschaftsinformationen enthalten sind, werden diese individuellen Eigenschaftsinformationen in eine Datenstruk tur umgesetzt, die in der Syntheseeinheit-Datenbank 16 verwendet werden können, und werden anschließend verwendet, um aus der Syntheseeinheit-Datenbank 16 die geeigneten Syntheseeinheiten auszuwählen.

Der Sprachprozessor 12 konvertiert den Text zu einem Phonemstrom, schätzt die prosodischen Informationen, symbolisiert diese Informationen und sendet anschließend die symbolisierten Informationen zum prosodischen Prozes sor 13, wenn keine prosodischen Informationen in den eingegebenen Multimediainformationen enthalten sind. Die prosodischen Informationen werden anhand einer Grenze der Phrase und des Satzes, einer Position der Betonung im Wort, eines Satzmusters usw. unter Verwendung des Analyseergebnisses der Syntax jedes Satzes ge schätzt.

Der prosodische Prozessor 13 empfängt das Verarbeitungs ergebnis des Sprachprozessors 12 und berechnet Werte von prosodischen Steuerparametern, die nicht in den Multime diainformationen enthalten sind. Die prosodischen Steuerpa rameter enthalten die Dauer jedes Phonems, den Tonhöhenverlauf, den Energieverlauf, den Pausenpunkt und die Pausenlänge des Phonems. Das berechnete Ergebnis wird zur Synchronisie rungseinstellvorrichtung 14 gesendet.

Die Synchronisierungseinstellvorrichtung 14 empfängt das Verarbeitungsergebnis des prosodischen Prozessors 13 und stellt für jedes Phonem die Dauer ein, um das Sprachsignal mit dem Bildsignal zu synchronisieren. Die Einstellung der Dauer jedes Phonems nutzt die vom Datenverteiler 11 gesendete Synchronisierungsinfor mation. Zuerst wird jedem Phonem in Abhängigkeit vom Artikulierungsort und der Artikulierungsart des Phonems eine Lippenforminformation zugewiesen, wobei auf der Grundlage hiervon die zugewiesene Lippenforminformation mit der Lippenforminformation verglichen wird, die in der Synchronisierungsinformation enthalten ist, woraufhin der Phonemstrom anhand der Anzahl der in den Synchronisierungsinformationen aufge zeichneten Lippenformen in kleine Gruppen unterteilt wird. Ferner wird die Dauer des Phonems in den kleinen Gruppen erneut unter Verwendung der Zeitdauerinformatio nen der Lippenform berechnet, die in der Synchronisie rungsinformation enthalten ist. Die Informationen über die eingestellte Dauer werden zum Signalprozessor 15 übertragen.

Der Signalprozessor 15 verwendet die prosodische Informa tion vom Multimediaverteiler 11 oder das Verarbeitungser gebnis der Synchronisierungseinstellvorrichtung 14, um unter Verwendung der Syntheseeinheit-Datenbank 16 die synthetisierte Sprache zu erzeugen und auszugeben.

Die Syntheseeinheit-Datenbank 16 empfängt die individu elle Eigenschaftsinformation vom Multimediaverteiler 11, wählt die zum Geschlecht und zum Alter passenden Syntheseein heiten aus und sendet anschließend die für die Synthese benötigten Daten zum Signalprozessor 15 als Antwort auf eine Anfrage vom Signalprozessor 15.

Wie aus der obigen Beschreibung deutlich wird, können die individuellen Eigenschaften der synthetisierten Sprache gemäß der vorliegenden Erfindung verwirklicht werden, wobei die Natürlichkeit der synthetisierten Sprache verbessert werden kann durch Organisieren der individuel len Eigenschaften und der prosodischen Informationen, die durch die Analyse der aktuellen Sprachdaten geschätzt werden, zusammen mit den Textinformationen als mehrstu fige Informationen. Ferner kann ein fremdsprachiger Film in koreanischer Sprache nachsynchronisiert werden, indem die Synchronisierung der synthetisierten Sprache mit dem Film implementiert wird durch die direkte Verwendung der Textinformationen und der Lippenforminformationen, die anhand der Analyse der aktuellen Sprachdaten geschätzt werden, und der Lippenform im Film zur Herstellung der synthetisierten Sprache. Die vorliegende Erfindung kann ferner auf verschiedene Gebiete wie z. B. einem Kommuni kationsdienst, der Büroautomatisierung, der Erziehung usw. angewendet werden, indem die Synchronisierung zwi schen der Bildinformation und der synthetisierten Sprache aus dem TTS-System in einer Multimediaumgebung bewirkt wird.

Obwohl die vorliegende Erfindung und ihre Vorteile genau beschrieben worden sind, ist klar, daß verschiedene Änderungen, Ersetzungen und Abwandlungen daran vorgenom men werden können, ohne vom Geist und vom Umfang der Erfindung, wie sie durch die beigefügten Ansprüche defi niert ist, abzuweichen.

Claims

1. Text/Sprache-Umsetzungssystem (TTS-System) zur Synchronisierung synthetisierter Sprache mit einem Film, der auf einer Bildausgabevorrichtung angezeigt wird, welche an das TTS-System angeschlossen ist, wobei das TTS- System umfasst:
einen Sprachprozessor (12) zum Umsetzen des Texts in einen Phonemstrom und zum Schätzen prosodischer Informationen anhand des Phonemstroms;
einen prosodischen Prozessor (13) zum Berechnen von Werten eines prosodischen Steuerparameters aus der prosodischen Information unter Verwendung einer vordefinierten Regel; und
einen Signalprozessor (15) zum Erzeugen synthetisierter Sprache unter Verwendung der Werte des prosodischen Steuerparameters sowie synthetischer Daten, die in einer Syntheseeinheit-Datenbank (16) gespeichert sind,
dadurch gekennzeichnet, dass das TTS-System ferner umfasst:
eine Multimediainformationeneingabeeinheit (10) zur Eingabe eines Satzes von Multimediainformationen, wobei ein Satz der Multimediainformationen Filminformationen, Textinformationen und Synchronisierungsinformationen enthält;
einen Datenverteiler (11) zum Klassifizieren eines Satzes von Multimediainformationen in jeweilige Unter-Sätze von Informationen, um jeden Unter-Satz von Informationen zu den entsprechenden Prozessoren und zur Bildausgabevorrichtung zu Verteilen; und
eine Synchronisierungseinstellvorrichtung (14) zum Einstellen der Dauer jedes Phonems des Phonemstroms unter Verwendung des vom Datenverteiler (11) verteilten Unter-Satzes von Synchronisierungsinformationen, um die vom Signalprozessor erzeugte synthetisierte Sprache mit dem auf der Bildausgabevorrichtung (17) angezeigten Film zu synchronisieren.

2. System nach Anspruch 1, dadurch gekennzeichnet, dass der Unter-Satz von Synchronisierungsinformationen Lippenforminformationen enthält, wobei die Lippenforminformationen die Anzahl von Lippenformänderungspunkten, die Stelle jedes Lippenformänderungspunktes in einem Satz sowie eine Lippenformdarstellung bei jedem Lippenformänderungspunkt umfassen.

3. System nach Anspruch 1, dadurch gekennzeichnet, dass ein Satz der Multimediainformationen ferner individuelle Eigenschaftsinformationen enthält, wobei der Unter-Satz individueller Eigenschaftsinformationen Geschlechts- und Altersinformationen für die synthetisierte Sprache enthält.

4. System nach Anspruch 1, dadurch gekennzeichnet, dass dann, wenn ein Satz der Multimediainformationen ferner prosodische Steuerparameter enthält, der Sprachprozessor und der prosodische Prozessor inaktiv bleiben.

5. System nach Anspruch 4, dadurch gekennzeichnet, dass die prosodischen Steuerparameter die Anzahl der Phoneme, die Zeitdauer jedes Phonems, das Tonhöhenmuster jedes Phonems und das Energiemuster jedes Phonems enthalten.

6. System nach Anspruch 5, dadurch gekennzeichnet, dass das Tonhöhenmuster jedes Phonems einen Tonhöhenwert am Anfangspunkt, am Mittelpunkt und am Endpunkt innerhalb jedes Phonems angibt.

7. System nach Anspruch 5, dadurch gekennzeichnet, dass das Energiemuster jedes Phonems einen Energiewert in Dezibel am Anfangspunkt, am Mittelpunkt und am Endpunkt innerhalb jedes Phonems angibt.

8. Verfahren zum Synchronisieren synthetisierter Sprache, die in einem TTS- System erzeugt ist, mit einem Film, der auf einer Bildausgabevorrichtung angezeigt wird, welche an das TTS-System angeschlossen ist, umfassend die Schritte:

- Empfangen eines Satzes von Multimediainformationen, umfassend Textinformationen, Filminformationen und Synchronisierungsinformationen;
- Klassifizieren eines Satzes der empfangenen Multimediainformationen in die jeweiligen Unter-Sätze von Informationen;
- Umsetzen des klassifizierten Unter-Satzes von Textinformationen in einen Phonemstrom;
- Schätzen von prosodischen Informationen anhand des Phonemstroms;
- Berechnen von Werten eines prosodischen Steuerparameters basierend auf den prosodischen Informationen;
- Einstellen der Dauer jedes Phonems des Phonemstroms unter Verwendung des klassifizierten Unter-Satzes von Synchronisierungsinformationen, um die synthetisierte Sprache mit dem Film zu synchronisieren;
- Erzeugen der synthetisierten Sprache unter Verwendung der Werte des prosodischen Steuerparameters und von Daten in einer Syntheseeinheit- Datenbank (16) synchron mit dem angezeigen Film.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die prosodischen Steuerparameter die Anzahl der Phoneme, die Zeitdauer jedes Phonems, das Tonhöhenmuster jedes Phonems und das Energiemuster jedes Phonems umfassen.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass das Tonhöhenmuster jedes Phonems einen Wert der Tonhöhe am Anfangspunkt, am Mittelpunkt und am Endpunkt innerhalb jedes Phonems angibt.

11. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass das Energiemuster jedes Phonems einen Energiewert in Dezibel am Anfangspunkt, am Mittelpunkt und am Endpunkt innerhalb jedes Phonems angibt.

12. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass der klassifizierte Unter-Satz von Synchronisierungsinformationen Lippenforminformationen enthält, wobei die Lippenforminformationen die Anzahl von Lippenformänderungspunkten, die Stelle jedes Lippenformänderungspunkts in einem Satz sowie eine Lippenformdarstellung bei jedem Lippenformänderungspunkt enthalten.

13. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass ein Satz von Multimediainformationen ferner individuelle Eigenschaftsinformationen enthält, wobei der Unter-Satz von individuellen Eigenschaftsinformationen Geschlechts- und Altersinformationen für die synthetisierte Sprache enthält.

14. Verfahren zum Synchronisieren synthetisierter Sprache, die in einem TTS- System erzeugt ist, mit einem Film, der auf einer Bildausgabevorrichtung angezeigt wird, welche an das TTS-System angeschlossen ist, umfassend die Schritte:

- Empfangen eines Satzes von Multimediainformationen, umfassend Textinformationen, Filminformationen, Synchronisierungsinformationen und prosodische Steuerparameter, wobei die prosodischen Steuerparameter die Dauer jedes Phonems enthalten;
- Klassifizieren eines Satzes der empfangenen Multimediainformationen in den jeweiligen Unter-Satz von Informationen;
- Einstellen der Dauer jedes Phonems unter Verwendung des klassifizierten Unter-Satzes von Synchronsierungsinformationen, um die synthetisierte Sprache mit dem Film zu synchronisieren; und
- Erzeugen der synthetisierten Sprache unter Verwendung der in einem Satz empfangener Multimediainformationen enthaltenden prosodischen Steuerparameterwerte und von Daten in einer Syntheseeinheit-Datenbank 16 synchron mit dem auf einem Bildschirm der Bildausgabevorrichtung angezeigten Film.

15. Verfahren zum Erzeugen synthetisierter Sprache synchron mit einem zugeordneten Film, dadurch gekennzeichnet, dass das Verfahren die Schritte umfasst:

- Empfangen eines Satzes von Multimediainformationen, umfassend Textinformationen, Filminformationen und Synchronisierungsinformationen; und
- Synthetisieren der Sprache aus den empfangenen Textinformationen synchron mit den empfangenden Filminformationen unter Verwendung der empfangenen Synchronisierungsinformationen.