DE19753454A1 - Text/Sprache-Umsetzungssystem zur Verschränkung in einer Multimediaumgebung und Verfahren zum Organisieren der Eingangsdaten für dieses System - Google Patents

Text/Sprache-Umsetzungssystem zur Verschränkung in einer Multimediaumgebung und Verfahren zum Organisieren der Eingangsdaten für dieses System

Info

Publication number
DE19753454A1
DE19753454A1 DE19753454A DE19753454A DE19753454A1 DE 19753454 A1 DE19753454 A1 DE 19753454A1 DE 19753454 A DE19753454 A DE 19753454A DE 19753454 A DE19753454 A DE 19753454A DE 19753454 A1 DE19753454 A1 DE 19753454A1
Authority
DE
Germany
Prior art keywords
information
prosodic
phoneme
synchronization
multimedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19753454A
Other languages
English (en)
Other versions
DE19753454C2 (de
Inventor
Jung Chul Lee
Min Soo Hahn
Hang Seop Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of DE19753454A1 publication Critical patent/DE19753454A1/de
Application granted granted Critical
Publication of DE19753454C2 publication Critical patent/DE19753454C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Description

Die vorliegende Erfindung bezieht sich auf ein Text/Sprache-Umsetzungssystem (im folgenden mit TTS-System bezeichnet) zum Verschränken in einer Multimedia­ umgebung sowie ein Verfahren zum Organisieren der Ein­ gangsdaten für dieses System und insbesondere auf ein Text/Sprache-Umsetzungssystem (TTS-System) zur Verschrän­ kung in einer Multimediaumgebung und ein Verfahren zum Organisieren der Eingangsdaten dieses Systems, um die Natürlichkeit der synthetisierten Sprache zu verbessern und die Synchronisierung zwischen der Multimediaumgebung und dem TTS-System zu erreichen, indem zusätzlich proso­ dische Informationen, die für die Verschränkung des TTS-Systems mit der Multimediaumgebung erforderlichen Infor­ mationen und eine Schnitt stelle zwischen diesen Informa­ tionen und dem TTS-System für die Verwendung bei der Erzeugung der synthetisierten Sprache definiert werden.
Der Zweck des Sprachsynthesizers ist im allgemeinen, für einen Menschen, der einen Computer benutzt, unterschied­ liche Formen von Informationen zur Verfügung zu stellen. Zu diesem Zweck sollte der Sprachsynthesizer den Benutzer mit aus einem gegebenen Text synthetisierter Sprache mit hoher Qualität bedienen. Außerdem sollte der Sprachsyn­ thesizer für die Verschränkung mit der Datenbank, die in einer Multimediaumgebung, wie z. B. mit einem Film oder einer Animation, oder mit verschiedenen Medien, die von einer Gegenseite der Konversation zur Verfügung gestellt werden, erzeugt worden ist, die synthetisierte Sprache synchron zu diesen Medien erzeugen. Die Synchronisierung des TTS-Systems mit der Multimediaumgebung ist insbeson­ dere wichtig, um den Benutzer einen Dienst mit hoher Qualität zur Verfügung zu stellen.
Wie in Fig. 3 gezeigt, durchläuft ein typisches herkömm­ liches TTS-System einen aus drei Stufen bestehenden Prozeß wie folgt, bis die synthetisierte Sprache aus einem eingegebenen Text erzeugt wird.
In einem ersten Schritt setzt ein Sprachprozessor 1 den Text in eine Serie von Phonemen um, schätzt prosodische Informationen und symbolisiert diese Informationen. Das Symbol der prosodischen Information wird anhand einer Grenze der Phrasen und des Satzes, einer Position der Betonung im Wort, eines Satzmusters usw. unter Verwendung der Analyseergebnisse der Syntax geschätzt.
In einem zweiten Schritt berechnet ein prosodischer Prozessor 2 einen Wert eines prosodischen Steuerparame­ ters anhand der symbolisierten prosodischen Informationen unter Verwendung einer Regel und einer Tabelle. Der prosodische Steuerparameter enthält die Dauer des Pho­ nems, die Tonhöhenverlauf, den Energieverlauf und die Pausenintervallinformationen.
In einem dritten Schritt erzeugt ein Signalprozessor 3 eine synthetisierte Sprache unter Verwendung einer Syn­ theseeinheit-Datenbank 4 und der prosodischen Steuerpara­ meter. Mit anderen Worten bedeutet dies, daß das herkömm­ liche TTS-System die der Natürlichkeit und der Sprechge­ schwindigkeit zugeordneten Informationen im Sprachprozes­ sor 1 und im prosodischen Prozessor 2 nur anhand des eingegebenen Textes schätzen soll.
Ferner hat das herkömmliche TTS-System die einfache Funktion zum Ausgeben von Daten, die von der Einheit als Satz eingegeben worden sind, als synthetisierte Sprache. Um die in einer Datei gespeicherten Sätze oder die über ein Kommunikationsnetz eingegebenen Sätze der Reihe nach als synthetisierte Sprache aus zugeben, ist ein Hauptsteu­ erprogramm erforderlich, das die Sätze aus den eingegebe­ nen Daten liest und diese zum Eingang eines TTS-Systems sendet. Ein solches Hauptsteuerprogramm enthält ein Verfahren zum Trennen des Textes von den eingegebenen Daten und zum einmaligen Ausgeben der synthetisierten Sprache vom Anfang bis zum Ende, ein Verfahren zum Erzeu­ gen der synthetisierten Sprache in Verschränkung mit einem Texteditor, ein Verfahren zum Verschränken der Sätze unter Verwendung eines Graphikschnittstelle und zum Erzeugen der synthetisierten Sprache usw., wobei jedoch die Anwendbarkeit dieser Verfahren auf Text beschränkt ist.
Derzeit haben Studien über TTS-Systeme für Landessprachen in unterschiedlichen Ländern beträchtliche Fortschritte gemacht, wobei in einigen Ländern eine gewerbliche Ver­ wendung erreicht worden ist. Dies gilt jedoch nur für die Verwendung der Synthese der Sprache aus dem eingegebenen Text. Da es unmöglich ist, nur anhand des Textes die Informationen zu schätzen, die erforderlich sind, wenn ein Film unter Verwendung eines TTS-Systems nachsynchro­ nisiert werden soll oder wenn die natürliche Verschrän­ kung zwischen der synthetisierten Sprache und der Multi­ mediaumgebung, wie z. B. bei einer Animation, implemen­ tiert werden soll, gibt es außerdem mit einer Organisa­ tion des Standes der Technik kein Verfahren zum Realisie­ ren dieser Funktionen. Ferner liegt kein Ergebnis der Studien über die Verwendung zusätzlicher Daten zur Ver­ besserung der Natürlichkeit der synthetisierten Sprache und der Organisation dieser Daten vor.
Es ist daher die Aufgabe der vorliegenden Erfindung, ein Text/Sprache-Umsetzungssystem (TTS-System) zur Verschrän­ kung in einer Multimediaumgebung sowie ein Verfahren zum Organisieren der Eingangsdaten des Systems zu schaffen, um die Natürlichkeit der synthetisierten Sprache zu verbessern und eine Synchronisierung der Multimediaumge­ bung mit dem TTS-System zu erreichen, indem zusätzliche prosodische Informationen, die für die Verschränkung des TTS-Systems mit der Multimediaumgebung erforderlichen Informationen sowie die Schnittstelle zwischen diesen Informationen und dem TTS-System für die Verwendung bei der Erzeugung der synthetisierten Sprache definiert werden.
Diese Aufgabe wird erfindungsgemäß gelöst durch ein Text/Sprache-Umsetzungssystem, das die im Anspruch 1 angegebenen Merkmale besitzt, sowie durch ein Verfahren zum Organisieren der Eingangsdaten eines Text/Sprache-Umsetzungssystems, das die im Anspruch 2 angegebenen Merkmale besitzt. Die abhängigen Ansprüche sind auf bevorzugte Ausführungsformen gerichtet.
Weitere Merkmale und Vorteile der vorliegenden Erfindung werden deutlich beim Lesen der folgenden Beschreibung bevorzugter Ausführungsformen, die auf die beigefügten Zeichnungen Bezug nimmt; es zeigen:
Fig. 1 eine Konstruktionsansicht eines Text/Sprache-Umsetzungssystems gemäß der vorliegenden Erfin­ dung;
Fig. 2 eine Konstruktionsansicht einer Hardware, auf die die vorliegende Erfindung angewendet wird; und
Fig. 3 die bereits erwähnte Konstruktionsansicht eines Text/Sprach-Umsetzungssystems des Standes der Technik.
Im folgenden wird die vorliegende Erfindung anhand der bevorzugten Ausführungsform genauer beschrieben.
In Fig. 2 ist eine Konstruktionsansicht der Hardware gezeigt, auf die die vorliegende Erfindung angewendet wird. Wie in Fig. 2 gezeigt, umfaßt die Hardware eine Multimediadateneingabeeinheit 5, eine Zentraleinheit 6, eine Synthese-Datenbank 7, einen Digital/Analog-(D/A)-Umsetzer 8 sowie eine Bildausgabevorrichtung 9.
Die Multimediadateneingabeeinheit 5 empfängt Daten, die Multimediadaten wie z. B. ein Bild und einen Text umfas­ sen, und gibt diese Daten an die Zentraleinheit 6 weiter.
Die Zentraleinheit 6 verteilt die Multimediadateneingabe der vorliegenden Erfindung, stellt die Synchronisierung ein und führt einen darin enthaltenden Algorithmus zum Erzeugen der synthetisierten Sprache aus.
Die Synthese-Datenbank 7 ist eine Datenbank, die im Algorithmus zum Erzeugen der synthetisierten Sprache verwendet wird. Diese Synthese-Datenbank 7 ist in einer Speichervorrichtung gespeichert und sendet die erforder­ lichen Daten zur Zentraleinheit 6.
Der Digital/Analog-(D/A)-Umsetzer 8 setzt das syntheti­ sierte Digitalsignal in ein Analogsignal um und gibt dieses aus.
Die Bildausgabevorrichtung 9 gibt die eingegebenen Bild­ informationen auf einem Bildschirm aus.
Die Tabellen 1 und 2 sind Algorithmen, die den Zustand der organisierten Multimediaeingangsinformationen zeigen, die Text, prosodische Informationen, die Informationen für die Synchronisierung mit einem Film, die Lippenform und individuelle Eigenschaftsinformationen umfassen.
(Tabelle 1)
Hierbei ist TTS_Sequence_Start_Code eine Bitkette, die hexadezimal "XXXXX" dargestellt wird und einen Beginn des TTS-Satzes bezeichnet.
TTS_Sentence_ID ist eine 10-Bit-ID und stellt eine geeig­ nete Nummer jedes TTS-Datenstroms dar.
Language_Code stellt eine Objektsprache wie z. B. Korea­ nisch, Englisch, Deutsch, Japanisch, Französisch und dergleichen dar, die synthetisiert werden soll.
Prosody_Enable ist ein 1-Bit-Merker und besitzt einen Wert von "1", wenn in den organisierten Daten prosodische Daten des Orginaltons enthalten sind.
Video_Enable ist ein 1-Bit-Merker und besitzt einen Wert von "1", wenn ein TTS-System mit einem Film verschränkt ist.
Lip_Shape_Enable ist ein 1-Bit-Merker und besitzt einen Wert von "1", wenn in den organisierten Daten Lippen­ formdaten enthalten sind.
Trick_Mode_Enable ist ein 1-Bit-Merker und besitzt einen Wert von "1", wenn die Daten so organisiert sind, daß sie einen Trickmodus unterstützen, wie z. B. Stopp, Neustart, Vorwärts und Rückwärts.
(Tabelle 2)
Hierbei ist TTS_Sentence_Start_Code eine Bitkette, die hexadezimal "XXXXX" dargestellt wird und einen Beginn eines TTS-Satzes bezeichnet. TTS_Sentence_Start_Code ist eine 10-Bit-ID und stellt eine geeignete Nummer jedes TTS -Datenstroms dar.
TTS_Sentence_ID ist eine 10-Bit-ID und stellt eine geeig­ nete Nummer jedes TTS-Satzes dar, der im TTS-Strom vor­ handen ist.
Silence wird gleich "1", wenn ein vorliegender Eingangs­ rahmen des 1-Bit-Merkers ein stiller Sprachabschnitt ist.
In der Stufe von Silence_Duration wird eine Zeitdauer des vorliegenden stillen Sprachabschnitts in Millisekunden dargestellt.
In der Stufe von Gender wird das Geschlecht einer synthe­ tisierten Sprache unterschieden.
In der Stufe von Age wird ein Alter der synthetisierten Sprache unterschieden zwischen Kleinkindalter, Jugendal­ ter, mittlerem Alter und hohem Alter.
Speak_Rate stellt eine Sprechgeschwindigkeit der synthe­ tisierten Sprache dar.
In der Stufe von Length_of_Text wird eine Länge des eingegebenen Textsatzes durch ein Byte dargestellt.
In der Stufe von TTS_Text wird ein Satztext mit optiona­ ler Länge dargestellt.
Dur_Enable ist ein 1-Bit-Merker und wird gleich "1", wenn in den organisierten Daten eine Zeitdauerinformation enthalten ist.
FO_Contour_Enable ist ein 1-Bit-Merker und wird gleich "1", wenn in den organisierten Daten eine Tonhöheninfor­ mation für jedes Phonem enthalten ist.
Energy_Contour_Enable ist ein 1-Bit-Merker und wird gleich "1", wenn in den organisierten Daten eine Energie­ information für jedes Phonem enthalten ist.
In der Stufe von Number_of_phonemes, ist die Anzahl der Phoneme dargestellt, die zum Synthetisieren eines Satzes benötigt werden.
In der Stufe von Symbol_each_phoneme ist ein Symbol wie z. B. IPA dargestellt, das das jeweilige Phonem repräsen­ tiert.
Dur_each_phoneme stellt eine Zeitdauer des Phonems dar.
In der Stufe von FO_contour_each_phoneme wird ein Tonhö­ henmuster des Phonems mittels eines Tonhöhenwerts des Anfangspunkts, des Mittelpunkts und des Endpunkts des Phonems dargestellt.
In der Stufe von Energy_Contur_each_phoneme wird das Energiemuster des Phonems dargestellt, wobei ein Energie­ wert des Anfangspunkts, des Mittelpunkts und des End­ punkts des Phonems in Dezibel (dB) dargestellt wird.
Sentence_Duration stellt eine Gesamtzeitdauer der synthe­ tisierten Sprache des Satzes dar.
Position_in_Sentence stellt eine Position des vorliegen­ den Rahmens im Satz dar.
In der Stufe von Offset wird dann, wenn die syntheti­ sierte Sprache mit einem Film verschränkt ist und ein Anfangspunkt des Satzes in der Bildgruppe GOP (Group Of Pictures) liegt, eine Verzögerungszeit dargestellt, die vom Anfangspunkt der GOP zum Anfangspunkt des Satzes verstreicht.
Number_of_Lip_Event stellt die Anzahl der Änderungspunkte der Lippenform im Satz dar.
Lip_Shape stellt eine Lippenform an einem Lippenformände­ rungspunkt des Satzes dar.
Textinformationen enthalten einen Klassifizierungscode für eine verwendete Sprache und einen Satztext. Prosodi­ sche Informationen enthalten die Anzahl der Phoneme im Satz, Phonemstrominformationen, die Dauer jedes Phonems, das Tonhöhenmuster des Phonems sowie das Energiemuster des Phonems und werden zum Verbessern der Natürlichkeit der synthetisierten Sprache verwendet. Die Synchronisie­ rungsinformationen des Films und der synthetisierten Sprache können als das Nachsynchronisierungskonzept betrachtet werden, wobei die Synchronisierung auf drei Wegen erreicht werden kann.
Erstens mit einem Verfahren zum Synchronisieren des Films mit der synthetisierten Sprache durch die Satzeinheit, mit der die Dauer der synthetisierten Sprache unter Verwendung der Informationen über die Anfangspunkte der Sätze, die jeweilige Dauer der Sätze und die Verzöge­ rungszeiten der Anfangspunkte der Sätze eingestellt wird. Die Anfangspunkte der jeweiligen Sätze zeigen die Stellen der Szenen an, an denen die Ausgabe der synthetisierten Sprache für den jeweiligen Satz innerhalb des Films eingeleitet wird. Die jeweilige Dauer der Sätze gibt die Anzahl der Bilder an, die die synthetisierte Sprache für den jeweiligen Satz andauert. Außerdem sollte der Film des MPEG-2- und MPEG-4-Bildkompressionstyps, bei dem das Group-Of-Picture-(GOP)-Konzept verwendet wird, nicht in einer beliebigen Szene, sondern an einem Szenenbeginn innerhalb der Gruppe der Bilder für die Reproduktion beginnen. Somit ist die Verzögerungszeit des Anfangs­ punkts die zum Synchronisieren der Gruppe der Bilder und dem TTS-System benötigte Information und gibt eine Verzö­ gerungszeit zwischen der beginnenden Szene und einem Sprachanfangspunkt an. Dieses Verfahren ist leicht zu realisieren und minimiert den zusätzlichen Aufwand, wobei es jedoch schwierig ist, eine natürliche Synchronisierung zu erreichen.
Zweitens mit einem Verfahren, mit dem die Anfangspunktin­ formationen, die Endpunktinformationen und die Phonemin­ formationen für jedes Phonem innerhalb eines Intervalls, das einem Sprachsignal im Film zugeordnet ist, markiert werden, wobei diese Informationen verwendet werden, um die synthetisierte Sprache zu erzeugen. Dieses Verfahren hat den Vorteil, daß der Grad der Genauigkeit hoch ist, da die Synchronisierung des Films mit der synthetisierten Sprache durch die Phonemeinheit erreicht werden kann, hat jedoch den Nachteil, daß ein zusätzlicher Aufwand erfor­ derlich ist, um die Zeitdauerinformationen mit der Phonemeinheit innerhalb des Sprachintervalls des Films zu detektieren und aufzuzeichnen.
Drittens mit einem Verfahren zum Aufzeichnen der Synchro­ nisationsinformationen auf der Grundlage des Anfangs­ punkts der Sprache, des Endpunkts der Sprache, der Lip­ penform und eines Zeitpunkts der Lippenformänderung. Die Lippenform wird quantisiert als der Abstand (Maß der Öffnung) zwischen der Oberlippe und der Unterlippe, der Abstand (Maß der Breite) zwischen den linken und rechten Punkten der Lippe und das Maß des Vorstehens der Lippe und wird als quantisiertes und normiertes Muster in Abhängigkeit vom Artikulationsort und der Artikulations­ art des Phonems auf der Grundlage eines Musters mit hoher Unterscheidungsfähigkeit definiert. Dieses Verfahren ist ein Verfahren zum Steigern der Effizienz der Synchroni­ sierung, wobei der zusätzliche Aufwand zum Erzeugen der Informationen für die Synchronisierung minimiert werden kann.
Die organisierten Multimediaeingangsinformationen, die der vorliegenden Erfindung zugeführt werden, ermöglichen einem Informationslieferanten, optional unter drei Syn­ chronisierungsverfahren wie oben beschrieben auszuwählen und dieses zu implementieren.
Ferner werden die organisierten Multimediaeingangsinfor­ mationen zum Implementieren der Lippenanimation verwen­ det. Die Lippenanimation kann implementiert werden unter Verwendung des Phonemstroms, der aus dem eingegebenen Text im TTS-System und der Dauer jedes Phonems, oder unter Verwendung des Phonemstroms, der von den Eingangs­ informationen verteilt wird, und der Dauer jedes Phonems, oder unter Verwendung der Informationen über die Lippen­ form, die in den eingegebenen Informationen enthalten sind, vorbereitet worden ist.
Die individuelle Eigenschaftsinformation erlaubt dem Benutzer, das Geschlecht, das Alter und die Sprechge­ schwindigkeit der synthetisierten Sprache zu ändern. Das Geschlecht kann männlich oder weiblich sein, während das Alter in vier Stufen klassifiziert wird, z. B. 6-7 Jahre, 18 Jahre, 40 Jahre und 65 Jahre. Die Änderung der Sprech­ geschwindigkeit kann zehn Stufen zwischen dem 0,7fachen und dem 1,6fachen einer Normgeschwindigkeit umfassen. Die Qualität der synthetisierten Sprache kann unter Verwen­ dung dieser Informationen diversifiziert werden.
Fig. 1 ist eine Konstruktionsansicht des Text/Sprache-Umsetzungssystems (TTS) gemäß der vorliegenden Erfindung. Wie in Fig. 1 gezeigt, umfaßt das TTS-System eine Multi­ mediainformationseingabeeinheit 10, einen Datenverteiler für jedes Medium 11, einen genormten Sprachprozessor 12, einen prosodischen Prozessor 13, eine Synchronisierungs­ einstellvorrichtung 14, einen Signalprozessor 15, eine Syntheseeinheit-Datenbank 16 sowie eine Bildausgabevor­ richtung 17.
Die Multimediaeingabeeinheit 10 ist in Form der Tabelle 1 und 2 konfiguriert und umfaßt Text, prosodische Informa­ tionen, die Informationen für die Synchronisierung mit einem Film und die Informationen über die Lippenform. Von diesen ist der Text die notwendige Information, während die anderen Informationen von einem Informationslieferan­ ten optional als optionales Element zum Verbessern der individuellen Eigenschaft und der Natürlichkeit und zum Erreichen der Synchronisierung mit der Multimediaumgebung zur Verfügung gestellt werden können, wobei sie bei Bedarf von einem TTS-Benutzer mittels einer Zeicheneinga­ bevorrichtung (Tastatur) oder einer Maus geändert werden können. Diese Informationen werden über das jeweilige Medium 11 zum Datenverteiler gesendet.
Der Datenverteiler empfängt über das jeweilige Medium 11 die Multimediainformationen, von denen die Bildinforma­ tionen zur Bildausgabevorrichtung 17 gesendet werden, der Text zum Sprachprozessor 12 gesendet wird und die Syn­ chronisierungsinformationen in eine Datenstruktur, die in der Synchronisierungseinstellvorrichtung 14 verwendet werden können, umgesetzt und zur Synchronisierungsein­ stellvorrichtung 14 gesendet werden. Wenn in den eingege­ benen Multimediainformationen prosodische Informationen enthalten sind, werden diese Multimediainformationen in eine Datenstruktur umgesetzt, die der Signalprozessor 15 verwenden kann, und werden anschließend zum prosodischen Prozessor 13 und zur Synchronisierungseinstellvorrichtung 17 gesendet. Wenn in den eingegebenen Multimediainforma­ tionen individuelle Besitzinformationen enthalten sind, werden diese Multimediainformationen in eine Datenstruk­ tur umgesetzt, die in der Syntheseeinheit-Datenbank 16 und im prosodischen Prozessor 13 innerhalb des TTS-Sys­ tems verwendet werden können, und werden anschließend zur Syntheseeinheit-Datenbank 16 und zum prosodischen Prozessor 13 gesendet.
Der Sprachprozessor 12 konvertiert den Text zu einem Phonemstrom, schätzt die prosodischen Informationen, symbolisiert diese Informationen und sendet anschließend die symbolisierten Informationen zum prosodischen Prozes­ sor 13. Das Symbol der prosodischen Informationen wird anhand einer Grenze der Phrase und des Satzes, einer Position der Betonung im Wort, eines Satzmusters usw. unter Verwendung des Analyseergebnisses der Syntax ge­ schätzt.
Der prosodische Prozessor 13 empfängt das Verarbeitungs­ ergebnis des Sprachprozessors 12 und berechnet einen Wert des prosodischen Steuerparameters, der sich von dem prosodischen Parameter unterscheidet, der in den Multime­ diainformationen enthalten ist. Der prosodische Steuerpa­ rameter enthält die Dauer, den Tonhöhenverlauf, den Energieverlauf, den Pausenpunkt und die Pausenlänge des Phonems. Das berechnete Ergebnis wird zur Synchronisie­ rungseinstellvorrichtung 14 gesendet.
Die Synchronisierungseinstellvorrichtung 14 empfängt das Verarbeitungsergebnis des prosodischen Prozessors 13 und stellt für jedes Phonem die Dauer ein, um das Ergebnis mit dem Bildsignal zu synchronisieren. Die Einstellung der Dauer jedes Phonems nutzt die vom Datenverteiler über das jeweilige Medium 11 gesendete Synchronisierungsinfor­ mation. Zuerst wird jedem Phonem in Abhängigkeit vom Artikulierungsort und der Artikulierungsart des Phonems eine Lippenform zugewiesen, wobei auf der Grundlage hiervon die zugewiesene Lippenform mit der Lippenform verglichen wird, die in der Synchronisierungsinformation enthalten ist, woraufhin der Phonemstrom anhand der Anzahl der in den Synchronisierungsinformationen aufge­ zeichneten Lippenformen in kleine Gruppen unterteilt wird. Ferner wird die Dauer des Phonems in den kleinen Gruppen erneut unter Verwendung der Zeitdauerinformatio­ nen der Lippenform berechnet, die in der Synchronisie­ rungsinformation enthalten ist. Die Informationen über die eingestellte Dauer werden zum Signalprozessor 15 übertragen, der das Verarbeitungsergebnis des prosodi­ schen Prozessors 13 enthält.
Der Signalprozessor 15 empfängt die prosodische Informa­ tion vom Multimediaverteiler 11 oder das Verarbeitungser­ gebnis der Synchronisierungseinstellvorrichtung 14, um unter Verwendung der Syntheseeinheit-Datenbank 16 die synthetisierte Sprache zu erzeugen und auszugeben.
Die Syntheseeinheit-Datenbank 16 empfängt die individu­ elle Besitzinformation vom Multimediaverteiler 11, wählt die zum Geschlecht und zum Alter passenden Syntheseein­ heiten aus und sendet anschließend die für die Synthese benötigten Daten zum Signalprozessor 15 als Antwort auf eine Anfrage vom Signalprozessor 15.
Wie aus der obigen Beschreibung deutlich wird, können die individuellen Eigenschaften der synthetisierten Sprache gemäß der vorliegenden Erfindung verwirklicht werden, wobei die Natürlichkeit der synthetisierten Sprache verbessert werden kann durch Organisieren der individuel­ len Eigenschaften und der prosodischen Informationen, die durch die Analyse der aktuellen Sprachdaten geschätzt werden, zusammen mit den Textinformationen als mehrstu­ fige Informationen. Ferner kann ein fremdsprachiger Film in koreanischer Sprache nachsynchronisiert werden, indem die Synchronisierung der synthetisierten Sprache mit dem Film implementiert wird durch die direkte Verwendung der Textinformationen und der Lippenforminformationen, die anhand der Analyse der aktuellen Sprachdaten geschätzt werden, und der Lippenform im Film zur Herstellung der synthetisierten Sprache. Die vorliegende Erfindung kann ferner auf verschiedene Gebiete wie z. B. einem Kommuni­ kationsdienst, der Büroautomatisierung, der Erziehung usw. angewendet werden, indem die Synchronisierung zwi­ schen der Bildinformation und dem TTS-System in einer Multimediaumgebung ermöglicht wird.
Obwohl die vorliegende Erfindung und ihre Vorteile genau beschrieben worden sind, ist klar, daß verschiedene Änderungen, Ersetzungen und Abwandlungen daran vorgenom­ men werden können, ohne vom Geist und vom Umfang der Erfindung, wie sie durch die beigefügten Ansprüche defi­ niert ist, abzuweichen.
Die beigefügten Ansprüche sollen daher alle solchen Anwendungen, Abwandlungen und Ausführungsformen innerhalb des Umfangs der Erfindung abdecken.

Claims (12)

1. Text/Sprache-Umsetzungssystem (TTS-System) für die Verschränkung in einer Multimediaumgebung, gekennzeichnet durch
eine Multimediainformationseingabeeinheit (10) zum Organisieren von Text, prosodischen Informationen, Informationen über die Synchronisierung mit einem Film, der Lippenform und der Informationen wie z. B. der indi­ viduellen Eigenschaft;
einen Datenverteiler (11) zum Verteilen der In­ formationen der Multimediainformationseingabeeinheit (5) auf die Informationen für die jeweiligen Medien;
einen Sprachprozessor (12) zum Umsetzen des vom Datenverteiler (11) über das jeweilige Medium verteilten Textes in einen Phonemstrom, zum Schätzen der prosodi­ schen Informationen und zum Symbolisieren der Informatio­ nen;
einen prosodischen Prozessor (13) zum Berechnen eines Werts des prosodischen Steuerparameters aus der symbolisierten prosodischen Information unter Verwendung einer Regel und einer Tabelle;
eine Synchronisierungseinstellvorrichtung (14) zum Einstellen der Dauer des Phonems unter Verwendung der vom Datenverteiler (11) über das jeweilige Medium ver­ teilte Synchronisierungsinformation;
einen Signalprozessor (15) zum Erzeugen einer synthetisierten Sprache unter Verwendung des prosodischen Steuerparameters und der Daten in einer Syntheseeinheit-Datenbank (16); und
eine Bildausgabevorrichtung (17) zum Ausgeben der vom Datenverteiler (11) über das jeweilige Medium ver­ eilten Bildinformationen auf einem Bildschirm.
2. Verfahren zum Organisieren der Eingangsdaten eines Text/Sprache-Umsetzungssystems (TTS-System) für die Verschränkung in einer Multimediaumgebung, gekennzeichnet durch die Schritte:
Klassifizieren der Multimediaeingangsinformatio­ nen, die zur Verbesserung der Natürlichkeit der syntheti­ sierten Sprache und zur Implementierung der Synchronisie­ rung der Multimediaumgebung mit dem TTS-System organi­ siert sind, in Text, prosodische Informationen, Informa­ tionen für die Synchronisierung mit einem Film, die Lippenform und die individuellen Eigenschaftsinformatio­ nen in einer Multimediainformationseingabeeinheit (10);
Verteilen der in der Multimediainformationseinga­ beeinheit (10) klassifizierten Informationen in einem Datenverteiler (11) auf die jeweiligen Medien auf der Grundlage entsprechender Informationen;
Umsetzen des im Datenverteiler (11) auf die jeweiligen Medien verteilten Textes in einen Phonemstrom, Schätzen der prosodischen Informationen und Symbolisieren der Informationen in einem Sprachprozessor (12);
Berechnen eines Werts des prosodischen Steuerpa­ rameters, die sich von dem prosodischen Steuerparameter unterscheidet, der in den Multimediainformationen enthal­ ten ist, in einem prosodischen Prozessor (13);
Einstellen der Dauer jedes Phonems in einer Synchronisierungseinstellvorrichtung (14), so daß das Verarbeitungsergebnis im prosodischen Prozessor (13) mit einem Bildsignal gemäß der Eingabe der Synchronisierungs­ informationen synchronisiert werden kann;
Erzeugen der synchronisierten Sprache in einem Signalprozessor (15) unter Verwendung der prosodischen Informationen vom Datenverteiler (11), des Verarbeitungs­ ergebnisses in der Synchronisierungseinstellvorrichtung (14) und einer Syntheseeinheit-Datenbank (16); und
Ausgeben der Bildinformationen, die vom Datenver­ eiler (11) über die jeweiligen Medien verteilt worden sind, auf einem Bildschirm in einer Bildausgabevorrich­ tung (17).
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die organisierten Multimediainformationen Textin­ formationen, prosodische Informationen, Informationen für die Synchronisierung mit einem Film, Lippenforminforma­ tionen und Individualitätsinformationen enthalten.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die prosodischen Informationen die Anzahl der Phoneme, die Phonemstrominformationen, die Zeitdauer jedes Phonems, das Tonhöhenmuster des Phonems und das Energiemuster des Phonems umfassen.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Dauer des Phonems einen Wert der Tonhöhe am Anfangspunkt, am Mittelpunkt und am Endpunkt innerhalb des Phonems angibt.
6. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß das Energiemuster des Phonems einen Energiewert in Dezibel am Anfangspunkt, am Mittelpunkt und am End­ punkt innerhalb des Phonems angibt.
7. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Synchronisierungsinformationen einen Text, eine Lippenform, eine Positionsinformation innerhalb eines Films und die Zeitdauerinformation umfassen.
8. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Synchronisierungsinformationen einen Anfangs­ punkt, eine Dauer und eine Verzögerungszeitinformation des Startpunkts umfassen, wobei die Dauer jedes Phonems durch diese Synchronisierungsinformationen gesteuert wird.
9. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Synchronisierungsinformationen eine Dauer des Anfangspunktes eines Satzes und eine Zeitdauerinformation des Startpunkts umfassen, wobei die Dauer jedes Phonems durch die vorhergesagte Lippenform unter Berücksichtigung einer Artikulationsart des Phonems und die Artikulations­ steuerung gesteuert wird, wobei die Lippenform innerhalb der Synchronisierungs- und Zeitdauerinformationen die Synchronisierungsinformationen bilden.
10. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die synchronisierte Sprache anhand einer Informa­ tion über den Anfangspunkt und den Endpunkt jedes Pho­ nems, das dem Sprachsignal zugeordnet ist, und anhand einer Information des Phonems erzeugt wird.
11. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die synchronisierte Sprache anhand einer Quanti­ sierung des Abstandes (Maß der Öffnung) zwischen der Oberlippe und der Unterlippe, eines Abstandes (Maß der Breite) zwischen den linken und rechten Endpunkten einer Lippe und eines Maßes des Vorstehens einer Lippe erzeugt wird, wobei die Lippenform ein quantisiertes und normier­ tes Muster ist, das vom Artikulationsort und der Artiku­ lationsart des Phonems auf der Grundlage des Musters mit starken Unterscheidungsmerkmalen ist.
12. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
das Sendeverfahren der Multimediainformationen die Schritte umfaßt:
Umsetzen einer in den Multimediainformationen vorhandenen prosodischen Information in eine Datenstruk­ tur, die im Signalprozessor (12) verwendet werden kann;
Senden der umgesetzten prosodischen Informationen um prosodischen Prozessor (13) und zur Synchronisie­ rungseinstellvorrichtung (14);
Umsetzen der vom prosodischen Prozessor (13) und von der Synchronisierungseinstellvorrichtung (14) ausge­ gebenen prosodischen Informationen in eine Datenstruktur, die in der Syntheseeinheit-Datenbank (16) und im prosodi­ schen Prozessor (13) innerhalb des TTS-Systems verwendet werden kann, wenn die prosodischen Informationen in den Multimediaeingangsinformationen enthalten sind; und
Senden der Informationen zur Syntheseeinheit-Datenbank (16) und zum prosodischen Prozessor (13), wenn die individuellen Eigenschaftsinformationen in den Multi­ mediaeingangsinformationen enthalten sind.
DE19753454A 1997-05-08 1997-12-02 Text/Sprache-Umsetzungssystem zur Synchronisierung synthetisierter Sprache mit einem Film in einer Multimediaumgebung und Verfahren für eine derartige Synchronisierung Expired - Fee Related DE19753454C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970017615A KR100240637B1 (ko) 1997-05-08 1997-05-08 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치

Publications (2)

Publication Number Publication Date
DE19753454A1 true DE19753454A1 (de) 1998-11-12
DE19753454C2 DE19753454C2 (de) 2003-06-18

Family

ID=19505142

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19753454A Expired - Fee Related DE19753454C2 (de) 1997-05-08 1997-12-02 Text/Sprache-Umsetzungssystem zur Synchronisierung synthetisierter Sprache mit einem Film in einer Multimediaumgebung und Verfahren für eine derartige Synchronisierung

Country Status (4)

Country Link
US (2) US6088673A (de)
JP (2) JP3599549B2 (de)
KR (1) KR100240637B1 (de)
DE (1) DE19753454C2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1113422A2 (de) * 1999-12-28 2001-07-04 Sony Corporation Sprachgesteuertes Mundanimationssystem

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7076426B1 (en) * 1998-01-30 2006-07-11 At&T Corp. Advance TTS for facial animation
KR100395491B1 (ko) * 1999-08-16 2003-08-25 한국전자통신연구원 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법
JP4320487B2 (ja) * 1999-09-03 2009-08-26 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
US6557026B1 (en) * 1999-09-29 2003-04-29 Morphism, L.L.C. System and apparatus for dynamically generating audible notices from an information network
USRE42904E1 (en) * 1999-09-29 2011-11-08 Frederick Monocacy Llc System and apparatus for dynamically generating audible notices from an information network
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
US6529586B1 (en) 2000-08-31 2003-03-04 Oracle Cable, Inc. System and method for gathering, personalized rendering, and secure telephonic transmission of audio data
US6975988B1 (en) * 2000-11-10 2005-12-13 Adam Roth Electronic mail method and system using associated audio and visual techniques
KR100379995B1 (ko) * 2000-12-08 2003-04-11 야무솔루션스(주) 텍스트/음성 변환 기능을 갖는 멀티코덱 플레이어
US20030009342A1 (en) * 2001-07-06 2003-01-09 Haley Mark R. Software that converts text-to-speech in any language and shows related multimedia
US7487092B2 (en) * 2003-10-17 2009-02-03 International Business Machines Corporation Interactive debugging and tuning method for CTTS voice building
WO2005059895A1 (en) 2003-12-16 2005-06-30 Loquendo S.P.A. Text-to-speech method and system, computer program product therefor
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
US20060136215A1 (en) * 2004-12-21 2006-06-22 Jong Jin Kim Method of speaking rate conversion in text-to-speech system
JP3955881B2 (ja) * 2004-12-28 2007-08-08 松下電器産業株式会社 音声合成方法および情報提供装置
KR100710600B1 (ko) * 2005-01-25 2007-04-24 우종식 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
US9087049B2 (en) * 2005-10-26 2015-07-21 Cortica, Ltd. System and method for context translation of natural language
TWI341956B (en) * 2007-05-30 2011-05-11 Delta Electronics Inc Projection apparatus with function of speech indication and control method thereof for use in the apparatus
US8374873B2 (en) 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8731931B2 (en) 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
JP6069211B2 (ja) * 2010-12-02 2017-02-01 アクセシブル パブリッシング システムズ プロプライアタリー リミテッド テキスト変換及び表現システム
JP2012150363A (ja) * 2011-01-20 2012-08-09 Kddi Corp メッセージ映像編集プログラムおよびメッセージ映像編集装置
KR101358999B1 (ko) * 2011-11-21 2014-02-07 (주) 퓨처로봇 캐릭터의 다국어 발화 시스템 및 방법
WO2014141054A1 (en) * 2013-03-11 2014-09-18 Video Dubber Ltd. Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
US20220189500A1 (en) * 2019-02-05 2022-06-16 Igentify Ltd. System and methodology for modulation of dynamic gaps in speech
KR20220147276A (ko) * 2021-04-27 2022-11-03 삼성전자주식회사 전자 장치 및 전자 장치의 프로소디 제어를 위한 tts 모델 생성 방법
WO2023166527A1 (en) * 2022-03-01 2023-09-07 Gan Studio Inc. Voiced-over multimedia track generation

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT72083B (de) 1912-12-18 1916-07-10 S J Arnheim Befestigung für leicht auswechselbare Schlösser.
US4260229A (en) * 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
US4305131A (en) * 1979-02-05 1981-12-08 Best Robert M Dialog between TV movies and human viewers
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JP2518683B2 (ja) 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
EP0390048B1 (de) * 1989-03-28 1996-10-23 Matsushita Electric Industrial Co., Ltd. Gerät und Verfahren zur Datenaufbereitung
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
JPH03241399A (ja) 1990-02-20 1991-10-28 Canon Inc 音声送受信装置
DE4101022A1 (de) * 1991-01-16 1992-07-23 Medav Digitale Signalverarbeit Verfahren zur geschwindigkeitsvariablen wiedergabe von audiosignalen ohne spektrale veraenderung der signale
US5613056A (en) 1991-02-19 1997-03-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
JPH04285769A (ja) 1991-03-14 1992-10-09 Nec Home Electron Ltd マルチメディアデータの編集方法
JP3070136B2 (ja) 1991-06-06 2000-07-24 ソニー株式会社 音声信号に基づく画像の変形方法
US5313522A (en) * 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
JP3135308B2 (ja) 1991-09-03 2001-02-13 株式会社日立製作所 ディジタルビデオ・オーディオ信号伝送方法及びディジタルオーディオ信号再生方法
JPH05188985A (ja) 1992-01-13 1993-07-30 Hitachi Ltd 音声圧縮方式、及び通信方式、並びに無線通信装置
JPH05313686A (ja) 1992-04-02 1993-11-26 Sony Corp 表示制御装置
JP3083640B2 (ja) * 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
JP2973726B2 (ja) * 1992-08-31 1999-11-08 株式会社日立製作所 情報処理装置
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5500919A (en) * 1992-11-18 1996-03-19 Canon Information Systems, Inc. Graphics user interface for controlling text-to-speech conversion
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP2734335B2 (ja) 1993-05-12 1998-03-30 松下電器産業株式会社 データ伝送方法
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3059022B2 (ja) 1993-06-07 2000-07-04 シャープ株式会社 動画像表示装置
JP3364281B2 (ja) 1993-07-16 2003-01-08 パイオニア株式会社 時分割ビデオ及びオーディオ信号の同期方式
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
JP2611728B2 (ja) * 1993-11-02 1997-05-21 日本電気株式会社 動画像符号化復号化方式
JPH07306692A (ja) 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
GB2291571A (en) * 1994-07-19 1996-01-24 Ibm Text to speech system; acoustic processor requests linguistic processor output
IT1266943B1 (it) 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
US5677739A (en) 1995-03-02 1997-10-14 National Captioning Institute System and method for providing described television services
JP3507176B2 (ja) * 1995-03-20 2004-03-15 富士通株式会社 マルチメディアシステム動的連動方式
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
KR100236974B1 (ko) * 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
JP4359299B2 (ja) 2006-09-13 2009-11-04 Tdk株式会社 積層型セラミック電子部品の製造方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1113422A2 (de) * 1999-12-28 2001-07-04 Sony Corporation Sprachgesteuertes Mundanimationssystem
EP1113422A3 (de) * 1999-12-28 2002-04-24 Sony Corporation Sprachgesteuertes Mundanimationssystem

Also Published As

Publication number Publication date
US6088673A (en) 2000-07-11
KR19980082608A (ko) 1998-12-05
JP2004361965A (ja) 2004-12-24
JP3599549B2 (ja) 2004-12-08
KR100240637B1 (ko) 2000-01-15
JP4344658B2 (ja) 2009-10-14
DE19753454C2 (de) 2003-06-18
JPH10320170A (ja) 1998-12-04
USRE42647E1 (en) 2011-08-23

Similar Documents

Publication Publication Date Title
DE19753454C2 (de) Text/Sprache-Umsetzungssystem zur Synchronisierung synthetisierter Sprache mit einem Film in einer Multimediaumgebung und Verfahren für eine derartige Synchronisierung
DE19753453B4 (de) System zum Synchronisieren eines Films mit einem Text/Sprache-Umsetzer
DE60105995T2 (de) Animation von personen
DE69915455T2 (de) Verfahren und vorrichtung, um gewünschte video- und audioszenen durch spracherkennung wiederzufinden
KR20010072936A (ko) 정보 스트림의 포스트-동기화
US5893062A (en) Variable rate video playback with synchronized audio
DE60101540T2 (de) Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale
US6665643B1 (en) Method of and apparatus for animation, driven by an audio signal, of a synthesized model of a human face
US11064245B1 (en) Piecewise hybrid video and audio synchronization
US20200211565A1 (en) System and method for simultaneous multilingual dubbing of video-audio programs
Steinmetz et al. Multimedia fundamentals, volume 1: media coding and content processing
US20160042766A1 (en) Custom video content
GB2231246A (en) Converting text input into moving-face picture
GB2320838A (en) Producing a lip movement parameter in a 3D model-based image coding system
CN114419702B (zh) 数字人生成模型、模型的训练方法以及数字人生成方法
WO2010081225A1 (en) Digital content creation system
JP6378503B2 (ja) 要約映像データ作成システム及び方法並びにコンピュータプログラム
Valleriani Upper-class English in The Crown: An Analysis of Dubbing and Subtitling
EP4178212A1 (de) Verfahren zum synchronisieren von einem zusatzsignal zu einem hauptsignal
KR102546559B1 (ko) 영상 콘텐츠 자동 번역 더빙 시스템
CN117095672A (zh) 一种数字人唇形生成方法及装置
Thikekar et al. Generative Adversarial Networks based Viable Solution on Dubbing Videos With Lips Synchronization
Lutsenko et al. Research on a voice changed by distortion
Bojkovic et al. Audiovisual integration in multimedia communications based on MPEG-4 facial animation
KR20210032235A (ko) 감정 음성을 합성하는 장치, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8181 Inventor (new situation)

Free format text: LEE, JUNG CHUL, DAEJON, KR HAHN, MIN SOO, DAEJON, KR LEE, HANG SEOP, DAEJON, KR YANG, JAE WOO, DAEJON, KR LEE, YOUNGIK, DAEJON, KR

8181 Inventor (new situation)

Free format text: LEE, JUNG CHUL, DAEJON, KR HAHN, MIN SOO, DAEJON, KR LEE, HANG SEOP, DAEJON, KR YANG, JAE WOO, DAEJON, KR LEE, YOUNGIIK, DAEJON, KR

8304 Grant after examination procedure
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee