DE19753454A1 - Text/Sprache-Umsetzungssystem zur Verschränkung in einer Multimediaumgebung und Verfahren zum Organisieren der Eingangsdaten für dieses System - Google Patents
Text/Sprache-Umsetzungssystem zur Verschränkung in einer Multimediaumgebung und Verfahren zum Organisieren der Eingangsdaten für dieses SystemInfo
- Publication number
- DE19753454A1 DE19753454A1 DE19753454A DE19753454A DE19753454A1 DE 19753454 A1 DE19753454 A1 DE 19753454A1 DE 19753454 A DE19753454 A DE 19753454A DE 19753454 A DE19753454 A DE 19753454A DE 19753454 A1 DE19753454 A1 DE 19753454A1
- Authority
- DE
- Germany
- Prior art keywords
- information
- prosodic
- phoneme
- synchronization
- multimedia
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Description
Die vorliegende Erfindung bezieht sich auf ein
Text/Sprache-Umsetzungssystem (im folgenden mit TTS-System
bezeichnet) zum Verschränken in einer Multimedia
umgebung sowie ein Verfahren zum Organisieren der Ein
gangsdaten für dieses System und insbesondere auf ein
Text/Sprache-Umsetzungssystem (TTS-System) zur Verschrän
kung in einer Multimediaumgebung und ein Verfahren zum
Organisieren der Eingangsdaten dieses Systems, um die
Natürlichkeit der synthetisierten Sprache zu verbessern
und die Synchronisierung zwischen der Multimediaumgebung
und dem TTS-System zu erreichen, indem zusätzlich proso
dische Informationen, die für die Verschränkung des TTS-Systems
mit der Multimediaumgebung erforderlichen Infor
mationen und eine Schnitt stelle zwischen diesen Informa
tionen und dem TTS-System für die Verwendung bei der
Erzeugung der synthetisierten Sprache definiert werden.
Der Zweck des Sprachsynthesizers ist im allgemeinen, für
einen Menschen, der einen Computer benutzt, unterschied
liche Formen von Informationen zur Verfügung zu stellen.
Zu diesem Zweck sollte der Sprachsynthesizer den Benutzer
mit aus einem gegebenen Text synthetisierter Sprache mit
hoher Qualität bedienen. Außerdem sollte der Sprachsyn
thesizer für die Verschränkung mit der Datenbank, die in
einer Multimediaumgebung, wie z. B. mit einem Film oder
einer Animation, oder mit verschiedenen Medien, die von
einer Gegenseite der Konversation zur Verfügung gestellt
werden, erzeugt worden ist, die synthetisierte Sprache
synchron zu diesen Medien erzeugen. Die Synchronisierung
des TTS-Systems mit der Multimediaumgebung ist insbeson
dere wichtig, um den Benutzer einen Dienst mit hoher
Qualität zur Verfügung zu stellen.
Wie in Fig. 3 gezeigt, durchläuft ein typisches herkömm
liches TTS-System einen aus drei Stufen bestehenden
Prozeß wie folgt, bis die synthetisierte Sprache aus
einem eingegebenen Text erzeugt wird.
In einem ersten Schritt setzt ein Sprachprozessor 1 den
Text in eine Serie von Phonemen um, schätzt prosodische
Informationen und symbolisiert diese Informationen. Das
Symbol der prosodischen Information wird anhand einer
Grenze der Phrasen und des Satzes, einer Position der
Betonung im Wort, eines Satzmusters usw. unter Verwendung
der Analyseergebnisse der Syntax geschätzt.
In einem zweiten Schritt berechnet ein prosodischer
Prozessor 2 einen Wert eines prosodischen Steuerparame
ters anhand der symbolisierten prosodischen Informationen
unter Verwendung einer Regel und einer Tabelle. Der
prosodische Steuerparameter enthält die Dauer des Pho
nems, die Tonhöhenverlauf, den Energieverlauf und die
Pausenintervallinformationen.
In einem dritten Schritt erzeugt ein Signalprozessor 3
eine synthetisierte Sprache unter Verwendung einer Syn
theseeinheit-Datenbank 4 und der prosodischen Steuerpara
meter. Mit anderen Worten bedeutet dies, daß das herkömm
liche TTS-System die der Natürlichkeit und der Sprechge
schwindigkeit zugeordneten Informationen im Sprachprozes
sor 1 und im prosodischen Prozessor 2 nur anhand des
eingegebenen Textes schätzen soll.
Ferner hat das herkömmliche TTS-System die einfache
Funktion zum Ausgeben von Daten, die von der Einheit als
Satz eingegeben worden sind, als synthetisierte Sprache.
Um die in einer Datei gespeicherten Sätze oder die über
ein Kommunikationsnetz eingegebenen Sätze der Reihe nach
als synthetisierte Sprache aus zugeben, ist ein Hauptsteu
erprogramm erforderlich, das die Sätze aus den eingegebe
nen Daten liest und diese zum Eingang eines TTS-Systems
sendet. Ein solches Hauptsteuerprogramm enthält ein
Verfahren zum Trennen des Textes von den eingegebenen
Daten und zum einmaligen Ausgeben der synthetisierten
Sprache vom Anfang bis zum Ende, ein Verfahren zum Erzeu
gen der synthetisierten Sprache in Verschränkung mit
einem Texteditor, ein Verfahren zum Verschränken der
Sätze unter Verwendung eines Graphikschnittstelle und zum
Erzeugen der synthetisierten Sprache usw., wobei jedoch
die Anwendbarkeit dieser Verfahren auf Text beschränkt
ist.
Derzeit haben Studien über TTS-Systeme für Landessprachen
in unterschiedlichen Ländern beträchtliche Fortschritte
gemacht, wobei in einigen Ländern eine gewerbliche Ver
wendung erreicht worden ist. Dies gilt jedoch nur für die
Verwendung der Synthese der Sprache aus dem eingegebenen
Text. Da es unmöglich ist, nur anhand des Textes die
Informationen zu schätzen, die erforderlich sind, wenn
ein Film unter Verwendung eines TTS-Systems nachsynchro
nisiert werden soll oder wenn die natürliche Verschrän
kung zwischen der synthetisierten Sprache und der Multi
mediaumgebung, wie z. B. bei einer Animation, implemen
tiert werden soll, gibt es außerdem mit einer Organisa
tion des Standes der Technik kein Verfahren zum Realisie
ren dieser Funktionen. Ferner liegt kein Ergebnis der
Studien über die Verwendung zusätzlicher Daten zur Ver
besserung der Natürlichkeit der synthetisierten Sprache
und der Organisation dieser Daten vor.
Es ist daher die Aufgabe der vorliegenden Erfindung, ein
Text/Sprache-Umsetzungssystem (TTS-System) zur Verschrän
kung in einer Multimediaumgebung sowie ein Verfahren zum
Organisieren der Eingangsdaten des Systems zu schaffen,
um die Natürlichkeit der synthetisierten Sprache zu
verbessern und eine Synchronisierung der Multimediaumge
bung mit dem TTS-System zu erreichen, indem zusätzliche
prosodische Informationen, die für die Verschränkung des
TTS-Systems mit der Multimediaumgebung erforderlichen
Informationen sowie die Schnittstelle zwischen diesen
Informationen und dem TTS-System für die Verwendung bei
der Erzeugung der synthetisierten Sprache definiert
werden.
Diese Aufgabe wird erfindungsgemäß gelöst durch ein
Text/Sprache-Umsetzungssystem, das die im Anspruch 1
angegebenen Merkmale besitzt, sowie durch ein Verfahren
zum Organisieren der Eingangsdaten eines Text/Sprache-Umsetzungssystems,
das die im Anspruch 2 angegebenen
Merkmale besitzt. Die abhängigen Ansprüche sind auf
bevorzugte Ausführungsformen gerichtet.
Weitere Merkmale und Vorteile der vorliegenden Erfindung
werden deutlich beim Lesen der folgenden Beschreibung
bevorzugter Ausführungsformen, die auf die beigefügten
Zeichnungen Bezug nimmt; es zeigen:
Fig. 1 eine Konstruktionsansicht eines Text/Sprache-Umsetzungssystems
gemäß der vorliegenden Erfin
dung;
Fig. 2 eine Konstruktionsansicht einer Hardware, auf die
die vorliegende Erfindung angewendet wird; und
Fig. 3 die bereits erwähnte Konstruktionsansicht eines
Text/Sprach-Umsetzungssystems des Standes der
Technik.
Im folgenden wird die vorliegende Erfindung anhand der
bevorzugten Ausführungsform genauer beschrieben.
In Fig. 2 ist eine Konstruktionsansicht der Hardware
gezeigt, auf die die vorliegende Erfindung angewendet
wird. Wie in Fig. 2 gezeigt, umfaßt die Hardware eine
Multimediadateneingabeeinheit 5, eine Zentraleinheit 6,
eine Synthese-Datenbank 7, einen Digital/Analog-(D/A)-Umsetzer
8 sowie eine Bildausgabevorrichtung 9.
Die Multimediadateneingabeeinheit 5 empfängt Daten, die
Multimediadaten wie z. B. ein Bild und einen Text umfas
sen, und gibt diese Daten an die Zentraleinheit 6 weiter.
Die Zentraleinheit 6 verteilt die Multimediadateneingabe
der vorliegenden Erfindung, stellt die Synchronisierung
ein und führt einen darin enthaltenden Algorithmus zum
Erzeugen der synthetisierten Sprache aus.
Die Synthese-Datenbank 7 ist eine Datenbank, die im
Algorithmus zum Erzeugen der synthetisierten Sprache
verwendet wird. Diese Synthese-Datenbank 7 ist in einer
Speichervorrichtung gespeichert und sendet die erforder
lichen Daten zur Zentraleinheit 6.
Der Digital/Analog-(D/A)-Umsetzer 8 setzt das syntheti
sierte Digitalsignal in ein Analogsignal um und gibt
dieses aus.
Die Bildausgabevorrichtung 9 gibt die eingegebenen Bild
informationen auf einem Bildschirm aus.
Die Tabellen 1 und 2 sind Algorithmen, die den Zustand
der organisierten Multimediaeingangsinformationen zeigen,
die Text, prosodische Informationen, die Informationen
für die Synchronisierung mit einem Film, die Lippenform
und individuelle Eigenschaftsinformationen umfassen.
(Tabelle 1)
Hierbei ist TTS_Sequence_Start_Code eine Bitkette, die
hexadezimal "XXXXX" dargestellt wird und einen Beginn des
TTS-Satzes bezeichnet.
TTS_Sentence_ID ist eine 10-Bit-ID und stellt eine geeig
nete Nummer jedes TTS-Datenstroms dar.
Language_Code stellt eine Objektsprache wie z. B. Korea
nisch, Englisch, Deutsch, Japanisch, Französisch und
dergleichen dar, die synthetisiert werden soll.
Prosody_Enable ist ein 1-Bit-Merker und besitzt einen
Wert von "1", wenn in den organisierten Daten prosodische
Daten des Orginaltons enthalten sind.
Video_Enable ist ein 1-Bit-Merker und besitzt einen Wert
von "1", wenn ein TTS-System mit einem Film verschränkt
ist.
Lip_Shape_Enable ist ein 1-Bit-Merker und besitzt einen
Wert von "1", wenn in den organisierten Daten Lippen
formdaten enthalten sind.
Trick_Mode_Enable ist ein 1-Bit-Merker und besitzt einen
Wert von "1", wenn die Daten so organisiert sind, daß sie
einen Trickmodus unterstützen, wie z. B. Stopp, Neustart,
Vorwärts und Rückwärts.
(Tabelle 2)
Hierbei ist TTS_Sentence_Start_Code eine Bitkette, die
hexadezimal "XXXXX" dargestellt wird und einen Beginn
eines TTS-Satzes bezeichnet. TTS_Sentence_Start_Code ist
eine 10-Bit-ID und stellt eine geeignete Nummer jedes
TTS -Datenstroms dar.
TTS_Sentence_ID ist eine 10-Bit-ID und stellt eine geeig
nete Nummer jedes TTS-Satzes dar, der im TTS-Strom vor
handen ist.
Silence wird gleich "1", wenn ein vorliegender Eingangs
rahmen des 1-Bit-Merkers ein stiller Sprachabschnitt ist.
In der Stufe von Silence_Duration wird eine Zeitdauer des
vorliegenden stillen Sprachabschnitts in Millisekunden
dargestellt.
In der Stufe von Gender wird das Geschlecht einer synthe
tisierten Sprache unterschieden.
In der Stufe von Age wird ein Alter der synthetisierten
Sprache unterschieden zwischen Kleinkindalter, Jugendal
ter, mittlerem Alter und hohem Alter.
Speak_Rate stellt eine Sprechgeschwindigkeit der synthe
tisierten Sprache dar.
In der Stufe von Length_of_Text wird eine Länge des
eingegebenen Textsatzes durch ein Byte dargestellt.
In der Stufe von TTS_Text wird ein Satztext mit optiona
ler Länge dargestellt.
Dur_Enable ist ein 1-Bit-Merker und wird gleich "1", wenn
in den organisierten Daten eine Zeitdauerinformation
enthalten ist.
FO_Contour_Enable ist ein 1-Bit-Merker und wird gleich
"1", wenn in den organisierten Daten eine Tonhöheninfor
mation für jedes Phonem enthalten ist.
Energy_Contour_Enable ist ein 1-Bit-Merker und wird
gleich "1", wenn in den organisierten Daten eine Energie
information für jedes Phonem enthalten ist.
In der Stufe von Number_of_phonemes, ist die Anzahl der
Phoneme dargestellt, die zum Synthetisieren eines Satzes
benötigt werden.
In der Stufe von Symbol_each_phoneme ist ein Symbol wie
z. B. IPA dargestellt, das das jeweilige Phonem repräsen
tiert.
Dur_each_phoneme stellt eine Zeitdauer des Phonems dar.
In der Stufe von FO_contour_each_phoneme wird ein Tonhö
henmuster des Phonems mittels eines Tonhöhenwerts des
Anfangspunkts, des Mittelpunkts und des Endpunkts des
Phonems dargestellt.
In der Stufe von Energy_Contur_each_phoneme wird das
Energiemuster des Phonems dargestellt, wobei ein Energie
wert des Anfangspunkts, des Mittelpunkts und des End
punkts des Phonems in Dezibel (dB) dargestellt wird.
Sentence_Duration stellt eine Gesamtzeitdauer der synthe
tisierten Sprache des Satzes dar.
Position_in_Sentence stellt eine Position des vorliegen
den Rahmens im Satz dar.
In der Stufe von Offset wird dann, wenn die syntheti
sierte Sprache mit einem Film verschränkt ist und ein
Anfangspunkt des Satzes in der Bildgruppe GOP (Group Of
Pictures) liegt, eine Verzögerungszeit dargestellt, die
vom Anfangspunkt der GOP zum Anfangspunkt des Satzes
verstreicht.
Number_of_Lip_Event stellt die Anzahl der Änderungspunkte
der Lippenform im Satz dar.
Lip_Shape stellt eine Lippenform an einem Lippenformände
rungspunkt des Satzes dar.
Textinformationen enthalten einen Klassifizierungscode
für eine verwendete Sprache und einen Satztext. Prosodi
sche Informationen enthalten die Anzahl der Phoneme im
Satz, Phonemstrominformationen, die Dauer jedes Phonems,
das Tonhöhenmuster des Phonems sowie das Energiemuster
des Phonems und werden zum Verbessern der Natürlichkeit
der synthetisierten Sprache verwendet. Die Synchronisie
rungsinformationen des Films und der synthetisierten
Sprache können als das Nachsynchronisierungskonzept
betrachtet werden, wobei die Synchronisierung auf drei
Wegen erreicht werden kann.
Erstens mit einem Verfahren zum Synchronisieren des Films
mit der synthetisierten Sprache durch die Satzeinheit,
mit der die Dauer der synthetisierten Sprache unter
Verwendung der Informationen über die Anfangspunkte der
Sätze, die jeweilige Dauer der Sätze und die Verzöge
rungszeiten der Anfangspunkte der Sätze eingestellt wird.
Die Anfangspunkte der jeweiligen Sätze zeigen die Stellen
der Szenen an, an denen die Ausgabe der synthetisierten
Sprache für den jeweiligen Satz innerhalb des Films
eingeleitet wird. Die jeweilige Dauer der Sätze gibt die
Anzahl der Bilder an, die die synthetisierte Sprache für
den jeweiligen Satz andauert. Außerdem sollte der Film
des MPEG-2- und MPEG-4-Bildkompressionstyps, bei dem das
Group-Of-Picture-(GOP)-Konzept verwendet wird, nicht in
einer beliebigen Szene, sondern an einem Szenenbeginn
innerhalb der Gruppe der Bilder für die Reproduktion
beginnen. Somit ist die Verzögerungszeit des Anfangs
punkts die zum Synchronisieren der Gruppe der Bilder und
dem TTS-System benötigte Information und gibt eine Verzö
gerungszeit zwischen der beginnenden Szene und einem
Sprachanfangspunkt an. Dieses Verfahren ist leicht zu
realisieren und minimiert den zusätzlichen Aufwand, wobei
es jedoch schwierig ist, eine natürliche Synchronisierung
zu erreichen.
Zweitens mit einem Verfahren, mit dem die Anfangspunktin
formationen, die Endpunktinformationen und die Phonemin
formationen für jedes Phonem innerhalb eines Intervalls,
das einem Sprachsignal im Film zugeordnet ist, markiert
werden, wobei diese Informationen verwendet werden, um
die synthetisierte Sprache zu erzeugen. Dieses Verfahren
hat den Vorteil, daß der Grad der Genauigkeit hoch ist,
da die Synchronisierung des Films mit der synthetisierten
Sprache durch die Phonemeinheit erreicht werden kann, hat
jedoch den Nachteil, daß ein zusätzlicher Aufwand erfor
derlich ist, um die Zeitdauerinformationen mit der
Phonemeinheit innerhalb des Sprachintervalls des Films zu
detektieren und aufzuzeichnen.
Drittens mit einem Verfahren zum Aufzeichnen der Synchro
nisationsinformationen auf der Grundlage des Anfangs
punkts der Sprache, des Endpunkts der Sprache, der Lip
penform und eines Zeitpunkts der Lippenformänderung. Die
Lippenform wird quantisiert als der Abstand (Maß der
Öffnung) zwischen der Oberlippe und der Unterlippe, der
Abstand (Maß der Breite) zwischen den linken und rechten
Punkten der Lippe und das Maß des Vorstehens der Lippe
und wird als quantisiertes und normiertes Muster in
Abhängigkeit vom Artikulationsort und der Artikulations
art des Phonems auf der Grundlage eines Musters mit hoher
Unterscheidungsfähigkeit definiert. Dieses Verfahren ist
ein Verfahren zum Steigern der Effizienz der Synchroni
sierung, wobei der zusätzliche Aufwand zum Erzeugen der
Informationen für die Synchronisierung minimiert werden
kann.
Die organisierten Multimediaeingangsinformationen, die
der vorliegenden Erfindung zugeführt werden, ermöglichen
einem Informationslieferanten, optional unter drei Syn
chronisierungsverfahren wie oben beschrieben auszuwählen
und dieses zu implementieren.
Ferner werden die organisierten Multimediaeingangsinfor
mationen zum Implementieren der Lippenanimation verwen
det. Die Lippenanimation kann implementiert werden unter
Verwendung des Phonemstroms, der aus dem eingegebenen
Text im TTS-System und der Dauer jedes Phonems, oder
unter Verwendung des Phonemstroms, der von den Eingangs
informationen verteilt wird, und der Dauer jedes Phonems,
oder unter Verwendung der Informationen über die Lippen
form, die in den eingegebenen Informationen enthalten
sind, vorbereitet worden ist.
Die individuelle Eigenschaftsinformation erlaubt dem
Benutzer, das Geschlecht, das Alter und die Sprechge
schwindigkeit der synthetisierten Sprache zu ändern. Das
Geschlecht kann männlich oder weiblich sein, während das
Alter in vier Stufen klassifiziert wird, z. B. 6-7 Jahre,
18 Jahre, 40 Jahre und 65 Jahre. Die Änderung der Sprech
geschwindigkeit kann zehn Stufen zwischen dem 0,7fachen
und dem 1,6fachen einer Normgeschwindigkeit umfassen. Die
Qualität der synthetisierten Sprache kann unter Verwen
dung dieser Informationen diversifiziert werden.
Fig. 1 ist eine Konstruktionsansicht des Text/Sprache-Umsetzungssystems
(TTS) gemäß der vorliegenden Erfindung.
Wie in Fig. 1 gezeigt, umfaßt das TTS-System eine Multi
mediainformationseingabeeinheit 10, einen Datenverteiler
für jedes Medium 11, einen genormten Sprachprozessor 12,
einen prosodischen Prozessor 13, eine Synchronisierungs
einstellvorrichtung 14, einen Signalprozessor 15, eine
Syntheseeinheit-Datenbank 16 sowie eine Bildausgabevor
richtung 17.
Die Multimediaeingabeeinheit 10 ist in Form der Tabelle 1
und 2 konfiguriert und umfaßt Text, prosodische Informa
tionen, die Informationen für die Synchronisierung mit
einem Film und die Informationen über die Lippenform. Von
diesen ist der Text die notwendige Information, während
die anderen Informationen von einem Informationslieferan
ten optional als optionales Element zum Verbessern der
individuellen Eigenschaft und der Natürlichkeit und zum
Erreichen der Synchronisierung mit der Multimediaumgebung
zur Verfügung gestellt werden können, wobei sie bei
Bedarf von einem TTS-Benutzer mittels einer Zeicheneinga
bevorrichtung (Tastatur) oder einer Maus geändert werden
können. Diese Informationen werden über das jeweilige
Medium 11 zum Datenverteiler gesendet.
Der Datenverteiler empfängt über das jeweilige Medium 11
die Multimediainformationen, von denen die Bildinforma
tionen zur Bildausgabevorrichtung 17 gesendet werden, der
Text zum Sprachprozessor 12 gesendet wird und die Syn
chronisierungsinformationen in eine Datenstruktur, die in
der Synchronisierungseinstellvorrichtung 14 verwendet
werden können, umgesetzt und zur Synchronisierungsein
stellvorrichtung 14 gesendet werden. Wenn in den eingege
benen Multimediainformationen prosodische Informationen
enthalten sind, werden diese Multimediainformationen in
eine Datenstruktur umgesetzt, die der Signalprozessor 15
verwenden kann, und werden anschließend zum prosodischen
Prozessor 13 und zur Synchronisierungseinstellvorrichtung
17 gesendet. Wenn in den eingegebenen Multimediainforma
tionen individuelle Besitzinformationen enthalten sind,
werden diese Multimediainformationen in eine Datenstruk
tur umgesetzt, die in der Syntheseeinheit-Datenbank 16
und im prosodischen Prozessor 13 innerhalb des TTS-Sys
tems verwendet werden können, und werden anschließend
zur Syntheseeinheit-Datenbank 16 und zum prosodischen
Prozessor 13 gesendet.
Der Sprachprozessor 12 konvertiert den Text zu einem
Phonemstrom, schätzt die prosodischen Informationen,
symbolisiert diese Informationen und sendet anschließend
die symbolisierten Informationen zum prosodischen Prozes
sor 13. Das Symbol der prosodischen Informationen wird
anhand einer Grenze der Phrase und des Satzes, einer
Position der Betonung im Wort, eines Satzmusters usw.
unter Verwendung des Analyseergebnisses der Syntax ge
schätzt.
Der prosodische Prozessor 13 empfängt das Verarbeitungs
ergebnis des Sprachprozessors 12 und berechnet einen Wert
des prosodischen Steuerparameters, der sich von dem
prosodischen Parameter unterscheidet, der in den Multime
diainformationen enthalten ist. Der prosodische Steuerpa
rameter enthält die Dauer, den Tonhöhenverlauf, den
Energieverlauf, den Pausenpunkt und die Pausenlänge des
Phonems. Das berechnete Ergebnis wird zur Synchronisie
rungseinstellvorrichtung 14 gesendet.
Die Synchronisierungseinstellvorrichtung 14 empfängt das
Verarbeitungsergebnis des prosodischen Prozessors 13 und
stellt für jedes Phonem die Dauer ein, um das Ergebnis
mit dem Bildsignal zu synchronisieren. Die Einstellung
der Dauer jedes Phonems nutzt die vom Datenverteiler über
das jeweilige Medium 11 gesendete Synchronisierungsinfor
mation. Zuerst wird jedem Phonem in Abhängigkeit vom
Artikulierungsort und der Artikulierungsart des Phonems
eine Lippenform zugewiesen, wobei auf der Grundlage
hiervon die zugewiesene Lippenform mit der Lippenform
verglichen wird, die in der Synchronisierungsinformation
enthalten ist, woraufhin der Phonemstrom anhand der
Anzahl der in den Synchronisierungsinformationen aufge
zeichneten Lippenformen in kleine Gruppen unterteilt
wird. Ferner wird die Dauer des Phonems in den kleinen
Gruppen erneut unter Verwendung der Zeitdauerinformatio
nen der Lippenform berechnet, die in der Synchronisie
rungsinformation enthalten ist. Die Informationen über
die eingestellte Dauer werden zum Signalprozessor 15
übertragen, der das Verarbeitungsergebnis des prosodi
schen Prozessors 13 enthält.
Der Signalprozessor 15 empfängt die prosodische Informa
tion vom Multimediaverteiler 11 oder das Verarbeitungser
gebnis der Synchronisierungseinstellvorrichtung 14, um
unter Verwendung der Syntheseeinheit-Datenbank 16 die
synthetisierte Sprache zu erzeugen und auszugeben.
Die Syntheseeinheit-Datenbank 16 empfängt die individu
elle Besitzinformation vom Multimediaverteiler 11, wählt
die zum Geschlecht und zum Alter passenden Syntheseein
heiten aus und sendet anschließend die für die Synthese
benötigten Daten zum Signalprozessor 15 als Antwort auf
eine Anfrage vom Signalprozessor 15.
Wie aus der obigen Beschreibung deutlich wird, können die
individuellen Eigenschaften der synthetisierten Sprache
gemäß der vorliegenden Erfindung verwirklicht werden,
wobei die Natürlichkeit der synthetisierten Sprache
verbessert werden kann durch Organisieren der individuel
len Eigenschaften und der prosodischen Informationen, die
durch die Analyse der aktuellen Sprachdaten geschätzt
werden, zusammen mit den Textinformationen als mehrstu
fige Informationen. Ferner kann ein fremdsprachiger Film
in koreanischer Sprache nachsynchronisiert werden, indem
die Synchronisierung der synthetisierten Sprache mit dem
Film implementiert wird durch die direkte Verwendung der
Textinformationen und der Lippenforminformationen, die
anhand der Analyse der aktuellen Sprachdaten geschätzt
werden, und der Lippenform im Film zur Herstellung der
synthetisierten Sprache. Die vorliegende Erfindung kann
ferner auf verschiedene Gebiete wie z. B. einem Kommuni
kationsdienst, der Büroautomatisierung, der Erziehung
usw. angewendet werden, indem die Synchronisierung zwi
schen der Bildinformation und dem TTS-System in einer
Multimediaumgebung ermöglicht wird.
Obwohl die vorliegende Erfindung und ihre Vorteile genau
beschrieben worden sind, ist klar, daß verschiedene
Änderungen, Ersetzungen und Abwandlungen daran vorgenom
men werden können, ohne vom Geist und vom Umfang der
Erfindung, wie sie durch die beigefügten Ansprüche defi
niert ist, abzuweichen.
Die beigefügten Ansprüche sollen daher alle solchen
Anwendungen, Abwandlungen und Ausführungsformen innerhalb
des Umfangs der Erfindung abdecken.
Claims (12)
1. Text/Sprache-Umsetzungssystem (TTS-System) für
die Verschränkung in einer Multimediaumgebung,
gekennzeichnet durch
eine Multimediainformationseingabeeinheit (10) zum Organisieren von Text, prosodischen Informationen, Informationen über die Synchronisierung mit einem Film, der Lippenform und der Informationen wie z. B. der indi viduellen Eigenschaft;
einen Datenverteiler (11) zum Verteilen der In formationen der Multimediainformationseingabeeinheit (5) auf die Informationen für die jeweiligen Medien;
einen Sprachprozessor (12) zum Umsetzen des vom Datenverteiler (11) über das jeweilige Medium verteilten Textes in einen Phonemstrom, zum Schätzen der prosodi schen Informationen und zum Symbolisieren der Informatio nen;
einen prosodischen Prozessor (13) zum Berechnen eines Werts des prosodischen Steuerparameters aus der symbolisierten prosodischen Information unter Verwendung einer Regel und einer Tabelle;
eine Synchronisierungseinstellvorrichtung (14) zum Einstellen der Dauer des Phonems unter Verwendung der vom Datenverteiler (11) über das jeweilige Medium ver teilte Synchronisierungsinformation;
einen Signalprozessor (15) zum Erzeugen einer synthetisierten Sprache unter Verwendung des prosodischen Steuerparameters und der Daten in einer Syntheseeinheit-Datenbank (16); und
eine Bildausgabevorrichtung (17) zum Ausgeben der vom Datenverteiler (11) über das jeweilige Medium ver eilten Bildinformationen auf einem Bildschirm.
eine Multimediainformationseingabeeinheit (10) zum Organisieren von Text, prosodischen Informationen, Informationen über die Synchronisierung mit einem Film, der Lippenform und der Informationen wie z. B. der indi viduellen Eigenschaft;
einen Datenverteiler (11) zum Verteilen der In formationen der Multimediainformationseingabeeinheit (5) auf die Informationen für die jeweiligen Medien;
einen Sprachprozessor (12) zum Umsetzen des vom Datenverteiler (11) über das jeweilige Medium verteilten Textes in einen Phonemstrom, zum Schätzen der prosodi schen Informationen und zum Symbolisieren der Informatio nen;
einen prosodischen Prozessor (13) zum Berechnen eines Werts des prosodischen Steuerparameters aus der symbolisierten prosodischen Information unter Verwendung einer Regel und einer Tabelle;
eine Synchronisierungseinstellvorrichtung (14) zum Einstellen der Dauer des Phonems unter Verwendung der vom Datenverteiler (11) über das jeweilige Medium ver teilte Synchronisierungsinformation;
einen Signalprozessor (15) zum Erzeugen einer synthetisierten Sprache unter Verwendung des prosodischen Steuerparameters und der Daten in einer Syntheseeinheit-Datenbank (16); und
eine Bildausgabevorrichtung (17) zum Ausgeben der vom Datenverteiler (11) über das jeweilige Medium ver eilten Bildinformationen auf einem Bildschirm.
2. Verfahren zum Organisieren der Eingangsdaten
eines Text/Sprache-Umsetzungssystems (TTS-System) für die
Verschränkung in einer Multimediaumgebung,
gekennzeichnet durch die Schritte:
Klassifizieren der Multimediaeingangsinformatio nen, die zur Verbesserung der Natürlichkeit der syntheti sierten Sprache und zur Implementierung der Synchronisie rung der Multimediaumgebung mit dem TTS-System organi siert sind, in Text, prosodische Informationen, Informa tionen für die Synchronisierung mit einem Film, die Lippenform und die individuellen Eigenschaftsinformatio nen in einer Multimediainformationseingabeeinheit (10);
Verteilen der in der Multimediainformationseinga beeinheit (10) klassifizierten Informationen in einem Datenverteiler (11) auf die jeweiligen Medien auf der Grundlage entsprechender Informationen;
Umsetzen des im Datenverteiler (11) auf die jeweiligen Medien verteilten Textes in einen Phonemstrom, Schätzen der prosodischen Informationen und Symbolisieren der Informationen in einem Sprachprozessor (12);
Berechnen eines Werts des prosodischen Steuerpa rameters, die sich von dem prosodischen Steuerparameter unterscheidet, der in den Multimediainformationen enthal ten ist, in einem prosodischen Prozessor (13);
Einstellen der Dauer jedes Phonems in einer Synchronisierungseinstellvorrichtung (14), so daß das Verarbeitungsergebnis im prosodischen Prozessor (13) mit einem Bildsignal gemäß der Eingabe der Synchronisierungs informationen synchronisiert werden kann;
Erzeugen der synchronisierten Sprache in einem Signalprozessor (15) unter Verwendung der prosodischen Informationen vom Datenverteiler (11), des Verarbeitungs ergebnisses in der Synchronisierungseinstellvorrichtung (14) und einer Syntheseeinheit-Datenbank (16); und
Ausgeben der Bildinformationen, die vom Datenver eiler (11) über die jeweiligen Medien verteilt worden sind, auf einem Bildschirm in einer Bildausgabevorrich tung (17).
Klassifizieren der Multimediaeingangsinformatio nen, die zur Verbesserung der Natürlichkeit der syntheti sierten Sprache und zur Implementierung der Synchronisie rung der Multimediaumgebung mit dem TTS-System organi siert sind, in Text, prosodische Informationen, Informa tionen für die Synchronisierung mit einem Film, die Lippenform und die individuellen Eigenschaftsinformatio nen in einer Multimediainformationseingabeeinheit (10);
Verteilen der in der Multimediainformationseinga beeinheit (10) klassifizierten Informationen in einem Datenverteiler (11) auf die jeweiligen Medien auf der Grundlage entsprechender Informationen;
Umsetzen des im Datenverteiler (11) auf die jeweiligen Medien verteilten Textes in einen Phonemstrom, Schätzen der prosodischen Informationen und Symbolisieren der Informationen in einem Sprachprozessor (12);
Berechnen eines Werts des prosodischen Steuerpa rameters, die sich von dem prosodischen Steuerparameter unterscheidet, der in den Multimediainformationen enthal ten ist, in einem prosodischen Prozessor (13);
Einstellen der Dauer jedes Phonems in einer Synchronisierungseinstellvorrichtung (14), so daß das Verarbeitungsergebnis im prosodischen Prozessor (13) mit einem Bildsignal gemäß der Eingabe der Synchronisierungs informationen synchronisiert werden kann;
Erzeugen der synchronisierten Sprache in einem Signalprozessor (15) unter Verwendung der prosodischen Informationen vom Datenverteiler (11), des Verarbeitungs ergebnisses in der Synchronisierungseinstellvorrichtung (14) und einer Syntheseeinheit-Datenbank (16); und
Ausgeben der Bildinformationen, die vom Datenver eiler (11) über die jeweiligen Medien verteilt worden sind, auf einem Bildschirm in einer Bildausgabevorrich tung (17).
3. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
die organisierten Multimediainformationen Textin
formationen, prosodische Informationen, Informationen für
die Synchronisierung mit einem Film, Lippenforminforma
tionen und Individualitätsinformationen enthalten.
4. Verfahren nach Anspruch 3,
dadurch gekennzeichnet, daß
die prosodischen Informationen die Anzahl der
Phoneme, die Phonemstrominformationen, die Zeitdauer
jedes Phonems, das Tonhöhenmuster des Phonems und das
Energiemuster des Phonems umfassen.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet, daß
die Dauer des Phonems einen Wert der Tonhöhe am
Anfangspunkt, am Mittelpunkt und am Endpunkt innerhalb
des Phonems angibt.
6. Verfahren nach Anspruch 4,
dadurch gekennzeichnet, daß
das Energiemuster des Phonems einen Energiewert
in Dezibel am Anfangspunkt, am Mittelpunkt und am End
punkt innerhalb des Phonems angibt.
7. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
die Synchronisierungsinformationen einen Text,
eine Lippenform, eine Positionsinformation innerhalb
eines Films und die Zeitdauerinformation umfassen.
8. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
die Synchronisierungsinformationen einen Anfangs
punkt, eine Dauer und eine Verzögerungszeitinformation
des Startpunkts umfassen, wobei die Dauer jedes Phonems
durch diese Synchronisierungsinformationen gesteuert
wird.
9. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
die Synchronisierungsinformationen eine Dauer des
Anfangspunktes eines Satzes und eine Zeitdauerinformation
des Startpunkts umfassen, wobei die Dauer jedes Phonems
durch die vorhergesagte Lippenform unter Berücksichtigung
einer Artikulationsart des Phonems und die Artikulations
steuerung gesteuert wird, wobei die Lippenform innerhalb
der Synchronisierungs- und Zeitdauerinformationen die
Synchronisierungsinformationen bilden.
10. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
die synchronisierte Sprache anhand einer Informa
tion über den Anfangspunkt und den Endpunkt jedes Pho
nems, das dem Sprachsignal zugeordnet ist, und anhand
einer Information des Phonems erzeugt wird.
11. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
die synchronisierte Sprache anhand einer Quanti
sierung des Abstandes (Maß der Öffnung) zwischen der
Oberlippe und der Unterlippe, eines Abstandes (Maß der
Breite) zwischen den linken und rechten Endpunkten einer
Lippe und eines Maßes des Vorstehens einer Lippe erzeugt
wird, wobei die Lippenform ein quantisiertes und normier
tes Muster ist, das vom Artikulationsort und der Artiku
lationsart des Phonems auf der Grundlage des Musters mit
starken Unterscheidungsmerkmalen ist.
12. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, daß
das Sendeverfahren der Multimediainformationen die Schritte umfaßt:
Umsetzen einer in den Multimediainformationen vorhandenen prosodischen Information in eine Datenstruk tur, die im Signalprozessor (12) verwendet werden kann;
Senden der umgesetzten prosodischen Informationen um prosodischen Prozessor (13) und zur Synchronisie rungseinstellvorrichtung (14);
Umsetzen der vom prosodischen Prozessor (13) und von der Synchronisierungseinstellvorrichtung (14) ausge gebenen prosodischen Informationen in eine Datenstruktur, die in der Syntheseeinheit-Datenbank (16) und im prosodi schen Prozessor (13) innerhalb des TTS-Systems verwendet werden kann, wenn die prosodischen Informationen in den Multimediaeingangsinformationen enthalten sind; und
Senden der Informationen zur Syntheseeinheit-Datenbank (16) und zum prosodischen Prozessor (13), wenn die individuellen Eigenschaftsinformationen in den Multi mediaeingangsinformationen enthalten sind.
das Sendeverfahren der Multimediainformationen die Schritte umfaßt:
Umsetzen einer in den Multimediainformationen vorhandenen prosodischen Information in eine Datenstruk tur, die im Signalprozessor (12) verwendet werden kann;
Senden der umgesetzten prosodischen Informationen um prosodischen Prozessor (13) und zur Synchronisie rungseinstellvorrichtung (14);
Umsetzen der vom prosodischen Prozessor (13) und von der Synchronisierungseinstellvorrichtung (14) ausge gebenen prosodischen Informationen in eine Datenstruktur, die in der Syntheseeinheit-Datenbank (16) und im prosodi schen Prozessor (13) innerhalb des TTS-Systems verwendet werden kann, wenn die prosodischen Informationen in den Multimediaeingangsinformationen enthalten sind; und
Senden der Informationen zur Syntheseeinheit-Datenbank (16) und zum prosodischen Prozessor (13), wenn die individuellen Eigenschaftsinformationen in den Multi mediaeingangsinformationen enthalten sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970017615A KR100240637B1 (ko) | 1997-05-08 | 1997-05-08 | 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19753454A1 true DE19753454A1 (de) | 1998-11-12 |
DE19753454C2 DE19753454C2 (de) | 2003-06-18 |
Family
ID=19505142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19753454A Expired - Fee Related DE19753454C2 (de) | 1997-05-08 | 1997-12-02 | Text/Sprache-Umsetzungssystem zur Synchronisierung synthetisierter Sprache mit einem Film in einer Multimediaumgebung und Verfahren für eine derartige Synchronisierung |
Country Status (4)
Country | Link |
---|---|
US (2) | US6088673A (de) |
JP (2) | JP3599549B2 (de) |
KR (1) | KR100240637B1 (de) |
DE (1) | DE19753454C2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1113422A2 (de) * | 1999-12-28 | 2001-07-04 | Sony Corporation | Sprachgesteuertes Mundanimationssystem |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7076426B1 (en) * | 1998-01-30 | 2006-07-11 | At&T Corp. | Advance TTS for facial animation |
KR100395491B1 (ko) * | 1999-08-16 | 2003-08-25 | 한국전자통신연구원 | 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법 |
JP4320487B2 (ja) * | 1999-09-03 | 2009-08-26 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム格納媒体 |
US6557026B1 (en) * | 1999-09-29 | 2003-04-29 | Morphism, L.L.C. | System and apparatus for dynamically generating audible notices from an information network |
USRE42904E1 (en) * | 1999-09-29 | 2011-11-08 | Frederick Monocacy Llc | System and apparatus for dynamically generating audible notices from an information network |
JP4465768B2 (ja) * | 1999-12-28 | 2010-05-19 | ソニー株式会社 | 音声合成装置および方法、並びに記録媒体 |
US6529586B1 (en) | 2000-08-31 | 2003-03-04 | Oracle Cable, Inc. | System and method for gathering, personalized rendering, and secure telephonic transmission of audio data |
US6975988B1 (en) * | 2000-11-10 | 2005-12-13 | Adam Roth | Electronic mail method and system using associated audio and visual techniques |
KR100379995B1 (ko) * | 2000-12-08 | 2003-04-11 | 야무솔루션스(주) | 텍스트/음성 변환 기능을 갖는 멀티코덱 플레이어 |
US20030009342A1 (en) * | 2001-07-06 | 2003-01-09 | Haley Mark R. | Software that converts text-to-speech in any language and shows related multimedia |
US7487092B2 (en) * | 2003-10-17 | 2009-02-03 | International Business Machines Corporation | Interactive debugging and tuning method for CTTS voice building |
WO2005059895A1 (en) | 2003-12-16 | 2005-06-30 | Loquendo S.P.A. | Text-to-speech method and system, computer program product therefor |
US20050187772A1 (en) * | 2004-02-25 | 2005-08-25 | Fuji Xerox Co., Ltd. | Systems and methods for synthesizing speech using discourse function level prosodic features |
US20060136215A1 (en) * | 2004-12-21 | 2006-06-22 | Jong Jin Kim | Method of speaking rate conversion in text-to-speech system |
JP3955881B2 (ja) * | 2004-12-28 | 2007-08-08 | 松下電器産業株式会社 | 音声合成方法および情報提供装置 |
KR100710600B1 (ko) * | 2005-01-25 | 2007-04-24 | 우종식 | 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치 |
US9087049B2 (en) * | 2005-10-26 | 2015-07-21 | Cortica, Ltd. | System and method for context translation of natural language |
TWI341956B (en) * | 2007-05-30 | 2011-05-11 | Delta Electronics Inc | Projection apparatus with function of speech indication and control method thereof for use in the apparatus |
US8374873B2 (en) | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8731931B2 (en) | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
JP6069211B2 (ja) * | 2010-12-02 | 2017-02-01 | アクセシブル パブリッシング システムズ プロプライアタリー リミテッド | テキスト変換及び表現システム |
JP2012150363A (ja) * | 2011-01-20 | 2012-08-09 | Kddi Corp | メッセージ映像編集プログラムおよびメッセージ映像編集装置 |
KR101358999B1 (ko) * | 2011-11-21 | 2014-02-07 | (주) 퓨처로봇 | 캐릭터의 다국어 발화 시스템 및 방법 |
WO2014141054A1 (en) * | 2013-03-11 | 2014-09-18 | Video Dubber Ltd. | Method, apparatus and system for regenerating voice intonation in automatically dubbed videos |
US20220189500A1 (en) * | 2019-02-05 | 2022-06-16 | Igentify Ltd. | System and methodology for modulation of dynamic gaps in speech |
KR20220147276A (ko) * | 2021-04-27 | 2022-11-03 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 프로소디 제어를 위한 tts 모델 생성 방법 |
WO2023166527A1 (en) * | 2022-03-01 | 2023-09-07 | Gan Studio Inc. | Voiced-over multimedia track generation |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AT72083B (de) | 1912-12-18 | 1916-07-10 | S J Arnheim | Befestigung für leicht auswechselbare Schlösser. |
US4260229A (en) * | 1978-01-23 | 1981-04-07 | Bloomstein Richard W | Creating visual images of lip movements |
US4305131A (en) * | 1979-02-05 | 1981-12-08 | Best Robert M | Dialog between TV movies and human viewers |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
GB8528143D0 (en) * | 1985-11-14 | 1985-12-18 | British Telecomm | Image encoding & synthesis |
JP2518683B2 (ja) | 1989-03-08 | 1996-07-24 | 国際電信電話株式会社 | 画像合成方法及びその装置 |
EP0390048B1 (de) * | 1989-03-28 | 1996-10-23 | Matsushita Electric Industrial Co., Ltd. | Gerät und Verfahren zur Datenaufbereitung |
US5111409A (en) * | 1989-07-21 | 1992-05-05 | Elon Gasper | Authoring and use systems for sound synchronized animation |
JPH03241399A (ja) | 1990-02-20 | 1991-10-28 | Canon Inc | 音声送受信装置 |
DE4101022A1 (de) * | 1991-01-16 | 1992-07-23 | Medav Digitale Signalverarbeit | Verfahren zur geschwindigkeitsvariablen wiedergabe von audiosignalen ohne spektrale veraenderung der signale |
US5613056A (en) | 1991-02-19 | 1997-03-18 | Bright Star Technology, Inc. | Advanced tools for speech synchronized animation |
JPH04285769A (ja) | 1991-03-14 | 1992-10-09 | Nec Home Electron Ltd | マルチメディアデータの編集方法 |
JP3070136B2 (ja) | 1991-06-06 | 2000-07-24 | ソニー株式会社 | 音声信号に基づく画像の変形方法 |
US5313522A (en) * | 1991-08-23 | 1994-05-17 | Slager Robert P | Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader |
JP3135308B2 (ja) | 1991-09-03 | 2001-02-13 | 株式会社日立製作所 | ディジタルビデオ・オーディオ信号伝送方法及びディジタルオーディオ信号再生方法 |
JPH05188985A (ja) | 1992-01-13 | 1993-07-30 | Hitachi Ltd | 音声圧縮方式、及び通信方式、並びに無線通信装置 |
JPH05313686A (ja) | 1992-04-02 | 1993-11-26 | Sony Corp | 表示制御装置 |
JP3083640B2 (ja) * | 1992-05-28 | 2000-09-04 | 株式会社東芝 | 音声合成方法および装置 |
JP2973726B2 (ja) * | 1992-08-31 | 1999-11-08 | 株式会社日立製作所 | 情報処理装置 |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
US5500919A (en) * | 1992-11-18 | 1996-03-19 | Canon Information Systems, Inc. | Graphics user interface for controlling text-to-speech conversion |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
JP2734335B2 (ja) | 1993-05-12 | 1998-03-30 | 松下電器産業株式会社 | データ伝送方法 |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
JP3059022B2 (ja) | 1993-06-07 | 2000-07-04 | シャープ株式会社 | 動画像表示装置 |
JP3364281B2 (ja) | 1993-07-16 | 2003-01-08 | パイオニア株式会社 | 時分割ビデオ及びオーディオ信号の同期方式 |
US5608839A (en) * | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
JP2611728B2 (ja) * | 1993-11-02 | 1997-05-21 | 日本電気株式会社 | 動画像符号化復号化方式 |
JPH07306692A (ja) | 1994-05-13 | 1995-11-21 | Matsushita Electric Ind Co Ltd | 音声認識装置及び音声入力装置 |
US5657426A (en) * | 1994-06-10 | 1997-08-12 | Digital Equipment Corporation | Method and apparatus for producing audio-visual synthetic speech |
GB2291571A (en) * | 1994-07-19 | 1996-01-24 | Ibm | Text to speech system; acoustic processor requests linguistic processor output |
IT1266943B1 (it) | 1994-09-29 | 1997-01-21 | Cselt Centro Studi Lab Telecom | Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda. |
US5677739A (en) | 1995-03-02 | 1997-10-14 | National Captioning Institute | System and method for providing described television services |
JP3507176B2 (ja) * | 1995-03-20 | 2004-03-15 | 富士通株式会社 | マルチメディアシステム動的連動方式 |
US5729694A (en) * | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
KR100236974B1 (ko) * | 1996-12-13 | 2000-02-01 | 정선종 | 동화상과 텍스트/음성변환기 간의 동기화 시스템 |
JP4359299B2 (ja) | 2006-09-13 | 2009-11-04 | Tdk株式会社 | 積層型セラミック電子部品の製造方法 |
-
1997
- 1997-05-08 KR KR1019970017615A patent/KR100240637B1/ko not_active IP Right Cessation
- 1997-12-02 DE DE19753454A patent/DE19753454C2/de not_active Expired - Fee Related
- 1997-12-19 JP JP35042797A patent/JP3599549B2/ja not_active Expired - Fee Related
-
1998
- 1998-02-09 US US09/020,712 patent/US6088673A/en not_active Ceased
-
2002
- 2002-09-30 US US10/193,594 patent/USRE42647E1/en not_active Expired - Lifetime
-
2004
- 2004-07-06 JP JP2004198918A patent/JP4344658B2/ja not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1113422A2 (de) * | 1999-12-28 | 2001-07-04 | Sony Corporation | Sprachgesteuertes Mundanimationssystem |
EP1113422A3 (de) * | 1999-12-28 | 2002-04-24 | Sony Corporation | Sprachgesteuertes Mundanimationssystem |
Also Published As
Publication number | Publication date |
---|---|
US6088673A (en) | 2000-07-11 |
KR19980082608A (ko) | 1998-12-05 |
JP2004361965A (ja) | 2004-12-24 |
JP3599549B2 (ja) | 2004-12-08 |
KR100240637B1 (ko) | 2000-01-15 |
JP4344658B2 (ja) | 2009-10-14 |
DE19753454C2 (de) | 2003-06-18 |
JPH10320170A (ja) | 1998-12-04 |
USRE42647E1 (en) | 2011-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19753454C2 (de) | Text/Sprache-Umsetzungssystem zur Synchronisierung synthetisierter Sprache mit einem Film in einer Multimediaumgebung und Verfahren für eine derartige Synchronisierung | |
DE19753453B4 (de) | System zum Synchronisieren eines Films mit einem Text/Sprache-Umsetzer | |
DE60105995T2 (de) | Animation von personen | |
DE69915455T2 (de) | Verfahren und vorrichtung, um gewünschte video- und audioszenen durch spracherkennung wiederzufinden | |
KR20010072936A (ko) | 정보 스트림의 포스트-동기화 | |
US5893062A (en) | Variable rate video playback with synchronized audio | |
DE60101540T2 (de) | Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale | |
US6665643B1 (en) | Method of and apparatus for animation, driven by an audio signal, of a synthesized model of a human face | |
US11064245B1 (en) | Piecewise hybrid video and audio synchronization | |
US20200211565A1 (en) | System and method for simultaneous multilingual dubbing of video-audio programs | |
Steinmetz et al. | Multimedia fundamentals, volume 1: media coding and content processing | |
US20160042766A1 (en) | Custom video content | |
GB2231246A (en) | Converting text input into moving-face picture | |
GB2320838A (en) | Producing a lip movement parameter in a 3D model-based image coding system | |
CN114419702B (zh) | 数字人生成模型、模型的训练方法以及数字人生成方法 | |
WO2010081225A1 (en) | Digital content creation system | |
JP6378503B2 (ja) | 要約映像データ作成システム及び方法並びにコンピュータプログラム | |
Valleriani | Upper-class English in The Crown: An Analysis of Dubbing and Subtitling | |
EP4178212A1 (de) | Verfahren zum synchronisieren von einem zusatzsignal zu einem hauptsignal | |
KR102546559B1 (ko) | 영상 콘텐츠 자동 번역 더빙 시스템 | |
CN117095672A (zh) | 一种数字人唇形生成方法及装置 | |
Thikekar et al. | Generative Adversarial Networks based Viable Solution on Dubbing Videos With Lips Synchronization | |
Lutsenko et al. | Research on a voice changed by distortion | |
Bojkovic et al. | Audiovisual integration in multimedia communications based on MPEG-4 facial animation | |
KR20210032235A (ko) | 감정 음성을 합성하는 장치, 방법 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8181 | Inventor (new situation) |
Free format text: LEE, JUNG CHUL, DAEJON, KR HAHN, MIN SOO, DAEJON, KR LEE, HANG SEOP, DAEJON, KR YANG, JAE WOO, DAEJON, KR LEE, YOUNGIK, DAEJON, KR |
|
8181 | Inventor (new situation) |
Free format text: LEE, JUNG CHUL, DAEJON, KR HAHN, MIN SOO, DAEJON, KR LEE, HANG SEOP, DAEJON, KR YANG, JAE WOO, DAEJON, KR LEE, YOUNGIIK, DAEJON, KR |
|
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |