-
Die hier beschriebene Erfindung betrifft
ein Verfahren zur Synthese von Tonsignalen. Um die Beschreibung
zu vereinfachen wird die Hauptaufmerksamkeit auf Sprachtöne gelegt,
wobei man allerdings in Erinnerung behält, dass die Erfindung genauso
gut auf das Gebiet der Musiksynthese angewandt werden kann.
-
Hintergrund
der Erfindung
-
Im Rahmen der sogenannten „verketteten" Synthesetechniken,
die in steigendem Maße
angewandt werden, erzeugt man eine synthetische Sprache aus einer
Datenbank von Sprachsegmenten. Die Segmente können zum Beispiel Diphone sein,
die von der Mitte des stationären
Teiles eines Phons an beginnen (wobei das Phon die akustische Verwirklichung
eines Phonems ist) und die in der Mitte des stationären Teiles
des nächsten
Phons enden. Französisch
zum Beispiel ist aus 36 Phonemen zusammengesetzt, die annähernd 1240
Diphonen entsprechen (tatsächlich
sind einige Kombinationen von Phonemen unmöglich). Andere Typen von Segmenten
können
verwendet werden, etwa Triphone, Polyphone, Halbsilben usw. Verkettete
Synthesetechniken erzeugen irgendeine Folge von Phonemen durch eine
Verkettung der geeigneten Segmente. Die Segmente selbst werden aus
der Segmentierung eines Sprachkorpus gewonnen, das von einem menschlichen
Sprecher gelesen wird.
-
Zwei Probleme müssen während des Verkettungsprozesses
gelöst
werden, um ein Sprachsignal zu erhalten, welches mit der menschlichen
Sprache vergleichbar ist.
-
Das erste Problem entsteht aus den
Disparitäten
der phonemischen Zusammenhänge,
aus welchen die Segmente extrahiert wurden, was im allgemeinen zu
einer gewissen fehlenden Übereinstimmung
der spektralen Hüllkurve
an den beiden Enden der Segmente führt, die verkettet werden sollen.
Als ein Ergebnis führt
eine bloße
Verkettung von Segmenten zu scharfen Übergängen zwischen den Einheiten
und zu einer weniger flüssigen
Sprache.
-
Das zweite Problem besteht darin,
die Prosodie der synthetischen Sprache zu steuern, d. h. ihren Rhythmus (Phonem
und Pausenlängen)
und ihre Grundfrequenz (die Schwingungsfrequenz der Stimmbänder). Der
Punkt ist der, dass die in dem Korpus aufgezeichneten Segmente ihre
eigene Prosodie haben, die nicht notwendigerweise der Prosodie entspricht,
die zum Zeitpunkt der Synthese auferlegt worden ist.
-
Folglich besteht ein Bedarf, ein
Mittel zur Kontrolle der prosodischen Parameter zu finden und zur
Erzeugung von weichen Übergängen zwischen den
Segmenten, ohne dass die Natürlichkeit
der Sprachsegmente beeinträchtigt
wird.
-
Man unterscheidet zwei Familien von
Verfahren, um solche Probleme zu lösen: diejenigen, welche ein
Spektralmodell des Vokaltraktes implementieren, und diejenigen,
welche die Segmentwellenformen direkt in dem Zeitbereich verändern.
-
In der ersten Kategorie von Verfahren
werden Übergänge zwischen
verketteten Segmenten ausgeglichen, indem man den Unterschied zwischen den
spektralen Hüllkurven
auf beiden Seiten des Verkettungspunktes berechnet und diesen Unterschied in
dem spektralen Bereich auf beiden Segmenten verbreitet. Die Art
und Weise, wie die erste Kategorie von Verfahren die Tonhöhe und die
Dauer der Segmente steuert, hängt
von dem besonderen Modell ab, welches für die Abschätzung der spektralen Hüllkurve
verwendet wird. Alle diese Verfahren erfordern eine hohe Rechenleistung
zum Zeitpunkt der Synthese, was diese Verfahren daran hindert, in
Echtzeit auf Prozessoren mit einem geringen Preis implementiert zu
werden.
-
Im Gegensatz dazu zielt die zweite
Familie der Syntheseverfahren darauf ab, eine Veränderung der
Verkettung und Prosodie direkt in dem Zeitbereich mit Hilfe einer
sehr begrenzten Rechenleistung zu erzeugen. Alle diese Verfahren
ziehen einen Vorteil aus dem sogenannten „Poissonschen Summentheorem", welches unter den
Spezialisten der Signalverarbeitung gut bekannt ist und welches
zeigt, dass es möglich
ist, aus irgendeiner endlichen Wellenform mit einer gegebenen spektralen
Hüllkurve
eine unendliche Wellenform mit derselben spektralen Hüllkurve
für eine
willkürlich
gewählte
(und konstante) Tonhöhe
zu bauen. Dieses Theorem kann auf die Veränderung der Grundfrequenz der
Sprachsignale angewandt werden. Vorausgesetzt das Spektrum der elementaren
Wellenformen liegt nahe genug an der spektralen Hüllkurve
des Signals, das man zu verändern
wünscht,
dann kann die Tonhöhe
auferlegt werden, indem man die Verschiebung zwischen den elementaren
Wellenformen zu der gezielt angesteuerten Tonhöheperiode einstellt, und indem
man die resultierenden überlappenden
Wellenformen addiert. In dieser zweiten Familie unterscheiden sich
die Syntheseverfahren hauptsächlich
nach der Art und Weise, wie sie die elementaren Wellenformen aus
den vorher aufgezeichneten Segmenten ableiten. Um eine synthetische
Sprache von hoher Qualität
zu erzeugen, müssen
jedoch die überlappenden
elementaren Wellenformen, welche die Verfahren verwenden, eine Dauer
von mindestens dem Zweifachen der Grundfrequenz der ursprünglichen
Segmente aufweisen. Zwei Klassen von Techniken in dieser zweiten
Familie der Syntheseverfahren werden in dem was nun folgt beschrieben.
-
Die erste Klasse bezieht sich auf
Verfahren, welche im dem was folgt als 'PSOLA' Verfahren bezeichnet werden (Pitch
Synchronous Overlap Add = Synchrone Überlappungs-Addition der Tonhöhe) und gekennzeichnet
sind durch die direkte Extraktion der Wellenformen aus den kontinuierlichen
Tonsignalen. Die verwendeten Tonsignale sind entweder identisch mit
den originalen Signalen (die Segmente) oder sie werden nach einiger
Transformation aus diesen originalen Signalen erhalten. Elementare
Wellenformen werden aus den Tonsignalen extrahiert, indem man die
Signale mit Gewichtungsfenstern von endlicher Dauer multipliziert,
welche synchron mit der Grundfrequenz des originalen Signals angeordnet
sind. Da die Größe der elementaren
Wellenformen mindestens das Zweifache der ursprünglichen Periode ausmachen
muss, und wenn man davon ausgeht, dass es eine Wellenform für jede Periode
des originalen Signals gibt, dann werden dieselben Sprachmuster
in mehreren aufeinanderfolgenden Wellenformen verwendet: die Gewichtungsfenster überlappen
sich in den Tonsignalen.
-
Beispiele solcher PSOLA Verfahren
sind jene, welche in den Dokumenten EP-0363233, US-5479564, EP-0706170
definiert worden sind. Ein spezifisches Beispiel ist auch das MBR-PSOLA Verfahren,
wie es von T. Dutoit und H. Leich veröffentlicht worden ist, und
zwar in Speech Communication, Elsevier Publisher, November 1993,
Vol. 13, No. 3–4, 1993.
Das in dem Dokument US-5479564 beschriebene Verfahren schlägt ein Hilfsmittel
zur Veränderung
der Frequenz eines Tonsignals mit einer konstanten Grundfrequenz
durch eine Überlappungsaddition
kurzfristiger Signale vor, die aus diesem Signal extrahiert worden
sind. Die Länge
der Gewichtungsfenster, die verwendet werden, um die kurzfristigen Signale
zu gewinnen, ist annähernd
gleich dem Zweifachen der Periode des Tonsignals und ihre Position innerhalb
der Periode kann auf irgendeinen Wert eingestellt werden (vorausgesetzt,
dass die Zeitverschiebung zwischen aufeinanderfolgenden Fenstern die
gleiche ist wie die Periode des Tonsignals). Das Dokument US-5479564
beschreibt auch eine Vorrichtung zur Interpolation von Wellenformen
zwischen Segmenten, die zu verketten sind, um so Diskontinuitäten auszugleichen.
Dies wird durch eine Veränderung
der Perioden entsprechend dem Ende des ersten Segmentes und dem
Beginn des zweiten Segmentes in solch einer Weise erreicht, dass
der Unterschied zwischen der letzten Periode des ersten Segmentes
und der ersten Periode des zweiten Segmentes verbreitet wird.
-
Die zweite Klasse von Techniken,
die in dem was nun folgt als die „analytische Techniken" bezeichnet wird,
basiert auf einer Veränderung
des Zeitbereiches von Wellenformen, die sich ihre Muster nicht teilen,
sogar nicht einmal teilweise. Der Syntheseschritt verwendet noch
eine Verschiebung und eine Überlappungs-Addition
der gewichteten Wellenformen, welche die Information der spektralen
Hüllkurve
tragen. Diese Wellenformen werden nicht länger mit Hilfe von überlappenden
Gewichtungsfenstern aus einem kontinuierlichen Sprachsignal extrahiert.
Beispiele dieser Techniken sind jene, die sowohl in den Dokumenten
US-5369730 und GB-2261350 definiert sind, als auch jene, die von
T. Yazu, K. Yamada in „The
speech synthesis system for an unlimited Japanese vocabulary", in den Proceedings
IEEE ICASSP 1986, Tokyo, S. 2019–2022 beschrieben worden sind.
Die Europäische
Patentanmeldung EP-A-0527527 und die Internationale Patentanmeldung
WO 90/03027 offenbaren zwei weitere Beispiele von PSOLA Techniken.
-
In all diesen „analytischen" Techniken sind elementare
Wellenformen Impulsantworten des Vokaltraktes, welche aus gleichmäßig entfernt
angeordneten Rahmen von Sprachsignalen ermittelt worden sind und
welche über
ein Spektralmodell erneut synthetisiert, d. h. resynthetisiert worden
sind. Die vorliegende Erfindung fällt in diese Klasse von Verfahren.
-
Ein Vorteil der analytischen Verfahren
gegenüber
den PSOLA Verfahren besteht darin, dass die Wellenformen, die von
denselben verwendet werden, sich aus einem wahren Spektralmodell
des Vokaltraktes ergeben. Daher können sie intrinsisch die Information
der augenblicklichen spektralen Hüllkurve mit einer größeren Genauigkeit
und Präzision
abbilden als die PSOLA Techniken, welche einfach ein Zeitbereichssignal
mit einem Gewichtungsfenster gewichten. Darüber hinaus ist es mit analytischen
Verfahren möglich,
die periodischen (stimmhaft) und die aperiodischen (stimmlos) Komponenten
einer jeden Wellenform zu trennen und deren Ausgleich während des
Schrittes der Resynthese zu verändern,
um die Sprachqualität
(weich, rau, flüsternd
usw.) zu verändern.
-
In der Praxis wird dieser Vorteil
durch einen Anstieg der Größe der resynthetisierten
Segmentdatenbank (typischerweise ein Faktor 2, da die aufeinanderfolgenden
Wellenformen sich keine Muster teilen, während deren Dauer die gleiche
sein muss wie noch mindestens zweimal diejenige der Tonhöheperiode
des Tonsignals) ausgeglichen. Das von Yazu und Yamada beschriebene
Verfahren zielt genau auf eine Verminderung der Anzahl der Muster
ab, die gespeichert werden müssen,
durch ein Resynthetisieren von Impulsantworten, in denen die Phasen
der spektralen Hüllkurve
gleich Null gesetzt werden. Nur die Hälfte der Wellenform braucht
in diesem Fall gespeichert zu werden, da eine Nullsetzung der Phase zu
vollständig
symmetrischen Wellenformen führt. Der
Hauptnachteil dieses Verfahrens besteht darin, dass es in einem
großen
Maße die
Natürlichkeit
der synthetischen Sprache beeinträchtigt. Es ist in der Tat gut
bekannt, dass die Vornahme von bedeutenden Phasenverzerrungen eine
starke Auswirkung auf die Qualität
der Sprache hat.
-
Ziel der Erfindung
-
Die vorliegende Erfindung zielt darauf
ab, ein Verfahren für
die Tonsynthese vorzuschlagen, welches die im Zusammenhang mit dem
Stand der Technik dargestellten Nachteile vermeidet und welches
einen begrenzten Speicher für
die Wellenformen erfordert, während
es dabei bedeutende Verzerrungen der natürlichen Phase der akustischen
Signale vermeidet.
-
Wesentliche
kennzeichnende Elemente der Erfindung
-
Die vorliegende Erfindung betrifft
ein Verfahren zur Tonsynthese von Wellenformen, die in einem Wörterbuch
gespeichert sind, wobei die Wellenformen erzielt werden durch eine
Spektralanalyse eines Wörterbuches
von Tonsegmenten, und wobei das Verfahren die folgenden Schritte
aufweist:
-
- – die
Wellenformen sind unendlich und vollkommen periodisch, und sie sind
gespeichert als eine Periode derselben, welche selbst dargestellt
ist als eine Sequenz von Tonmustern von a priori irgendeiner Länge;
- – eine
Synthese wird durchgeführt
durch Überlappen
und Addieren der Wellenformen, multipliziert durch ein Gewichtungsfenster,
dessen Länge
ungefähr
zweimal die Periode der originalen Wellenform ausmacht, und dessen
Position in Bezug auf die Wellenform auf irgendeinen festen Wert
eingestellt werden kann;
- – die
aufeinanderfolgenden Wellenformen teilen keine Muster;
- – wodurch
die Zeitverschiebung zwischen zwei aufeinanderfolgenden gewichteten
Signalen, die durch Gewichtung der originalen Wellenformen erzielt
worden sind, die gleiche ist wie die fundamentale Periode, die für das synthetische
Signal erfordert ist, dessen Wert auferlegt ist. Dieser Wert kann
kleiner oder größer sein
als derjenige der originalen Wellenformen.
-
Das Verfahren gemäß der vorliegenden Erfindung
unterscheidet sich grundlegend von irgendeinem anderen „analytischen" Verfahren durch
die Tatsache, dass die elementaren Wellenformen, die verwendet werden,
keine Impulsantworten des Vokaltraktes sind, sondern unendliche,
periodische Signale, multipliziert durch ein Gewichtungsfenster,
um ihre Länge
endlich zu halten, und dass sie dieselbe spektrale Hüllkurve
tragen wie die originalen Tonsignale. Ein Spektralmodell (hybrid
harmonisches/stochastisches Modell zum Beispiel, obwohl die Erfindung
nicht ausschließlich
irgendein besonderes Spektralmodell betrifft) wird für die Resynthese
verwendet, um periodische Wellenformen zu erhalten (anstelle der
symmetrischen Impulsantworten von Yazu und Yamada), welche die Information
der augenblicklichen spektralen Hüllkurve tragen. Wegen der Periodizität der erzeugten
elementaren Wellenformen braucht nur die erste Periode gespeichert
zu werden. Die durch dieses Verfahren gewonnene Tonqualität ist dem
Verfahren von Yazu und Yamada unvergleichlich überlegen, da die Berechnung
der periodischen Wellenformen den spektralen Hüllkurven keine Phasenbeschränkungen
auferlegt, wodurch man die damit zusammenhängende qualitative Entwertung
vermeidet.
-
Die Perioden, die gespeichert werden
müssen,
werden durch eine Spektralanalyse eines Wörterbuches von Tonsegmenten
gewonnen (z. B. Diphone in dem Fall einer Sprachsynthese). Die Spektralanalyse
erzeugt Abschätzungen
der spektralen Hüllkurve über jedes
Segment hinweg. Harmonische Phasen und Amplituden werden dann aus
der spektralen Hüllkurve
berechnet und aus der Zielperiode (d. h. die spektrale Hüllkurve
wird mit der angesteuerten Grundfrequenz abgetastet).
-
Die Länge einer jeden resynthetisierten
Periode kann in einer vorteilhaften Weise für alle Perioden von allen Segmenten
gleich gewählt
werden. In diesem besonderen Fall erlauben klassische Techniken
der Wellenformkompression (z. B. ADPCM) sehr hohe Kompressionsverhältnisse
(etwa 8) mit sehr begrenzten Berechnungskosten für die Decodierung. Die bemerkenswerte
Wirksamkeit solcher Techniken auf die gewonnenen Wellenformen rührt hauptsächlich her
von der Tatsache, dass:
-
- – alle
Perioden, die in der Segmentdatenbank gespeichert sind, dieselbe
Länge haben,
was zu einem sehr wirksamen unterscheidenden Codierungsschema von
Periode zu Periode führt;
- – die
Verwendung eines Spektralmodels für die Abschätzung der spektralen Hüllkurve
die Trennung der harmonischen und der stochastischen Komponenten
der Wellenformen erlaubt. Wenn die Energie der stochastischen Komponente
klein genug ist, verglichen mit derjenigen der harmonischen Komponente,
dann kann sie vollständig weggelassen
werden, in welchem Fall nur die harmonische Komponente resynthetisiert
wird. Dies führt
zu Wellenformen, die ausgeprägter
rein und rauscharm sind und die eine höhere Regelmäßigkeit zeigen als das originale
Signal, was zusätzlich
die Wirksamkeit der ADPCM Techniken der Codierung heraufsetzt.
-
Um die Wirksamkeit der Codierungstechniken
weiter zu vergrößern, können die
Phasen der Harmonischen unterer Ordnung (d. h. niedrigerer Frequenz)
einer jeden gespeicherten Periode fest sein (ein Phasenwert fest
eingestellt für
jede Harmonische der Datenbank) für den Schritt der Resynthese.
Das Frequenzband, bei dem diese Einstellung annehmbar ist, reicht
von 0 bis annähernd
3 kHz. In diesem Fall führt
der Arbeitsschritt der Resynthese zu einer Folge von Perioden mit
einer konstanten Länge,
in welcher der Zeitbereichunterschied zwischen zwei aufeinanderfolgenden
Perioden hauptsächlich
auf Unterschiede der spektralen Hüllkurve zurückzuführen ist. Da die spektrale
Hüllkurve
von Tonsignalen sich im allgemeinen langsam mit der Zeit verändert, wenn
man von der gegebenen Trägheit des
physikalischen Mechanismus ausgeht, der sie erzeugt, dann wird sich
die Gestalt der auf diesem Wege gewonnenen Perioden auch langsam ändern. Dies
wiederum ist besonders wirksam, wenn es zu Codierungssignalen auf
der Grundlage von Unterschieden von Periode zu Periode kommt.
-
Unabhängig von der Verwendung für die Segmentcodierung
führt die
Idee, einen Satz von festen Werten für die Phasen der Harmonischen
der niedrigeren Frequenzen aufzuerlegen, zu der Implementation einer
zeitlichen Glättungstechnik
zwischen aufeinanderfolgenden Segmenten, um die fehlende spektrale Übereinstimmung
zwischen den Perioden abzuschwächen.
Der zeitliche Unterschied zwischen der letzten Periode des ersten
Segmentes und der ersten Periode des zweiten Segmentes wird berechnet
und wird ausgleichend auf beiden Seiten des Verkettungspunktes verbreitet
mit einem Gewichtungskoeffizienten, der ständig zwischen –0,5 und
+0,5 variiert (abhängig
davon, auf welcher Seite des Verkettungspunktes verarbeitet wird).
-
Es sollte angemerkt werden, dass,
obwohl die oben erwähnten
wirksamen Eigenschaften zur Codierung und Fähigkeiten zum Ausgleich bereits
in der MBR-PSOLA Technik verfügbar
waren, wie in dem Stand der Technik beschrieben, ihre Wirkung in der
vorliegenden Erfindung drastisch verstärkt wird, weil im Gegensatz
zu den Wellenformen, die von der MBR-PSOLA Technik verwendet werden,
die hier verwendeten Perioden keine ihrer Muster teilen, wodurch
eine vollkommene Trennung zwischen harmonisch gereinigten Wellenformen
und Wellenformen, die im wesentlichen stochastisch sind, erlaubt
ist.
-
Schließlich macht es die vorliegende
Erfindung noch möglich,
die Qualität
der synthetisierten Tonsignale zu erhöhen, indem man mit einem jeden resynthetisierten
Segment („Basissegment") einen Satz von
Ersatzsegmenten, ähnlich
aber nicht identisch zu dem Basissegment, verbindet. Jedes Basissegment
wird in derselben Weise verarbeitet wie das entsprechende Basissegment
und eine Folge von Perioden wird resynthetisiert. Für jedes
Ersatzsegment zum Beispiel kann man zwei Perioden halten entsprechend
jeweils zu dem Beginn und dem Ende des Ersatzsegmentes zum Zeitpunkt
der Synthese. Wenn zwei Segmente dabei sind, verkettet zu werden,
dann ist es möglich,
die Perioden des ersten Basissegmentes so zu verändern, um an den letzten Perioden
dieses Segmentes den Unterschied zwischen der letzten Periode des
Basissegmentes und der letzten Periode von einer ihrer Ersatzsegmente zu
verbreiten. Ähnlich
ist es möglich,
die Perioden des zweiten Basissegmentes so zu verändern, um
an den ersten Perioden dieses Segmentes den Unterschied zwischen
der ersten Periode des Basissegmentes und der ersten Periode von
einer ihrer Ersatzsegmente zu verbreiten. Die Verbreitung dieser Unterschiede
wird einfach durch Multiplizieren der Unterschiede durch einen ständig von
1 bis 0 (von Periode zu Periode) variierenden Gewichtungskoeffizienten
und Addieren der gewichteten Unterschiede zu den Perioden der Basissegmente
durchgeführt.
-
Solch eine Veränderung der Perioden des Zeitbereiches
eines Basissegmentes, um es ertönen zu
lassen, wie eines seiner Ersatzsegmente, kann vorteilhaft eingesetzt
werden, um freie Varianten zu einem Grundton zu erzeugen, wodurch
die Eintönigkeit
vermieden wird, welche aus dem wiederholten Gebrauch eines Grundtones
entsteht. Es kann auch für
die Erzeugung von linguistisch motivierten Tonvarianten (z. B. betonte
/unbetonte Vokale, angespannte/ weiche Stimme, usw.) verwendet werden.
-
Der grundlegende Unterschied zwischen dem
in dem Stand der Technik beschriebenen Verfahren, welches gemäß unserer
Klassifizierung ein „PSOLA" Verfahren ist, und
dem Verfahren gemäß der vorliegende
Erfindung hat seinen Ursprung in der besonderen Art und Weise, wie
die verwendeten Perioden abgleitet werden. Im Gegensatz zu den Wellenformen,
die von einem kontinuierlichen Signal extrahiert werden, wie es
in dem Stand der Technik vorgeschlagen wird, teilen die in der vorliegenden
Erfindung verwendeten Wellenformen keine ihrer Muster (daher überlappen
sie nicht). Das Verfahren profitiert daher von den typischen Vorteilen
anderer analytischer Verfahren:
-
- – sehr
effiziente Codierungstechniken, welche die Tatsache mit berücksichtigen,
dass:
- – Perioden
harmonisch rein sein können
durch eine vollständige
Beseitigung ihrer stochastischen Komponente;
- – wenn
die Perioden resynthetisiert werden, die Phase der Harmonischen
der niedrigeren Frequenz konstant gesetzt werden kann (d. h. ein fester
Wert für
jede Harmonische durch die ganze Segmentdatenbank hindurch)
- – Fähigkeit,
Tonvarianten durch Interpolation zwischen Basis- und Ersatzsegmenten
zu erzeugen. Für
jedes Basissegment zum Beispiel werden zwei zusätzliche Perioden gespeichert,
entsprechend dem Beginn und dem Ende des Segmentes und genommen
aus einem Ersatzsegment. Dies ermöglicht die Synthese von Stimmen,
die natürlicher
klingen.
-
Kurze Beschreibung
der Zeichnungen
-
Das Verfahren gemäß der vorliegenden Erfindung
soll präziser
beschrieben werden, indem es mit den folgenden Verfahren nach dem
Stand der Technik verglichen wird:
-
1 stellt
die verschiedenen Schritte der Sprachsynthese gemäß einem
PSOLA Verfahren dar,
-
2 beschreibt
die verschiedenen Schritte der Sprachsynthese gemäß dem Verfahren,
das von Yazu und Yamada vorgeschlagen worden ist,
-
3 beschreibt
die verschiedenen Schritte der Sprachsynthese gemäß der vorliegenden
Erfindung.
-
Beschreibung
einer bevorzugten Ausführungsform der
Erfindung
-
1 zeigt
eine klassische Darstellung eines PSOLA Verfahrens, das durch die
folgenden Schritte gekennzeichnet ist.
-
- 1. Mindestens bei den stimmhaften Teilen von Sprachsegmenten
wird eine Analyse durch Gewichtung der Sprache mit einem Fenster
durchgeführt,
das annähernd
zentriert auf den Beginn einer jeden Impulsantwort des Vokaltraktes
ist, der durch die Stimmbänder
angeregt worden ist. Das Gewichtungsfenster hat eine Form, welche
an ihren Rändern
bis auf Null herunter abnimmt, und es hat eine Länge, die mindestens annähernd zweimal
so groß ist
wie die Grundperiode der originalen Sprache oder zweimal so groß wie die Grundperiode
der Sprache, die synthetisiert werden soll.
- 2. Die Signale, welche aus dem Arbeitsschritt der Gewichtung
resultieren, werden gegenseitig in Bezug aufeinander verschoben,
dabei wird die Verschiebung an die Grundperiode der Sprache angepasst,
die synthetisiert werden soll, kleiner oder größer als die originale Grundperiode,
entsprechend der prosodischen Information, die sich auf die Grundperiode
zu dem Zeitpunkt der Synthese bezieht.
- 3. Die synthetische Sprache wird durch ein Summieren dieser
verschobenen Signale erzielt.
-
2 zeigt
das von Yazu und Yamada beschriebene Verfahren gemäß dem Stand
der Technik, welches 3 Schritte umfasst:
-
- 1. Die originale Sprache wird zu jeder festen
Rahmenperiode (daher nicht synchron zur Tonhöhe) herausgeschnitten und das
Spektrum eines jeden Rahmens wird durch eine Cepstralanalyse berechnet.
Phasenkomponenten werden auf Null gesetzt, so dass nur spektrale
Amplituden zurückgehalten
werden. Eine symmetrische Wellenform wird dann für jeden anfänglichen Rahmen durch eine
inverse FFT erzielt. Diese symmetrische Wellenform wird mit einem
Fenster fester Länge
gewichtet, welches an seinen Begrenzungen fast auf den Wert Null
abnimmt.
- 2. Die Signale, die aus dem Arbeitsschritt der Gewichtung resultieren,
werden gegenseitig in Bezug aufeinander verschoben, dabei wird die
Verschiebung an die Grundperiode der Sprache angepasst, die synthetisiert
werden soll, kleiner oder größer als
die originale Grundperiode, entsprechend der prosodischen Information,
die sich auf die Grundperiode zu dem Zeitpunkt der Synthese bezieht.
- 3. Die synthetische Sprache wird durch ein Summieren dieser
verschobenen Signale erzielt.
-
Bei dieser letzten Technik werden
die Schritte 1 und 2 oft ein für
alle Mal verwirklicht, was den Unterschied ausmacht zwischen den
analytischen Verfahren und solchen, die auf einem spektralen Modell des
Vokaltraktes beruhen. Die verarbeiteten Wellenformen werden in einer
Datenbank gespeichert, welche in einem rein zeitlichen Format alle
die Informationen zentralisiert, welche mit der Veränderung
der spektralen Hüllkurve
der Sprachsegmente zusammenhängen.
-
Was die bevorzugte Implementation
der hier beschriebenen Erfindung anbetrifft, so beschreibt 3 die folgenden Schritte:
-
- 1. Den Analyserahmen wird eine feste Länge und Verschiebung
(durch S bezeichnet) zugewiesen. Anstelle einer Abschätzung der
spektralen Hüllkurve
eines jeden Analyserahmens durch eine Cepstralanalyse und eine Berechnung
ihre inversen FFT (wie von Yazu und Yamada durchgeführt) wird
der Analysealgorithmus des mächtigen
MBE (Multi-Banderregung)
Modells angewandt, welches die Frequenz, die Amplitude und die Phase einer
jeden Harmonischen des Analyserahmens berechnet. Die spektrale Hüllkurve
wird dann für einen
jeden Rahmen abgeleitet und eine Abänderung der Frequenzen und
Amplituden der Harmonischen findet statt, ohne dass sich diese Hüllkurve ändert, um
so eine feste Grundfrequenz zu erzielen, die gleich groß ist wie
die Analyseverschiebung S (d. h. das Spektrum wird in dem Frequenzbereich „re-harmonisiert"). Phasen der niedrigeren
Harmonischen werden auf einen Satz von festen Werten eingestellt
(d. h. ein Wert, der ein für alle
Mal für
eine gegebene Ordnungszahl der Harmonischen gewählt wird). Die Wellenformen
des Zeitbereichs werden dann aus den Harmonischen durch Berechnung
einer Summe von Sinuskurven gewonnen, die Frequenzen, Amplituden
und Phasen werden denen der Harmonischen gleichgesetzt. Im Gegensatz
zu der Erfindung von Yazu und Yamada sind die Wellenformen nicht
symmetrisch, da die Phasen nicht auf Null gesetzt worden sind (es
gab keine andere Wahl bei dem vorhergehenden Verfahren). Weiterhin
werden die erzielten präzisen
Wellenformen nicht durch den Algorithmus auferlegt, weil sie streng
von den festen Phasenwerten abhängen,
die vor der Resynthese auferlegt werden. Anstatt die vollständige Wellenform
in einer Segmentdatenbank zu speichern, wird nur eine Periode der
Wellenform festgehalten, da sie durch den Aufbau (Summe der Harmonischen)
vollkommen periodisch ist. Diese Periode kann auseinander gefaltet
werden, um die entsprechende unendliche Wellenform zu erzielen,
wie sie für
den nächsten
Schritt erfordert ist.
- 2. Bei den stimmhaften Teilen von Sprachsegmenten wird eine
Analyse durch Gewichtung der zuvor erwähnten resynthetisierten Wellenform (gewonnen
aus dem Durchlaufen einer ihrer Perioden, die als eine Summe von
Harmonischen berechnet worden ist) mit einem Fenster mit einer festen
Länge durchgeführt. Das
Gewichtungsfenster hat eine Form, welche an ihren Rändern bis
auf Null herunter abnimmt, und seine Länge ist genau zweimal so groß wie der
Wert von S, und daher auch zweimal so groß wie die Grundperiode der
resynthetisierten Sprache, die in Schritt 1 erzielt worden ist.
Eines von solchen Fenstern wird aus einer jeden der in dem Schritt
1 abgeleiteten unendlichen Wellenform genommen.
- 3. Die Signale, die aus dem Arbeitsschritt der Gewichtung resultieren,
werden überlappt
und gegenseitig in Bezug aufeinander verschoben, dabei wird die
Verschiebung an die Grundperiode der Sprache angepasst, die synthetisiert
werden soll, kleiner oder größer als
S, entsprechend der prosodischen Information, die sich auf die Grundperiode
zu dem Zeitpunkt der Synthese bezieht. Eine synthetische Sprache
wird durch das Summieren dieser verschobenen Signale erzielt.
-
Die Erfindung macht es möglich, in
dem Zeitbereich spektrale Diskontinuitäten auf Grund des festen Satzes
an Phasen auszugleichen, die auf die Perioden während des Schrittes der Resynthese
für die Harmonischen
unterer Ordnung angewandt werden, da eine Interpolation zwischen
zwei solchen Perioden in dem Zeitbereich dann gleichwertig zu einer
Interpolation in dem Frequenzbereich ist.