DE3733391C2 - - Google Patents
Info
- Publication number
- DE3733391C2 DE3733391C2 DE3733391A DE3733391A DE3733391C2 DE 3733391 C2 DE3733391 C2 DE 3733391C2 DE 3733391 A DE3733391 A DE 3733391A DE 3733391 A DE3733391 A DE 3733391A DE 3733391 C2 DE3733391 C2 DE 3733391C2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- voice
- time
- library
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000009826 distribution Methods 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Description
Die Erfindung betrifft ein Verfahren zur Spracherkennung nach
dem Oberbegriff des Anspruches 1.
Ein derartiges Verfahren zur Spracherkennung ist aus der DE
35 22 364 A1 bekannt. Dabei gelangt ein System zum Erkennen
von Sprache zur Anwendung, bei welchem ein Vektor-Quantisierungsverfahren
realisiert wird, wobei ein Sprachmuster bzw.
ein Musterwort in Rahmen einer Zeit-Frequenz-Verteilung aufgeteilt
wird. Ferner gelangt bei diesem bekannten System ein
Filtersystem zur Anwendung, um eine Frequenzanalyse vorzunehmen,
um bestimmte Frequenzanteile aus einem Sprachmuster oder
Stimmenmuster gewinnen zu können. Es wird bei dem bekannten
System ein Eingangs-Sprachmuster mit einem binären Stimmenmuster
einer Anzahl bekannter Registrierungsworte verglichen,
um anhand eines derartigen Vergleichs zu ermitteln, mit welchem
Registrierungsmuster eine höchste Ähnlichkeit vorhanden
ist.
In der EP 01 14 500 A1 ist ein Gerät zur kontinuierlichen
Spracherkennung beschrieben, welches eine Datenerzeugungsschaltung
enthält, um Merkmalsmusterdaten zu berechnen,
die jeweils N-Rahmenmerkmalsparameterdaten von mehreren
Wortperioden enthalten und die jedesmal dann Bezugsmusterdaten
enthalten, wenn eine Ein-Rahmenperiode verstrichen
ist. Es werden dabei unter den berechneten Ähnlichkeitsdaten
aufeinanderfolgend Daten mit maximaler Ähnlichkeit erzeugt.
Mit Hilfe einer Erkennungsschaltung wird eine Reihe
von kontinuierlichen Wortperioden erfaßt, die zu einer
höchsten Ähnlichkeitssumme führen, und zwar innerhalb
eines Sprachintervalls entsprechend den Ähnlichkeitsdaten
von der genannten Datenerzeugungsschaltung. Die genannte
Erkennungsschaltung erkennt die Wortreihen als effektive
Wortdaten, welche den erfaßten Folgen von kontinuierlichen
Wortperioden entsprechen. Die Ähnlichkeitsdaten in jeder
Wortperiode werden dadurch erhalten, indem Partial-Ähnlichkeitsdaten
zwischen den Merkmalsparameterdaten jedes
Rahmens und der Bezugsparameterdaten berechnet werden, wobei
die N-Partial-Ähnlichkeitsdaten während der Wortperiode
erhalten werden. Auf dieser Grundlage kann effektiv und
zuverlässig ein kontinuierlicher Spracheingang eines nicht
spezifizierten Sprechers erkannt werden.
Aus der Literaturstelle: Sickert, Klaus "Automatische
Spracheingabe und Sprachausgabe", Haar bei München, Verlag
Markt & Technik, 1983, Seiten 244 bis 254, ist das Grundprinzip
der Erkennung einer Stimme beschrieben, wonach ein
Eingangs-Stimmenmuster in eine Vielzahl von Rahmen aufgeteilt
wird, um einen Vektorraum zu bilden, wobei jeder
Rahmen eine Vielzahl von Vektoren enthält. Es wird ferner
eine Klassifizierung durchgeführt, wonach ein unbekanntes
Testmuster einer bestimmten Klassenzugehörigkeit zugewiesen
wird, wobei der sog. Merkmalsvektor ein entscheidendes
Kriterium darstellt.
Dieses und auch die vorausgehend erläuterten Systeme benötigen
jedoch für eine Spracherkennung bzw. Worterkennung
oder Stimmidentifizierung einen Speicher mit extrem hoher
Speicherkapazität.
Die der Erfindung zugrundeliegende Aufgabe besteht darin,
ein Verfahren zur Spracherkennung der angegebenen Gattung
zu schaffen, welches die Möglichkeit bietet, mit einer im
Vergleich zum Stand der Technik erheblich reduzierten
Speicherkapazität auskommen zu können.
Diese Aufgabe wird erfindungsgemäß durch die im Kennzeichnungsteil
des Anspruches 1 aufgeführten Merkmale gelöst.
Das erfindungsgemäße Verfahren kann so durchgeführt werden,
daß das Eingangs-Sprach- oder Stimmenmuster zunächst
einer Frequenzanalyse unterworfen wird, um eine Zeit-Frequenz-Verteilung
zu erzeugen, wobei aus dieser Zeit-Frequenz-Verteilung
bestimmte Frequenzabschnitte extrahiert
werden. Dabei entsteht ein Zeit-Frequenz-Verteilungsmuster,
welches bei dem nachfolgenden Klassifizierungsschritt
verwendet wird. Bei einem ersten Anpassungsschritt
wird das eingegebene Stimmenmuster in jede der Anzahl von
Archivmustern für eine vorbestimmte Anzahl von z. B. 20
Rahmen in den jeweiligen Zeit-Frequenz-Verteilungsmustern
verglichen, wobei anhand bestimmter Auswahlkriterien (z. B.
lokale Scheitelwerte) eine vorher bestimmte Anzahl von
Archiv-Sprachmustern ausgewählt wird (also beispielsweise
ebenfalls 20 Archiv-Sprachmuster), deren lokale Scheitelwerte
nahe oder am nächsten von den Scheitelwerten des
eingegebenen Stimmenmusters gelegen sind. Die ausgewählten
Kandidaten werden dann in einen Kandidatenspeicher übertragen.
Es folgt dann der zweite Anpassungsschritt, wonach das
eingegebene Stimmenmuster nunmehr vollständig mit jedem
der ausgewählten Kandidaten-Archiv-Stimmenmuster mit Hilfe
der Hauptbestandteilsanalyse verglichen wird, wobei ein
Eigenvektor mit einem von Null verschiedenen kleinsten
Eigenwert die entscheidende Rolle spielt. Durch die Bestimmung
des Eigenvektors mit dem von Null verschiedenen
kleinsten Eigenwert wird die Spannweite der Werteverteilung
von inneren Produkten, die bei der Identifizierung
verwendet werden, relativ umfangreich begrenzt, wodurch
eine geringere Speicherkapazität zum Speichern der Häufigkeitsverteilung
von inneren Produkten erforderlich wird.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen
der Erfindung ergeben sich aus den Unteransprüchen 2 und
3.
Im folgenden wird die Erfindung anhand von Ausführungsbeispielen
unter Hinweis auf die Zeichnung näher erläutert.
Es zeigt
Fig. 1 ein Blockdiagramm eines Spracherkennungssystems
gemäß einer Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 2 eine schematische Darstellung eines Beispiels
eines Sprachmusters, das bei der Erfindung anwendbar
ist, und
Fig. 3 einen Graphen, in welchem eine Häufigkeitsverteilung
von inneren Produkten zwischen einem Bibliotheksmuster
I und mehreren eingegebenen
Mustern II und III dargestellt ist.
In Fig. 2 ist ein Sprachmuster für ein Wort "shita" dargestellt,
welches, wenn es in dem Klang der japanischen Sprache
ausgesprochen wird, im englichen "down" bedeutet. Ein
derartiges Sprachmuster kann gebildet werden, indem ein
Sprachsignal in einem vorherbestimmten Zeitintervall, beispielsweise
von 10 ms, in einer Anzahl vorherbestimmter Frequenzbänder
beispielsweise mittels Bandpaß-Filtern abgetastet bzw. aufgeteilt
wird und die örtlichen Spitzenwerte in jeder Ansammlung von
abgetasteten Daten quantisiert werden. Die Daten können
umgesetzt werden, indem sie dann beispielsweise binär-bewertete
Daten sind, indem eine Methode angewendet wird, die
beispielsweise in der US-PS 46 34 966 beschrieben ist, welches
den Erfindern der vorliegenden Anmeldung erteilt worden
ist.
In dem in Fig. 2 dargestellten Sprachmuster liegt das Muster
in einer Matrixform vor und hat neun Spalten und 34 Zeilen.
Hierbei weist jede Zeile die Daten auf, welche durch Abtasten
in einem ganz bestimmten Abtast-Zeitabschnitt erhalten
worden sind, und jede Zeile wird daher auch Rahmen genannt.
Mit anderen Worten, wenn eine eingegebene Sprache in
einem vorher bestimmten Zeitintervall in einer Anzahl vorherbestimmter
Frequenzbänder, welche voneinander verschieden
sind, abgetastet wird, wird eine Zeit-Frequenz-Verteilung
erhalten. Eine solche Zeit-Frequenz-Verteilung kann verarbeitet
werden, um das in Fig. 2 dargestellte Sprachmuster
festzulegen. In dem speziellen, in Fig. 2 dargestellten
Sprachmuster legen die linken drei Spalten A bis C eine
kombinierte Frequenzinformation fest. Das heißt, die Spalte
A enthält kombinierte Daten für einen niederfrequenten Bereich,
die Spalte B enthält kombinierte Daten für einen
mittleren Frequenzbereich, und die Spalte C enthält kombinierte
Daten für einen hochfrequenten Bereich. Mit anderen
Worten, die in der Frequenz analysierten Daten, die aus einer
Anzahl Bandpaßfilter in einem vorherbestimmten Zeitintervall
erhalten worden sind, sind in drei Frequenzbereichen,
nämlich nieder-, mittel- und hochfrequente Bereiche zusammengefaßt,
und diese jeweiligen kombinierten bzw. zusammengefaßten
Daten sind in den entsprechenden, den nieder-,
mittel- und hochfrequenten Bereichen entsprechenden Spalten
angeordnet. Eine Spalte D enthält Daten, welche ein sprachloses
bzw. stummes Intervall anzeigen, und Spalten E und F
enthalten hervorgehobene nieder- und hochfrequente Daten,
welche durch Verarbeiten der bezüglich der Frequenz analysierten
Daten in einer vorherbestimmten, dem Fachmann geläufigen
Weise erhalten worden sind.
Von Bedeutung ist auch, daß das in Fig. 2 dargestellte
Sprachmuster drei mit G bezeichnete Spalten enthält, welche
drei binäre Zahlen enthalten, welche einen binärkodierten
Dezimalkode (B.C.D. code) anzeigen, welcher Zeit anzeigt.
Beispielsweise haben die ersten 15 Rahmen "000" in
der Zeitspalte G, und dies zeigt an, daß die ersten 15 Rahmen
in einem vorherbestimmten Zeitintervall, z. B. 10 ms, für
einen ersten Zeitabschnitt von etwa 15 × 10 ms = 150 ms abgetastet
worden sind. Die nächsten sechzehn Rahmen haben
"001" in der Zeitspalte G, und dies zeigt an, daß die nächsten
sechzehn Rahmen in dem vorherbestimmten Zeitintervall,
z. B. 10 ms, für das folgende zweite Zeitintervall von etwa
16 × 10 ms = 160 ms abgetastet worden ist, was vorzugsweise im
wesentlichen gleich dem ersten Zeitabschnitt ist. Auf diese
Weise werden eine Anzahl Rahmen in einem vorherbestimmten
Zeitintervall für einen vorherbestimmten Zeitabschnitt abgetastet,
welcher beliebig eingestellt werden kann, aber vorzugsweise
wesentlich größer als das Abtastzeitintervall eingestellt
wird.
Da jeder Rahmen oder jede Zeile des in Fig. 2 dargestellten
Sprachmusters neun Elemente hat oder das in Fig. 2 dargestellte
Muster neun Spalten hat, kann das in Fig. 2 dargestellte
Sprachmuster als eines betrachtet werden, das aus
einer Anzahl N von neun Dimensionsvektoren gebildet ist. Wie
im einzelnen später noch beschrieben wird, wird gemäß dem
Grundgedanken der Erfindung des Sprachmuster in einer in
Fig. 2 dargestellten Matrixform der bekannten Hauptbestandteil-Analyse
unterzogen, um einen Nicht-Null-Minimum-Eigenvektor
festzulegen, welcher einen von Null verschiedenen minimalen
Eigenwert hat und dann werden innere Produkte zwischen
dem auf diese Weise erhaltenen Eigenvektor und den Rahmen
des Musters der Fig. 2 berechnet. Die sich ergebenen inneren
Produkte werden in einer Häufigkeitsverteilung in
einer Anzahl von (z. B. acht) Intervallen aufgetragen, die im
Wert zueinander unterschiedlich sind, um dadurch ein Histogramm
der inneren Produkte festzulegen. Dieses Histogramm
innerer Produkte wird als eine Identifizierung einer ganz
bestimmten Stimme bzw. Sprache verwendet.
In Fig. 1 ist in Blockform ein Spracherkennungssystem gemäß
einer Ausführungsform mit Merkmalen nach der Erfindung dargestellt. Das dargestellte
Spracherkennungssystem weist eine Vorverarbeitungseinheit
1 auf, in welcher ein Sprachsignal eingegeben wird,
das beispielsweise mittels eines Mikrophons aus einer Sprache
umgesetzt worden ist, die von einem Redner ausgesprochen
worden ist. Die Vorverarbeitungseinheit 1 weist beispielsweise
einen Sprech-Intervalldetektor auf, in welchem der
Energiepegel des Sprachsignals überwacht wird, um ein
Sprechintervall mit Hilfe eines Schwellenwertpegels zu bestimmen.
Üblicherweise weist die Vorverarbeitungseinheit 1
auch eine Filterbank auf, welche aus einer Anzahl Bandpaßfilter
gebildet ist, welche hinsichtlich des Frequenzbereichs
voneinander verschieden sind. Wenn im Ergebnis das Sprachsignal
durch die Vorverarbeitungseinheit 1 verarbeitet ist,
wird das in eine Anzahl verschiedener Frequenzbereiche zerlegte Sprachsignal
digitalisiert.
Die auf diese Weise erhaltenen, digitalisierten
Sprachsignale werden dann an eine Merkmal-Parametereinheit
2 abgegeben, in welcher die digitalisierten
Sprachdaten in einer vorherbestimmten Weise verarbeitet werden,
um ein Sprachmuster beispielsweise der in Fig. 2 dargestellten
Form zu bilden. Das auf diese Weise gebildete
Sprachmuster wird dann einer partiellen Anpassungs- und Vorbereitungs-Auswahleinheit
3 zugeführt, in welcher das auf
diese Weise zugeführte Sprachmuster mit einer Anzahl Bibliotheksmuster
verglichen wird, welche jeweils
einer bekannten, in einem Speicher gespeicherten Sprache
oder Stimme entsprechen. In diesem Fall wird das eingegebene
Sprachmuster (Wort) partiell mit jedem der Archivmuster, beispielsweise
mit einer vorherbestimmten Anzahl von ersten
Rahmen, verglichen, um mögliche Kandidaten aus der Sammlung
der Archivmuster auszuwählen, wobei die Kandidaten an einen
Kandidatenspeicher 6 übertragen werden. Danach wird das eingegebene
Sprachmuster (Wort) im Ganzen mit jedem der Kandidatenworte
verglichen, indem ein Ähnlichkeitsgrad mittels einer Ähnlichkeits-Berechnungseinheit
4 berechnet wird, und das Kandidatenwort
mit dem höchsten Ähnlichkeitsgrad wird als ein
erkanntes Ergebnis abgegeben.
In der bevorzugten Ausführungsform der Erfindung wird ein
Sprachsignal einer Frequenzanalyse unterworfen, um eine
Zeit-Frequenz- oder zeit-spektrale Verteilung zu erzeugen,
und örtliche Spitzenwerte, welche als Formanten betrachtet
werden können, werden extrahiert und als Merkmale des
Sprachsignals benutzt. Der Anpassungsprozeß wird vorzugsweise
in zwei Schritten durchgeführt. Das heißt, bei dem
ersten Anpassungsschritt wird das eingegebene Sprachmuster
mit jeder der Anzahl Archivmuster für eine vorherbestimmte
Anzahl von z. B. 20 Rahmen von dem ersten Rahmen in den jeweiligen
Zeit-Frequenz-Verteilungsmustern verglichen, wobei
der Stelle von lokalen Scheitelwerten Beachtung geschenkt
wird. Eine vorherbestimmte Anzahl z. B. 20, dieser Archiv-Sprachmuster,
deren lokale Scheitelwerte näher bei demjenigen
des eingegebenen Sprachmusters lokalisiert sind, werden
als mögliche Kandidaten ausgewählt und an den Kandidatenspeicher
6 übertragen. Bei dem zweiten Anpassungsschritt
wird dann das eingegebene Sprachmuster nunmehr vollständig
mit jedem der auf diese Weise ausgewählten Kandidaten-Archivsprachmuster
mit Hilfe der Hauptbestandteil-Analyse verglichen,
wie nachstehend noch im einzelnen beschrieben wird.
Das Sprachmuster einer in Fig. 2 dargestellten zeit-spektralen
Verteilung enthält eine Anzahl Rahmen, die jeweils eine
Zeile festlegen und als ein Element in einem Vektorraum betrachtet
werden können. Folglich kann jeder Rahmen als ein
Punkt Xi in dem neundimensionalen Vektorraum betrachtet werden,
welcher durch den folgenden Ausdruck festgelegt ist:
Xi = (Xi₁, Xi₂, . . ., Xi₉) (1)
wobei i = 1, 2, . . . N die Anzahl der Rahmen darstellt.
Ein Eigenvektor R für ein Wort ist durch den folgenden
Ausdruck festgelegt. Hierbei ist zu beachten, daß
ein derartiger Eigenvektor durch ein Sprachmuster des in
Fig. 2 dargestellten Formats für jede bekannte Sprache bzw.
Stimme durch Anwenden der Hauptbestandteil-Analyse bestimmt
werden kann.
R = (r₁, r₂, . . . r₉) (2)
wobei
ist.
Ein inneres Produkt zwischen dem Eigenvektor R und dem Rahmen Xi kann
durch den folgenden Ausdruck festgelegt werden:
Nunmehr wird die Berechnung des inneren Produkts aus Gl. (3)
bei jedem Rahmen angewendet, so daß eine Anzahl von N inneren
Produkten erhalten wird, wenn das Sprachmuster eine Anzahl
von N Rahmen hat. Mit Hilfe der auf diese Weise erhaltenen
inneren Produkte wird eine Häufigkeitsverteilung oder ein
Histogramm von inneren Produkten gebildet, wie in Fig. 2 dargestellt
ist. Diese Operation wird für jede der bekannten
Sprachen oder Stimmen durchgeführt, um ein Histogramm von
inneren Produkten festzulegen, welche als innere Produkte
zwischen dem Eigenvektor R und den Rahmen eines Sprachmusters
erhalten worden sind. Das auf diese Weise erhaltene
Histogramm oder die entsprechende Häufigkeitsverteilung von
inneren Produkten wird als ein Parameter gespeichert, welcher
einer ganz bestimmten Sprache bzw. Stimme oder Wort zugeordnet
ist. Folglich hat das in Fig. 1 dargestellte Spracherkennungssystem
zwei Operationsmode, d. h. einen Registrierungsmode
und einen Erkennungsmode. Wenn das Spracherkennungssystem
in dem Registrierungsmode betrieben wird, wird eine
bekannte Sprache oder Stimme eingegeben, und deren Histogramm
von inneren Produkten, die, wie vorstehend beschrieben,
berechnet worden sind, wird erzeugt und wird als ein Parameter
gespeichert, welcher der bekannten Sprache oder Stimme
zugeordnet ist. Auf dieser Weise werden eine Anzahl bekannter
Sprachen/Stimmen (Worte) als Bibliotheksdaten gespeichert,
welche das Sprachmuster und das Histogramm innerer
Produkte aufweisen. Dann wird das Spracherkennungssystem
in den Erkennungsmode gesetzt, und dann wird eine
eingegebene unbekannte Sprache/Stimme (Wort) mit jedem der Bibliotheksdaten
verglichen, um die Identifizierung
der eingegebenen Sprache/Stimme (Wort) festzustellen bzw.
zu bestimmen.
Es ist wichtig, einen Eigenvektor zu bestimmen, so daß die
Spannweite der Werteverteilung von inneren Produkten begrenzt
wird, um so die Speicherkapazität zu begrenzen, die
zum Speichern der Häufigkeitsverteilung von inneren Produkten
erforderlich ist. Zuerst wird ein Eigenvektor bestimmt,
um so die Streuung oder Abweichung der inneren Produkte
(R, Xi) zu minimieren. Eigenwerte können bestimmt
werden, indem ein bekanntes Eigenwertproblem für ein Sprachmuster
mit einem Matrixformat gelöst wird, wie es in Fig. 2
dargestellt ist. Unter den auf diese Weise bestimmten Eigenwerten
wird dann ein Nicht-Null- und der kleinste Eigenwert
ausgewählt, und dessen entsprechender Eigenvektor für
das spezielle Sprachmuster (Wort) bestimmt und festgestellt. Da auf
diese Weise der kleinste Wert ausgewählt wird, kann die
Spannweite einer Verteilung von inneren Produkten minimiert
werden. Dies ist vorteilhaft, um Speicherkapazität zu
sparen, die zum Speichern der Daten einer Häufigkeits-Verteilung
von inneren Produkten erforderlich ist. Dann wird
ein Histogramm von inneren Produkten bestimmt und zusammen
mit deren Eigenvektor in der Bibliothek 5 gespeichert.
Um die eingegebene unbekannte Sprache/Stimme (Wort) zu identifizieren,
wird eine Berechnung des inneren Produkts zwischen
dem Sprachmuster der eingegebenen Sprache/Stimme, wie in
Fig. 2 dargestellt ist und dem Eigenvektor jeder der Kandidatensprachen
durchgeführt, welche als ein Ergebnis der Vorbereitungsanpassung
ausgewählt worden ist, und wird nunmehr
in dem Kandidatenspeicher 6 gespeichert. Somit ist eine Häufigkeits-Verteilung
oder ein Histogramm von inneren Produkten
für jede der Kandidaten-Stimmen (Worte) bestimmt. Basierend auf
den auf diese Weise erhaltenen Häufigkeitsverteilungen von
inneren Produkten wird bestimmt, welche von den Kandidaten-Stimmen
(Worten) den höchsten Ähnlichkeitswert hat. In Fig. 3 ist ein
Graph dargestellt, welche mehrere Häufigkeitsverteilungen
von inneren Produkten zeigt, wobei auf der Abszisse die Werte
der inneren Produkte und auf der Ordinate die Häufigkeit
des Auftretens aufgetragen ist. Somit kann der Graph der
Fig. 3 dafür angesehen werden, Histogramme festzulegen, welche
anzeigen, daß Werte von inneren Produkten, die in einen
bestimmten Wertebereich fallen, soviel Mal auftreten. Daher
ist die Abszisse in der Tat in eine vorherbestimmte Anzahl
(z. B. 8) Bereichen unterteilt, und folglich ist jede Verteilung
nicht eine kontinuierliche Verteilung, sondern legt
eher ein Histogramm fest.
In Fig. 3 zeigt die ausgezogene Kurve I eine Häufigkeitsverteilung
von inneren Produkten für eine ganz bestimmte
Bibliotheksstimme (Wort) an, und die gestrichelte Kurve II
zeigt eine Häufigkeitsverteilung von inneren Produkten für
ein eingegebenes unbekanntes Sprachmuster an, welches der
ganz bestimmten Bibliotheksstimme entspricht. Da die Verteilungen
I und II für denselben Klang gelten, sind diese
Verteilungen I und II beinahe identisch übereinander angeordnet.
Andererseits zeigen die anderen drei gestrichelten
Verteilungen III Häufigkeitsverteilungen von inneren Produkten
an, welche für verschiedene (Stimmen) Sprachen (Worte) erhalten
worden sind. Wenn auf diese Weise die eingegebene, unbekannte
Stimme (Wort) sich von der Bibliothek Stimme unterscheidet,
unterscheidet sich die Häufigkeitsverteilung
der inneren Produkte drastisch in der Höhe und der seitlichen
Streuung. Folglich kann durch Berechnung des Ähnlichkeitsgrads
in der Häufigkeitsverteilung der inneren Produkte
zwischen eingegebener und Bibliothekssprache (Stimme) die Identität
der eingegebenen Sprache/Stimme (Wort) bestimmt werden.
Wie oben beschrieben, kann durch die Erfindung, da eine
Häufigkeitsverteilung von inneren Produkten und ein Eigenvektor
als Parameter benutzt werden, um eine ganz bestimmte
Bibliothekssprache (Stimme) zu identifizieren, die Speicherkapazität,
die zum Speichern von Bibliothekssprachendaten
erforderlich ist, beträchtlich gemindert werden.
Folglich kann für eine gegebene Speicherkapazität eine
größere Anzahl von Bibliothekssprachdaten gespeichert werden.
Insbesondere kann in dem BTSP-System, in welchem ein
Sprachmuster in Form einer zeit-spektralen Verteilung
binär-bewertet ist, die Berechnung von inneren Produkten
nur durch Addition durchgeführt werden, was besonders vorteilhaft
ist. Außerdem ist durch die Erfindung die Speicherkapazität,
die für eine Bibliothekssprache (Stimme) erforderlich
ist, annähernd 20 Bytes, und die Rechenvorgänge bei
der Spracherkennungs-Verarbeitung sind vereinfacht und
meistens Additionen, so daß für eine Bibliothek von annähernd
50 Sprach Worten eine Spracherkennung mit Hilfe eines
8Bit-Universal-Mikroprozessors hinlänglich durchgeführt
werden kann. Zu beachten ist auch, daß ein Sprachmuster, das
in der vorliegenden Erfindung verwendbar ist, nicht auf das
eine in Fig. 2 dargestellte Muster beschränkt werden sollte.
Ein Sprachmuster mit Rahmen, die jeweils eine Häufigkeits-Information
und eine Zeitinformation haben, kann in der vorliegenden
Erfindung verwendet werden. Beispielsweise können
die Spalten A bis F Daten enthalten, welche ein Teil einer
zeit-spektralen Verteilung sind, welche dadurch erhalten
worden ist, daß ein Sprachsignal einer Frequenzanalyse
unterworfen wird.
Claims (3)
1. Verfahren zur Spracherkennung, wonach aus einem unbekannten
Eingangs-Sprachsignal ein elektrisches Sprachsignal
in Form einer Zeit-Frequenzverteilung gebildet wird, die in
eine Vielzahl von Zeitabschnitten aufgeteilt wird, welche jeweils
hinsichtlich der darin enthaltenen Frequenzen zur Bildung
von Zeitrahmen analysiert werden, das jeweilige Analyseergebnis
in die Form eines Binärmusters gebracht wird, und
die Binärmuster untereinander in Matrixform angeordnet werden,
jede Zeile der Matrix einen Raumvektor bildet, aus dem
durch Transformation ein Eigenvektor gebildet wird, und wonach
die zu einem früheren Zeitpunkt gespeicherte bekannte
Bibliothekssprachsignale hinsichtlich ihrer Eigenvektoren mit
dem unbekannten Eingangs-Sprachsignal zur endgültigen Erkennung
verglichen werden, dadurch gekennzeichnet,
daß
- a) jeder der Zeitrahmen Frequenzdaten und Zeitdaten enthält, und
- b) der Eigenvektor einen von Null verschiedenen kleinsten Eigenwert aufweist, der dadurch bestimmt wird, indem das Binärmuster einer Hauptbestandteils-Analyse unterzogen wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß das unbekannte Eingangs-Sprachsignal
zunächst nur hinsichtlich eines Teils der Zeitrahmen
mit den Bibliothekssprachsignalen verglichen wird, um
Sprachsignalkandidaten zu bilden, die für die endgültige
Erkennung verwendet werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß jedes der Bibliothekssprachsignale
aus Daten gebildet ist, welche ein gesprochenes
Wort darstellen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61236900A JPS6391699A (ja) | 1986-10-03 | 1986-10-03 | 音声認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3733391A1 DE3733391A1 (de) | 1988-04-14 |
DE3733391C2 true DE3733391C2 (de) | 1990-03-29 |
Family
ID=17007421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19873733391 Granted DE3733391A1 (de) | 1986-10-03 | 1987-10-02 | Verfahren zur spracherkennung |
Country Status (5)
Country | Link |
---|---|
US (1) | US4903306A (de) |
JP (1) | JPS6391699A (de) |
DE (1) | DE3733391A1 (de) |
FR (1) | FR2604815B1 (de) |
GB (1) | GB2195803B (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10015858A1 (de) * | 2000-03-30 | 2001-10-11 | Gunthard Born | Verfahren zu einer auf semantische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens |
DE10015859A1 (de) * | 2000-03-30 | 2001-10-11 | Gunthard Born | Verfahren zu einer grammatische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5140668A (en) * | 1987-11-10 | 1992-08-18 | Nec Corporation | Phoneme recognition utilizing relative positions of reference phoneme patterns and input vectors in a feature space |
US5255342A (en) * | 1988-12-20 | 1993-10-19 | Kabushiki Kaisha Toshiba | Pattern recognition system and method using neural network |
US5983179A (en) * | 1992-11-13 | 1999-11-09 | Dragon Systems, Inc. | Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation |
US6092043A (en) * | 1992-11-13 | 2000-07-18 | Dragon Systems, Inc. | Apparatuses and method for training and operating speech recognition systems |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US5625747A (en) * | 1994-09-21 | 1997-04-29 | Lucent Technologies Inc. | Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping |
US6205424B1 (en) * | 1996-07-31 | 2001-03-20 | Compaq Computer Corporation | Two-staged cohort selection for speaker verification system |
CN1144172C (zh) * | 1998-04-30 | 2004-03-31 | 松下电器产业株式会社 | 包括最大似然方法的基于本征音的发言者适应方法 |
US6477203B1 (en) * | 1998-10-30 | 2002-11-05 | Agilent Technologies, Inc. | Signal processing distributed arithmetic architecture |
EP1079615A3 (de) * | 1999-08-26 | 2002-09-25 | Matsushita Electric Industrial Co., Ltd. | System zur Identifizierung und Anpassung des Profiles eines Fernsehbenutzer mittels Sprachtechnologie |
US6738745B1 (en) * | 2000-04-07 | 2004-05-18 | International Business Machines Corporation | Methods and apparatus for identifying a non-target language in a speech recognition system |
TWI312945B (en) * | 2006-06-07 | 2009-08-01 | Ind Tech Res Inst | Method and apparatus for multimedia data management |
US10387805B2 (en) * | 2014-07-16 | 2019-08-20 | Deep It Ltd | System and method for ranking news feeds |
EP3400662B1 (de) * | 2016-01-05 | 2022-01-12 | M.B.E.R. Telecommunication And High-Tech Ltd | System und verfahren zur erkennung von audiomedieninhalt |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5722295A (en) * | 1980-07-15 | 1982-02-05 | Nippon Electric Co | Speaker recognizing system |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
JPS59121098A (ja) * | 1982-12-28 | 1984-07-12 | 株式会社東芝 | 連続音声認識装置 |
JPS59216284A (ja) * | 1983-05-23 | 1984-12-06 | Matsushita Electric Ind Co Ltd | パタ−ン認識装置 |
JPS6057475A (ja) * | 1983-09-07 | 1985-04-03 | Toshiba Corp | パタ−ン認識方式 |
JPS60198597A (ja) * | 1984-03-22 | 1985-10-08 | 株式会社リコー | 音声スペクトルの2値化装置 |
DE3522364A1 (de) * | 1984-06-22 | 1986-01-09 | Ricoh Co., Ltd., Tokio/Tokyo | System zum erkennen von sprache |
-
1986
- 1986-10-03 JP JP61236900A patent/JPS6391699A/ja active Pending
-
1987
- 1987-09-29 US US07/102,559 patent/US4903306A/en not_active Expired - Fee Related
- 1987-10-02 DE DE19873733391 patent/DE3733391A1/de active Granted
- 1987-10-05 GB GB8723298A patent/GB2195803B/en not_active Expired - Fee Related
- 1987-10-05 FR FR878713743A patent/FR2604815B1/fr not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10015858A1 (de) * | 2000-03-30 | 2001-10-11 | Gunthard Born | Verfahren zu einer auf semantische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens |
DE10015859A1 (de) * | 2000-03-30 | 2001-10-11 | Gunthard Born | Verfahren zu einer grammatische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens |
DE10015858C2 (de) * | 2000-03-30 | 2002-03-28 | Gunthard Born | Verfahren zu einer auf semantische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen |
DE10015859C2 (de) * | 2000-03-30 | 2002-04-04 | Gunthard Born | Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen |
Also Published As
Publication number | Publication date |
---|---|
GB2195803B (en) | 1990-10-10 |
FR2604815B1 (fr) | 1990-02-23 |
US4903306A (en) | 1990-02-20 |
DE3733391A1 (de) | 1988-04-14 |
GB8723298D0 (en) | 1987-11-11 |
JPS6391699A (ja) | 1988-04-22 |
FR2604815A1 (fr) | 1988-04-08 |
GB2195803A (en) | 1988-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3733391C2 (de) | ||
EP0821346B1 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
DE2844156C2 (de) | ||
EP0604476B1 (de) | Verfahren zur erkennung von mustern in zeitvarianten messsignalen | |
EP1405222B1 (de) | Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals | |
DE2953262C2 (de) | ||
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE69930961T2 (de) | Vorrichtung und verfahren zur sprachsegmentierung | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE2919085A1 (de) | Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung | |
DE4031638C2 (de) | ||
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE4031421C2 (de) | Musteranpassungssystem für eine Spracherkennungseinrichtung | |
DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung | |
DE2720666A1 (de) | Verfahren und anordnung zur geraeuschanalyse | |
DE3008830A1 (de) | Verfahren zum betrieb eines spracherkennungsgeraetes | |
DE4209296A1 (de) | Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren | |
DE3048107A1 (de) | Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem | |
DE1194170B (de) | Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE3238300A1 (de) | Verfahren und vorrichtung zur muster- oder zeichenerkennung | |
DE3935308C1 (en) | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction | |
DE19738846C1 (de) | Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |