DE3733391A1 - Verfahren zur spracherkennung - Google Patents

Verfahren zur spracherkennung

Info

Publication number
DE3733391A1
DE3733391A1 DE19873733391 DE3733391A DE3733391A1 DE 3733391 A1 DE3733391 A1 DE 3733391A1 DE 19873733391 DE19873733391 DE 19873733391 DE 3733391 A DE3733391 A DE 3733391A DE 3733391 A1 DE3733391 A1 DE 3733391A1
Authority
DE
Germany
Prior art keywords
library
pattern
language
eigenvector
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19873733391
Other languages
English (en)
Other versions
DE3733391C2 (de
Inventor
Shogo Nakamura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE3733391A1 publication Critical patent/DE3733391A1/de
Application granted granted Critical
Publication of DE3733391C2 publication Critical patent/DE3733391C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Description

Die Erfindung betrifft ein Verfahren zur Spracherkennung und betrifft insbesondere ein Verfahren zum Erkennen einer unbe­ kannten Sprache durch Vergleich mit einer Anzahl bekannter Sprachen, und betrifft insbesondere ein Verfahren zum Erken­ nen einer unbekannten, eingegebenen Sprache, indem ein Ei­ genvektor benutzt wird, welcher durch ein Grundbestandteil- Analyseverfahren erhalten worden ist.
Es ist bereits ein Spracherkennungsverfahren vorgeschlagen worden, in welchem eine Sprache, welche mit einem Wort als einer Einheit erzeugt worden ist, einer binären Verarbeitung unterworfen wird, um ein eingegebenes Muster in Form einer Zeit-Häufigkeits-Verteilung zu bilden, was auch als zeit­ spektrales Muster bezeichnet wird; das eingegebene Muster wird dann durch lineare Anpassung mit einer Anzahl Biblio­ theksmuster verglichen, um so die eingegebene Sprache zu er­ kennen. Dies Spracherkennungsverfahren wird auch das BTSP­ (binäres Zeit-Spektrum-Muster-) Verfahren bezeichnet und es ist einfach und vorteilhaft, da es nicht das sogenannte DP­ (Dynamisches Programmierungs-) Anpassungsverfahren benutzt. Außerdem eignet sich dieses Verfahren ausgezeichnet, um Fre­ quenzschwankungen in dem TSP-Verfahren zu absorbieren, so daß erwartet wird, daß es bei einer unbegrenzten Anzahl von Rednern anwendbar ist. Jedoch ist bei dem herkömmlichen BTSP-Verfahren eine beachtlich große Kapazität zum Spei­ chern einer Anzahl von zeit-spektralen Bibliotheks- oder Ar­ chivmustern erforderlich, so daß ein hochschneller Prozessor geschaffen werden mußte, um ohne Verzögerung eine Erkennungs­ verarbeitung durchzuführen.
Durch die Erfindung sollen die vorstehend beschriebenen Nachteile der herkömmlichen Verfahren vermieden werden und es soll ein Verfahren zum Erkennen einer eingegebenen unbe­ kannten Sprache geschaffen werden, welches in der Struktur einfach ist und welches eine minimale Bibliotheks- oder Ar­ chiv-Speicherkapazität für Bibliotheks- oder Archivdaten er­ fordert. Ein weiteres Ziel der Erfindung besteht darin, ein Spracherkennungsverfahren zu schaffen, welches schnell ar­ beitet und leicht auszuführen ist. Gemäß der Erfindung ist dies bei einem Verfahren zur Spracherkennung durch die Schritte im kennzeichnenden Teil des Anspruchs 1 erreicht. Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfah­ rens sind Gegenstand der Unteransprüche.
Gemäß einer bevorzugten Ausführungsform der Erfindung ist ein Verfahren zum Erkennen einer eingegebenen Sprache ge­ schaffen, bei welchem ein zeit-spektrales Muster mit Zeit­ information und mit einer Anzahl Rahmen aus der eingegebenen Stimme erhalten wird, und das zeit-spektrale Muster einem Hauptbestandteil-Analyseverfahren unterzogen wird, um einen Nicht-Null-Eigenvektor zu bestimmen, welcher dann bei dem zeit-spektralen Muster angewendet wird, um eine Verteilung von inneren Produkten zwischen dem Eigenvektor und den Rah­ men des zeit-spektralen Musters zu bestimmen.
Nachfolgend wird die Erfindung anhand von bevorzugten Ausfüh­ rungsformen unter Bezugnahme auf die anliegenden Zeichnungen im einzelnen erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm eines Spracherkennungssystems gemäß einer Ausführungsform der Erfindung;
Fig. 2 eine schematische Darstellung eines Beispiels eines Sprachmusters, das bei der Erfindung anwend­ bar ist, und
Fig. 3 einen Graphen, in welchem eine Häufigkeitsvertei­ lung von inneren Produkten zwischen einem Biblio­ theks- oder Archivmuster I und mehreren eingegebe­ nen Mustern II und III dargestellt ist.
In Fig. 2 ist ein Sprachmuster für eine Wort "shita" darge­ stellt, welches, wenn es in dem Klang der japanischen Spra­ che ausgesprochen wird, im englischen "down" bedeutet. Ein derartiges Sprachmuster kann gebildet werden, indem ein Sprachsignal in einem vorherbestimmten Zeitintervall, bei­ spielsweise von 10 ms, in einer Anzahl vorherbestimmter Fre­ quenzbänder beispielsweise mittels Bandpaß-Filtern abgetastet wird und die örtlichen Spitzenwerte in jeder Ansammlung von abgetasteten Daten quantisiert werden. Die Daten können umgesetzt werden, indem sie dann beispielsweise binär-be­ wertete Daten sind, indem eine Methode angewendet wird, die beispielsweise in der US-PS 46 34 966 beschrieben ist, wel­ ches den Erfindern der vorliegenden Anmeldung erteilt worden ist.
In dem in Fig. 2 dargestellten Sprachmuster liegt das Muster in einer Matrixform vor und hat neun Spalten und 34 Zeilen. Hierbei weist jede Zeile die Daten auf, welche durch Ab­ tasten in einem ganz bestimmten Abtast-Zeitabschnitt erhal­ ten worden sind, und jede Zeile wird daher auch Rahmen ge­ nannt. Mit anderen Worten, wenn eine eingegebene Sprache in einem vorher bestimmten Zeitintervall in einer Anzahl vor­ herbestimmter Frequenzbänder, welche voneinander verschieden sind, abgegetastet wird, wird eine Zeit-Frequenz-Verteilung erhalten. Eine solche Zeit-Frequenz-Verteilung kann verar­ beitet werden, um das in Fig. 2 dargestellte Sprachmuster festzulegen. In dem speziellen, in Fig. 2 dargestellten Sprachmuster legen die linken drei Spalten A bis C eine kombinierte Frequenzinformation fest. Das heißt, die Spalte A enthält kombinierte Daten für einen niederfrequenten Be­ reich, die Spalte B enthält kombinierte Daten für einen mittleren Frequenzbereich, und die Spalte C enthält kombi­ nierte Daten für einen hochfrequenten Bereich. Mit anderen Worten, die in der Frequenz analysierten Daten, die aus ei­ ner Anzahl Bandpaßfilter in einem vorherbestimmten Zeitinter­ vall erhalten worden sind, sind in drei Frequenzbereichen, nämlich nieder-, mittel- und hochfrequenten Bereichen zusam­ mengefaßt, und diese jeweiligen kombinierten bzw. zusam­ mengefaßten Daten sind in den entsprechenden, den nieder-, mittel- und hochfrequenten Bereichen entsprechenden Spalten angeordnet. Eine Spalte D enthält Daten, welche ein sprachlo­ ses bzw. stummes Intervall anzeigen, und Spalten E und F enthalten hervorgehobene nieder- und hochfrequente Daten, welche durch Verarbeiten der bezüglich der Frequenz analy­ sierten Daten in einer vorherbestimmten, dem Fachmann geläu­ figen Weise erhalten worden sind.
Von Bedeutung ist auch, daß das in Fig. 2 dargestellte Sprachmuster drei mit G bezeichnete Spalten enthält, wel­ che drei binäre Zahlen enthalten, welche einen binärkodier­ ten Dezimalkode (B.C.D. code) anzeigen, welcher Zeit an­ zeigt. Beispielsweise haben die ersten 15 Rahmen "000" in der Zeitspalte G, und dies zeigt an, daß die ersten 15 Rah­ men in einem vorherbestimmten Zeitintervall, z.B. 10 ms, für einen ersten Zeitabschnitt von etwa 15×10 ms=150 ms abge­ tastet worden sind. Die nächsten sechzehn Rahmen haben "001" in der Zeitspalte G, und dies zeigt an, daß die näch­ sten sechzehn Rahmen in dem vorherbestimmten Zeitintervall, z.B. 10 ms, für das folgende zweite Zeitintervall von etwa 16×10 ms=160 ms abgetastet worden ist, was vorzugsweise im wesentlichen gleich dem ersten Zeitabschnitt ist. Auf diese Weise werden eine Anzahl Rahmen in einem vorherbestimmten Zeitintervall für einen vorherbestimmten Zeitabschnitt abge­ tastet, welcher beliebig eingestellt werden kann, aber vor­ zugsweise wesentlich größer als das Abtastzeitintervall ein­ gestellt wird.
Da jeder Rahmen oder jede Zeile des in Fig. 2 dargestellten Sprachmusters neun Elemente hat oder das in Fig. 2 darge­ stellte Muster neun Spalten hat, kann das in Fig. 2 darge­ stellte Sprachmuster als eines betrachtet werden, das aus einer Anzahl N von neun Dimensionsvektoren gebildet ist. Wie im einzelnen später noch beschrieben wird, wird gemäß dem Grundgedanken dar Erfindung das Sprachmuster in einer in Fig. 2 dargestellten Matrixform der bekannten Hauptbestand­ teil-Analyse unterzogen, um einen Nicht-Null-Minimum-Eigen­ vektor festzulegen, und dann werden innere Produkte zwischen dem auf diese Weise erhaltenen Eigenvektor und den Rahmen des Bildmusters der Fig. 2 berechnet. Die sich ergebenen in­ neren Produkte werden in einer Häufigkeitsverteilung in einer Anzahl von (z.B. acht) Intervallen aufgetragen, die im Wert zueinander unterschiedlich sind, um dadurch ein Histo­ gramm der inneren Produkte festzulegen. Dieses Histogramm innerer Produkte wird als eine Identifizierung einer ganz bestimmten Stimme bzw. Sprache verwendet.
In Fig. 1 ist in Blockform ein Spracherkennungssystem gemäß einer Ausführungsform der Erfindung dargestellt. Das dar­ gestellte Spracherkennungssystem weist eine Vorverarbeitungs­ einheit 1 auf, in welcher ein Sprachsignal eingegeben wird, das beispielsweise mittels eines Mikrophons aus einer Spra­ che umgesetzt worden ist, die von einem Redner ausgesprochen worden ist. Die Vorverarbeitungseinheit 1 weist beispiels­ weise einen Sprech-Intervalldetektor auf, in welchem der Energiepegel des Sprachsignals überwacht wird, um ein Sprechintervall mit Hilfe eines Schwellenwertpegels zu be­ stimmen. Üblicherweise weist die Vorverarbeitungseinheit 1 auch eine Filterbank auf, welche aus einer Anzahl Bandpaß­ filter gebildet ist, welche hinsichtlich des Frequenzbereichs voneinander verschieden sind. Wenn im Ergebnis das Sprach­ signal durch die Vorverarbeitungseinheit 1 verarbeitet ist, wird das Sprachsignal in eine Anzahl verschiedener Frequenz­ bereiche digitalisiert. Die auf diese Weise erhaltenen, di­ gitalisierten Sprachsignale werden dann an eine Merkmal-Pa­ rametereinheit 2 abgegeben, in welcher die digitalisierten Sprachdaten in einer vorherbestimmten Weise verarbeitet wer­ den, um ein Sprachmuster beispielsweise der in Fig. 2 dar­ gestellten Form zu bilden. Das auf diese Weise gebildete Sprachmuster wird dann einer partiellen Anpassungs- und Vor­ bereitungs-Auswahleinheit 3 zugeführt, in welcher das auf diese Weise zugeführte Sprachmuster mit einer Anzahl Bib­ liotheks- oder Archivmuster verglichen wird, welche jeweils einer bekannten, in einem Speicher gespeicherten Sprache oder Stimme entsprechen. In diesem Fall wird das eingegebe­ ne Sprachmuster partiell mit jedem der Archivmuster, bei­ spielsweise mit einer vorherbestimmten Anzahl von ersten Rahmen, verglichen, um mögliche Kandidaten aus der Sammlung der Archivmuster auszuwählen, wobei die Kandidaten an einem Kandidatenspeicher 6 übertragen werden. Danach wird das ein­ gegebene Sprachmuster im Ganzen mit jedem der Kandidatenwor­ te verglichen, indem ein Ähnlichkeitsgrad mittels einer Ahn­ lichkeits-Berechnungseinheit 4 berechnet wird, und das Kan­ didatenwort mit dem höchsten Ähnlichkeitsgrad wird als ein erkanntes Ergebnis abgegeben.
In der bevorzugten Ausführungsform der Erfindung wird ein Sprachsignal einer Frequenzanalyse unterworfen, um eine Zeit-Frequenz- oder zeit-spektrale Verteilung zu erzeugen, und örtliche Spitzenwerte, welche als der Formant betrach­ tet werden können, werden extrahiert und als Merkmale des Sprachsignals benutzt. Der Anpassungsprozeß wird vorzugs­ weise in zwei Schritten durchgeführt. Das heißt, bei dem ersten Anpassungsschritt wird das eingegebene Sprachmuster mit jeder der Anzahl Archivmuster für eine vorherbestimmte Anzahl von z.B. 20 Rahmen von dem ersten Rahmen in den je­ weiligen Zeit-Frequenz-Verteilungsmustern verglichen, wobei der Stelle von lokalen Scheitelwerten Beachtung geschenkt wird. Eine vorherbestimmte Anzahl z.B. 20, dieser Archiv- Sprachmustern, deren lokale Scheitelwerte näher bei demjeni­ gen des eingegebenen Sprachmusters lokalisiert sind, werden als mögliche Kandidaten ausgewählt und an den Kandidaten­ speicher 6 übertragen. Bei dem zweiten Anpassungsschritt wird dann das eingegebene Sprachmuster nunmehr vollständig mit jedem der auf diese Weise ausgewählten Kandidaten-Ar­ chivsprachmuster mit Hilfe der Hauptbestandteil-Analyse ver­ glichen, wie nachstehend noch im einzelnen beschrieben wird. Das Sprachmuster einer in Fig. 2 dargestellten zeit-spektra­ len Verteilung enthält eine Anzahl Rahmen, die jeweils eine Zeile festlegen und als ein Element in einem Vektorraum be­ trachtet werden können. Folglich kann jeder Rahmen als ein Punkt Xi in dem neundimensionalen Vektorraum betrachtet wer­ den, welcher durch den folgenden Ausdruck festgelegt ist:
Xi = (Xi₁, Xi₂, . . . Xi₉) (1)
wobei i = 1,2, . . . N ist.
Ein Eigenvektor R für eine Wortsprache ist durch den folgenden Ausdruck festgelegt. Hierbei ist zu beachten, daß ein derartiger Eigenvektor durch ein Sprachmuster des in Fig. 2 dargestellten Formats für jede bekannte Sprache bzw. Stimme durch Anwenden der Hauptbestandteil-Analyse bestimmt werden kann.
R = (r₁, r₂, . . . r₃) (2)
wobei
ist.
Ein inneres Produkt zwischen dem Eigenvektor R und Xi kann durch den folgenden Ausdruck festgelegt werden:
Nunmehr wird die Berechnung des inneres Produkts aus G 1.(3) bei jedem Rahmen angewendet, so daß eine Anzahl von N inneren Produkten erhalten wird, wenn das Sprachmuster eine Anzahl von N Rahmen hat. Mit Hilfe der auf diese Weise erhaltenen inneren Produkte wird eine Häufigkeitsverteilung oder ein Histogramm von inneren Produkten gebildet, wie in Fig. 2 dar­ gestellt ist. Diese Operation wird für jede der bekannten Sprachen oder Stimmen durchgeführt, um ein Histogramm von inneren Produkten festzulegen, welche als innere Produkte zwischen dem Eigenvektor R und den Rahmen eines Sprachmu­ sters erhalten worden sind. Das auf diese Weise erhaltene Histogramm oder die entsprechende Häufigkeitsverteilung von inneren Produkten wird als ein Parameter gespeichert, wel­ cher einer ganz bestimmten Sprache bzw. Stimme zugeordnet ist. Folglich hat das in Fig. 1 dargestellte Spracherken­ nungssystem zwei Operationsmode, d.h. einen Registrierungs­ mode und einen Erkennungsmode. Wenn das Spracherkennungs­ system in dem Registrierungsmode betrieben wird, wird eine bekannte Sprache oder Stimme eingegeben, und deren Histo­ gramm von inneren Produkten, die, wie vorstehend beschrieben, berechnet worden sind, wird erzeugt und wird als ein Para­ meter gespeichert, welcher der bekannten Sprache oder Stimme zugeordnet ist. Auf diese Weise werden eine Anzahl bekann­ ter Sprachen/Stimmen als Bibliotheks- oder Archivdaten ge­ speichert, welche das Sprachmuster und das Histogramm in­ nerer Produkte aufweisen. Dann wird das Spracherkennungs­ system in den Erkennungsmode gesetzt, und dann wird eine eingegebene unbekannte Sprache/Stimme mit jedem der Bib­ liotheks- oder Archivdaten verglichen, um die Identifizie­ rung der eingegebenen Sprache /Stimme festzustellen bzw. zu bestimmen.
Bestimmung von Eigenvektor R
Es ist wichtig, einen Eigenvektor zu bestimmen, so daß die Spannweite der Werteverteilung von inneren Produkten be­ grenzt wird, um so die Speicherkapazität zu begrenzen, die zum Speichern der Häufigkeitsverteilung von inneren Pro­ dukten erforderlich ist. Zuerst wird ein Eigenvektor be­ stimmt, um so die Streuung oder Abweichung der inneren Pro­ dukte (R, Xi) zu minimieren. Eigenwerte können bestimmt werden, indem ein bekanntes Eigenwertproblem für ein Sprach­ muster mit einem Matrixformat gelöst wird, wie es in Fig. 2 dargestellt ist. Unter den auf diese Weise bestimmten Ei­ genwerten wird dann ein Nicht-Null- und der kleinste Eigen­ wert ausgewählt, und dessen entsprechender Eigenvektor für das spezielle Sprachmuster bestimmt und festgelegt. Da auf diese Weise der kleinste Wert ausgewählt wird, kann die Spannweite einer Verteilung von inneren Produkten mini­ miert werden. Dies ist vorteilhaft, um Speicherkapazität zu sparen, die zum Speichern der Daten einer Häufigkeits-Ver­ teilung von inneren Produkten erforderlich ist. Dann wird ein Histogramm von inneren Produkten bestimmt und zusammen mit deren Eigenvektor in der Bibliothek 5 gespeichert.
Erkennungsverarbeitung
Um die eingegebene unbekannte Sprache/Stimme zu identifi­ zieren, wird eine Berechnung des inneren Produkts zwischen dem Sprachmuster der eingegebenen Sprache/Stimme, wie in Fig. 2 dargestellt ist und dem Eigenvektor jeder der Kandi­ datensprachen durchgeführt, welche als ein Ergebnis der Vor­ bereitungsanpassung ausgewählt worden ist, und wird nunmehr in dem Kandidatenspeicher 6 gespeichert. Somit ist eine Häu­ figkeits-Verteilung oder ein Histogramm von inneren Produk­ ten für jeder der Kandidaten-Stimmen bestimmt. Basierend auf den auf diese Weise erhaltenen Häufigkeitsverteilungen von inneren Produkten wird bestimmt, welche von den Kandidaten- Stimmen den höchsten Ahnlichkeitswert hat. In Fig. 3 ist ein Graph dargestellt, welche mehrere Häufigkeitsverteilungen von inneren Produkten zeigt, wobei auf der Abszisse die Wer­ te der inneren Produkte und auf der Ordinate die Häufigkeit des Auftretens aufgetragen ist. Somit kann der Graph der Fig. 3 dafür angesehen werden, Histogramme festzulegen, wel­ che anzeigen, daß Werte von inneren Produkten, die in einen bestimmten Wertebereich fallen, soviel Mal auftreten. Daher ist die Abszisse in der Tat in eine vorherbestimmte Anzahl (z.B. 8) Bereichen unterteilt, und folglich ist jede Vertei­ lung nicht eine kontinuierliche Verteilung, sondern legt eher ein Histogramm fest.
In Fig. 3 zeigt die ausgezogene Kurve I eine Häufigkeits­ verteilung von inneren Produkten für eine ganz bestimmte Bibliotheksstimme an, und die gestrichelte Kurve II zeigt eine Häufigkeitsverteilung von innerenProdukten für eine eingegebene unbekannte Sprache an, welche der ganz bestimmten Bibliotheksstimme entspricht. Da die Ver­ teilungen I und II für denselben Klang gelten, sind diese Verteilungen I und II beinahe identisch übereinander ange­ ordnet. Andererseits zeigen die anderen drei gestrichelten verteilungen III Häufigkeitsverteilungen von inneren Pro­ dukten an, welche für verschiedene (Stimmen) Sprachen erhalten worden sind. Wenn auf diese Weise die eingegebene, unbe­ kannte Stimme sich von der Bibliotheks (Archiv) Stimme un­ terscheidet, unterscheidet sich die Häufigkeitsverteilung der inneren Produkte drastisch in der Höhe und der seitli­ chen Streuung. Folglich kann durch Berechnen des Ahnlich­ keitsgrads in der Häufigkeitsverteilung der inneren Produkte zwischen eingegebener und Bibliothekssprache (Stimme) die Iden­ tität der eigegebenen Sprache/Stimme bestimmt werden.
Wie oben beschrieben, kann gemäß der Erfindung, da eine Häufigkeitsverteilung von innerenProdukten und ein Eigen­ vektor als Parameter benutzt werden, um eine ganz bestimm­ te Bibliothekssprache (Stimme) zu identifizieren, die Spei­ cherkapazität, die zum Speichern von Bibliothekssprachen­ daten erforderlich ist, beträchtlich gemindert werden. Folglich kann für eine gegebene Speicherkapazität eine größere Anzahl von Bibliothekssprachdaten gespeichert wer­ den. Insbesondere kann in dem BTSP-System, in welchem ein Sprachmuster in Form einer zeit-spektralen Verteilung binär-bewertet ist, die Berechnung von inneren Produkten nur durch Addition durchgeführt werden, was besonders vor­ teilhaft ist. Außerdem ist gemäß der Erfindung die Spei­ cherkapazität, die für eine Bibliothekssprache (Stimme) erfor­ derlich ist, annähernd 20 Bytes, und die Rechenvorgänge bei der Spracherkennungs-Verarbeitung sind vereinfacht und meistens Additionen, so daß für eine Bibliothek von annä­ hernd 50 Wort-Sprachen eine Spracherkennung mit Hilfe eines 8-Bit-Universal-Mikroprozessors hinlänglich durchgeführt werden kann. Zu beachten ist auch, daß ein Sprachmuster, das in der vorliegenden Erfindung verwendbar ist, nicht auf das eine in Fig. 2 dargestellte Muster beschränkt werden sollte. Ein Sprachmuster mit Rahmen, die jeweils eine Häufigkeits- Information und eine Zeitinformation haben, kann in der vor­ liegenden Erfindung verwendet werden. Beispielsweise können die Spalten A bis F Daten enthalten, welche ein Teil einer einer zeit-spektralen Verteilung sind, welche dadurch er­ halten worden ist, daß ein Sprachsignal einer Frequenz­ analyse unterworfen wird.

Claims (5)

1. Verfahren zur Spracherkennung, dadurch gekenn­ zeichnet, daß
ein eingegebenes Sprachmuster aus einem eingegebenen Sprachsignal einer eingegebenen unbekannten Sprache gebildet wird, wobei das eingegebene Sprachmuster eine Anzahl Rahmen enthält, die jeweils Frequenz-und Zeitdaten haben;
das eingegebene Sprachmuster mit einem Bibliotheks-Sprach­ muster jeder einer ersten Anzahl von bekannten Bibliotheks­ sprachen teilweise verglichen wird, um eine zweite Anzahl von Kandidaten-Bibliothekssprachen auszuwählen, von denen jede einen Eigenvektor und eine Häufigkeitsverteilung von inneren Produkten zwischen den Rahmen der Bibliotheksspra­ che und des Eigenvektors hat,
eine Häufigkeitsverteilung von inneren Produkten zwischen den Rahmen des eingegebenen Sprachmusters und dem Eigen­ vektor jeder der zweiten Anzahl von Kandidaten-Bibliotheks­ sprachen berechnet wird, und
eine Sprache (Stimme) aus der zweiten Anzahl von Kandidaten- Bibliothekssprachen ausgewählt wird, deren Häufigkeitsver­ teilung der inneren Produkte sehr ähnlich einer der Häufig­ keitsverteilungen von inneren Produkten ist, welche bei dem Berechnungsschritt berechnet worden sind, um dadurch die eingegebene Sprache (Stimme) mittels der auf diese Weise ausgewählten Bibliothekssprachen zu identifizieren.
2. Verfahren nach Anspruch 1, dadurch gekenn­ zeichnet, daß das Sprachmuster eine Matrixform hat, die aus einer ersten, vorherbestimmten Anzahl von Zeilen und aus einer zweiten vorherbestimmten Anzahl von Spalten gebildet ist, wobei jede der ersten vorherbestimmten Anzahl von Zeilen einem entsprechenden der Rahmen entspricht.
3. Verfahren nach Anspruch 1, dadurch gekenn­ zeichnet, daß der Schritt Vergleichen durchgeführt wird, indem eine vorbestimmte Anzahl erster Rahmen des ein­ gegebenen Sprachmusters mit den entsprechenden Rahmen jedes der Bibliothekssprachmuster verglichen wird.
4. Verfahren nach Anspruch 1, dadurch gekenn­ zeichnet, daß jede der Bibliothekssprachen aus Daten gebildet ist, welche ein Wort darstellen.
5. Verfahren nach Anspruch 1, dadurch gekenn­ zeichnet, daß der Eigenvektor ein Nicht-Null- und der kleinste Eigenvektor ist, welcher dadurch erhalten wird, daß das Sprachmuster einer Hauptbestandteils-Analyse unterzogen wird.
DE19873733391 1986-10-03 1987-10-02 Verfahren zur spracherkennung Granted DE3733391A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61236900A JPS6391699A (ja) 1986-10-03 1986-10-03 音声認識方式

Publications (2)

Publication Number Publication Date
DE3733391A1 true DE3733391A1 (de) 1988-04-14
DE3733391C2 DE3733391C2 (de) 1990-03-29

Family

ID=17007421

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19873733391 Granted DE3733391A1 (de) 1986-10-03 1987-10-02 Verfahren zur spracherkennung

Country Status (5)

Country Link
US (1) US4903306A (de)
JP (1) JPS6391699A (de)
DE (1) DE3733391A1 (de)
FR (1) FR2604815B1 (de)
GB (1) GB2195803B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10111056B4 (de) * 2000-04-07 2005-11-10 International Business Machines Corporation Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5140668A (en) * 1987-11-10 1992-08-18 Nec Corporation Phoneme recognition utilizing relative positions of reference phoneme patterns and input vectors in a feature space
US5255342A (en) * 1988-12-20 1993-10-19 Kabushiki Kaisha Toshiba Pattern recognition system and method using neural network
US5983179A (en) * 1992-11-13 1999-11-09 Dragon Systems, Inc. Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5625747A (en) * 1994-09-21 1997-04-29 Lucent Technologies Inc. Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping
US6205424B1 (en) * 1996-07-31 2001-03-20 Compaq Computer Corporation Two-staged cohort selection for speaker verification system
CN1144172C (zh) * 1998-04-30 2004-03-31 松下电器产业株式会社 包括最大似然方法的基于本征音的发言者适应方法
US6477203B1 (en) * 1998-10-30 2002-11-05 Agilent Technologies, Inc. Signal processing distributed arithmetic architecture
EP1079615A3 (de) * 1999-08-26 2002-09-25 Matsushita Electric Industrial Co., Ltd. System zur Identifizierung und Anpassung des Profiles eines Fernsehbenutzer mittels Sprachtechnologie
DE10015859C2 (de) * 2000-03-30 2002-04-04 Gunthard Born Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
DE10015858C2 (de) * 2000-03-30 2002-03-28 Gunthard Born Verfahren zu einer auf semantische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US10387805B2 (en) * 2014-07-16 2019-08-20 Deep It Ltd System and method for ranking news feeds
EP3400662B1 (de) * 2016-01-05 2022-01-12 M.B.E.R. Telecommunication And High-Tech Ltd System und verfahren zur erkennung von audiomedieninhalt

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0114500A1 (de) * 1982-12-28 1984-08-01 Kabushiki Kaisha Toshiba Einrichtung zur Erkennung kontinuierlicher Sprache
DE3522364A1 (de) * 1984-06-22 1986-01-09 Ricoh Co., Ltd., Tokio/Tokyo System zum erkennen von sprache
US4634966A (en) * 1984-03-22 1987-01-06 Ricoh Company, Ltd. Binary processing of sound spectrum

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5722295A (en) * 1980-07-15 1982-02-05 Nippon Electric Co Speaker recognizing system
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
JPS6057475A (ja) * 1983-09-07 1985-04-03 Toshiba Corp パタ−ン認識方式

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0114500A1 (de) * 1982-12-28 1984-08-01 Kabushiki Kaisha Toshiba Einrichtung zur Erkennung kontinuierlicher Sprache
EP0114500B1 (de) * 1982-12-28 1987-03-18 Kabushiki Kaisha Toshiba Einrichtung zur Erkennung kontinuierlicher Sprache
US4634966A (en) * 1984-03-22 1987-01-06 Ricoh Company, Ltd. Binary processing of sound spectrum
DE3522364A1 (de) * 1984-06-22 1986-01-09 Ricoh Co., Ltd., Tokio/Tokyo System zum erkennen von sprache

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sickert, Klaus, Automatische Spracheingabe und Sprachausgabe, Haar b. München, Verlag Markt und Technik, 1983, S.244-252 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10111056B4 (de) * 2000-04-07 2005-11-10 International Business Machines Corporation Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem

Also Published As

Publication number Publication date
GB2195803B (en) 1990-10-10
FR2604815B1 (fr) 1990-02-23
US4903306A (en) 1990-02-20
GB8723298D0 (en) 1987-11-11
JPS6391699A (ja) 1988-04-22
FR2604815A1 (fr) 1988-04-08
DE3733391C2 (de) 1990-03-29
GB2195803A (en) 1988-04-13

Similar Documents

Publication Publication Date Title
DE3819178C2 (de)
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE2844156C2 (de)
DE3733391A1 (de) Verfahren zur spracherkennung
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE2659096C2 (de)
DE3247229C2 (de)
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
EP0925461A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE2825082A1 (de) Verfahren zur spracherkennung
DE4031638C2 (de)
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
WO2005122136A1 (de) Vorrichtung und verfahren zum bestimmen eines akkordtyps, der einem testsignal zugrunde liegt
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP1214703A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE4209296A1 (de) Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren
DE3048107A1 (de) Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem
DE69734507T2 (de) Verfahren zur optimierung eines erkennungswörterbuchs, so das ähnliche muster besser unterschieden werden können
DE19738846C1 (de) Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee