DE3733391C2 - - Google Patents

Info

Publication number
DE3733391C2
DE3733391C2 DE3733391A DE3733391A DE3733391C2 DE 3733391 C2 DE3733391 C2 DE 3733391C2 DE 3733391 A DE3733391 A DE 3733391A DE 3733391 A DE3733391 A DE 3733391A DE 3733391 C2 DE3733391 C2 DE 3733391C2
Authority
DE
Germany
Prior art keywords
speech
voice
time
library
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE3733391A
Other languages
English (en)
Other versions
DE3733391A1 (de
Inventor
Shogo Matsudo Chiba Jp Nakamura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE3733391A1 publication Critical patent/DE3733391A1/de
Application granted granted Critical
Publication of DE3733391C2 publication Critical patent/DE3733391C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Description

Die Erfindung betrifft ein Verfahren zur Spracherkennung nach dem Oberbegriff des Anspruches 1.
Ein derartiges Verfahren zur Spracherkennung ist aus der DE 35 22 364 A1 bekannt. Dabei gelangt ein System zum Erkennen von Sprache zur Anwendung, bei welchem ein Vektor-Quantisierungsverfahren realisiert wird, wobei ein Sprachmuster bzw. ein Musterwort in Rahmen einer Zeit-Frequenz-Verteilung aufgeteilt wird. Ferner gelangt bei diesem bekannten System ein Filtersystem zur Anwendung, um eine Frequenzanalyse vorzunehmen, um bestimmte Frequenzanteile aus einem Sprachmuster oder Stimmenmuster gewinnen zu können. Es wird bei dem bekannten System ein Eingangs-Sprachmuster mit einem binären Stimmenmuster einer Anzahl bekannter Registrierungsworte verglichen, um anhand eines derartigen Vergleichs zu ermitteln, mit welchem Registrierungsmuster eine höchste Ähnlichkeit vorhanden ist.
In der EP 01 14 500 A1 ist ein Gerät zur kontinuierlichen Spracherkennung beschrieben, welches eine Datenerzeugungsschaltung enthält, um Merkmalsmusterdaten zu berechnen, die jeweils N-Rahmenmerkmalsparameterdaten von mehreren Wortperioden enthalten und die jedesmal dann Bezugsmusterdaten enthalten, wenn eine Ein-Rahmenperiode verstrichen ist. Es werden dabei unter den berechneten Ähnlichkeitsdaten aufeinanderfolgend Daten mit maximaler Ähnlichkeit erzeugt. Mit Hilfe einer Erkennungsschaltung wird eine Reihe von kontinuierlichen Wortperioden erfaßt, die zu einer höchsten Ähnlichkeitssumme führen, und zwar innerhalb eines Sprachintervalls entsprechend den Ähnlichkeitsdaten von der genannten Datenerzeugungsschaltung. Die genannte Erkennungsschaltung erkennt die Wortreihen als effektive Wortdaten, welche den erfaßten Folgen von kontinuierlichen Wortperioden entsprechen. Die Ähnlichkeitsdaten in jeder Wortperiode werden dadurch erhalten, indem Partial-Ähnlichkeitsdaten zwischen den Merkmalsparameterdaten jedes Rahmens und der Bezugsparameterdaten berechnet werden, wobei die N-Partial-Ähnlichkeitsdaten während der Wortperiode erhalten werden. Auf dieser Grundlage kann effektiv und zuverlässig ein kontinuierlicher Spracheingang eines nicht spezifizierten Sprechers erkannt werden.
Aus der Literaturstelle: Sickert, Klaus "Automatische Spracheingabe und Sprachausgabe", Haar bei München, Verlag Markt & Technik, 1983, Seiten 244 bis 254, ist das Grundprinzip der Erkennung einer Stimme beschrieben, wonach ein Eingangs-Stimmenmuster in eine Vielzahl von Rahmen aufgeteilt wird, um einen Vektorraum zu bilden, wobei jeder Rahmen eine Vielzahl von Vektoren enthält. Es wird ferner eine Klassifizierung durchgeführt, wonach ein unbekanntes Testmuster einer bestimmten Klassenzugehörigkeit zugewiesen wird, wobei der sog. Merkmalsvektor ein entscheidendes Kriterium darstellt.
Dieses und auch die vorausgehend erläuterten Systeme benötigen jedoch für eine Spracherkennung bzw. Worterkennung oder Stimmidentifizierung einen Speicher mit extrem hoher Speicherkapazität.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren zur Spracherkennung der angegebenen Gattung zu schaffen, welches die Möglichkeit bietet, mit einer im Vergleich zum Stand der Technik erheblich reduzierten Speicherkapazität auskommen zu können.
Diese Aufgabe wird erfindungsgemäß durch die im Kennzeichnungsteil des Anspruches 1 aufgeführten Merkmale gelöst.
Das erfindungsgemäße Verfahren kann so durchgeführt werden, daß das Eingangs-Sprach- oder Stimmenmuster zunächst einer Frequenzanalyse unterworfen wird, um eine Zeit-Frequenz-Verteilung zu erzeugen, wobei aus dieser Zeit-Frequenz-Verteilung bestimmte Frequenzabschnitte extrahiert werden. Dabei entsteht ein Zeit-Frequenz-Verteilungsmuster, welches bei dem nachfolgenden Klassifizierungsschritt verwendet wird. Bei einem ersten Anpassungsschritt wird das eingegebene Stimmenmuster in jede der Anzahl von Archivmustern für eine vorbestimmte Anzahl von z. B. 20 Rahmen in den jeweiligen Zeit-Frequenz-Verteilungsmustern verglichen, wobei anhand bestimmter Auswahlkriterien (z. B. lokale Scheitelwerte) eine vorher bestimmte Anzahl von Archiv-Sprachmustern ausgewählt wird (also beispielsweise ebenfalls 20 Archiv-Sprachmuster), deren lokale Scheitelwerte nahe oder am nächsten von den Scheitelwerten des eingegebenen Stimmenmusters gelegen sind. Die ausgewählten Kandidaten werden dann in einen Kandidatenspeicher übertragen.
Es folgt dann der zweite Anpassungsschritt, wonach das eingegebene Stimmenmuster nunmehr vollständig mit jedem der ausgewählten Kandidaten-Archiv-Stimmenmuster mit Hilfe der Hauptbestandteilsanalyse verglichen wird, wobei ein Eigenvektor mit einem von Null verschiedenen kleinsten Eigenwert die entscheidende Rolle spielt. Durch die Bestimmung des Eigenvektors mit dem von Null verschiedenen kleinsten Eigenwert wird die Spannweite der Werteverteilung von inneren Produkten, die bei der Identifizierung verwendet werden, relativ umfangreich begrenzt, wodurch eine geringere Speicherkapazität zum Speichern der Häufigkeitsverteilung von inneren Produkten erforderlich wird.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen 2 und 3.
Im folgenden wird die Erfindung anhand von Ausführungsbeispielen unter Hinweis auf die Zeichnung näher erläutert. Es zeigt
Fig. 1 ein Blockdiagramm eines Spracherkennungssystems gemäß einer Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 2 eine schematische Darstellung eines Beispiels eines Sprachmusters, das bei der Erfindung anwendbar ist, und
Fig. 3 einen Graphen, in welchem eine Häufigkeitsverteilung von inneren Produkten zwischen einem Bibliotheksmuster I und mehreren eingegebenen Mustern II und III dargestellt ist.
In Fig. 2 ist ein Sprachmuster für ein Wort "shita" dargestellt, welches, wenn es in dem Klang der japanischen Sprache ausgesprochen wird, im englichen "down" bedeutet. Ein derartiges Sprachmuster kann gebildet werden, indem ein Sprachsignal in einem vorherbestimmten Zeitintervall, beispielsweise von 10 ms, in einer Anzahl vorherbestimmter Frequenzbänder beispielsweise mittels Bandpaß-Filtern abgetastet bzw. aufgeteilt wird und die örtlichen Spitzenwerte in jeder Ansammlung von abgetasteten Daten quantisiert werden. Die Daten können umgesetzt werden, indem sie dann beispielsweise binär-bewertete Daten sind, indem eine Methode angewendet wird, die beispielsweise in der US-PS 46 34 966 beschrieben ist, welches den Erfindern der vorliegenden Anmeldung erteilt worden ist.
In dem in Fig. 2 dargestellten Sprachmuster liegt das Muster in einer Matrixform vor und hat neun Spalten und 34 Zeilen. Hierbei weist jede Zeile die Daten auf, welche durch Abtasten in einem ganz bestimmten Abtast-Zeitabschnitt erhalten worden sind, und jede Zeile wird daher auch Rahmen genannt. Mit anderen Worten, wenn eine eingegebene Sprache in einem vorher bestimmten Zeitintervall in einer Anzahl vorherbestimmter Frequenzbänder, welche voneinander verschieden sind, abgetastet wird, wird eine Zeit-Frequenz-Verteilung erhalten. Eine solche Zeit-Frequenz-Verteilung kann verarbeitet werden, um das in Fig. 2 dargestellte Sprachmuster festzulegen. In dem speziellen, in Fig. 2 dargestellten Sprachmuster legen die linken drei Spalten A bis C eine kombinierte Frequenzinformation fest. Das heißt, die Spalte A enthält kombinierte Daten für einen niederfrequenten Bereich, die Spalte B enthält kombinierte Daten für einen mittleren Frequenzbereich, und die Spalte C enthält kombinierte Daten für einen hochfrequenten Bereich. Mit anderen Worten, die in der Frequenz analysierten Daten, die aus einer Anzahl Bandpaßfilter in einem vorherbestimmten Zeitintervall erhalten worden sind, sind in drei Frequenzbereichen, nämlich nieder-, mittel- und hochfrequente Bereiche zusammengefaßt, und diese jeweiligen kombinierten bzw. zusammengefaßten Daten sind in den entsprechenden, den nieder-, mittel- und hochfrequenten Bereichen entsprechenden Spalten angeordnet. Eine Spalte D enthält Daten, welche ein sprachloses bzw. stummes Intervall anzeigen, und Spalten E und F enthalten hervorgehobene nieder- und hochfrequente Daten, welche durch Verarbeiten der bezüglich der Frequenz analysierten Daten in einer vorherbestimmten, dem Fachmann geläufigen Weise erhalten worden sind.
Von Bedeutung ist auch, daß das in Fig. 2 dargestellte Sprachmuster drei mit G bezeichnete Spalten enthält, welche drei binäre Zahlen enthalten, welche einen binärkodierten Dezimalkode (B.C.D. code) anzeigen, welcher Zeit anzeigt. Beispielsweise haben die ersten 15 Rahmen "000" in der Zeitspalte G, und dies zeigt an, daß die ersten 15 Rahmen in einem vorherbestimmten Zeitintervall, z. B. 10 ms, für einen ersten Zeitabschnitt von etwa 15 × 10 ms = 150 ms abgetastet worden sind. Die nächsten sechzehn Rahmen haben "001" in der Zeitspalte G, und dies zeigt an, daß die nächsten sechzehn Rahmen in dem vorherbestimmten Zeitintervall, z. B. 10 ms, für das folgende zweite Zeitintervall von etwa 16 × 10 ms = 160 ms abgetastet worden ist, was vorzugsweise im wesentlichen gleich dem ersten Zeitabschnitt ist. Auf diese Weise werden eine Anzahl Rahmen in einem vorherbestimmten Zeitintervall für einen vorherbestimmten Zeitabschnitt abgetastet, welcher beliebig eingestellt werden kann, aber vorzugsweise wesentlich größer als das Abtastzeitintervall eingestellt wird.
Da jeder Rahmen oder jede Zeile des in Fig. 2 dargestellten Sprachmusters neun Elemente hat oder das in Fig. 2 dargestellte Muster neun Spalten hat, kann das in Fig. 2 dargestellte Sprachmuster als eines betrachtet werden, das aus einer Anzahl N von neun Dimensionsvektoren gebildet ist. Wie im einzelnen später noch beschrieben wird, wird gemäß dem Grundgedanken der Erfindung des Sprachmuster in einer in Fig. 2 dargestellten Matrixform der bekannten Hauptbestandteil-Analyse unterzogen, um einen Nicht-Null-Minimum-Eigenvektor festzulegen, welcher einen von Null verschiedenen minimalen Eigenwert hat und dann werden innere Produkte zwischen dem auf diese Weise erhaltenen Eigenvektor und den Rahmen des Musters der Fig. 2 berechnet. Die sich ergebenen inneren Produkte werden in einer Häufigkeitsverteilung in einer Anzahl von (z. B. acht) Intervallen aufgetragen, die im Wert zueinander unterschiedlich sind, um dadurch ein Histogramm der inneren Produkte festzulegen. Dieses Histogramm innerer Produkte wird als eine Identifizierung einer ganz bestimmten Stimme bzw. Sprache verwendet.
In Fig. 1 ist in Blockform ein Spracherkennungssystem gemäß einer Ausführungsform mit Merkmalen nach der Erfindung dargestellt. Das dargestellte Spracherkennungssystem weist eine Vorverarbeitungseinheit 1 auf, in welcher ein Sprachsignal eingegeben wird, das beispielsweise mittels eines Mikrophons aus einer Sprache umgesetzt worden ist, die von einem Redner ausgesprochen worden ist. Die Vorverarbeitungseinheit 1 weist beispielsweise einen Sprech-Intervalldetektor auf, in welchem der Energiepegel des Sprachsignals überwacht wird, um ein Sprechintervall mit Hilfe eines Schwellenwertpegels zu bestimmen. Üblicherweise weist die Vorverarbeitungseinheit 1 auch eine Filterbank auf, welche aus einer Anzahl Bandpaßfilter gebildet ist, welche hinsichtlich des Frequenzbereichs voneinander verschieden sind. Wenn im Ergebnis das Sprachsignal durch die Vorverarbeitungseinheit 1 verarbeitet ist, wird das in eine Anzahl verschiedener Frequenzbereiche zerlegte Sprachsignal digitalisiert. Die auf diese Weise erhaltenen, digitalisierten Sprachsignale werden dann an eine Merkmal-Parametereinheit 2 abgegeben, in welcher die digitalisierten Sprachdaten in einer vorherbestimmten Weise verarbeitet werden, um ein Sprachmuster beispielsweise der in Fig. 2 dargestellten Form zu bilden. Das auf diese Weise gebildete Sprachmuster wird dann einer partiellen Anpassungs- und Vorbereitungs-Auswahleinheit 3 zugeführt, in welcher das auf diese Weise zugeführte Sprachmuster mit einer Anzahl Bibliotheksmuster verglichen wird, welche jeweils einer bekannten, in einem Speicher gespeicherten Sprache oder Stimme entsprechen. In diesem Fall wird das eingegebene Sprachmuster (Wort) partiell mit jedem der Archivmuster, beispielsweise mit einer vorherbestimmten Anzahl von ersten Rahmen, verglichen, um mögliche Kandidaten aus der Sammlung der Archivmuster auszuwählen, wobei die Kandidaten an einen Kandidatenspeicher 6 übertragen werden. Danach wird das eingegebene Sprachmuster (Wort) im Ganzen mit jedem der Kandidatenworte verglichen, indem ein Ähnlichkeitsgrad mittels einer Ähnlichkeits-Berechnungseinheit 4 berechnet wird, und das Kandidatenwort mit dem höchsten Ähnlichkeitsgrad wird als ein erkanntes Ergebnis abgegeben.
In der bevorzugten Ausführungsform der Erfindung wird ein Sprachsignal einer Frequenzanalyse unterworfen, um eine Zeit-Frequenz- oder zeit-spektrale Verteilung zu erzeugen, und örtliche Spitzenwerte, welche als Formanten betrachtet werden können, werden extrahiert und als Merkmale des Sprachsignals benutzt. Der Anpassungsprozeß wird vorzugsweise in zwei Schritten durchgeführt. Das heißt, bei dem ersten Anpassungsschritt wird das eingegebene Sprachmuster mit jeder der Anzahl Archivmuster für eine vorherbestimmte Anzahl von z. B. 20 Rahmen von dem ersten Rahmen in den jeweiligen Zeit-Frequenz-Verteilungsmustern verglichen, wobei der Stelle von lokalen Scheitelwerten Beachtung geschenkt wird. Eine vorherbestimmte Anzahl z. B. 20, dieser Archiv-Sprachmuster, deren lokale Scheitelwerte näher bei demjenigen des eingegebenen Sprachmusters lokalisiert sind, werden als mögliche Kandidaten ausgewählt und an den Kandidatenspeicher 6 übertragen. Bei dem zweiten Anpassungsschritt wird dann das eingegebene Sprachmuster nunmehr vollständig mit jedem der auf diese Weise ausgewählten Kandidaten-Archivsprachmuster mit Hilfe der Hauptbestandteil-Analyse verglichen, wie nachstehend noch im einzelnen beschrieben wird.
Das Sprachmuster einer in Fig. 2 dargestellten zeit-spektralen Verteilung enthält eine Anzahl Rahmen, die jeweils eine Zeile festlegen und als ein Element in einem Vektorraum betrachtet werden können. Folglich kann jeder Rahmen als ein Punkt Xi in dem neundimensionalen Vektorraum betrachtet werden, welcher durch den folgenden Ausdruck festgelegt ist:
Xi = (Xi₁, Xi₂, . . ., Xi₉) (1)
wobei i = 1, 2, . . . N die Anzahl der Rahmen darstellt.
Ein Eigenvektor R für ein Wort ist durch den folgenden Ausdruck festgelegt. Hierbei ist zu beachten, daß ein derartiger Eigenvektor durch ein Sprachmuster des in Fig. 2 dargestellten Formats für jede bekannte Sprache bzw. Stimme durch Anwenden der Hauptbestandteil-Analyse bestimmt werden kann.
R = (r₁, r₂, . . . r₉) (2)
wobei
ist.
Ein inneres Produkt zwischen dem Eigenvektor R und dem Rahmen Xi kann durch den folgenden Ausdruck festgelegt werden:
Nunmehr wird die Berechnung des inneren Produkts aus Gl. (3) bei jedem Rahmen angewendet, so daß eine Anzahl von N inneren Produkten erhalten wird, wenn das Sprachmuster eine Anzahl von N Rahmen hat. Mit Hilfe der auf diese Weise erhaltenen inneren Produkte wird eine Häufigkeitsverteilung oder ein Histogramm von inneren Produkten gebildet, wie in Fig. 2 dargestellt ist. Diese Operation wird für jede der bekannten Sprachen oder Stimmen durchgeführt, um ein Histogramm von inneren Produkten festzulegen, welche als innere Produkte zwischen dem Eigenvektor R und den Rahmen eines Sprachmusters erhalten worden sind. Das auf diese Weise erhaltene Histogramm oder die entsprechende Häufigkeitsverteilung von inneren Produkten wird als ein Parameter gespeichert, welcher einer ganz bestimmten Sprache bzw. Stimme oder Wort zugeordnet ist. Folglich hat das in Fig. 1 dargestellte Spracherkennungssystem zwei Operationsmode, d. h. einen Registrierungsmode und einen Erkennungsmode. Wenn das Spracherkennungssystem in dem Registrierungsmode betrieben wird, wird eine bekannte Sprache oder Stimme eingegeben, und deren Histogramm von inneren Produkten, die, wie vorstehend beschrieben, berechnet worden sind, wird erzeugt und wird als ein Parameter gespeichert, welcher der bekannten Sprache oder Stimme zugeordnet ist. Auf dieser Weise werden eine Anzahl bekannter Sprachen/Stimmen (Worte) als Bibliotheksdaten gespeichert, welche das Sprachmuster und das Histogramm innerer Produkte aufweisen. Dann wird das Spracherkennungssystem in den Erkennungsmode gesetzt, und dann wird eine eingegebene unbekannte Sprache/Stimme (Wort) mit jedem der Bibliotheksdaten verglichen, um die Identifizierung der eingegebenen Sprache/Stimme (Wort) festzustellen bzw. zu bestimmen.
Bestimmung von Eigenvektor R
Es ist wichtig, einen Eigenvektor zu bestimmen, so daß die Spannweite der Werteverteilung von inneren Produkten begrenzt wird, um so die Speicherkapazität zu begrenzen, die zum Speichern der Häufigkeitsverteilung von inneren Produkten erforderlich ist. Zuerst wird ein Eigenvektor bestimmt, um so die Streuung oder Abweichung der inneren Produkte (R, Xi) zu minimieren. Eigenwerte können bestimmt werden, indem ein bekanntes Eigenwertproblem für ein Sprachmuster mit einem Matrixformat gelöst wird, wie es in Fig. 2 dargestellt ist. Unter den auf diese Weise bestimmten Eigenwerten wird dann ein Nicht-Null- und der kleinste Eigenwert ausgewählt, und dessen entsprechender Eigenvektor für das spezielle Sprachmuster (Wort) bestimmt und festgestellt. Da auf diese Weise der kleinste Wert ausgewählt wird, kann die Spannweite einer Verteilung von inneren Produkten minimiert werden. Dies ist vorteilhaft, um Speicherkapazität zu sparen, die zum Speichern der Daten einer Häufigkeits-Verteilung von inneren Produkten erforderlich ist. Dann wird ein Histogramm von inneren Produkten bestimmt und zusammen mit deren Eigenvektor in der Bibliothek 5 gespeichert.
Erkennungsverarbeitung
Um die eingegebene unbekannte Sprache/Stimme (Wort) zu identifizieren, wird eine Berechnung des inneren Produkts zwischen dem Sprachmuster der eingegebenen Sprache/Stimme, wie in Fig. 2 dargestellt ist und dem Eigenvektor jeder der Kandidatensprachen durchgeführt, welche als ein Ergebnis der Vorbereitungsanpassung ausgewählt worden ist, und wird nunmehr in dem Kandidatenspeicher 6 gespeichert. Somit ist eine Häufigkeits-Verteilung oder ein Histogramm von inneren Produkten für jede der Kandidaten-Stimmen (Worte) bestimmt. Basierend auf den auf diese Weise erhaltenen Häufigkeitsverteilungen von inneren Produkten wird bestimmt, welche von den Kandidaten-Stimmen (Worten) den höchsten Ähnlichkeitswert hat. In Fig. 3 ist ein Graph dargestellt, welche mehrere Häufigkeitsverteilungen von inneren Produkten zeigt, wobei auf der Abszisse die Werte der inneren Produkte und auf der Ordinate die Häufigkeit des Auftretens aufgetragen ist. Somit kann der Graph der Fig. 3 dafür angesehen werden, Histogramme festzulegen, welche anzeigen, daß Werte von inneren Produkten, die in einen bestimmten Wertebereich fallen, soviel Mal auftreten. Daher ist die Abszisse in der Tat in eine vorherbestimmte Anzahl (z. B. 8) Bereichen unterteilt, und folglich ist jede Verteilung nicht eine kontinuierliche Verteilung, sondern legt eher ein Histogramm fest.
In Fig. 3 zeigt die ausgezogene Kurve I eine Häufigkeitsverteilung von inneren Produkten für eine ganz bestimmte Bibliotheksstimme (Wort) an, und die gestrichelte Kurve II zeigt eine Häufigkeitsverteilung von inneren Produkten für ein eingegebenes unbekanntes Sprachmuster an, welches der ganz bestimmten Bibliotheksstimme entspricht. Da die Verteilungen I und II für denselben Klang gelten, sind diese Verteilungen I und II beinahe identisch übereinander angeordnet. Andererseits zeigen die anderen drei gestrichelten Verteilungen III Häufigkeitsverteilungen von inneren Produkten an, welche für verschiedene (Stimmen) Sprachen (Worte) erhalten worden sind. Wenn auf diese Weise die eingegebene, unbekannte Stimme (Wort) sich von der Bibliothek Stimme unterscheidet, unterscheidet sich die Häufigkeitsverteilung der inneren Produkte drastisch in der Höhe und der seitlichen Streuung. Folglich kann durch Berechnung des Ähnlichkeitsgrads in der Häufigkeitsverteilung der inneren Produkte zwischen eingegebener und Bibliothekssprache (Stimme) die Identität der eingegebenen Sprache/Stimme (Wort) bestimmt werden.
Wie oben beschrieben, kann durch die Erfindung, da eine Häufigkeitsverteilung von inneren Produkten und ein Eigenvektor als Parameter benutzt werden, um eine ganz bestimmte Bibliothekssprache (Stimme) zu identifizieren, die Speicherkapazität, die zum Speichern von Bibliothekssprachendaten erforderlich ist, beträchtlich gemindert werden. Folglich kann für eine gegebene Speicherkapazität eine größere Anzahl von Bibliothekssprachdaten gespeichert werden. Insbesondere kann in dem BTSP-System, in welchem ein Sprachmuster in Form einer zeit-spektralen Verteilung binär-bewertet ist, die Berechnung von inneren Produkten nur durch Addition durchgeführt werden, was besonders vorteilhaft ist. Außerdem ist durch die Erfindung die Speicherkapazität, die für eine Bibliothekssprache (Stimme) erforderlich ist, annähernd 20 Bytes, und die Rechenvorgänge bei der Spracherkennungs-Verarbeitung sind vereinfacht und meistens Additionen, so daß für eine Bibliothek von annähernd 50 Sprach Worten eine Spracherkennung mit Hilfe eines 8Bit-Universal-Mikroprozessors hinlänglich durchgeführt werden kann. Zu beachten ist auch, daß ein Sprachmuster, das in der vorliegenden Erfindung verwendbar ist, nicht auf das eine in Fig. 2 dargestellte Muster beschränkt werden sollte. Ein Sprachmuster mit Rahmen, die jeweils eine Häufigkeits-Information und eine Zeitinformation haben, kann in der vorliegenden Erfindung verwendet werden. Beispielsweise können die Spalten A bis F Daten enthalten, welche ein Teil einer zeit-spektralen Verteilung sind, welche dadurch erhalten worden ist, daß ein Sprachsignal einer Frequenzanalyse unterworfen wird.

Claims (3)

1. Verfahren zur Spracherkennung, wonach aus einem unbekannten Eingangs-Sprachsignal ein elektrisches Sprachsignal in Form einer Zeit-Frequenzverteilung gebildet wird, die in eine Vielzahl von Zeitabschnitten aufgeteilt wird, welche jeweils hinsichtlich der darin enthaltenen Frequenzen zur Bildung von Zeitrahmen analysiert werden, das jeweilige Analyseergebnis in die Form eines Binärmusters gebracht wird, und die Binärmuster untereinander in Matrixform angeordnet werden, jede Zeile der Matrix einen Raumvektor bildet, aus dem durch Transformation ein Eigenvektor gebildet wird, und wonach die zu einem früheren Zeitpunkt gespeicherte bekannte Bibliothekssprachsignale hinsichtlich ihrer Eigenvektoren mit dem unbekannten Eingangs-Sprachsignal zur endgültigen Erkennung verglichen werden, dadurch gekennzeichnet, daß
  • a) jeder der Zeitrahmen Frequenzdaten und Zeitdaten enthält, und
  • b) der Eigenvektor einen von Null verschiedenen kleinsten Eigenwert aufweist, der dadurch bestimmt wird, indem das Binärmuster einer Hauptbestandteils-Analyse unterzogen wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das unbekannte Eingangs-Sprachsignal zunächst nur hinsichtlich eines Teils der Zeitrahmen mit den Bibliothekssprachsignalen verglichen wird, um Sprachsignalkandidaten zu bilden, die für die endgültige Erkennung verwendet werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß jedes der Bibliothekssprachsignale aus Daten gebildet ist, welche ein gesprochenes Wort darstellen.
DE19873733391 1986-10-03 1987-10-02 Verfahren zur spracherkennung Granted DE3733391A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61236900A JPS6391699A (ja) 1986-10-03 1986-10-03 音声認識方式

Publications (2)

Publication Number Publication Date
DE3733391A1 DE3733391A1 (de) 1988-04-14
DE3733391C2 true DE3733391C2 (de) 1990-03-29

Family

ID=17007421

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19873733391 Granted DE3733391A1 (de) 1986-10-03 1987-10-02 Verfahren zur spracherkennung

Country Status (5)

Country Link
US (1) US4903306A (de)
JP (1) JPS6391699A (de)
DE (1) DE3733391A1 (de)
FR (1) FR2604815B1 (de)
GB (1) GB2195803B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10015858A1 (de) * 2000-03-30 2001-10-11 Gunthard Born Verfahren zu einer auf semantische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens
DE10015859A1 (de) * 2000-03-30 2001-10-11 Gunthard Born Verfahren zu einer grammatische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5140668A (en) * 1987-11-10 1992-08-18 Nec Corporation Phoneme recognition utilizing relative positions of reference phoneme patterns and input vectors in a feature space
US5255342A (en) * 1988-12-20 1993-10-19 Kabushiki Kaisha Toshiba Pattern recognition system and method using neural network
US5983179A (en) * 1992-11-13 1999-11-09 Dragon Systems, Inc. Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5625747A (en) * 1994-09-21 1997-04-29 Lucent Technologies Inc. Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping
US6205424B1 (en) * 1996-07-31 2001-03-20 Compaq Computer Corporation Two-staged cohort selection for speaker verification system
CN1144172C (zh) * 1998-04-30 2004-03-31 松下电器产业株式会社 包括最大似然方法的基于本征音的发言者适应方法
US6477203B1 (en) * 1998-10-30 2002-11-05 Agilent Technologies, Inc. Signal processing distributed arithmetic architecture
EP1079615A3 (de) * 1999-08-26 2002-09-25 Matsushita Electric Industrial Co., Ltd. System zur Identifizierung und Anpassung des Profiles eines Fernsehbenutzer mittels Sprachtechnologie
US6738745B1 (en) * 2000-04-07 2004-05-18 International Business Machines Corporation Methods and apparatus for identifying a non-target language in a speech recognition system
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US10387805B2 (en) * 2014-07-16 2019-08-20 Deep It Ltd System and method for ranking news feeds
EP3400662B1 (de) * 2016-01-05 2022-01-12 M.B.E.R. Telecommunication And High-Tech Ltd System und verfahren zur erkennung von audiomedieninhalt

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5722295A (en) * 1980-07-15 1982-02-05 Nippon Electric Co Speaker recognizing system
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
JPS59121098A (ja) * 1982-12-28 1984-07-12 株式会社東芝 連続音声認識装置
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
JPS6057475A (ja) * 1983-09-07 1985-04-03 Toshiba Corp パタ−ン認識方式
JPS60198597A (ja) * 1984-03-22 1985-10-08 株式会社リコー 音声スペクトルの2値化装置
DE3522364A1 (de) * 1984-06-22 1986-01-09 Ricoh Co., Ltd., Tokio/Tokyo System zum erkennen von sprache

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10015858A1 (de) * 2000-03-30 2001-10-11 Gunthard Born Verfahren zu einer auf semantische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens
DE10015859A1 (de) * 2000-03-30 2001-10-11 Gunthard Born Verfahren zu einer grammatische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens
DE10015858C2 (de) * 2000-03-30 2002-03-28 Gunthard Born Verfahren zu einer auf semantische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
DE10015859C2 (de) * 2000-03-30 2002-04-04 Gunthard Born Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen

Also Published As

Publication number Publication date
GB2195803B (en) 1990-10-10
FR2604815B1 (fr) 1990-02-23
US4903306A (en) 1990-02-20
DE3733391A1 (de) 1988-04-14
GB8723298D0 (en) 1987-11-11
JPS6391699A (ja) 1988-04-22
FR2604815A1 (fr) 1988-04-08
GB2195803A (en) 1988-04-13

Similar Documents

Publication Publication Date Title
DE3733391C2 (de)
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE2844156C2 (de)
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
EP1405222B1 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE2953262C2 (de)
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE10030105A1 (de) Spracherkennungseinrichtung
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
DE4031638C2 (de)
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE2720666A1 (de) Verfahren und anordnung zur geraeuschanalyse
DE3008830A1 (de) Verfahren zum betrieb eines spracherkennungsgeraetes
DE4209296A1 (de) Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren
DE3048107A1 (de) Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem
DE1194170B (de) Verfahren und Schaltungsanordnung zur Spracherkennung
DE3238300A1 (de) Verfahren und vorrichtung zur muster- oder zeichenerkennung
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction
DE19738846C1 (de) Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee