DE3733391C2

DE3733391C2 -

Info

Publication number: DE3733391C2
Application number: DE3733391A
Authority: DE
Inventors: Shogo Matsudo Chiba Jp Nakamura
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-10-03
Filing date: 1987-10-02
Publication date: 1990-03-29
Also published as: GB2195803B; FR2604815B1; US4903306A; DE3733391A1; GB8723298D0; JPS6391699A; FR2604815A1; GB2195803A

Description

Die Erfindung betrifft ein Verfahren zur Spracherkennung nach dem Oberbegriff des Anspruches 1.

Ein derartiges Verfahren zur Spracherkennung ist aus der DE 35 22 364 A1 bekannt. Dabei gelangt ein System zum Erkennen von Sprache zur Anwendung, bei welchem ein Vektor-Quantisierungsverfahren realisiert wird, wobei ein Sprachmuster bzw. ein Musterwort in Rahmen einer Zeit-Frequenz-Verteilung aufgeteilt wird. Ferner gelangt bei diesem bekannten System ein Filtersystem zur Anwendung, um eine Frequenzanalyse vorzunehmen, um bestimmte Frequenzanteile aus einem Sprachmuster oder Stimmenmuster gewinnen zu können. Es wird bei dem bekannten System ein Eingangs-Sprachmuster mit einem binären Stimmenmuster einer Anzahl bekannter Registrierungsworte verglichen, um anhand eines derartigen Vergleichs zu ermitteln, mit welchem Registrierungsmuster eine höchste Ähnlichkeit vorhanden ist.

In der EP 01 14 500 A1 ist ein Gerät zur kontinuierlichen Spracherkennung beschrieben, welches eine Datenerzeugungsschaltung enthält, um Merkmalsmusterdaten zu berechnen, die jeweils N-Rahmenmerkmalsparameterdaten von mehreren Wortperioden enthalten und die jedesmal dann Bezugsmusterdaten enthalten, wenn eine Ein-Rahmenperiode verstrichen ist. Es werden dabei unter den berechneten Ähnlichkeitsdaten aufeinanderfolgend Daten mit maximaler Ähnlichkeit erzeugt. Mit Hilfe einer Erkennungsschaltung wird eine Reihe von kontinuierlichen Wortperioden erfaßt, die zu einer höchsten Ähnlichkeitssumme führen, und zwar innerhalb eines Sprachintervalls entsprechend den Ähnlichkeitsdaten von der genannten Datenerzeugungsschaltung. Die genannte Erkennungsschaltung erkennt die Wortreihen als effektive Wortdaten, welche den erfaßten Folgen von kontinuierlichen Wortperioden entsprechen. Die Ähnlichkeitsdaten in jeder Wortperiode werden dadurch erhalten, indem Partial-Ähnlichkeitsdaten zwischen den Merkmalsparameterdaten jedes Rahmens und der Bezugsparameterdaten berechnet werden, wobei die N-Partial-Ähnlichkeitsdaten während der Wortperiode erhalten werden. Auf dieser Grundlage kann effektiv und zuverlässig ein kontinuierlicher Spracheingang eines nicht spezifizierten Sprechers erkannt werden.

Aus der Literaturstelle: Sickert, Klaus "Automatische Spracheingabe und Sprachausgabe", Haar bei München, Verlag Markt & Technik, 1983, Seiten 244 bis 254, ist das Grundprinzip der Erkennung einer Stimme beschrieben, wonach ein Eingangs-Stimmenmuster in eine Vielzahl von Rahmen aufgeteilt wird, um einen Vektorraum zu bilden, wobei jeder Rahmen eine Vielzahl von Vektoren enthält. Es wird ferner eine Klassifizierung durchgeführt, wonach ein unbekanntes Testmuster einer bestimmten Klassenzugehörigkeit zugewiesen wird, wobei der sog. Merkmalsvektor ein entscheidendes Kriterium darstellt.

Dieses und auch die vorausgehend erläuterten Systeme benötigen jedoch für eine Spracherkennung bzw. Worterkennung oder Stimmidentifizierung einen Speicher mit extrem hoher Speicherkapazität.

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren zur Spracherkennung der angegebenen Gattung zu schaffen, welches die Möglichkeit bietet, mit einer im Vergleich zum Stand der Technik erheblich reduzierten Speicherkapazität auskommen zu können.

Diese Aufgabe wird erfindungsgemäß durch die im Kennzeichnungsteil des Anspruches 1 aufgeführten Merkmale gelöst.

Das erfindungsgemäße Verfahren kann so durchgeführt werden, daß das Eingangs-Sprach- oder Stimmenmuster zunächst einer Frequenzanalyse unterworfen wird, um eine Zeit-Frequenz-Verteilung zu erzeugen, wobei aus dieser Zeit-Frequenz-Verteilung bestimmte Frequenzabschnitte extrahiert werden. Dabei entsteht ein Zeit-Frequenz-Verteilungsmuster, welches bei dem nachfolgenden Klassifizierungsschritt verwendet wird. Bei einem ersten Anpassungsschritt wird das eingegebene Stimmenmuster in jede der Anzahl von Archivmustern für eine vorbestimmte Anzahl von z. B. 20 Rahmen in den jeweiligen Zeit-Frequenz-Verteilungsmustern verglichen, wobei anhand bestimmter Auswahlkriterien (z. B. lokale Scheitelwerte) eine vorher bestimmte Anzahl von Archiv-Sprachmustern ausgewählt wird (also beispielsweise ebenfalls 20 Archiv-Sprachmuster), deren lokale Scheitelwerte nahe oder am nächsten von den Scheitelwerten des eingegebenen Stimmenmusters gelegen sind. Die ausgewählten Kandidaten werden dann in einen Kandidatenspeicher übertragen.

Es folgt dann der zweite Anpassungsschritt, wonach das eingegebene Stimmenmuster nunmehr vollständig mit jedem der ausgewählten Kandidaten-Archiv-Stimmenmuster mit Hilfe der Hauptbestandteilsanalyse verglichen wird, wobei ein Eigenvektor mit einem von Null verschiedenen kleinsten Eigenwert die entscheidende Rolle spielt. Durch die Bestimmung des Eigenvektors mit dem von Null verschiedenen kleinsten Eigenwert wird die Spannweite der Werteverteilung von inneren Produkten, die bei der Identifizierung verwendet werden, relativ umfangreich begrenzt, wodurch eine geringere Speicherkapazität zum Speichern der Häufigkeitsverteilung von inneren Produkten erforderlich wird.

Besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen 2 und 3.

Im folgenden wird die Erfindung anhand von Ausführungsbeispielen unter Hinweis auf die Zeichnung näher erläutert. Es zeigt

Fig. 1 ein Blockdiagramm eines Spracherkennungssystems gemäß einer Ausführungsform mit Merkmalen nach der Erfindung;

Fig. 2 eine schematische Darstellung eines Beispiels eines Sprachmusters, das bei der Erfindung anwendbar ist, und

Fig. 3 einen Graphen, in welchem eine Häufigkeitsverteilung von inneren Produkten zwischen einem Bibliotheksmuster I und mehreren eingegebenen Mustern II und III dargestellt ist.

In Fig. 2 ist ein Sprachmuster für ein Wort "shita" dargestellt, welches, wenn es in dem Klang der japanischen Sprache ausgesprochen wird, im englichen "down" bedeutet. Ein derartiges Sprachmuster kann gebildet werden, indem ein Sprachsignal in einem vorherbestimmten Zeitintervall, beispielsweise von 10 ms, in einer Anzahl vorherbestimmter Frequenzbänder beispielsweise mittels Bandpaß-Filtern abgetastet bzw. aufgeteilt wird und die örtlichen Spitzenwerte in jeder Ansammlung von abgetasteten Daten quantisiert werden. Die Daten können umgesetzt werden, indem sie dann beispielsweise binär-bewertete Daten sind, indem eine Methode angewendet wird, die beispielsweise in der US-PS 46 34 966 beschrieben ist, welches den Erfindern der vorliegenden Anmeldung erteilt worden ist.

In dem in Fig. 2 dargestellten Sprachmuster liegt das Muster in einer Matrixform vor und hat neun Spalten und 34 Zeilen. Hierbei weist jede Zeile die Daten auf, welche durch Abtasten in einem ganz bestimmten Abtast-Zeitabschnitt erhalten worden sind, und jede Zeile wird daher auch Rahmen genannt. Mit anderen Worten, wenn eine eingegebene Sprache in einem vorher bestimmten Zeitintervall in einer Anzahl vorherbestimmter Frequenzbänder, welche voneinander verschieden sind, abgetastet wird, wird eine Zeit-Frequenz-Verteilung erhalten. Eine solche Zeit-Frequenz-Verteilung kann verarbeitet werden, um das in Fig. 2 dargestellte Sprachmuster festzulegen. In dem speziellen, in Fig. 2 dargestellten Sprachmuster legen die linken drei Spalten A bis C eine kombinierte Frequenzinformation fest. Das heißt, die Spalte A enthält kombinierte Daten für einen niederfrequenten Bereich, die Spalte B enthält kombinierte Daten für einen mittleren Frequenzbereich, und die Spalte C enthält kombinierte Daten für einen hochfrequenten Bereich. Mit anderen Worten, die in der Frequenz analysierten Daten, die aus einer Anzahl Bandpaßfilter in einem vorherbestimmten Zeitintervall erhalten worden sind, sind in drei Frequenzbereichen, nämlich nieder-, mittel- und hochfrequente Bereiche zusammengefaßt, und diese jeweiligen kombinierten bzw. zusammengefaßten Daten sind in den entsprechenden, den nieder-, mittel- und hochfrequenten Bereichen entsprechenden Spalten angeordnet. Eine Spalte D enthält Daten, welche ein sprachloses bzw. stummes Intervall anzeigen, und Spalten E und F enthalten hervorgehobene nieder- und hochfrequente Daten, welche durch Verarbeiten der bezüglich der Frequenz analysierten Daten in einer vorherbestimmten, dem Fachmann geläufigen Weise erhalten worden sind.

Von Bedeutung ist auch, daß das in Fig. 2 dargestellte Sprachmuster drei mit G bezeichnete Spalten enthält, welche drei binäre Zahlen enthalten, welche einen binärkodierten Dezimalkode (B.C.D. code) anzeigen, welcher Zeit anzeigt. Beispielsweise haben die ersten 15 Rahmen "000" in der Zeitspalte G, und dies zeigt an, daß die ersten 15 Rahmen in einem vorherbestimmten Zeitintervall, z. B. 10 ms, für einen ersten Zeitabschnitt von etwa 15 × 10 ms = 150 ms abgetastet worden sind. Die nächsten sechzehn Rahmen haben "001" in der Zeitspalte G, und dies zeigt an, daß die nächsten sechzehn Rahmen in dem vorherbestimmten Zeitintervall, z. B. 10 ms, für das folgende zweite Zeitintervall von etwa 16 × 10 ms = 160 ms abgetastet worden ist, was vorzugsweise im wesentlichen gleich dem ersten Zeitabschnitt ist. Auf diese Weise werden eine Anzahl Rahmen in einem vorherbestimmten Zeitintervall für einen vorherbestimmten Zeitabschnitt abgetastet, welcher beliebig eingestellt werden kann, aber vorzugsweise wesentlich größer als das Abtastzeitintervall eingestellt wird.

Da jeder Rahmen oder jede Zeile des in Fig. 2 dargestellten Sprachmusters neun Elemente hat oder das in Fig. 2 dargestellte Muster neun Spalten hat, kann das in Fig. 2 dargestellte Sprachmuster als eines betrachtet werden, das aus einer Anzahl N von neun Dimensionsvektoren gebildet ist. Wie im einzelnen später noch beschrieben wird, wird gemäß dem Grundgedanken der Erfindung des Sprachmuster in einer in Fig. 2 dargestellten Matrixform der bekannten Hauptbestandteil-Analyse unterzogen, um einen Nicht-Null-Minimum-Eigenvektor festzulegen, welcher einen von Null verschiedenen minimalen Eigenwert hat und dann werden innere Produkte zwischen dem auf diese Weise erhaltenen Eigenvektor und den Rahmen des Musters der Fig. 2 berechnet. Die sich ergebenen inneren Produkte werden in einer Häufigkeitsverteilung in einer Anzahl von (z. B. acht) Intervallen aufgetragen, die im Wert zueinander unterschiedlich sind, um dadurch ein Histogramm der inneren Produkte festzulegen. Dieses Histogramm innerer Produkte wird als eine Identifizierung einer ganz bestimmten Stimme bzw. Sprache verwendet.

In Fig. 1 ist in Blockform ein Spracherkennungssystem gemäß einer Ausführungsform mit Merkmalen nach der Erfindung dargestellt. Das dargestellte Spracherkennungssystem weist eine Vorverarbeitungseinheit 1 auf, in welcher ein Sprachsignal eingegeben wird, das beispielsweise mittels eines Mikrophons aus einer Sprache umgesetzt worden ist, die von einem Redner ausgesprochen worden ist. Die Vorverarbeitungseinheit 1 weist beispielsweise einen Sprech-Intervalldetektor auf, in welchem der Energiepegel des Sprachsignals überwacht wird, um ein Sprechintervall mit Hilfe eines Schwellenwertpegels zu bestimmen. Üblicherweise weist die Vorverarbeitungseinheit 1 auch eine Filterbank auf, welche aus einer Anzahl Bandpaßfilter gebildet ist, welche hinsichtlich des Frequenzbereichs voneinander verschieden sind. Wenn im Ergebnis das Sprachsignal durch die Vorverarbeitungseinheit 1 verarbeitet ist, wird das in eine Anzahl verschiedener Frequenzbereiche zerlegte Sprachsignal digitalisiert. Die auf diese Weise erhaltenen, digitalisierten Sprachsignale werden dann an eine Merkmal-Parametereinheit 2 abgegeben, in welcher die digitalisierten Sprachdaten in einer vorherbestimmten Weise verarbeitet werden, um ein Sprachmuster beispielsweise der in Fig. 2 dargestellten Form zu bilden. Das auf diese Weise gebildete Sprachmuster wird dann einer partiellen Anpassungs- und Vorbereitungs-Auswahleinheit 3 zugeführt, in welcher das auf diese Weise zugeführte Sprachmuster mit einer Anzahl Bibliotheksmuster verglichen wird, welche jeweils einer bekannten, in einem Speicher gespeicherten Sprache oder Stimme entsprechen. In diesem Fall wird das eingegebene Sprachmuster (Wort) partiell mit jedem der Archivmuster, beispielsweise mit einer vorherbestimmten Anzahl von ersten Rahmen, verglichen, um mögliche Kandidaten aus der Sammlung der Archivmuster auszuwählen, wobei die Kandidaten an einen Kandidatenspeicher 6 übertragen werden. Danach wird das eingegebene Sprachmuster (Wort) im Ganzen mit jedem der Kandidatenworte verglichen, indem ein Ähnlichkeitsgrad mittels einer Ähnlichkeits-Berechnungseinheit 4 berechnet wird, und das Kandidatenwort mit dem höchsten Ähnlichkeitsgrad wird als ein erkanntes Ergebnis abgegeben.

In der bevorzugten Ausführungsform der Erfindung wird ein Sprachsignal einer Frequenzanalyse unterworfen, um eine Zeit-Frequenz- oder zeit-spektrale Verteilung zu erzeugen, und örtliche Spitzenwerte, welche als Formanten betrachtet werden können, werden extrahiert und als Merkmale des Sprachsignals benutzt. Der Anpassungsprozeß wird vorzugsweise in zwei Schritten durchgeführt. Das heißt, bei dem ersten Anpassungsschritt wird das eingegebene Sprachmuster mit jeder der Anzahl Archivmuster für eine vorherbestimmte Anzahl von z. B. 20 Rahmen von dem ersten Rahmen in den jeweiligen Zeit-Frequenz-Verteilungsmustern verglichen, wobei der Stelle von lokalen Scheitelwerten Beachtung geschenkt wird. Eine vorherbestimmte Anzahl z. B. 20, dieser Archiv-Sprachmuster, deren lokale Scheitelwerte näher bei demjenigen des eingegebenen Sprachmusters lokalisiert sind, werden als mögliche Kandidaten ausgewählt und an den Kandidatenspeicher 6 übertragen. Bei dem zweiten Anpassungsschritt wird dann das eingegebene Sprachmuster nunmehr vollständig mit jedem der auf diese Weise ausgewählten Kandidaten-Archivsprachmuster mit Hilfe der Hauptbestandteil-Analyse verglichen, wie nachstehend noch im einzelnen beschrieben wird.

Das Sprachmuster einer in Fig. 2 dargestellten zeit-spektralen Verteilung enthält eine Anzahl Rahmen, die jeweils eine Zeile festlegen und als ein Element in einem Vektorraum betrachtet werden können. Folglich kann jeder Rahmen als ein Punkt Xi in dem neundimensionalen Vektorraum betrachtet werden, welcher durch den folgenden Ausdruck festgelegt ist:

Xi = (Xi₁, Xi₂, . . ., Xi₉) (1)

wobei i = 1, 2, . . . N die Anzahl der Rahmen darstellt.

Ein Eigenvektor R für ein Wort ist durch den folgenden Ausdruck festgelegt. Hierbei ist zu beachten, daß ein derartiger Eigenvektor durch ein Sprachmuster des in Fig. 2 dargestellten Formats für jede bekannte Sprache bzw. Stimme durch Anwenden der Hauptbestandteil-Analyse bestimmt werden kann.

R = (r₁, r₂, . . . r₉) (2)

wobei

ist.

Ein inneres Produkt zwischen dem Eigenvektor R und dem Rahmen Xi kann durch den folgenden Ausdruck festgelegt werden:

Nunmehr wird die Berechnung des inneren Produkts aus Gl. (3) bei jedem Rahmen angewendet, so daß eine Anzahl von N inneren Produkten erhalten wird, wenn das Sprachmuster eine Anzahl von N Rahmen hat. Mit Hilfe der auf diese Weise erhaltenen inneren Produkte wird eine Häufigkeitsverteilung oder ein Histogramm von inneren Produkten gebildet, wie in Fig. 2 dargestellt ist. Diese Operation wird für jede der bekannten Sprachen oder Stimmen durchgeführt, um ein Histogramm von inneren Produkten festzulegen, welche als innere Produkte zwischen dem Eigenvektor R und den Rahmen eines Sprachmusters erhalten worden sind. Das auf diese Weise erhaltene Histogramm oder die entsprechende Häufigkeitsverteilung von inneren Produkten wird als ein Parameter gespeichert, welcher einer ganz bestimmten Sprache bzw. Stimme oder Wort zugeordnet ist. Folglich hat das in Fig. 1 dargestellte Spracherkennungssystem zwei Operationsmode, d. h. einen Registrierungsmode und einen Erkennungsmode. Wenn das Spracherkennungssystem in dem Registrierungsmode betrieben wird, wird eine bekannte Sprache oder Stimme eingegeben, und deren Histogramm von inneren Produkten, die, wie vorstehend beschrieben, berechnet worden sind, wird erzeugt und wird als ein Parameter gespeichert, welcher der bekannten Sprache oder Stimme zugeordnet ist. Auf dieser Weise werden eine Anzahl bekannter Sprachen/Stimmen (Worte) als Bibliotheksdaten gespeichert, welche das Sprachmuster und das Histogramm innerer Produkte aufweisen. Dann wird das Spracherkennungssystem in den Erkennungsmode gesetzt, und dann wird eine eingegebene unbekannte Sprache/Stimme (Wort) mit jedem der Bibliotheksdaten verglichen, um die Identifizierung der eingegebenen Sprache/Stimme (Wort) festzustellen bzw. zu bestimmen.

Bestimmung von Eigenvektor R

Es ist wichtig, einen Eigenvektor zu bestimmen, so daß die Spannweite der Werteverteilung von inneren Produkten begrenzt wird, um so die Speicherkapazität zu begrenzen, die zum Speichern der Häufigkeitsverteilung von inneren Produkten erforderlich ist. Zuerst wird ein Eigenvektor bestimmt, um so die Streuung oder Abweichung der inneren Produkte (R, Xi) zu minimieren. Eigenwerte können bestimmt werden, indem ein bekanntes Eigenwertproblem für ein Sprachmuster mit einem Matrixformat gelöst wird, wie es in Fig. 2 dargestellt ist. Unter den auf diese Weise bestimmten Eigenwerten wird dann ein Nicht-Null- und der kleinste Eigenwert ausgewählt, und dessen entsprechender Eigenvektor für das spezielle Sprachmuster (Wort) bestimmt und festgestellt. Da auf diese Weise der kleinste Wert ausgewählt wird, kann die Spannweite einer Verteilung von inneren Produkten minimiert werden. Dies ist vorteilhaft, um Speicherkapazität zu sparen, die zum Speichern der Daten einer Häufigkeits-Verteilung von inneren Produkten erforderlich ist. Dann wird ein Histogramm von inneren Produkten bestimmt und zusammen mit deren Eigenvektor in der Bibliothek 5 gespeichert.

Erkennungsverarbeitung

Um die eingegebene unbekannte Sprache/Stimme (Wort) zu identifizieren, wird eine Berechnung des inneren Produkts zwischen dem Sprachmuster der eingegebenen Sprache/Stimme, wie in Fig. 2 dargestellt ist und dem Eigenvektor jeder der Kandidatensprachen durchgeführt, welche als ein Ergebnis der Vorbereitungsanpassung ausgewählt worden ist, und wird nunmehr in dem Kandidatenspeicher 6 gespeichert. Somit ist eine Häufigkeits-Verteilung oder ein Histogramm von inneren Produkten für jede der Kandidaten-Stimmen (Worte) bestimmt. Basierend auf den auf diese Weise erhaltenen Häufigkeitsverteilungen von inneren Produkten wird bestimmt, welche von den Kandidaten-Stimmen (Worten) den höchsten Ähnlichkeitswert hat. In Fig. 3 ist ein Graph dargestellt, welche mehrere Häufigkeitsverteilungen von inneren Produkten zeigt, wobei auf der Abszisse die Werte der inneren Produkte und auf der Ordinate die Häufigkeit des Auftretens aufgetragen ist. Somit kann der Graph der Fig. 3 dafür angesehen werden, Histogramme festzulegen, welche anzeigen, daß Werte von inneren Produkten, die in einen bestimmten Wertebereich fallen, soviel Mal auftreten. Daher ist die Abszisse in der Tat in eine vorherbestimmte Anzahl (z. B. 8) Bereichen unterteilt, und folglich ist jede Verteilung nicht eine kontinuierliche Verteilung, sondern legt eher ein Histogramm fest.

In Fig. 3 zeigt die ausgezogene Kurve I eine Häufigkeitsverteilung von inneren Produkten für eine ganz bestimmte Bibliotheksstimme (Wort) an, und die gestrichelte Kurve II zeigt eine Häufigkeitsverteilung von inneren Produkten für ein eingegebenes unbekanntes Sprachmuster an, welches der ganz bestimmten Bibliotheksstimme entspricht. Da die Verteilungen I und II für denselben Klang gelten, sind diese Verteilungen I und II beinahe identisch übereinander angeordnet. Andererseits zeigen die anderen drei gestrichelten Verteilungen III Häufigkeitsverteilungen von inneren Produkten an, welche für verschiedene (Stimmen) Sprachen (Worte) erhalten worden sind. Wenn auf diese Weise die eingegebene, unbekannte Stimme (Wort) sich von der Bibliothek Stimme unterscheidet, unterscheidet sich die Häufigkeitsverteilung der inneren Produkte drastisch in der Höhe und der seitlichen Streuung. Folglich kann durch Berechnung des Ähnlichkeitsgrads in der Häufigkeitsverteilung der inneren Produkte zwischen eingegebener und Bibliothekssprache (Stimme) die Identität der eingegebenen Sprache/Stimme (Wort) bestimmt werden.

Wie oben beschrieben, kann durch die Erfindung, da eine Häufigkeitsverteilung von inneren Produkten und ein Eigenvektor als Parameter benutzt werden, um eine ganz bestimmte Bibliothekssprache (Stimme) zu identifizieren, die Speicherkapazität, die zum Speichern von Bibliothekssprachendaten erforderlich ist, beträchtlich gemindert werden. Folglich kann für eine gegebene Speicherkapazität eine größere Anzahl von Bibliothekssprachdaten gespeichert werden. Insbesondere kann in dem BTSP-System, in welchem ein Sprachmuster in Form einer zeit-spektralen Verteilung binär-bewertet ist, die Berechnung von inneren Produkten nur durch Addition durchgeführt werden, was besonders vorteilhaft ist. Außerdem ist durch die Erfindung die Speicherkapazität, die für eine Bibliothekssprache (Stimme) erforderlich ist, annähernd 20 Bytes, und die Rechenvorgänge bei der Spracherkennungs-Verarbeitung sind vereinfacht und meistens Additionen, so daß für eine Bibliothek von annähernd 50 Sprach Worten eine Spracherkennung mit Hilfe eines 8Bit-Universal-Mikroprozessors hinlänglich durchgeführt werden kann. Zu beachten ist auch, daß ein Sprachmuster, das in der vorliegenden Erfindung verwendbar ist, nicht auf das eine in Fig. 2 dargestellte Muster beschränkt werden sollte. Ein Sprachmuster mit Rahmen, die jeweils eine Häufigkeits-Information und eine Zeitinformation haben, kann in der vorliegenden Erfindung verwendet werden. Beispielsweise können die Spalten A bis F Daten enthalten, welche ein Teil einer zeit-spektralen Verteilung sind, welche dadurch erhalten worden ist, daß ein Sprachsignal einer Frequenzanalyse unterworfen wird.

Claims

1. Verfahren zur Spracherkennung, wonach aus einem unbekannten Eingangs-Sprachsignal ein elektrisches Sprachsignal in Form einer Zeit-Frequenzverteilung gebildet wird, die in eine Vielzahl von Zeitabschnitten aufgeteilt wird, welche jeweils hinsichtlich der darin enthaltenen Frequenzen zur Bildung von Zeitrahmen analysiert werden, das jeweilige Analyseergebnis in die Form eines Binärmusters gebracht wird, und die Binärmuster untereinander in Matrixform angeordnet werden, jede Zeile der Matrix einen Raumvektor bildet, aus dem durch Transformation ein Eigenvektor gebildet wird, und wonach die zu einem früheren Zeitpunkt gespeicherte bekannte Bibliothekssprachsignale hinsichtlich ihrer Eigenvektoren mit dem unbekannten Eingangs-Sprachsignal zur endgültigen Erkennung verglichen werden, dadurch gekennzeichnet, daß

a) jeder der Zeitrahmen Frequenzdaten und Zeitdaten enthält, und
b) der Eigenvektor einen von Null verschiedenen kleinsten Eigenwert aufweist, der dadurch bestimmt wird, indem das Binärmuster einer Hauptbestandteils-Analyse unterzogen wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das unbekannte Eingangs-Sprachsignal zunächst nur hinsichtlich eines Teils der Zeitrahmen mit den Bibliothekssprachsignalen verglichen wird, um Sprachsignalkandidaten zu bilden, die für die endgültige Erkennung verwendet werden.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß jedes der Bibliothekssprachsignale aus Daten gebildet ist, welche ein gesprochenes Wort darstellen.