DE60003971T2

DE60003971T2 - Verteilte Architektur zum Trainieren eines Spracherkennungssystems

Info

Publication number: DE60003971T2
Application number: DE60003971T
Authority: DE
Inventors: Ted H. Santa Barbara Applebaum; Jean-Claude Santa Barbara Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-04-20
Filing date: 2000-03-22
Publication date: 2004-05-27
Anticipated expiration: 2020-03-23
Also published as: US6463413B1; DE60003971D1; EP1047046A2; EP1047046B1; EP1047046A3

Description

Hintergrund und Zusammenfassung der Erfindung
Die vorliegende Erfindung bezieht sich im allgemeinen auf Spracherkennungssysteme, und insbesondere bezieht sich die Erfindung auf ein System zum Trainieren eines Spracherkenners zur Verwendung in einem kleinen Hardwaregerät.
Das Marketing von Konsumelektronikprodukten ist sehr kostenreagibel. Reduzierung der Festprogrammspeichergröße, der Direktzugriffs-Arbeitsspeichergröße oder der Prozessorgeschwindigkeitsanforderungen ergibt geringere Kosten, kleinere und energiesparende Elektronikgeräte. Der gegenwärtige Trend ist, diese Konsumprodukte durch Einverleibung von Sprachtechnologie leichter verwendbar zu machen. Viele Konsumelektronikprodukte, wie beispielsweise persönliche digitale Assistenten (PDA) und Zellulartelefone, bieten ideale Möglichkeiten Sprachtechnologie auszubeuten, stellen aber auch eine Herausforderung dar, indem Speicher- und Verarbeitungsleistung in der Host-Hardware oftmals begrenzt ist. Wenn man den besonderen Fall der Verwendung von Spracherkennungstechnologie für Sprachwählen in Zellulartelefonen bedenkt, wird der eingebettete Spracherkennen in eine relativ kleine Speicherbasisfläche passen müssen.
Um Speicherverwendung zu sparen, wird das typische eingebettete Spracherkennungssystem sehr begrenztes, häufig statisches Vokabular haben. In diesem Fall konnten bedingungsspezifische Wörter, beispielsweise zum Wählen eines Zellulartelefons verwendete Namen, nicht erkannt werden. In vielen Fällen ist das Trainieren des Spracherkenners hinsichtlich erforderlichem Speicher oder rechenbetonter Komplexität kostspieliger als der Spracherkennungsprozess. Kleine, billige Hardwaregeräte, die Spracherkennung durchführen können, haben vielleicht nicht die Ressourcen das Lexikon erkannter Wörter zu erstellen und/oder zu aktualisieren. Und außerdem, wo der Prozessor andere Aufgaben (z. B. Benutzerinteraktionsmerkmale) innerhalb des eingebetteten Systems handhaben muss, werden konventionelle Verfahren zum Erstellen und/oder Aktualisieren des Lexikons möglicherweise die Ausführung nicht innerhalb einer angemessenen Zeitspanne vorzunehmen können, ohne die anderen unterstützten Aufgaben zu beeinträchtigen.
Eine bekannte Architektur, die möglicherweise einige der obigen Probleme in Bezug auf das Trainieren eines Spracherkennungssystems überwinden kann, und die Herunterladen bereits vorhandener Sprachmodelle von einem Fernserver offenlegt, ist in der Patentveröffentlichung Nr.: US-A-5054082 offengelegt.
Die vorliegende Erfindung ist die obigen Probleme durch eine verteilte Spracherkennungsarchitektur angegangen, mit der Wörter und deren zugehörige Sprachmodelle einem Lexikon auf einer völlig maßgeschneiderten Basis hinzugefügt werden können. Auf diese Weise erzielt die vorliegende Erfindung drei wünschenswerte Merkmale:
(1) der Benutzer des Konsumprodukts kann dem Lexikon Wörter hinzufügen, (2) das Konsumprodukt benötigt nicht die zur Erstellung neuer Sprachmodelle erforderlichen Ressourcen, und (3) das Konsumprodukt ist während der Spracherkennung (im Gegensatz zu Sprachreferenztraining) autonom, so dass es nicht mit einem Fernservergerät verbunden sein braucht.
Zur Ausführung sind vorgesehen: ein Sprachverarbeitungssystem wie in Anspruch 1 dargelegt, ein Verfahren zum Aufbau von Sprachreferenzmodellen wie in Anspruch 13 dargelegt, ein Sprachmodell-Servergerät wie in Anspruch 14 dargelegt und ein Computergerät wie in Anspruch 15 dargelegt.
Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
Kurzbeschreibung der Zeichnungen
1 ist ein Diagramm, das einen persönlichen digitalen Assistenten (PDA) im Kontext eines verteilten Spracherkennungssystems gemäß der vorliegenden Erfindung veranschaulicht; und
2 ist ein Diagramm, das ein Zellulartelefon im Kontext eines verteilten Spracherkennungssystems der vorliegenden Erfindung veranschaulicht.
Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
Die von der vorliegenden Erfindung angewandten technischen Verfahren lassen sich in einer Reihe nützlicher Anwendungen einsetzen. Zur Erläuterung wird zunächst ein bevorzugtes Ausführungsbeispiel der Erfindung laut Anwendung in einem persönlichen digitalen Assistenten (PDA) beschrieben. Anschließend an diese Beschreibung wird ein weiteres Beispiel eines bevorzugten Ausführungsbeispiels im Zusammenhang mit einer Zellulartelefonanwendung präsentiert. Natürlich wird man verstehen, dass die Prinzipien der Erfindung in einer breiten Palette anderer Anwendungen und Konsumprodukten zum Einsatz kommen können, bei denen Spracherkennung angewandt wird.
Mit Bezugnahme auf 1 ist ein persönlicher digitaler Assistent bei 10 dargestellt. Das Gerät besitzt einen Bildschirm 12, der dem Benutzer Informationen präsentiert und auf dem der Benutzer Informationen eingeben kann, indem er mit einem Stylus 14 auf den Bildschirm schreibt. Der persönliche digitale Assistent 10 schließt ein Handschrifterkennungsmodul ein, das die vom Benutzer mit dem Stylus eingegebenen Strichdaten analysiert. Das Handschrifterkennungsmodul verwandelt die handschriftlichen Strichdaten in alphanumerischen Text, der sich in geeigneter Form (z.B., ASCII-Format) innerhalb eines Teils des im PDA 10 enthaltenen Direktzugriffsspeichers speichern lässt.
In einem typischen PDA-Gerät verwaltet das Betriebssystem des Geräts den Permanentspeicher, der zum Speichern der vom Benutzer eingegeben Daten verwendet wird. Obwohl die genaue Konfiguration und das Layout dieses Permanentspeichers vom speziellen angewandten Betriebssystem abhängt, wird, im allgemeinen, ein Teil des Speichers für das Speichern alphanumerischer Daten zugeteilt, die vom Benutzer im Zusammenhang mit verschiedenen Anwendungen eingegeben werden. Diese Anwendungen schließen Adressbücher, E-Mail-Adressenverzeichnisse, Telefonwählprogramme, Terminplanungs- und Kalenderanwendungen, persönliche Finanzanwendungen, Webbrowser und dergleichen ein. Zur Erläuterung ist eine Adressbuchanwendung 20 in 1 dargestellt. Wenn der Benutzer Namen, Adressen und Telefonnummern mit dem Stylus eingibt, werden die den Benutzeingabeinformationen entsprechenden alphanumerischen Daten in einem Teil des permanenten Direktzugriffsspeichers des Systems gespeichert, der in 1 als Wortspeicher 21 designiert worden ist.
Der PDA 10 des vorliegenden Ausführungsbeispiels ist ein sprachaktiviertes Gerät. Es schließt ein Mikrofon 16 ein, das vorzugsweise innerhalb des Geräts untergebracht ist, um dem Benutzer zu ermöglichen Sprachbefehle und Sprachdaten als Alternative zur Verwendung des Stylus einzugeben. Der Benutzer kann, beispielsweise, den Namen einer Person aussprechen, deren Adresse und Telefonnummer er aus seinem Adressbuch auslesen möchte. Vorzugsweise schließt der PDA 10 außerdem einen integralen Lautsprecher 18 ein, über den digital aufgezeichnete Tondaten und synthetisierte Sprachdaten an den Benutzer übertragen werden können.
Ein Spracherkennermodul 22 innerhalb des PDA 10 verarbeitet die durch das Mikrofon 16 eingegebenen Sprachdaten. Der Spracherkenner kann eine unabhängige Anwendung sein, die auf dem PDA-Gerät läuft, oder er kann in das Betriebssystem des PDA-Geräts eingebaut sein. Es gibt eine Reihe verschiedener Sprachschablonen, die dem Spracherkenner 22 zu Grunde liegen können. Verdeckte Markov-Modelle sind heute weitverbreitet und können dazu benutzt werden das dargestellte Ausführungsbeispiel zu implementieren. Oder aber man kann andere Schablonen verwenden, beispielsweise ein Modell, das auf hohen Ähnlichkeitsbereichen beruht, wie es von Morin et al. in den US-Patentnummem 5.684.925, 5.822.728 und 5.825.977 vorgeschlagen wird.
Der Spracherkenner 22 arbeitet mit einem lokal gespeicherten Lexikon 24 von Wörtern zusammen, die vom System erkannt werden können. Das Lexikon 24 ist so angeordnet, dass zu jedem vom System erkennbaren Wort ein Sprachmodell gehört. Diese Anordnung ist in 1 durch eine Datenstruktur dargestellt, die eine Einheit von Wortdaten 26 mit einem entsprechenden Sprachmodell 28 assoziiert. Auf diese Weise wiedergewinnt der Spracherkenner 22 den alphanumerischen Text für das den Eingabesprachdaten entsprechende Wort. Im Fall des Adressbuchs, kann die Anwendung 20 die entsprechende Adresse und Telefonnummer, unter Verwendung des alphanumerischen Texts für den gesprochenen Namen, wie vom Spracherkenner 22 bereitgestellt, wiedergewinnen.
Der persönliche digitale Assistent 10 stellt eine Herausforderung dahingehend dar, dass er versucht jedes der vorher beschriebenen wünschenswerten Merkmale zu erzielen. Daher verwendet der PDA 10 eine verteilte Spracherkennungsarchitektur, mit der Wörter und deren zugehörige Sprachmodelle einem Lexikon auf einer völlig maßgeschneiderten Basis hinzugefügt werden können. Mit Hilfe des Stylus oder einem anderen geeigneten Gerät, beispielsweise einer Tastatur, gibt der Benutzer Wörter in den Wortspeicher 21 ein. Das System erfasst dann Sprachreferenzmodelle, die jenen Worten entsprechen, indem es auf ein zweites Computergerät zugreift.
Beim vorliegenden bevorzugten Ausführungsbeispiel liefert ein Referenzmodell-Server die Sprachmodelle für neu eingegebene Wörter. Der Referenzmodell-Server 40 kann auf einem geeigneten Host-Server-Computer 42, typisch an einem fernen Ort, realisiert sein. Der PDA 10 und der Servercomputer 42 kommunizieren miteinander durch geeignete Kommunikationsmodule 30 und 44. In dieser Hinsicht können die Kommunikationsmodule viele Formen annehmen, um weitverbreitete Kommunikationshardware und Softwareplattformen zu unterstützen. Beispielsweise könnten der PDA 10 und Servercomputer 42 konfiguriert sein miteinander durch eine RS232-Schnittstelle zu kommunizieren, in welcher der PDA 10 in eine Gabel eingesteckt wird, die mittels Kabel an einen seriellen Anschluss des Servercomputers 42 angeschlossen ist. Der PDA 10 und Host-Computer 42 können ebenso über ein öffentliches Telefonnetz oder ein zellulares Telefonnetz unter Einsatz geeigneter Modems kommunizieren. Oder aber der PDA 10 und Host-Computer 42 können durch eine Infrarotverbindung, Ethernet oder eine andere geeignete Hardwareplattform unter Verwendung von Kommunikationsprotokollen (z.B. TCP/IP) kommunizieren. Auf diese Weise können der persönliche digitale Assistent 10 und der Servercomputer 42 konfiguriert werden, um miteinander über das Internet zu kommunizieren.
Der Referenzmodell-Server 40 schließt vorzugsweise eine Datenbank sprecherunabhängiger Modelle 46 ein, die einen relativ umfangreichen Satz Wörter und deren zugehörige Sprachreferenzmodelle umfassen. Wenn der Benutzer ein neues Wort in den PDA 10 eingibt, wird das Wort über Kommunikationsmodule 30 und 44 an den Referenzmodell-Server 40 kommuniziert. Wird das vom Benutzer bereitgestellte Wort in der Datenbank 46 gefunden, kann das dem Wort entsprechende Sprachmodell durch die Kommunikationsmodule auf den PDA übertragen werden. Der PDA speichert dann das neu erfasste Sprachreferenzmodell so in seinem Lexikon 24, dass das Sprachreferenzmodell, wie durch die Datenstrukturen 26 und 28 dargestellt, mit dem vom Benutzer bereitgestellten Wort assoziiert wird.
Wird das vom Benutzer bereitgestellte Wort nicht in der Datenbank 46 gefunden, generiert das System ein Sprachreferenzmodell für das Wort. Zur Ausführung verwendet das System einen Phonetisierer 48 und ein Referenzmodell-Trainingsmodul 50. Zunächst analysiert der Phonetisierer 48 die das Wort ausmachenden Buchstaben syntaktisch und wendet dann ein Entscheidungsbaumnetzwerk an, um eine oder mehrere hypothetische Aussprachen (d.h., phonetische Transkriptionen) des vom Benutzer eingegebenen Worts zu generieren. Dieser Satz synthesierter Aussprachen dient dann als Eingabe an das Referenzmodell-Trainingsmodul 50, das seinerseits ein neues Sprachreferenzmodell auf der Basis der mit dem Referenzmodell-Trainingsmodul 50 assoziierten Sprachmodellschablone erstellt. In einem bevorzugten Ausführungsbeispiel wird verdecktes Markov-Modell als die Sprachmodellschablone für das Trainingsmodul 50 verwendet. Das Referenzmodell-Trainingsmodul 50 kann auch ein Verfahren zur Ermittlung des optimalen Sprachmodells für die phonetische Transkriptionseingabe anwenden.
Oder aber das System kann, wenn das vom Benutzer eingegebene Wort nicht in der Datenbank 46 gefunden wird, ein Sprachreferenzmodell auf der Basis von Sprachtrainingsdaten generieren, die dem vom Benutzer bereitgestellten Wort entsprechen. In diesem Fall spricht der Benutzer das Wort, für welches das neue Sprachreferenzmodell gewünscht wird. Das System empfängt das vom Benutzer bereitgestellte Wort als Tondaten über das Mikrofon 18. Der Spracherkenner 22 wandelt die Tondaten in ein digitalisiertes Eingabesignal und danach in eine parametrisierte Zwischenfonm um. In einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung, ist die Zwischenrepräsentation des Worts ein Vektor von Parametern, die die kurzzeitige Sprachspektralforrn der Tondaten repräsentieren. Der Vektor von Parametern lässt sich weiter als, aber nicht begrenzt auf, Pulscodemodulation (PCM), μ-Gesetz-codierte PCM, Filterbankenergien, Linienspektralfrequenzen, (LPC) lineare Prädiktionscodienings-Cepstrum-Koeffizienten oder andere Typen von Cepstrum-Koeffizienten definieren. Ein Fachmann wird leicht erkennen, dass das System den Benutzer zu einer oder mehreren Sprechweisen des vom Benutzer bereitgestellten Worts auffordern kann, um reichliche Sprachtrainingsdaten zu tiefem. In diesem Fall besteht die Zwischenrepräsentation des Worts aus einer Folge von Vektoren, die eine Folge für jede Tainingswiederholung haben. Wird das Wort nicht im Lexikon gefunden, so wird die Zwischenform dann über Kommunikationsmodul 30 und 44 an den Referenzmodell-Server 40 kommuniziert.
Der Referenzmodell-Server 40 leitet die Zwischenrepräsentation des Worts an das Referenzmodell-Trainingsmodul 50 weiter, wo mit Hilfe der Sprachmodellschablone ein Sprachmodell konstruiert wird. Zum Konstruieren eines Sprachmodells decodiert das Referenzmodell-Trainingsmodul 50 vielleicht die Zeitserien von Parametervektoren in den Sprachtrainingsdaten durch Vergleich mit einem Satz phonetischer verdeckter Markov-Modelle, damit man eine phonetische Transkription der Äußerung in den Sprachtrainingsdaten erhält. In diesem Fall dient die Transkription als das Sprachreferenzmodell. Oder aber kann das Referenzmodell-Trainingsmodul 50 vielleicht die Zeitserien von Parametervektoren für jede Wiederholung der Sprachäußerung in den Sprachtrainingsdaten ausrichten, wie es im Fachgebiet gut bekannt ist. In diesem Fall, berechnet das Referenzmodell-Trainingsmodul 50 das Mittel und die Varianz jedes Parameters an jedem Zeitintervall und konstruiert dann das Sprachreferenzmodell aus diesen Mitteln und Varianzen (oder Funktionen dieser Mittel und Varianzen). In beiden Fällen, wird das neu konstruierte Sprachreferenzmodell danach über die Kommunikationsverbindung an den PDA zurückgesandt. Abschließend wird das neue Sprachreferenzmodell zusammen mit der alphanumerischen Repräsentation des vom Benutzer bereitgestellten Worts dem Lexikon 24 hinzugefügt.
Ein zweites bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung wird in Bezug auf eine Zellulartelefonanwendung, wie in der 2 dargestellt, beschrieben. Das Zellulartelefon-Bedienhörergerät 60 enthält ein eingebettetes Mikrofon 62 zum Empfangen von Tondaten seitens des Benutzers und einen eingebetteten Lautsprecher 64 zur Rückübertragung von Tondaten an den Benutzer. Das Bedienhörergerät 60 schließt außerdem eine Telefonkleintastatur 66 zum Wählen oder zur Eingabe anderer Informationen, sowie einen kleinen Flüssigkristall-Bildschirm 68, der dem Benutzer Informationen präsentiert, ein. Deshalb eignet sich das Zellulartelefon für verschiedene Typen eingebetteter, sprachaktivierter Anwendungen.
Obwohl verschiedene Typen sprachaktivierter Anwendungen ins Auge gefasst sind, ist ein automatisches sprachgesteuertes Wählmerkmal in der 2 veranschaulicht. Zum sprachgesteuerten Telefonwählen spricht ein Benutzer lediglich den Namen der Person, die er anrufen möchte. Die dem gesprochenen Namen entsprechenden Tondaten werden dann von einem Spracherkennermodul 22' im Bedienhörergerät 60 verarbeitet. Der Spracherkenner 22' arbeitet mit einem lokal gespeicherten Lexikon 24' von Wörtern zusammen, die das System vielleicht erkennen kann. Wie in der 2 gezeigt, ist das Lexikon 24' in Übereinstimmung mit einer Datenstruktur angeordnet, die jedes erkennbare Wort mit einem entsprechenden Sprachreferenzmodell assoziiert.
Erkennt der Spracherkenner 22' den Namen, wird die alphanumerische Repräsentation des gesprochenen Worts an ein automatisches Wählmodul 70 weitergeleitet. Ein Teil des Permanent-Direktzugriffsspeichers des Systems wird dazu verwendet eine Verknüpfung zwischen Namen und Telefonnummern beizubehalten. Das automatische Wählmodul 70 verschafft sich Zugriff auf diese Speicherstelle, um die Telefonnummer wiederzugewinnen, die der alphanumerischen Repräsentation des gesprochenen Namens entspricht und geht anschließend damit voran die Telefonnummer zu wählen. Auf diese Weise ist der Benutzer fähig mit dem Zellulartelefon eine sprachgesteuerte automatische Nummernwahl vorzunehmen.
Das Zellulartelefon stellt ebenso eine Herausforderung dahingehend dar, dass es versucht jedes der vorher identifizierten wünschenswerten Merkmale zu erzielen. Wiederum verwendet das Zellulartelefon eine verteilte Spracherkennungsarchitektur, mit der Wörter und deren zugehörige Sprachmodelle dem Lexikon 24' auf einer völlig maßgeschneiderten Basis hinzugefügt werden können. Wird der vom Benutzer bereitgestellte Name nicht im Lexikon 24' gefunden, so kann der Benutzer den Namen entweder mit der Kleintastatur 66 oder einem anderen geeigneten Eingabegerät eingeben. Die, dem Namen entsprechenden, alphanumerischen Daten werden in einem Teil des Permanent-Direktzugriffsspeichers des Systems gespeichert, der als Wortspeicher 21' designiert worden ist. Der Name wird dann über die Kommunikationsmodule 30' und 44' an den Referenzmodell-Server 40' kommuniziert.
Wie bereits beschrieben leitet der Referenzmodell-Server 40' die Zwischenrepräsentation des Namens an das Referenzmodell-Trainingsmodul 50' weiter, wo mit Hilfe der Sprachmodellschablone ein Sprachmodell konstruiert wird. Danach wird das neu konstruierte Sprachreferenzmodell über die Kommunikationsverbindung zum Telefon-Bedienhörergerät 60 zurückgesandt. Abschließend wird das Sprachreferenzmodell zusammen mit einem entsprechenden vom Benutzer bereitstellten Wort dem Lexikon 24' des Telefon-Bedienhörergeräts 60 hinzugefügt.
Für eine Anwendung automatischen, sprachgesteuerten Wählens wird ins Auge gefasst, dass das Lexikon 24' außerdem vielleicht konfiguriert sein kann eher Telefonnummern statt Namen mit einem Sprachreferenzmodell zu assoziieren. Wenn der Benutzer den Namen der Person ausspricht, die er anrufen möchte, arbeitet der Spracherkennen 22' mit dem Lexikon 24' zusammen, um die Telefonnummer wiederzugewinnen, die dem gesprochenen Namen entspricht. Die Telefonnummer wird dann direkt an das automatische Wählmodul 70 weitergeleitet.
Das Vorgenannte offenbart und beschreibt lediglich beispielhafte Ausführungsbeispiele der vorliegenden Erfindung. Ein Fachmann wird anhand solch einer Erörterung und aus zugehörigen Zeichnungen und Ansprüchen leicht erkennen, dass verschiedene Änderungen, Modifikationen und Variationen, ohne vom Umfang der vorliegenden Erfindung, wie in den beiliegenden Ansprüchen definiert, abzuweichen, darin vorgenommen werden können.

Claims

Sprachverarbeitungssystem zum Konstruieren von Spracherkennungs-Referenzmodellen, wobei besagtes System umfasst: einen Spracherkennen (22) an einem ersten Computergerät (10); besagter Spracherkennen Sprachtrainingsdaten für wenigstens ein Wort empfängt und die Sprachtrainingsdaten zu einer Zwischenrepräsentation der Sprachtrainingsdaten verarbeitet, besagter Spracherkenner weiter fähig ist die Repräsentation an ein zweites Computergerät (42) zu kommunizieren; einen Sprachmodell-Server (40), der sich auf besagtem zweiten Computergerät (42) befindet, wobei besagtes zweite Computergerät über ein Netzwerk mit besagtem ersten Computergerät verbunden ist; besagter Sprachmodell-Server (40) die Zwischenrepräsentation der Sprachtrainingsdaten empfängt und ein Sprachreferenzmodell generiert, das mit dem auf der Zwischenrepräsentation basierenden Wort assoziiert ist, besagter Sprachmodell-Server weiter fähig ist das Sprachreferenzmodell an besagtes erstes Computergerät zu kommunizieren; und ein Lexikon (24), das an besagten Spracherkenner (22) gekoppelt und adaptiert ist besagtes Wort und besagtes assoziiertes Sprachreferenzmodell ab besagtem Sprachmodell-Server auf besagtem ersten Computergerät zu empfangen, hinzuzufügen und zu speichern.
Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (22) alphanumerischen Text empfängt, der als Sprachtrainingsdaten dient und besagte Zwischenrepräsentation der Sprachtrainingsdaten eine Folge von Symbolen ab besagtem alphanumerischen Text ist.
Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (22) Tondaten erfasst, die als Sprachtrainingsdaten dienen, und die Tondaten in besagte Zwischenrepräsentation der Sprachtrainingsdaten digitalisiert.
Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (22) Tondaten erfasst, die als Sprachtrainingsdaten dienen, und die Tondaten in einen Vektor von Parametern umwandelt, die als besagte Zwischenrepräsentation der Sprachdaten dienen, wobei die Parameter auf die kurzzeitige Sprachspektralform besagter Tondaten schließen lassen.
Sprachverarbeitungssystem des Anspruchs 4, worin besagter Vektor von Parametern weiter entweder als Pulscodemodulation (PCM), μ-Gesetz codierte PCM, Filterbankenergien, Linienspektralfrequenzen oder Cepstrum-Koeffizienten definiert sind.
Sprachverarbeitungssystem des Anspruchs 1, worin besagter Sprachmodell-Server (40) weiter einen Sprachmodell-Datenbank (46) zum Speichern von sprecherunabhängigen Sprachreferenzmodellen umfasst, besagter Sprachmodell-Server fähig ist ein Sprachreferenzmodell ab besagter Sprachmodel-Datenbank wiederzugewinnen, das der Zwischenrepräsentation besagter Sprachtrainingsdaten entspricht, die ab besagtem Spracherkenner empfangen wurden.
Sprachverarbeitungssystem des Anspruchs 1, worin besagter Sprachmodell-Server (40) weiter umfasst: einen Phonetisierer (48), der fähig ist die Zwischenrepräsentation zu empfangen, um eine Vielheit phonetischer Transkriptionen zu produzieren; und einen Modelltrainer (50), der an besagten Phonetisierer gekoppelt ist, um besagtes Sprachreferenzmodell aufzubauen, das auf besagter Vielheit phonetischer Transkriptionen beruht.
Sprachverarbeitungssystem des Anspruchs 4, worin besagter Sprachmodell-Server (40) weiter umfasst: eine verdeckte Markov-Model-Datenbank (HMM) zum Speichern von Telefonmodell-Sprachdaten, die einer Vielheit von Phonemen entsprechen; und einen an besagte HMM-Datenbank gekoppelten Modelltrainer zum Decodieren der Vektorparameter in eine phonetische Transkription der Tondaten, wodurch besagte phonetische Transkription als besagtes Sprachreferenzmodell dient.
Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (22) wenigstens zwei Trainingswiederholungen von Tondaten erfasst, die als Sprachtrainingsdaten dienen und die Tondaten in eine Folge von Vektoren umwandelt, die als besagte Zwischenrepräsentation der Sprachtrainingsdaten dienen, wobei jeder Vektor einer Trainingswiederholung entspricht und die Parameter jedes Vektors auf die kurzzeitige Sprachspektralform besagter Tondaten schließen lassen.
Sprachverarbeitungssystem des Anspruchs 9, worin besagter Sprachmodell-Server (40) fähig ist einen Referenzvektor ab der Folge von Vektoren zu bestimmen, jeden Vektor in der Folge von Vektoren auf den Referenzvektor auszurichten und ein Mittel und eine Varianz jedes Parameters im Referenzvektor, berechnet über die Werte in den ausgerichteten Vektoren, zu bestimmen, und dadurch besagtes Sprachreferenzmodell aus der Folge von Vektoren zu konstruieren.
Sprachverarbeitungssystem wie in einem beliebigen der Ansprüche 1 bis 10 beansprucht, worin besagtes System konfiguriert ist Anwendungen zu unterstützen, die sich auf: einem persönlichen digitalen Assistenten (PDA) (10) befinden, besagtes Sprachverarbeitungssystem weiter umfasst: ein Eingabemittel zum Erfassen von Sprachtrainingsdaten an besagtem persönlichen Assistenten, worin besagter Spracherkennen an das besagte Eingabemittel gekoppelt ist und fähig ist Sprachtrainingsdaten ab besagtem Eingabemittel zu empfangen.
Sprachverarbeitungssystem wie in einem beliebigen der Ansprüche 1 bis 10 beansprucht, worin besagtes System konfiguriert ist Anwendungen zu unterstützen, die sich auf: einem Zellulartelefon-Bedienhörergerät (60) befinden, besagtes Sprachverarbeitungssystem weiter umfasst: ein Eingabemittel zum Erfassen von Sprachtrainingsdaten an besagtem Zellulartelefon-Bedienhörergerät, worin besagter Spracherkennen an das besagte Eingabemittel gekoppelt ist und fähig ist Sprachtrainingsdaten ab besagtem Eingabemittel zu empfangen.
Verfahren zum Bilden von Sprachreferenzmodellen zur Verwendung in einem Spracherkennungssystem, wobei das Verfahren folgende Schritte umfasst: an einem Spracherkenner (22), der sich auf einem ersten Computergerät (10) befindet; Empfangen von Sprachtrainingsdaten für wenigstens ein Wort; Verarbeiten der Sprachtrainingsdaten zu einer Zwischenrepräsentation der Sprachtrainingsdaten; und Kommunizieren besagter Zwischenrepräsentation der Sprachtrainingsdaten ab besagtem Spracherkenner an einen Sprachmodell-Server (40), der sich auf einem zweiten Computergerät (42) befindet, wobei besagtes zweite Computergerät über ein Netzwerk mit besagtem ersten Computergerät verbunden ist; und am besagten Sprachmodell-Server des zweiten Computergeräts: Generieren eines Sprachreferenzmodells, das mit dem auf besagter Zwischenrepräsentation beruhendem Wort assoziiert ist; Kommunizieren besagten Sprachreferenzmodells ab besagtem Sprachmodell-Server an besagtes erste Computergerät; und Koppeln eines Lexikons (24) an besagten Spracherkenner, wobei besagtes Lexikon adaptiert ist besagtes Wort und besagtes Sprachreferenzmodell ab besagtem Sprachmodell-Server auf besagtem ersten Computergerät zu empfangen, hinzuzufügen und zu speichern.
Sprachmodell-Servervorrichtung (40) zur Verwendung beim Bilden von Sprachreferenzmodellen, wobei besagte Servervorrichtung zur Verwendung in einem Spracherkennungssystem ein erstes Computergerät (10) umfasst, wobei sich besagte Sprachmodell-Servervorrichtung so auf einem zweiten Computergerät (42) befindet, dass besagter Server konfiguriert ist über ein Netzwerk mit besagtem ersten Computergerät verbunden zu werden; besagte Sprachmodell-Servervorrichtung (40) weiter dahingehend definiert ist, dass sie in Funktion konfiguriert ist folgendes zu tun: für wenigstens ein Wort Sprachtrainingsdaten zu empfangen, die über einen Spracherkenner (22), der sich auf besagtem ersten Computergerät (10) befindet, zu einer Zwischenform verarbeitet worden sind; Generieren eines Sprachreferenzmodells, das mit dem Wort assoziiert ist, das auf besagten empfangenen Zwischentrainingsdaten beruht; und Kommunizieren besagten Worts und besagten assoziierten Sprachreferenzmodells an ein Lexikon (24), das an besagten Spracherkenner besagten ersten Computergeräts gekoppelt ist, wobei besagte Kommunikation konfiguriert ist vom Lexikon empfangen, hinzugefügt und gespeichert werden zu können.
Computervorrichtung (10) zur Verwendung in einem Sprachreferenzmodell zum Einsatz in einem Spracherkennungssystem, wobei besagte Vorrichtung umfasst: ein Spracherkennungsgerät (22), das für folgendes konfiguriert ist: (a) Empfangen von Sprachtrainingsdaten für wenigstens ein Wort; (b) Verarbeiten der Sprachtrainingsdaten zu einer Zwischenrepräsentation der Sprachtrainingsdaten; (c) in Betrieb die Zwischenrepräsentation an eine zweite Computervorrichtung (42) zu kommunizieren, die über ein Netzwerk mit besagter Vorrichtung verbunden ist; und ein Lexikon (24), das für folgendes konfiguriert ist: (a) Koppeln an besagtes Spracherkennungsgerät (22); und (b) Empfangen eines generierten Sprachreferenzmodells, das mit dem Wort assoziiert ist, das auf der Zwischenrepräsentation ab besagter zweiten Computervorrichtung (42) beruht, die in besagtem System verwendet wird, wobei das Lexikon (24) konfiguriert ist besagtes empfangene Wort und besagtes assoziiertes Sprachreferenzmodell hinzuzufügen und zu speichern.