DE60003971T2 - Verteilte Architektur zum Trainieren eines Spracherkennungssystems - Google Patents
Verteilte Architektur zum Trainieren eines Spracherkennungssystems Download PDFInfo
- Publication number
- DE60003971T2 DE60003971T2 DE60003971T DE60003971T DE60003971T2 DE 60003971 T2 DE60003971 T2 DE 60003971T2 DE 60003971 T DE60003971 T DE 60003971T DE 60003971 T DE60003971 T DE 60003971T DE 60003971 T2 DE60003971 T2 DE 60003971T2
- Authority
- DE
- Germany
- Prior art keywords
- language
- speech
- training data
- model
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Description
- Hintergrund und Zusammenfassung der Erfindung
- Die vorliegende Erfindung bezieht sich im allgemeinen auf Spracherkennungssysteme, und insbesondere bezieht sich die Erfindung auf ein System zum Trainieren eines Spracherkenners zur Verwendung in einem kleinen Hardwaregerät.
- Das Marketing von Konsumelektronikprodukten ist sehr kostenreagibel. Reduzierung der Festprogrammspeichergröße, der Direktzugriffs-Arbeitsspeichergröße oder der Prozessorgeschwindigkeitsanforderungen ergibt geringere Kosten, kleinere und energiesparende Elektronikgeräte. Der gegenwärtige Trend ist, diese Konsumprodukte durch Einverleibung von Sprachtechnologie leichter verwendbar zu machen. Viele Konsumelektronikprodukte, wie beispielsweise persönliche digitale Assistenten (PDA) und Zellulartelefone, bieten ideale Möglichkeiten Sprachtechnologie auszubeuten, stellen aber auch eine Herausforderung dar, indem Speicher- und Verarbeitungsleistung in der Host-Hardware oftmals begrenzt ist. Wenn man den besonderen Fall der Verwendung von Spracherkennungstechnologie für Sprachwählen in Zellulartelefonen bedenkt, wird der eingebettete Spracherkennen in eine relativ kleine Speicherbasisfläche passen müssen.
- Um Speicherverwendung zu sparen, wird das typische eingebettete Spracherkennungssystem sehr begrenztes, häufig statisches Vokabular haben. In diesem Fall konnten bedingungsspezifische Wörter, beispielsweise zum Wählen eines Zellulartelefons verwendete Namen, nicht erkannt werden. In vielen Fällen ist das Trainieren des Spracherkenners hinsichtlich erforderlichem Speicher oder rechenbetonter Komplexität kostspieliger als der Spracherkennungsprozess. Kleine, billige Hardwaregeräte, die Spracherkennung durchführen können, haben vielleicht nicht die Ressourcen das Lexikon erkannter Wörter zu erstellen und/oder zu aktualisieren. Und außerdem, wo der Prozessor andere Aufgaben (z. B. Benutzerinteraktionsmerkmale) innerhalb des eingebetteten Systems handhaben muss, werden konventionelle Verfahren zum Erstellen und/oder Aktualisieren des Lexikons möglicherweise die Ausführung nicht innerhalb einer angemessenen Zeitspanne vorzunehmen können, ohne die anderen unterstützten Aufgaben zu beeinträchtigen.
- Eine bekannte Architektur, die möglicherweise einige der obigen Probleme in Bezug auf das Trainieren eines Spracherkennungssystems überwinden kann, und die Herunterladen bereits vorhandener Sprachmodelle von einem Fernserver offenlegt, ist in der Patentveröffentlichung Nr.: US-A-5054082 offengelegt.
- Die vorliegende Erfindung ist die obigen Probleme durch eine verteilte Spracherkennungsarchitektur angegangen, mit der Wörter und deren zugehörige Sprachmodelle einem Lexikon auf einer völlig maßgeschneiderten Basis hinzugefügt werden können. Auf diese Weise erzielt die vorliegende Erfindung drei wünschenswerte Merkmale:
(1) der Benutzer des Konsumprodukts kann dem Lexikon Wörter hinzufügen, (2) das Konsumprodukt benötigt nicht die zur Erstellung neuer Sprachmodelle erforderlichen Ressourcen, und (3) das Konsumprodukt ist während der Spracherkennung (im Gegensatz zu Sprachreferenztraining) autonom, so dass es nicht mit einem Fernservergerät verbunden sein braucht. - Zur Ausführung sind vorgesehen: ein Sprachverarbeitungssystem wie in Anspruch 1 dargelegt, ein Verfahren zum Aufbau von Sprachreferenzmodellen wie in Anspruch 13 dargelegt, ein Sprachmodell-Servergerät wie in Anspruch 14 dargelegt und ein Computergerät wie in Anspruch 15 dargelegt.
- Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
- Kurzbeschreibung der Zeichnungen
-
1 ist ein Diagramm, das einen persönlichen digitalen Assistenten (PDA) im Kontext eines verteilten Spracherkennungssystems gemäß der vorliegenden Erfindung veranschaulicht; und -
2 ist ein Diagramm, das ein Zellulartelefon im Kontext eines verteilten Spracherkennungssystems der vorliegenden Erfindung veranschaulicht. - Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
- Die von der vorliegenden Erfindung angewandten technischen Verfahren lassen sich in einer Reihe nützlicher Anwendungen einsetzen. Zur Erläuterung wird zunächst ein bevorzugtes Ausführungsbeispiel der Erfindung laut Anwendung in einem persönlichen digitalen Assistenten (PDA) beschrieben. Anschließend an diese Beschreibung wird ein weiteres Beispiel eines bevorzugten Ausführungsbeispiels im Zusammenhang mit einer Zellulartelefonanwendung präsentiert. Natürlich wird man verstehen, dass die Prinzipien der Erfindung in einer breiten Palette anderer Anwendungen und Konsumprodukten zum Einsatz kommen können, bei denen Spracherkennung angewandt wird.
- Mit Bezugnahme auf
1 ist ein persönlicher digitaler Assistent bei 10 dargestellt. Das Gerät besitzt einen Bildschirm12 , der dem Benutzer Informationen präsentiert und auf dem der Benutzer Informationen eingeben kann, indem er mit einem Stylus14 auf den Bildschirm schreibt. Der persönliche digitale Assistent10 schließt ein Handschrifterkennungsmodul ein, das die vom Benutzer mit dem Stylus eingegebenen Strichdaten analysiert. Das Handschrifterkennungsmodul verwandelt die handschriftlichen Strichdaten in alphanumerischen Text, der sich in geeigneter Form (z.B., ASCII-Format) innerhalb eines Teils des im PDA10 enthaltenen Direktzugriffsspeichers speichern lässt. - In einem typischen PDA-Gerät verwaltet das Betriebssystem des Geräts den Permanentspeicher, der zum Speichern der vom Benutzer eingegeben Daten verwendet wird. Obwohl die genaue Konfiguration und das Layout dieses Permanentspeichers vom speziellen angewandten Betriebssystem abhängt, wird, im allgemeinen, ein Teil des Speichers für das Speichern alphanumerischer Daten zugeteilt, die vom Benutzer im Zusammenhang mit verschiedenen Anwendungen eingegeben werden. Diese Anwendungen schließen Adressbücher, E-Mail-Adressenverzeichnisse, Telefonwählprogramme, Terminplanungs- und Kalenderanwendungen, persönliche Finanzanwendungen, Webbrowser und dergleichen ein. Zur Erläuterung ist eine Adressbuchanwendung
20 in1 dargestellt. Wenn der Benutzer Namen, Adressen und Telefonnummern mit dem Stylus eingibt, werden die den Benutzeingabeinformationen entsprechenden alphanumerischen Daten in einem Teil des permanenten Direktzugriffsspeichers des Systems gespeichert, der in1 als Wortspeicher21 designiert worden ist. - Der PDA
10 des vorliegenden Ausführungsbeispiels ist ein sprachaktiviertes Gerät. Es schließt ein Mikrofon16 ein, das vorzugsweise innerhalb des Geräts untergebracht ist, um dem Benutzer zu ermöglichen Sprachbefehle und Sprachdaten als Alternative zur Verwendung des Stylus einzugeben. Der Benutzer kann, beispielsweise, den Namen einer Person aussprechen, deren Adresse und Telefonnummer er aus seinem Adressbuch auslesen möchte. Vorzugsweise schließt der PDA 10 außerdem einen integralen Lautsprecher18 ein, über den digital aufgezeichnete Tondaten und synthetisierte Sprachdaten an den Benutzer übertragen werden können. - Ein Spracherkennermodul
22 innerhalb des PDA10 verarbeitet die durch das Mikrofon16 eingegebenen Sprachdaten. Der Spracherkenner kann eine unabhängige Anwendung sein, die auf dem PDA-Gerät läuft, oder er kann in das Betriebssystem des PDA-Geräts eingebaut sein. Es gibt eine Reihe verschiedener Sprachschablonen, die dem Spracherkenner22 zu Grunde liegen können. Verdeckte Markov-Modelle sind heute weitverbreitet und können dazu benutzt werden das dargestellte Ausführungsbeispiel zu implementieren. Oder aber man kann andere Schablonen verwenden, beispielsweise ein Modell, das auf hohen Ähnlichkeitsbereichen beruht, wie es von Morin et al. in den US-Patentnummem 5.684.925, 5.822.728 und 5.825.977 vorgeschlagen wird. - Der Spracherkenner
22 arbeitet mit einem lokal gespeicherten Lexikon24 von Wörtern zusammen, die vom System erkannt werden können. Das Lexikon24 ist so angeordnet, dass zu jedem vom System erkennbaren Wort ein Sprachmodell gehört. Diese Anordnung ist in1 durch eine Datenstruktur dargestellt, die eine Einheit von Wortdaten26 mit einem entsprechenden Sprachmodell28 assoziiert. Auf diese Weise wiedergewinnt der Spracherkenner22 den alphanumerischen Text für das den Eingabesprachdaten entsprechende Wort. Im Fall des Adressbuchs, kann die Anwendung20 die entsprechende Adresse und Telefonnummer, unter Verwendung des alphanumerischen Texts für den gesprochenen Namen, wie vom Spracherkenner22 bereitgestellt, wiedergewinnen. - Der persönliche digitale Assistent
10 stellt eine Herausforderung dahingehend dar, dass er versucht jedes der vorher beschriebenen wünschenswerten Merkmale zu erzielen. Daher verwendet der PDA10 eine verteilte Spracherkennungsarchitektur, mit der Wörter und deren zugehörige Sprachmodelle einem Lexikon auf einer völlig maßgeschneiderten Basis hinzugefügt werden können. Mit Hilfe des Stylus oder einem anderen geeigneten Gerät, beispielsweise einer Tastatur, gibt der Benutzer Wörter in den Wortspeicher21 ein. Das System erfasst dann Sprachreferenzmodelle, die jenen Worten entsprechen, indem es auf ein zweites Computergerät zugreift. - Beim vorliegenden bevorzugten Ausführungsbeispiel liefert ein Referenzmodell-Server die Sprachmodelle für neu eingegebene Wörter. Der Referenzmodell-Server
40 kann auf einem geeigneten Host-Server-Computer42 , typisch an einem fernen Ort, realisiert sein. Der PDA10 und der Servercomputer42 kommunizieren miteinander durch geeignete Kommunikationsmodule30 und44 . In dieser Hinsicht können die Kommunikationsmodule viele Formen annehmen, um weitverbreitete Kommunikationshardware und Softwareplattformen zu unterstützen. Beispielsweise könnten der PDA10 und Servercomputer42 konfiguriert sein miteinander durch eine RS232-Schnittstelle zu kommunizieren, in welcher der PDA10 in eine Gabel eingesteckt wird, die mittels Kabel an einen seriellen Anschluss des Servercomputers42 angeschlossen ist. Der PDA10 und Host-Computer42 können ebenso über ein öffentliches Telefonnetz oder ein zellulares Telefonnetz unter Einsatz geeigneter Modems kommunizieren. Oder aber der PDA10 und Host-Computer42 können durch eine Infrarotverbindung, Ethernet oder eine andere geeignete Hardwareplattform unter Verwendung von Kommunikationsprotokollen (z.B. TCP/IP) kommunizieren. Auf diese Weise können der persönliche digitale Assistent10 und der Servercomputer42 konfiguriert werden, um miteinander über das Internet zu kommunizieren. - Der Referenzmodell-Server
40 schließt vorzugsweise eine Datenbank sprecherunabhängiger Modelle46 ein, die einen relativ umfangreichen Satz Wörter und deren zugehörige Sprachreferenzmodelle umfassen. Wenn der Benutzer ein neues Wort in den PDA10 eingibt, wird das Wort über Kommunikationsmodule30 und44 an den Referenzmodell-Server40 kommuniziert. Wird das vom Benutzer bereitgestellte Wort in der Datenbank46 gefunden, kann das dem Wort entsprechende Sprachmodell durch die Kommunikationsmodule auf den PDA übertragen werden. Der PDA speichert dann das neu erfasste Sprachreferenzmodell so in seinem Lexikon24 , dass das Sprachreferenzmodell, wie durch die Datenstrukturen26 und28 dargestellt, mit dem vom Benutzer bereitgestellten Wort assoziiert wird. - Wird das vom Benutzer bereitgestellte Wort nicht in der Datenbank
46 gefunden, generiert das System ein Sprachreferenzmodell für das Wort. Zur Ausführung verwendet das System einen Phonetisierer48 und ein Referenzmodell-Trainingsmodul50 . Zunächst analysiert der Phonetisierer48 die das Wort ausmachenden Buchstaben syntaktisch und wendet dann ein Entscheidungsbaumnetzwerk an, um eine oder mehrere hypothetische Aussprachen (d.h., phonetische Transkriptionen) des vom Benutzer eingegebenen Worts zu generieren. Dieser Satz synthesierter Aussprachen dient dann als Eingabe an das Referenzmodell-Trainingsmodul50 , das seinerseits ein neues Sprachreferenzmodell auf der Basis der mit dem Referenzmodell-Trainingsmodul50 assoziierten Sprachmodellschablone erstellt. In einem bevorzugten Ausführungsbeispiel wird verdecktes Markov-Modell als die Sprachmodellschablone für das Trainingsmodul50 verwendet. Das Referenzmodell-Trainingsmodul50 kann auch ein Verfahren zur Ermittlung des optimalen Sprachmodells für die phonetische Transkriptionseingabe anwenden. - Oder aber das System kann, wenn das vom Benutzer eingegebene Wort nicht in der Datenbank
46 gefunden wird, ein Sprachreferenzmodell auf der Basis von Sprachtrainingsdaten generieren, die dem vom Benutzer bereitgestellten Wort entsprechen. In diesem Fall spricht der Benutzer das Wort, für welches das neue Sprachreferenzmodell gewünscht wird. Das System empfängt das vom Benutzer bereitgestellte Wort als Tondaten über das Mikrofon18 . Der Spracherkenner22 wandelt die Tondaten in ein digitalisiertes Eingabesignal und danach in eine parametrisierte Zwischenfonm um. In einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung, ist die Zwischenrepräsentation des Worts ein Vektor von Parametern, die die kurzzeitige Sprachspektralforrn der Tondaten repräsentieren. Der Vektor von Parametern lässt sich weiter als, aber nicht begrenzt auf, Pulscodemodulation (PCM), μ-Gesetz-codierte PCM, Filterbankenergien, Linienspektralfrequenzen, (LPC) lineare Prädiktionscodienings-Cepstrum-Koeffizienten oder andere Typen von Cepstrum-Koeffizienten definieren. Ein Fachmann wird leicht erkennen, dass das System den Benutzer zu einer oder mehreren Sprechweisen des vom Benutzer bereitgestellten Worts auffordern kann, um reichliche Sprachtrainingsdaten zu tiefem. In diesem Fall besteht die Zwischenrepräsentation des Worts aus einer Folge von Vektoren, die eine Folge für jede Tainingswiederholung haben. Wird das Wort nicht im Lexikon gefunden, so wird die Zwischenform dann über Kommunikationsmodul30 und44 an den Referenzmodell-Server40 kommuniziert. - Der Referenzmodell-Server
40 leitet die Zwischenrepräsentation des Worts an das Referenzmodell-Trainingsmodul50 weiter, wo mit Hilfe der Sprachmodellschablone ein Sprachmodell konstruiert wird. Zum Konstruieren eines Sprachmodells decodiert das Referenzmodell-Trainingsmodul50 vielleicht die Zeitserien von Parametervektoren in den Sprachtrainingsdaten durch Vergleich mit einem Satz phonetischer verdeckter Markov-Modelle, damit man eine phonetische Transkription der Äußerung in den Sprachtrainingsdaten erhält. In diesem Fall dient die Transkription als das Sprachreferenzmodell. Oder aber kann das Referenzmodell-Trainingsmodul50 vielleicht die Zeitserien von Parametervektoren für jede Wiederholung der Sprachäußerung in den Sprachtrainingsdaten ausrichten, wie es im Fachgebiet gut bekannt ist. In diesem Fall, berechnet das Referenzmodell-Trainingsmodul50 das Mittel und die Varianz jedes Parameters an jedem Zeitintervall und konstruiert dann das Sprachreferenzmodell aus diesen Mitteln und Varianzen (oder Funktionen dieser Mittel und Varianzen). In beiden Fällen, wird das neu konstruierte Sprachreferenzmodell danach über die Kommunikationsverbindung an den PDA zurückgesandt. Abschließend wird das neue Sprachreferenzmodell zusammen mit der alphanumerischen Repräsentation des vom Benutzer bereitgestellten Worts dem Lexikon24 hinzugefügt. - Ein zweites bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung wird in Bezug auf eine Zellulartelefonanwendung, wie in der
2 dargestellt, beschrieben. Das Zellulartelefon-Bedienhörergerät60 enthält ein eingebettetes Mikrofon 62 zum Empfangen von Tondaten seitens des Benutzers und einen eingebetteten Lautsprecher64 zur Rückübertragung von Tondaten an den Benutzer. Das Bedienhörergerät60 schließt außerdem eine Telefonkleintastatur 66 zum Wählen oder zur Eingabe anderer Informationen, sowie einen kleinen Flüssigkristall-Bildschirm68 , der dem Benutzer Informationen präsentiert, ein. Deshalb eignet sich das Zellulartelefon für verschiedene Typen eingebetteter, sprachaktivierter Anwendungen. - Obwohl verschiedene Typen sprachaktivierter Anwendungen ins Auge gefasst sind, ist ein automatisches sprachgesteuertes Wählmerkmal in der
2 veranschaulicht. Zum sprachgesteuerten Telefonwählen spricht ein Benutzer lediglich den Namen der Person, die er anrufen möchte. Die dem gesprochenen Namen entsprechenden Tondaten werden dann von einem Spracherkennermodul22' im Bedienhörergerät60 verarbeitet. Der Spracherkenner22' arbeitet mit einem lokal gespeicherten Lexikon24' von Wörtern zusammen, die das System vielleicht erkennen kann. Wie in der2 gezeigt, ist das Lexikon24' in Übereinstimmung mit einer Datenstruktur angeordnet, die jedes erkennbare Wort mit einem entsprechenden Sprachreferenzmodell assoziiert. - Erkennt der Spracherkenner
22' den Namen, wird die alphanumerische Repräsentation des gesprochenen Worts an ein automatisches Wählmodul70 weitergeleitet. Ein Teil des Permanent-Direktzugriffsspeichers des Systems wird dazu verwendet eine Verknüpfung zwischen Namen und Telefonnummern beizubehalten. Das automatische Wählmodul70 verschafft sich Zugriff auf diese Speicherstelle, um die Telefonnummer wiederzugewinnen, die der alphanumerischen Repräsentation des gesprochenen Namens entspricht und geht anschließend damit voran die Telefonnummer zu wählen. Auf diese Weise ist der Benutzer fähig mit dem Zellulartelefon eine sprachgesteuerte automatische Nummernwahl vorzunehmen. - Das Zellulartelefon stellt ebenso eine Herausforderung dahingehend dar, dass es versucht jedes der vorher identifizierten wünschenswerten Merkmale zu erzielen. Wiederum verwendet das Zellulartelefon eine verteilte Spracherkennungsarchitektur, mit der Wörter und deren zugehörige Sprachmodelle dem Lexikon
24' auf einer völlig maßgeschneiderten Basis hinzugefügt werden können. Wird der vom Benutzer bereitgestellte Name nicht im Lexikon24' gefunden, so kann der Benutzer den Namen entweder mit der Kleintastatur66 oder einem anderen geeigneten Eingabegerät eingeben. Die, dem Namen entsprechenden, alphanumerischen Daten werden in einem Teil des Permanent-Direktzugriffsspeichers des Systems gespeichert, der als Wortspeicher21' designiert worden ist. Der Name wird dann über die Kommunikationsmodule30' und44' an den Referenzmodell-Server40' kommuniziert. - Wie bereits beschrieben leitet der Referenzmodell-Server
40' die Zwischenrepräsentation des Namens an das Referenzmodell-Trainingsmodul50' weiter, wo mit Hilfe der Sprachmodellschablone ein Sprachmodell konstruiert wird. Danach wird das neu konstruierte Sprachreferenzmodell über die Kommunikationsverbindung zum Telefon-Bedienhörergerät60 zurückgesandt. Abschließend wird das Sprachreferenzmodell zusammen mit einem entsprechenden vom Benutzer bereitstellten Wort dem Lexikon24' des Telefon-Bedienhörergeräts60 hinzugefügt. - Für eine Anwendung automatischen, sprachgesteuerten Wählens wird ins Auge gefasst, dass das Lexikon
24' außerdem vielleicht konfiguriert sein kann eher Telefonnummern statt Namen mit einem Sprachreferenzmodell zu assoziieren. Wenn der Benutzer den Namen der Person ausspricht, die er anrufen möchte, arbeitet der Spracherkennen22' mit dem Lexikon24' zusammen, um die Telefonnummer wiederzugewinnen, die dem gesprochenen Namen entspricht. Die Telefonnummer wird dann direkt an das automatische Wählmodul70 weitergeleitet. - Das Vorgenannte offenbart und beschreibt lediglich beispielhafte Ausführungsbeispiele der vorliegenden Erfindung. Ein Fachmann wird anhand solch einer Erörterung und aus zugehörigen Zeichnungen und Ansprüchen leicht erkennen, dass verschiedene Änderungen, Modifikationen und Variationen, ohne vom Umfang der vorliegenden Erfindung, wie in den beiliegenden Ansprüchen definiert, abzuweichen, darin vorgenommen werden können.
Claims (15)
- Sprachverarbeitungssystem zum Konstruieren von Spracherkennungs-Referenzmodellen, wobei besagtes System umfasst: einen Spracherkennen (
22 ) an einem ersten Computergerät (10 ); besagter Spracherkennen Sprachtrainingsdaten für wenigstens ein Wort empfängt und die Sprachtrainingsdaten zu einer Zwischenrepräsentation der Sprachtrainingsdaten verarbeitet, besagter Spracherkenner weiter fähig ist die Repräsentation an ein zweites Computergerät (42 ) zu kommunizieren; einen Sprachmodell-Server (40 ), der sich auf besagtem zweiten Computergerät (42 ) befindet, wobei besagtes zweite Computergerät über ein Netzwerk mit besagtem ersten Computergerät verbunden ist; besagter Sprachmodell-Server (40 ) die Zwischenrepräsentation der Sprachtrainingsdaten empfängt und ein Sprachreferenzmodell generiert, das mit dem auf der Zwischenrepräsentation basierenden Wort assoziiert ist, besagter Sprachmodell-Server weiter fähig ist das Sprachreferenzmodell an besagtes erstes Computergerät zu kommunizieren; und ein Lexikon (24 ), das an besagten Spracherkenner (22 ) gekoppelt und adaptiert ist besagtes Wort und besagtes assoziiertes Sprachreferenzmodell ab besagtem Sprachmodell-Server auf besagtem ersten Computergerät zu empfangen, hinzuzufügen und zu speichern. - Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (
22 ) alphanumerischen Text empfängt, der als Sprachtrainingsdaten dient und besagte Zwischenrepräsentation der Sprachtrainingsdaten eine Folge von Symbolen ab besagtem alphanumerischen Text ist. - Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (
22 ) Tondaten erfasst, die als Sprachtrainingsdaten dienen, und die Tondaten in besagte Zwischenrepräsentation der Sprachtrainingsdaten digitalisiert. - Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (
22 ) Tondaten erfasst, die als Sprachtrainingsdaten dienen, und die Tondaten in einen Vektor von Parametern umwandelt, die als besagte Zwischenrepräsentation der Sprachdaten dienen, wobei die Parameter auf die kurzzeitige Sprachspektralform besagter Tondaten schließen lassen. - Sprachverarbeitungssystem des Anspruchs 4, worin besagter Vektor von Parametern weiter entweder als Pulscodemodulation (PCM), μ-Gesetz codierte PCM, Filterbankenergien, Linienspektralfrequenzen oder Cepstrum-Koeffizienten definiert sind.
- Sprachverarbeitungssystem des Anspruchs 1, worin besagter Sprachmodell-Server (
40 ) weiter einen Sprachmodell-Datenbank (46 ) zum Speichern von sprecherunabhängigen Sprachreferenzmodellen umfasst, besagter Sprachmodell-Server fähig ist ein Sprachreferenzmodell ab besagter Sprachmodel-Datenbank wiederzugewinnen, das der Zwischenrepräsentation besagter Sprachtrainingsdaten entspricht, die ab besagtem Spracherkenner empfangen wurden. - Sprachverarbeitungssystem des Anspruchs 1, worin besagter Sprachmodell-Server (
40 ) weiter umfasst: einen Phonetisierer (48 ), der fähig ist die Zwischenrepräsentation zu empfangen, um eine Vielheit phonetischer Transkriptionen zu produzieren; und einen Modelltrainer (50 ), der an besagten Phonetisierer gekoppelt ist, um besagtes Sprachreferenzmodell aufzubauen, das auf besagter Vielheit phonetischer Transkriptionen beruht. - Sprachverarbeitungssystem des Anspruchs 4, worin besagter Sprachmodell-Server (
40 ) weiter umfasst: eine verdeckte Markov-Model-Datenbank (HMM) zum Speichern von Telefonmodell-Sprachdaten, die einer Vielheit von Phonemen entsprechen; und einen an besagte HMM-Datenbank gekoppelten Modelltrainer zum Decodieren der Vektorparameter in eine phonetische Transkription der Tondaten, wodurch besagte phonetische Transkription als besagtes Sprachreferenzmodell dient. - Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (
22 ) wenigstens zwei Trainingswiederholungen von Tondaten erfasst, die als Sprachtrainingsdaten dienen und die Tondaten in eine Folge von Vektoren umwandelt, die als besagte Zwischenrepräsentation der Sprachtrainingsdaten dienen, wobei jeder Vektor einer Trainingswiederholung entspricht und die Parameter jedes Vektors auf die kurzzeitige Sprachspektralform besagter Tondaten schließen lassen. - Sprachverarbeitungssystem des Anspruchs 9, worin besagter Sprachmodell-Server (
40 ) fähig ist einen Referenzvektor ab der Folge von Vektoren zu bestimmen, jeden Vektor in der Folge von Vektoren auf den Referenzvektor auszurichten und ein Mittel und eine Varianz jedes Parameters im Referenzvektor, berechnet über die Werte in den ausgerichteten Vektoren, zu bestimmen, und dadurch besagtes Sprachreferenzmodell aus der Folge von Vektoren zu konstruieren. - Sprachverarbeitungssystem wie in einem beliebigen der Ansprüche 1 bis 10 beansprucht, worin besagtes System konfiguriert ist Anwendungen zu unterstützen, die sich auf: einem persönlichen digitalen Assistenten (PDA) (
10 ) befinden, besagtes Sprachverarbeitungssystem weiter umfasst: ein Eingabemittel zum Erfassen von Sprachtrainingsdaten an besagtem persönlichen Assistenten, worin besagter Spracherkennen an das besagte Eingabemittel gekoppelt ist und fähig ist Sprachtrainingsdaten ab besagtem Eingabemittel zu empfangen. - Sprachverarbeitungssystem wie in einem beliebigen der Ansprüche 1 bis 10 beansprucht, worin besagtes System konfiguriert ist Anwendungen zu unterstützen, die sich auf: einem Zellulartelefon-Bedienhörergerät (
60 ) befinden, besagtes Sprachverarbeitungssystem weiter umfasst: ein Eingabemittel zum Erfassen von Sprachtrainingsdaten an besagtem Zellulartelefon-Bedienhörergerät, worin besagter Spracherkennen an das besagte Eingabemittel gekoppelt ist und fähig ist Sprachtrainingsdaten ab besagtem Eingabemittel zu empfangen. - Verfahren zum Bilden von Sprachreferenzmodellen zur Verwendung in einem Spracherkennungssystem, wobei das Verfahren folgende Schritte umfasst: an einem Spracherkenner (
22 ), der sich auf einem ersten Computergerät (10 ) befindet; Empfangen von Sprachtrainingsdaten für wenigstens ein Wort; Verarbeiten der Sprachtrainingsdaten zu einer Zwischenrepräsentation der Sprachtrainingsdaten; und Kommunizieren besagter Zwischenrepräsentation der Sprachtrainingsdaten ab besagtem Spracherkenner an einen Sprachmodell-Server (40 ), der sich auf einem zweiten Computergerät (42 ) befindet, wobei besagtes zweite Computergerät über ein Netzwerk mit besagtem ersten Computergerät verbunden ist; und am besagten Sprachmodell-Server des zweiten Computergeräts: Generieren eines Sprachreferenzmodells, das mit dem auf besagter Zwischenrepräsentation beruhendem Wort assoziiert ist; Kommunizieren besagten Sprachreferenzmodells ab besagtem Sprachmodell-Server an besagtes erste Computergerät; und Koppeln eines Lexikons (24 ) an besagten Spracherkenner, wobei besagtes Lexikon adaptiert ist besagtes Wort und besagtes Sprachreferenzmodell ab besagtem Sprachmodell-Server auf besagtem ersten Computergerät zu empfangen, hinzuzufügen und zu speichern. - Sprachmodell-Servervorrichtung (
40 ) zur Verwendung beim Bilden von Sprachreferenzmodellen, wobei besagte Servervorrichtung zur Verwendung in einem Spracherkennungssystem ein erstes Computergerät (10 ) umfasst, wobei sich besagte Sprachmodell-Servervorrichtung so auf einem zweiten Computergerät (42 ) befindet, dass besagter Server konfiguriert ist über ein Netzwerk mit besagtem ersten Computergerät verbunden zu werden; besagte Sprachmodell-Servervorrichtung (40 ) weiter dahingehend definiert ist, dass sie in Funktion konfiguriert ist folgendes zu tun: für wenigstens ein Wort Sprachtrainingsdaten zu empfangen, die über einen Spracherkenner (22 ), der sich auf besagtem ersten Computergerät (10 ) befindet, zu einer Zwischenform verarbeitet worden sind; Generieren eines Sprachreferenzmodells, das mit dem Wort assoziiert ist, das auf besagten empfangenen Zwischentrainingsdaten beruht; und Kommunizieren besagten Worts und besagten assoziierten Sprachreferenzmodells an ein Lexikon (24 ), das an besagten Spracherkenner besagten ersten Computergeräts gekoppelt ist, wobei besagte Kommunikation konfiguriert ist vom Lexikon empfangen, hinzugefügt und gespeichert werden zu können. - Computervorrichtung (
10 ) zur Verwendung in einem Sprachreferenzmodell zum Einsatz in einem Spracherkennungssystem, wobei besagte Vorrichtung umfasst: ein Spracherkennungsgerät (22 ), das für folgendes konfiguriert ist: (a) Empfangen von Sprachtrainingsdaten für wenigstens ein Wort; (b) Verarbeiten der Sprachtrainingsdaten zu einer Zwischenrepräsentation der Sprachtrainingsdaten; (c) in Betrieb die Zwischenrepräsentation an eine zweite Computervorrichtung (42 ) zu kommunizieren, die über ein Netzwerk mit besagter Vorrichtung verbunden ist; und ein Lexikon (24 ), das für folgendes konfiguriert ist: (a) Koppeln an besagtes Spracherkennungsgerät (22 ); und (b) Empfangen eines generierten Sprachreferenzmodells, das mit dem Wort assoziiert ist, das auf der Zwischenrepräsentation ab besagter zweiten Computervorrichtung (42 ) beruht, die in besagtem System verwendet wird, wobei das Lexikon (24 ) konfiguriert ist besagtes empfangene Wort und besagtes assoziiertes Sprachreferenzmodell hinzuzufügen und zu speichern.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US295276 | 1999-04-20 | ||
US09/295,276 US6463413B1 (en) | 1999-04-20 | 1999-04-20 | Speech recognition training for small hardware devices |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60003971D1 DE60003971D1 (de) | 2003-08-28 |
DE60003971T2 true DE60003971T2 (de) | 2004-05-27 |
Family
ID=23137012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60003971T Expired - Fee Related DE60003971T2 (de) | 1999-04-20 | 2000-03-22 | Verteilte Architektur zum Trainieren eines Spracherkennungssystems |
Country Status (3)
Country | Link |
---|---|
US (1) | US6463413B1 (de) |
EP (1) | EP1047046B1 (de) |
DE (1) | DE60003971T2 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013219649A1 (de) * | 2013-09-27 | 2015-04-02 | Continental Automotive Gmbh | Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher |
DE102012212185B4 (de) | 2011-07-25 | 2019-03-07 | International Business Machines Corporation | Pflegen und Bereitstellen von Sprachmodellen |
DE102009017177B4 (de) | 2008-04-23 | 2022-05-05 | Volkswagen Ag | Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges |
Families Citing this family (183)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100828884B1 (ko) * | 1999-03-05 | 2008-05-09 | 캐논 가부시끼가이샤 | 데이터베이스 주석 및 검색 |
US7091959B1 (en) * | 1999-03-31 | 2006-08-15 | Advanced Digital Systems, Inc. | System, computer program product, computing device, and associated methods for form identification and information manipulation |
DE19918382B4 (de) * | 1999-04-22 | 2004-02-05 | Siemens Ag | Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät |
US6789061B1 (en) * | 1999-08-25 | 2004-09-07 | International Business Machines Corporation | Method and system for generating squeezed acoustic models for specialized speech recognizer |
US7194752B1 (en) | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
JP3689670B2 (ja) * | 1999-10-28 | 2005-08-31 | キヤノン株式会社 | パターン整合方法及び装置 |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8355912B1 (en) * | 2000-05-04 | 2013-01-15 | International Business Machines Corporation | Technique for providing continuous speech recognition as an alternate input device to limited processing power devices |
US6826551B1 (en) * | 2000-05-10 | 2004-11-30 | Advanced Digital Systems, Inc. | System, computer software program product, and method for producing a contextual electronic message from an input to a pen-enabled computing system |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
US6990533B1 (en) * | 2000-05-23 | 2006-01-24 | Palm Source, Inc. | Method and system for device bootstrapping via server synchronization |
US6701162B1 (en) * | 2000-08-31 | 2004-03-02 | Motorola, Inc. | Portable electronic telecommunication device having capabilities for the hearing-impaired |
GB0023930D0 (en) * | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
US6728676B1 (en) * | 2000-10-19 | 2004-04-27 | International Business Machines Corporation | Using speech recognition to improve efficiency of an inventory task |
US8135589B1 (en) | 2000-11-30 | 2012-03-13 | Google Inc. | Performing speech recognition over a network and using speech recognition results |
US6915262B2 (en) * | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
US6823306B2 (en) * | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
EP1215660B1 (de) * | 2000-12-14 | 2004-03-10 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Sprachgesteuertes tragbares Endgerät |
EP1215661A1 (de) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Sprachgesteuertes tragbares Endgerät |
EP1215653B1 (de) * | 2000-12-18 | 2003-09-17 | Siemens Aktiengesellschaft | Verfahren und Anordnung zur Spracherkennung für ein Kleingerät |
ES2208212T3 (es) * | 2000-12-18 | 2004-06-16 | Siemens Aktiengesellschaft | Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos. |
JP4240807B2 (ja) * | 2000-12-25 | 2009-03-18 | 日本電気株式会社 | 移動通信端末装置、音声認識方法、およびそのプログラムを記録した記録媒体 |
US20020091515A1 (en) * | 2001-01-05 | 2002-07-11 | Harinath Garudadri | System and method for voice recognition in a distributed voice recognition system |
US6681207B2 (en) * | 2001-01-12 | 2004-01-20 | Qualcomm Incorporated | System and method for lossy compression of voice recognition models |
US6798907B1 (en) | 2001-01-24 | 2004-09-28 | Advanced Digital Systems, Inc. | System, computer software product and method for transmitting and processing handwritten data |
US6889190B2 (en) * | 2001-01-25 | 2005-05-03 | Rodan Enterprises, Llc | Hand held medical prescription transcriber and printer unit |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
US6961414B2 (en) * | 2001-01-31 | 2005-11-01 | Comverse Ltd. | Telephone network-based method and system for automatic insertion of enhanced personal address book contact data |
US20020107885A1 (en) * | 2001-02-01 | 2002-08-08 | Advanced Digital Systems, Inc. | System, computer program product, and method for capturing and processing form data |
FR2820872B1 (fr) | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US6934682B2 (en) * | 2001-03-01 | 2005-08-23 | International Business Machines Corporation | Processing speech recognition errors in an embedded speech recognition system |
FI20010792A (fi) * | 2001-04-17 | 2002-10-18 | Nokia Corp | Käyttäjäriippumattoman puheentunnistuksen järjestäminen |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US20030050783A1 (en) * | 2001-09-13 | 2003-03-13 | Shinichi Yoshizawa | Terminal device, server device and speech recognition method |
US6901364B2 (en) * | 2001-09-13 | 2005-05-31 | Matsushita Electric Industrial Co., Ltd. | Focused language models for improved speech input of structured documents |
US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
JP2005515510A (ja) * | 2001-12-24 | 2005-05-26 | サイエンティフィック ジェネリクス リミテッド | キャプション・システム |
US7188066B2 (en) * | 2002-02-04 | 2007-03-06 | Microsoft Corporation | Speech controls for use with a speech system |
US7167831B2 (en) * | 2002-02-04 | 2007-01-23 | Microsoft Corporation | Systems and methods for managing multiple grammars in a speech recognition system |
US7139713B2 (en) * | 2002-02-04 | 2006-11-21 | Microsoft Corporation | Systems and methods for managing interactions from multiple speech-enabled applications |
US8374879B2 (en) | 2002-02-04 | 2013-02-12 | Microsoft Corporation | Systems and methods for managing interactions from multiple speech-enabled applications |
US7603627B2 (en) | 2002-02-05 | 2009-10-13 | Microsoft Corporation | Systems and methods for creating and managing graphical user interface lists |
US7257776B2 (en) * | 2002-02-05 | 2007-08-14 | Microsoft Corporation | Systems and methods for scaling a graphical user interface according to display dimensions and using a tiered sizing schema to define display objects |
US7587317B2 (en) * | 2002-02-15 | 2009-09-08 | Microsoft Corporation | Word training interface |
JP2003316387A (ja) | 2002-02-19 | 2003-11-07 | Ntt Docomo Inc | 学習装置、移動通信端末、情報認識システム、及び、学習方法 |
US20040128129A1 (en) * | 2002-12-11 | 2004-07-01 | Sherman William F. | Voice recognition peripheral device based wireless data transfer |
US7533023B2 (en) * | 2003-02-12 | 2009-05-12 | Panasonic Corporation | Intermediary speech processor in network environments transforming customized speech parameters |
US7260535B2 (en) * | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
US9027043B2 (en) * | 2003-09-25 | 2015-05-05 | The Nielsen Company (Us), Llc | Methods and apparatus to detect an operating state of a display |
US7786987B2 (en) * | 2003-09-25 | 2010-08-31 | The Nielsen Company (Us), Llc | Methods and apparatus to detect an operating state of a display based on visible light |
KR100554442B1 (ko) * | 2003-10-06 | 2006-02-22 | 주식회사 팬택앤큐리텔 | 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법 |
GB2409560B (en) * | 2003-12-23 | 2007-07-25 | Ibm | Interactive speech recognition model |
US8160883B2 (en) | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US20050273337A1 (en) * | 2004-06-02 | 2005-12-08 | Adoram Erell | Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition |
US20060009974A1 (en) * | 2004-07-09 | 2006-01-12 | Matsushita Electric Industrial Co., Ltd. | Hands-free voice dialing for portable and remote devices |
CA2576865C (en) | 2004-08-09 | 2013-06-18 | Nielsen Media Research, Inc. | Methods and apparatus to monitor audio/visual content from various sources |
EP1810277A1 (de) | 2004-11-08 | 2007-07-25 | France Telecom S.A. | Verfahren zur verteilten konstruktion eines stimmenerkennungsmodells sowie vorrichtung, server und computerprogramme zu seiner implementierung |
US7639876B2 (en) | 2005-01-14 | 2009-12-29 | Advanced Digital Systems, Inc. | System and method for associating handwritten information with one or more objects |
KR101221172B1 (ko) * | 2005-02-03 | 2013-01-11 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 이동 통신 장치의 음성 어휘를 자동으로 확장하는 방법 및장치 |
US20060271368A1 (en) * | 2005-05-25 | 2006-11-30 | Yishay Carmiel | Voice interface for consumer products |
US7720286B2 (en) | 2005-05-25 | 2010-05-18 | Advanced Digital Systems, Inc. | System and method for associating handwritten information with one or more objects via discontinuous regions of a printed pattern |
US7440894B2 (en) * | 2005-08-09 | 2008-10-21 | International Business Machines Corporation | Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices |
EP1932263A4 (de) | 2005-08-16 | 2012-04-04 | Nielsen Media Res Inc | Verfahren und vorrichtungen zur detektion von ein/aus einer anzeigeeinrichtung |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7720681B2 (en) * | 2006-03-23 | 2010-05-18 | Microsoft Corporation | Digital voice profiles |
US7756708B2 (en) * | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US9462118B2 (en) * | 2006-05-30 | 2016-10-04 | Microsoft Technology Licensing, Llc | VoIP communication content control |
US8971217B2 (en) * | 2006-06-30 | 2015-03-03 | Microsoft Technology Licensing, Llc | Transmitting packet-based data items |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
DE102006056286B4 (de) * | 2006-11-29 | 2014-09-11 | Audi Ag | Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug |
US20080255835A1 (en) * | 2007-04-10 | 2008-10-16 | Microsoft Corporation | User directed adaptation of spoken language grammer |
US20090006085A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Automated call classification and prioritization |
KR20090013876A (ko) * | 2007-08-03 | 2009-02-06 | 한국전자통신연구원 | 음소를 이용한 분산형 음성 인식 방법 및 장치 |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20090271106A1 (en) * | 2008-04-23 | 2009-10-29 | Volkswagen Of America, Inc. | Navigation configuration for a motor vehicle, motor vehicle having a navigation system, and method for determining a route |
GB2460306B (en) * | 2008-05-29 | 2013-02-13 | Intrasonics Sarl | Data embedding system |
US8180712B2 (en) | 2008-09-30 | 2012-05-15 | The Nielsen Company (Us), Llc | Methods and apparatus for determining whether a media presentation device is in an on state or an off state |
US8793717B2 (en) | 2008-10-31 | 2014-07-29 | The Nielsen Company (Us), Llc | Probabilistic methods and apparatus to determine the state of a media device |
US8375404B2 (en) | 2008-12-30 | 2013-02-12 | The Nielsen Company (Us), Llc | Methods and apparatus to enforce a power off state of an audience measurement device during shipping |
US8156517B2 (en) | 2008-12-30 | 2012-04-10 | The Nielsen Company (U.S.), Llc | Methods and apparatus to enforce a power off state of an audience measurement device during shipping |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8484023B2 (en) * | 2010-09-24 | 2013-07-09 | Nuance Communications, Inc. | Sparse representation features for speech recognition |
US9484018B2 (en) * | 2010-11-23 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
US8768723B2 (en) | 2011-02-18 | 2014-07-01 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
US9904768B2 (en) | 2011-02-18 | 2018-02-27 | Nuance Communications, Inc. | Methods and apparatus for presenting alternative hypotheses for medical facts |
US10032127B2 (en) | 2011-02-18 | 2018-07-24 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
US10460288B2 (en) | 2011-02-18 | 2019-10-29 | Nuance Communications, Inc. | Methods and apparatus for identifying unspecified diagnoses in clinical documentation |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN104137557A (zh) | 2011-12-19 | 2014-11-05 | 尼尔森(美国)有限公司 | 用于对媒体呈现装置进行归属的方法和设备 |
US9692535B2 (en) | 2012-02-20 | 2017-06-27 | The Nielsen Company (Us), Llc | Methods and apparatus for automatic TV on/off detection |
US9569594B2 (en) | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8805684B1 (en) * | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9064492B2 (en) | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP2713367B1 (de) * | 2012-09-28 | 2016-11-09 | Agnitio, S.L. | Sprechererkennung |
US9691377B2 (en) * | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
US10504622B2 (en) | 2013-03-01 | 2019-12-10 | Nuance Communications, Inc. | Virtual medical assistant methods and apparatus |
US9275638B2 (en) | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
WO2014144579A1 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US11183300B2 (en) | 2013-06-05 | 2021-11-23 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10496743B2 (en) | 2013-06-26 | 2019-12-03 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9280968B2 (en) | 2013-10-04 | 2016-03-08 | At&T Intellectual Property I, L.P. | System and method of using neural transforms of robust audio features for speech processing |
CN103578465B (zh) * | 2013-10-18 | 2016-08-17 | 威盛电子股份有限公司 | 语音辨识方法及电子装置 |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10366424B2 (en) | 2014-06-04 | 2019-07-30 | Nuance Communications, Inc. | Medical coding system with integrated codebook interface |
US10373711B2 (en) | 2014-06-04 | 2019-08-06 | Nuance Communications, Inc. | Medical coding system with CDI clarification request notification |
US10754925B2 (en) | 2014-06-04 | 2020-08-25 | Nuance Communications, Inc. | NLU training with user corrections to engine annotations |
US10319004B2 (en) | 2014-06-04 | 2019-06-11 | Nuance Communications, Inc. | User and engine code handling in medical coding system |
US10331763B2 (en) | 2014-06-04 | 2019-06-25 | Nuance Communications, Inc. | NLU training with merged engine and user annotations |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9924224B2 (en) | 2015-04-03 | 2018-03-20 | The Nielsen Company (Us), Llc | Methods and apparatus to determine a state of a media presentation device |
US9910840B2 (en) | 2015-04-03 | 2018-03-06 | Microsoft Technology Licensing, Llc | Annotating notes from passive recording with categories |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10366687B2 (en) | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11152084B2 (en) | 2016-01-13 | 2021-10-19 | Nuance Communications, Inc. | Medical report coding with acronym/abbreviation disambiguation |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10141009B2 (en) | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US9824692B1 (en) | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
AU2017327003B2 (en) | 2016-09-19 | 2019-05-23 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10553218B2 (en) * | 2016-09-19 | 2020-02-04 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
US10325601B2 (en) | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
WO2018057639A1 (en) | 2016-09-20 | 2018-03-29 | Nuance Communications, Inc. | Method and system for sequencing medical billing codes |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11133091B2 (en) | 2017-07-21 | 2021-09-28 | Nuance Communications, Inc. | Automated analysis system and method |
KR102509821B1 (ko) * | 2017-09-18 | 2023-03-14 | 삼성전자주식회사 | Oos 문장을 생성하는 방법 및 이를 수행하는 장치 |
US11024424B2 (en) | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
US11355103B2 (en) | 2019-01-28 | 2022-06-07 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
US11019201B2 (en) | 2019-02-06 | 2021-05-25 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
US11646018B2 (en) | 2019-03-25 | 2023-05-09 | Pindrop Security, Inc. | Detection of calls from voice assistants |
US10841424B1 (en) | 2020-05-14 | 2020-11-17 | Bank Of America Corporation | Call monitoring and feedback reporting using machine learning |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4754326A (en) * | 1983-10-25 | 1988-06-28 | Keycom Electronic Publishing | Method and apparatus for assisting user of information retrieval systems |
US4751737A (en) | 1985-11-06 | 1988-06-14 | Motorola Inc. | Template generation method in a speech recognition system |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
US4903305A (en) | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
US5054082A (en) * | 1988-06-30 | 1991-10-01 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
US5983179A (en) | 1992-11-13 | 1999-11-09 | Dragon Systems, Inc. | Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation |
US5497447A (en) * | 1993-03-08 | 1996-03-05 | International Business Machines Corporation | Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors |
US5732187A (en) * | 1993-09-27 | 1998-03-24 | Texas Instruments Incorporated | Speaker-dependent speech recognition using speaker independent models |
US5488652A (en) | 1994-04-14 | 1996-01-30 | Northern Telecom Limited | Method and apparatus for training speech recognition algorithms for directory assistance applications |
US5749072A (en) * | 1994-06-03 | 1998-05-05 | Motorola Inc. | Communications device responsive to spoken commands and methods of using same |
US5477511A (en) * | 1994-07-13 | 1995-12-19 | Englehardt; C. Duane | Portable documentation system |
JPH0877176A (ja) * | 1994-09-07 | 1996-03-22 | Hitachi Ltd | 外国語翻訳装置 |
US5864810A (en) | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US5715367A (en) * | 1995-01-23 | 1998-02-03 | Dragon Systems, Inc. | Apparatuses and methods for developing and using models for speech recognition |
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US5822728A (en) * | 1995-09-08 | 1998-10-13 | Matsushita Electric Industrial Co., Ltd. | Multistage word recognizer based on reliably detected phoneme similarity regions |
US5825977A (en) | 1995-09-08 | 1998-10-20 | Morin; Philippe R. | Word hypothesizer based on reliably detected phoneme similarity regions |
US5684925A (en) | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US5884262A (en) * | 1996-03-28 | 1999-03-16 | Bell Atlantic Network Services, Inc. | Computer network audio access and conversion system |
US5806030A (en) * | 1996-05-06 | 1998-09-08 | Matsushita Electric Ind Co Ltd | Low complexity, high accuracy clustering method for speech recognizer |
WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
US5839107A (en) | 1996-11-29 | 1998-11-17 | Northern Telecom Limited | Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing |
US5950157A (en) * | 1997-02-28 | 1999-09-07 | Sri International | Method for establishing handset-dependent normalizing models for speaker recognition |
US6266642B1 (en) * | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
-
1999
- 1999-04-20 US US09/295,276 patent/US6463413B1/en not_active Expired - Lifetime
-
2000
- 2000-03-22 EP EP00302313A patent/EP1047046B1/de not_active Expired - Lifetime
- 2000-03-22 DE DE60003971T patent/DE60003971T2/de not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102009017177B4 (de) | 2008-04-23 | 2022-05-05 | Volkswagen Ag | Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges |
DE102012212185B4 (de) | 2011-07-25 | 2019-03-07 | International Business Machines Corporation | Pflegen und Bereitstellen von Sprachmodellen |
DE102013219649A1 (de) * | 2013-09-27 | 2015-04-02 | Continental Automotive Gmbh | Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher |
Also Published As
Publication number | Publication date |
---|---|
US6463413B1 (en) | 2002-10-08 |
DE60003971D1 (de) | 2003-08-28 |
EP1047046A2 (de) | 2000-10-25 |
EP1047046B1 (de) | 2003-07-23 |
EP1047046A3 (de) | 2002-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60003971T2 (de) | Verteilte Architektur zum Trainieren eines Spracherkennungssystems | |
DE69922104T2 (de) | Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz | |
DE69433593T2 (de) | Aufgeteiltes spracherkennungssystem | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
DE69827667T2 (de) | Vokoder basierter spracherkenner | |
DE60125542T2 (de) | System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen | |
DE19533541C1 (de) | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE602005001125T2 (de) | Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE60015531T2 (de) | Client-server spracherkennungssystem | |
DE69923253T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE60009583T2 (de) | Sprecheradaptation auf der Basis von Stimm-Eigenvektoren | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
CN110277088B (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
DE102006006069A1 (de) | Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon | |
US20050216272A1 (en) | System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
CN111429914A (zh) | 麦克风控制方法、电子装置及计算机可读存储介质 | |
DE19851287A1 (de) | Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte | |
DE112020005337T5 (de) | Steuerbare, natürliche paralinguistik für text-zu-sprache-synthese | |
DE60014583T2 (de) | Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte | |
CN114492382A (zh) | 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质 | |
DE102004011426B3 (de) | Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee | ||
8370 | Indication of lapse of patent is to be deleted | ||
8339 | Ceased/non-payment of the annual fee |