DE60003971T2 - Verteilte Architektur zum Trainieren eines Spracherkennungssystems - Google Patents

Verteilte Architektur zum Trainieren eines Spracherkennungssystems Download PDF

Info

Publication number
DE60003971T2
DE60003971T2 DE60003971T DE60003971T DE60003971T2 DE 60003971 T2 DE60003971 T2 DE 60003971T2 DE 60003971 T DE60003971 T DE 60003971T DE 60003971 T DE60003971 T DE 60003971T DE 60003971 T2 DE60003971 T2 DE 60003971T2
Authority
DE
Germany
Prior art keywords
language
speech
training data
model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60003971T
Other languages
English (en)
Other versions
DE60003971D1 (de
Inventor
Ted H. Santa Barbara Applebaum
Jean-Claude Santa Barbara Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE60003971D1 publication Critical patent/DE60003971D1/de
Application granted granted Critical
Publication of DE60003971T2 publication Critical patent/DE60003971T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Description

  • Hintergrund und Zusammenfassung der Erfindung
  • Die vorliegende Erfindung bezieht sich im allgemeinen auf Spracherkennungssysteme, und insbesondere bezieht sich die Erfindung auf ein System zum Trainieren eines Spracherkenners zur Verwendung in einem kleinen Hardwaregerät.
  • Das Marketing von Konsumelektronikprodukten ist sehr kostenreagibel. Reduzierung der Festprogrammspeichergröße, der Direktzugriffs-Arbeitsspeichergröße oder der Prozessorgeschwindigkeitsanforderungen ergibt geringere Kosten, kleinere und energiesparende Elektronikgeräte. Der gegenwärtige Trend ist, diese Konsumprodukte durch Einverleibung von Sprachtechnologie leichter verwendbar zu machen. Viele Konsumelektronikprodukte, wie beispielsweise persönliche digitale Assistenten (PDA) und Zellulartelefone, bieten ideale Möglichkeiten Sprachtechnologie auszubeuten, stellen aber auch eine Herausforderung dar, indem Speicher- und Verarbeitungsleistung in der Host-Hardware oftmals begrenzt ist. Wenn man den besonderen Fall der Verwendung von Spracherkennungstechnologie für Sprachwählen in Zellulartelefonen bedenkt, wird der eingebettete Spracherkennen in eine relativ kleine Speicherbasisfläche passen müssen.
  • Um Speicherverwendung zu sparen, wird das typische eingebettete Spracherkennungssystem sehr begrenztes, häufig statisches Vokabular haben. In diesem Fall konnten bedingungsspezifische Wörter, beispielsweise zum Wählen eines Zellulartelefons verwendete Namen, nicht erkannt werden. In vielen Fällen ist das Trainieren des Spracherkenners hinsichtlich erforderlichem Speicher oder rechenbetonter Komplexität kostspieliger als der Spracherkennungsprozess. Kleine, billige Hardwaregeräte, die Spracherkennung durchführen können, haben vielleicht nicht die Ressourcen das Lexikon erkannter Wörter zu erstellen und/oder zu aktualisieren. Und außerdem, wo der Prozessor andere Aufgaben (z. B. Benutzerinteraktionsmerkmale) innerhalb des eingebetteten Systems handhaben muss, werden konventionelle Verfahren zum Erstellen und/oder Aktualisieren des Lexikons möglicherweise die Ausführung nicht innerhalb einer angemessenen Zeitspanne vorzunehmen können, ohne die anderen unterstützten Aufgaben zu beeinträchtigen.
  • Eine bekannte Architektur, die möglicherweise einige der obigen Probleme in Bezug auf das Trainieren eines Spracherkennungssystems überwinden kann, und die Herunterladen bereits vorhandener Sprachmodelle von einem Fernserver offenlegt, ist in der Patentveröffentlichung Nr.: US-A-5054082 offengelegt.
  • Die vorliegende Erfindung ist die obigen Probleme durch eine verteilte Spracherkennungsarchitektur angegangen, mit der Wörter und deren zugehörige Sprachmodelle einem Lexikon auf einer völlig maßgeschneiderten Basis hinzugefügt werden können. Auf diese Weise erzielt die vorliegende Erfindung drei wünschenswerte Merkmale:
    (1) der Benutzer des Konsumprodukts kann dem Lexikon Wörter hinzufügen, (2) das Konsumprodukt benötigt nicht die zur Erstellung neuer Sprachmodelle erforderlichen Ressourcen, und (3) das Konsumprodukt ist während der Spracherkennung (im Gegensatz zu Sprachreferenztraining) autonom, so dass es nicht mit einem Fernservergerät verbunden sein braucht.
  • Zur Ausführung sind vorgesehen: ein Sprachverarbeitungssystem wie in Anspruch 1 dargelegt, ein Verfahren zum Aufbau von Sprachreferenzmodellen wie in Anspruch 13 dargelegt, ein Sprachmodell-Servergerät wie in Anspruch 14 dargelegt und ein Computergerät wie in Anspruch 15 dargelegt.
  • Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Diagramm, das einen persönlichen digitalen Assistenten (PDA) im Kontext eines verteilten Spracherkennungssystems gemäß der vorliegenden Erfindung veranschaulicht; und
  • 2 ist ein Diagramm, das ein Zellulartelefon im Kontext eines verteilten Spracherkennungssystems der vorliegenden Erfindung veranschaulicht.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
  • Die von der vorliegenden Erfindung angewandten technischen Verfahren lassen sich in einer Reihe nützlicher Anwendungen einsetzen. Zur Erläuterung wird zunächst ein bevorzugtes Ausführungsbeispiel der Erfindung laut Anwendung in einem persönlichen digitalen Assistenten (PDA) beschrieben. Anschließend an diese Beschreibung wird ein weiteres Beispiel eines bevorzugten Ausführungsbeispiels im Zusammenhang mit einer Zellulartelefonanwendung präsentiert. Natürlich wird man verstehen, dass die Prinzipien der Erfindung in einer breiten Palette anderer Anwendungen und Konsumprodukten zum Einsatz kommen können, bei denen Spracherkennung angewandt wird.
  • Mit Bezugnahme auf 1 ist ein persönlicher digitaler Assistent bei 10 dargestellt. Das Gerät besitzt einen Bildschirm 12, der dem Benutzer Informationen präsentiert und auf dem der Benutzer Informationen eingeben kann, indem er mit einem Stylus 14 auf den Bildschirm schreibt. Der persönliche digitale Assistent 10 schließt ein Handschrifterkennungsmodul ein, das die vom Benutzer mit dem Stylus eingegebenen Strichdaten analysiert. Das Handschrifterkennungsmodul verwandelt die handschriftlichen Strichdaten in alphanumerischen Text, der sich in geeigneter Form (z.B., ASCII-Format) innerhalb eines Teils des im PDA 10 enthaltenen Direktzugriffsspeichers speichern lässt.
  • In einem typischen PDA-Gerät verwaltet das Betriebssystem des Geräts den Permanentspeicher, der zum Speichern der vom Benutzer eingegeben Daten verwendet wird. Obwohl die genaue Konfiguration und das Layout dieses Permanentspeichers vom speziellen angewandten Betriebssystem abhängt, wird, im allgemeinen, ein Teil des Speichers für das Speichern alphanumerischer Daten zugeteilt, die vom Benutzer im Zusammenhang mit verschiedenen Anwendungen eingegeben werden. Diese Anwendungen schließen Adressbücher, E-Mail-Adressenverzeichnisse, Telefonwählprogramme, Terminplanungs- und Kalenderanwendungen, persönliche Finanzanwendungen, Webbrowser und dergleichen ein. Zur Erläuterung ist eine Adressbuchanwendung 20 in 1 dargestellt. Wenn der Benutzer Namen, Adressen und Telefonnummern mit dem Stylus eingibt, werden die den Benutzeingabeinformationen entsprechenden alphanumerischen Daten in einem Teil des permanenten Direktzugriffsspeichers des Systems gespeichert, der in 1 als Wortspeicher 21 designiert worden ist.
  • Der PDA 10 des vorliegenden Ausführungsbeispiels ist ein sprachaktiviertes Gerät. Es schließt ein Mikrofon 16 ein, das vorzugsweise innerhalb des Geräts untergebracht ist, um dem Benutzer zu ermöglichen Sprachbefehle und Sprachdaten als Alternative zur Verwendung des Stylus einzugeben. Der Benutzer kann, beispielsweise, den Namen einer Person aussprechen, deren Adresse und Telefonnummer er aus seinem Adressbuch auslesen möchte. Vorzugsweise schließt der PDA 10 außerdem einen integralen Lautsprecher 18 ein, über den digital aufgezeichnete Tondaten und synthetisierte Sprachdaten an den Benutzer übertragen werden können.
  • Ein Spracherkennermodul 22 innerhalb des PDA 10 verarbeitet die durch das Mikrofon 16 eingegebenen Sprachdaten. Der Spracherkenner kann eine unabhängige Anwendung sein, die auf dem PDA-Gerät läuft, oder er kann in das Betriebssystem des PDA-Geräts eingebaut sein. Es gibt eine Reihe verschiedener Sprachschablonen, die dem Spracherkenner 22 zu Grunde liegen können. Verdeckte Markov-Modelle sind heute weitverbreitet und können dazu benutzt werden das dargestellte Ausführungsbeispiel zu implementieren. Oder aber man kann andere Schablonen verwenden, beispielsweise ein Modell, das auf hohen Ähnlichkeitsbereichen beruht, wie es von Morin et al. in den US-Patentnummem 5.684.925, 5.822.728 und 5.825.977 vorgeschlagen wird.
  • Der Spracherkenner 22 arbeitet mit einem lokal gespeicherten Lexikon 24 von Wörtern zusammen, die vom System erkannt werden können. Das Lexikon 24 ist so angeordnet, dass zu jedem vom System erkennbaren Wort ein Sprachmodell gehört. Diese Anordnung ist in 1 durch eine Datenstruktur dargestellt, die eine Einheit von Wortdaten 26 mit einem entsprechenden Sprachmodell 28 assoziiert. Auf diese Weise wiedergewinnt der Spracherkenner 22 den alphanumerischen Text für das den Eingabesprachdaten entsprechende Wort. Im Fall des Adressbuchs, kann die Anwendung 20 die entsprechende Adresse und Telefonnummer, unter Verwendung des alphanumerischen Texts für den gesprochenen Namen, wie vom Spracherkenner 22 bereitgestellt, wiedergewinnen.
  • Der persönliche digitale Assistent 10 stellt eine Herausforderung dahingehend dar, dass er versucht jedes der vorher beschriebenen wünschenswerten Merkmale zu erzielen. Daher verwendet der PDA 10 eine verteilte Spracherkennungsarchitektur, mit der Wörter und deren zugehörige Sprachmodelle einem Lexikon auf einer völlig maßgeschneiderten Basis hinzugefügt werden können. Mit Hilfe des Stylus oder einem anderen geeigneten Gerät, beispielsweise einer Tastatur, gibt der Benutzer Wörter in den Wortspeicher 21 ein. Das System erfasst dann Sprachreferenzmodelle, die jenen Worten entsprechen, indem es auf ein zweites Computergerät zugreift.
  • Beim vorliegenden bevorzugten Ausführungsbeispiel liefert ein Referenzmodell-Server die Sprachmodelle für neu eingegebene Wörter. Der Referenzmodell-Server 40 kann auf einem geeigneten Host-Server-Computer 42, typisch an einem fernen Ort, realisiert sein. Der PDA 10 und der Servercomputer 42 kommunizieren miteinander durch geeignete Kommunikationsmodule 30 und 44. In dieser Hinsicht können die Kommunikationsmodule viele Formen annehmen, um weitverbreitete Kommunikationshardware und Softwareplattformen zu unterstützen. Beispielsweise könnten der PDA 10 und Servercomputer 42 konfiguriert sein miteinander durch eine RS232-Schnittstelle zu kommunizieren, in welcher der PDA 10 in eine Gabel eingesteckt wird, die mittels Kabel an einen seriellen Anschluss des Servercomputers 42 angeschlossen ist. Der PDA 10 und Host-Computer 42 können ebenso über ein öffentliches Telefonnetz oder ein zellulares Telefonnetz unter Einsatz geeigneter Modems kommunizieren. Oder aber der PDA 10 und Host-Computer 42 können durch eine Infrarotverbindung, Ethernet oder eine andere geeignete Hardwareplattform unter Verwendung von Kommunikationsprotokollen (z.B. TCP/IP) kommunizieren. Auf diese Weise können der persönliche digitale Assistent 10 und der Servercomputer 42 konfiguriert werden, um miteinander über das Internet zu kommunizieren.
  • Der Referenzmodell-Server 40 schließt vorzugsweise eine Datenbank sprecherunabhängiger Modelle 46 ein, die einen relativ umfangreichen Satz Wörter und deren zugehörige Sprachreferenzmodelle umfassen. Wenn der Benutzer ein neues Wort in den PDA 10 eingibt, wird das Wort über Kommunikationsmodule 30 und 44 an den Referenzmodell-Server 40 kommuniziert. Wird das vom Benutzer bereitgestellte Wort in der Datenbank 46 gefunden, kann das dem Wort entsprechende Sprachmodell durch die Kommunikationsmodule auf den PDA übertragen werden. Der PDA speichert dann das neu erfasste Sprachreferenzmodell so in seinem Lexikon 24, dass das Sprachreferenzmodell, wie durch die Datenstrukturen 26 und 28 dargestellt, mit dem vom Benutzer bereitgestellten Wort assoziiert wird.
  • Wird das vom Benutzer bereitgestellte Wort nicht in der Datenbank 46 gefunden, generiert das System ein Sprachreferenzmodell für das Wort. Zur Ausführung verwendet das System einen Phonetisierer 48 und ein Referenzmodell-Trainingsmodul 50. Zunächst analysiert der Phonetisierer 48 die das Wort ausmachenden Buchstaben syntaktisch und wendet dann ein Entscheidungsbaumnetzwerk an, um eine oder mehrere hypothetische Aussprachen (d.h., phonetische Transkriptionen) des vom Benutzer eingegebenen Worts zu generieren. Dieser Satz synthesierter Aussprachen dient dann als Eingabe an das Referenzmodell-Trainingsmodul 50, das seinerseits ein neues Sprachreferenzmodell auf der Basis der mit dem Referenzmodell-Trainingsmodul 50 assoziierten Sprachmodellschablone erstellt. In einem bevorzugten Ausführungsbeispiel wird verdecktes Markov-Modell als die Sprachmodellschablone für das Trainingsmodul 50 verwendet. Das Referenzmodell-Trainingsmodul 50 kann auch ein Verfahren zur Ermittlung des optimalen Sprachmodells für die phonetische Transkriptionseingabe anwenden.
  • Oder aber das System kann, wenn das vom Benutzer eingegebene Wort nicht in der Datenbank 46 gefunden wird, ein Sprachreferenzmodell auf der Basis von Sprachtrainingsdaten generieren, die dem vom Benutzer bereitgestellten Wort entsprechen. In diesem Fall spricht der Benutzer das Wort, für welches das neue Sprachreferenzmodell gewünscht wird. Das System empfängt das vom Benutzer bereitgestellte Wort als Tondaten über das Mikrofon 18. Der Spracherkenner 22 wandelt die Tondaten in ein digitalisiertes Eingabesignal und danach in eine parametrisierte Zwischenfonm um. In einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung, ist die Zwischenrepräsentation des Worts ein Vektor von Parametern, die die kurzzeitige Sprachspektralforrn der Tondaten repräsentieren. Der Vektor von Parametern lässt sich weiter als, aber nicht begrenzt auf, Pulscodemodulation (PCM), μ-Gesetz-codierte PCM, Filterbankenergien, Linienspektralfrequenzen, (LPC) lineare Prädiktionscodienings-Cepstrum-Koeffizienten oder andere Typen von Cepstrum-Koeffizienten definieren. Ein Fachmann wird leicht erkennen, dass das System den Benutzer zu einer oder mehreren Sprechweisen des vom Benutzer bereitgestellten Worts auffordern kann, um reichliche Sprachtrainingsdaten zu tiefem. In diesem Fall besteht die Zwischenrepräsentation des Worts aus einer Folge von Vektoren, die eine Folge für jede Tainingswiederholung haben. Wird das Wort nicht im Lexikon gefunden, so wird die Zwischenform dann über Kommunikationsmodul 30 und 44 an den Referenzmodell-Server 40 kommuniziert.
  • Der Referenzmodell-Server 40 leitet die Zwischenrepräsentation des Worts an das Referenzmodell-Trainingsmodul 50 weiter, wo mit Hilfe der Sprachmodellschablone ein Sprachmodell konstruiert wird. Zum Konstruieren eines Sprachmodells decodiert das Referenzmodell-Trainingsmodul 50 vielleicht die Zeitserien von Parametervektoren in den Sprachtrainingsdaten durch Vergleich mit einem Satz phonetischer verdeckter Markov-Modelle, damit man eine phonetische Transkription der Äußerung in den Sprachtrainingsdaten erhält. In diesem Fall dient die Transkription als das Sprachreferenzmodell. Oder aber kann das Referenzmodell-Trainingsmodul 50 vielleicht die Zeitserien von Parametervektoren für jede Wiederholung der Sprachäußerung in den Sprachtrainingsdaten ausrichten, wie es im Fachgebiet gut bekannt ist. In diesem Fall, berechnet das Referenzmodell-Trainingsmodul 50 das Mittel und die Varianz jedes Parameters an jedem Zeitintervall und konstruiert dann das Sprachreferenzmodell aus diesen Mitteln und Varianzen (oder Funktionen dieser Mittel und Varianzen). In beiden Fällen, wird das neu konstruierte Sprachreferenzmodell danach über die Kommunikationsverbindung an den PDA zurückgesandt. Abschließend wird das neue Sprachreferenzmodell zusammen mit der alphanumerischen Repräsentation des vom Benutzer bereitgestellten Worts dem Lexikon 24 hinzugefügt.
  • Ein zweites bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung wird in Bezug auf eine Zellulartelefonanwendung, wie in der 2 dargestellt, beschrieben. Das Zellulartelefon-Bedienhörergerät 60 enthält ein eingebettetes Mikrofon 62 zum Empfangen von Tondaten seitens des Benutzers und einen eingebetteten Lautsprecher 64 zur Rückübertragung von Tondaten an den Benutzer. Das Bedienhörergerät 60 schließt außerdem eine Telefonkleintastatur 66 zum Wählen oder zur Eingabe anderer Informationen, sowie einen kleinen Flüssigkristall-Bildschirm 68, der dem Benutzer Informationen präsentiert, ein. Deshalb eignet sich das Zellulartelefon für verschiedene Typen eingebetteter, sprachaktivierter Anwendungen.
  • Obwohl verschiedene Typen sprachaktivierter Anwendungen ins Auge gefasst sind, ist ein automatisches sprachgesteuertes Wählmerkmal in der 2 veranschaulicht. Zum sprachgesteuerten Telefonwählen spricht ein Benutzer lediglich den Namen der Person, die er anrufen möchte. Die dem gesprochenen Namen entsprechenden Tondaten werden dann von einem Spracherkennermodul 22' im Bedienhörergerät 60 verarbeitet. Der Spracherkenner 22' arbeitet mit einem lokal gespeicherten Lexikon 24' von Wörtern zusammen, die das System vielleicht erkennen kann. Wie in der 2 gezeigt, ist das Lexikon 24' in Übereinstimmung mit einer Datenstruktur angeordnet, die jedes erkennbare Wort mit einem entsprechenden Sprachreferenzmodell assoziiert.
  • Erkennt der Spracherkenner 22' den Namen, wird die alphanumerische Repräsentation des gesprochenen Worts an ein automatisches Wählmodul 70 weitergeleitet. Ein Teil des Permanent-Direktzugriffsspeichers des Systems wird dazu verwendet eine Verknüpfung zwischen Namen und Telefonnummern beizubehalten. Das automatische Wählmodul 70 verschafft sich Zugriff auf diese Speicherstelle, um die Telefonnummer wiederzugewinnen, die der alphanumerischen Repräsentation des gesprochenen Namens entspricht und geht anschließend damit voran die Telefonnummer zu wählen. Auf diese Weise ist der Benutzer fähig mit dem Zellulartelefon eine sprachgesteuerte automatische Nummernwahl vorzunehmen.
  • Das Zellulartelefon stellt ebenso eine Herausforderung dahingehend dar, dass es versucht jedes der vorher identifizierten wünschenswerten Merkmale zu erzielen. Wiederum verwendet das Zellulartelefon eine verteilte Spracherkennungsarchitektur, mit der Wörter und deren zugehörige Sprachmodelle dem Lexikon 24' auf einer völlig maßgeschneiderten Basis hinzugefügt werden können. Wird der vom Benutzer bereitgestellte Name nicht im Lexikon 24' gefunden, so kann der Benutzer den Namen entweder mit der Kleintastatur 66 oder einem anderen geeigneten Eingabegerät eingeben. Die, dem Namen entsprechenden, alphanumerischen Daten werden in einem Teil des Permanent-Direktzugriffsspeichers des Systems gespeichert, der als Wortspeicher 21' designiert worden ist. Der Name wird dann über die Kommunikationsmodule 30' und 44' an den Referenzmodell-Server 40' kommuniziert.
  • Wie bereits beschrieben leitet der Referenzmodell-Server 40' die Zwischenrepräsentation des Namens an das Referenzmodell-Trainingsmodul 50' weiter, wo mit Hilfe der Sprachmodellschablone ein Sprachmodell konstruiert wird. Danach wird das neu konstruierte Sprachreferenzmodell über die Kommunikationsverbindung zum Telefon-Bedienhörergerät 60 zurückgesandt. Abschließend wird das Sprachreferenzmodell zusammen mit einem entsprechenden vom Benutzer bereitstellten Wort dem Lexikon 24' des Telefon-Bedienhörergeräts 60 hinzugefügt.
  • Für eine Anwendung automatischen, sprachgesteuerten Wählens wird ins Auge gefasst, dass das Lexikon 24' außerdem vielleicht konfiguriert sein kann eher Telefonnummern statt Namen mit einem Sprachreferenzmodell zu assoziieren. Wenn der Benutzer den Namen der Person ausspricht, die er anrufen möchte, arbeitet der Spracherkennen 22' mit dem Lexikon 24' zusammen, um die Telefonnummer wiederzugewinnen, die dem gesprochenen Namen entspricht. Die Telefonnummer wird dann direkt an das automatische Wählmodul 70 weitergeleitet.
  • Das Vorgenannte offenbart und beschreibt lediglich beispielhafte Ausführungsbeispiele der vorliegenden Erfindung. Ein Fachmann wird anhand solch einer Erörterung und aus zugehörigen Zeichnungen und Ansprüchen leicht erkennen, dass verschiedene Änderungen, Modifikationen und Variationen, ohne vom Umfang der vorliegenden Erfindung, wie in den beiliegenden Ansprüchen definiert, abzuweichen, darin vorgenommen werden können.

Claims (15)

  1. Sprachverarbeitungssystem zum Konstruieren von Spracherkennungs-Referenzmodellen, wobei besagtes System umfasst: einen Spracherkennen (22) an einem ersten Computergerät (10); besagter Spracherkennen Sprachtrainingsdaten für wenigstens ein Wort empfängt und die Sprachtrainingsdaten zu einer Zwischenrepräsentation der Sprachtrainingsdaten verarbeitet, besagter Spracherkenner weiter fähig ist die Repräsentation an ein zweites Computergerät (42) zu kommunizieren; einen Sprachmodell-Server (40), der sich auf besagtem zweiten Computergerät (42) befindet, wobei besagtes zweite Computergerät über ein Netzwerk mit besagtem ersten Computergerät verbunden ist; besagter Sprachmodell-Server (40) die Zwischenrepräsentation der Sprachtrainingsdaten empfängt und ein Sprachreferenzmodell generiert, das mit dem auf der Zwischenrepräsentation basierenden Wort assoziiert ist, besagter Sprachmodell-Server weiter fähig ist das Sprachreferenzmodell an besagtes erstes Computergerät zu kommunizieren; und ein Lexikon (24), das an besagten Spracherkenner (22) gekoppelt und adaptiert ist besagtes Wort und besagtes assoziiertes Sprachreferenzmodell ab besagtem Sprachmodell-Server auf besagtem ersten Computergerät zu empfangen, hinzuzufügen und zu speichern.
  2. Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (22) alphanumerischen Text empfängt, der als Sprachtrainingsdaten dient und besagte Zwischenrepräsentation der Sprachtrainingsdaten eine Folge von Symbolen ab besagtem alphanumerischen Text ist.
  3. Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (22) Tondaten erfasst, die als Sprachtrainingsdaten dienen, und die Tondaten in besagte Zwischenrepräsentation der Sprachtrainingsdaten digitalisiert.
  4. Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (22) Tondaten erfasst, die als Sprachtrainingsdaten dienen, und die Tondaten in einen Vektor von Parametern umwandelt, die als besagte Zwischenrepräsentation der Sprachdaten dienen, wobei die Parameter auf die kurzzeitige Sprachspektralform besagter Tondaten schließen lassen.
  5. Sprachverarbeitungssystem des Anspruchs 4, worin besagter Vektor von Parametern weiter entweder als Pulscodemodulation (PCM), μ-Gesetz codierte PCM, Filterbankenergien, Linienspektralfrequenzen oder Cepstrum-Koeffizienten definiert sind.
  6. Sprachverarbeitungssystem des Anspruchs 1, worin besagter Sprachmodell-Server (40) weiter einen Sprachmodell-Datenbank (46) zum Speichern von sprecherunabhängigen Sprachreferenzmodellen umfasst, besagter Sprachmodell-Server fähig ist ein Sprachreferenzmodell ab besagter Sprachmodel-Datenbank wiederzugewinnen, das der Zwischenrepräsentation besagter Sprachtrainingsdaten entspricht, die ab besagtem Spracherkenner empfangen wurden.
  7. Sprachverarbeitungssystem des Anspruchs 1, worin besagter Sprachmodell-Server (40) weiter umfasst: einen Phonetisierer (48), der fähig ist die Zwischenrepräsentation zu empfangen, um eine Vielheit phonetischer Transkriptionen zu produzieren; und einen Modelltrainer (50), der an besagten Phonetisierer gekoppelt ist, um besagtes Sprachreferenzmodell aufzubauen, das auf besagter Vielheit phonetischer Transkriptionen beruht.
  8. Sprachverarbeitungssystem des Anspruchs 4, worin besagter Sprachmodell-Server (40) weiter umfasst: eine verdeckte Markov-Model-Datenbank (HMM) zum Speichern von Telefonmodell-Sprachdaten, die einer Vielheit von Phonemen entsprechen; und einen an besagte HMM-Datenbank gekoppelten Modelltrainer zum Decodieren der Vektorparameter in eine phonetische Transkription der Tondaten, wodurch besagte phonetische Transkription als besagtes Sprachreferenzmodell dient.
  9. Sprachverarbeitungssystem des Anspruchs 1, worin besagter Spracherkenner (22) wenigstens zwei Trainingswiederholungen von Tondaten erfasst, die als Sprachtrainingsdaten dienen und die Tondaten in eine Folge von Vektoren umwandelt, die als besagte Zwischenrepräsentation der Sprachtrainingsdaten dienen, wobei jeder Vektor einer Trainingswiederholung entspricht und die Parameter jedes Vektors auf die kurzzeitige Sprachspektralform besagter Tondaten schließen lassen.
  10. Sprachverarbeitungssystem des Anspruchs 9, worin besagter Sprachmodell-Server (40) fähig ist einen Referenzvektor ab der Folge von Vektoren zu bestimmen, jeden Vektor in der Folge von Vektoren auf den Referenzvektor auszurichten und ein Mittel und eine Varianz jedes Parameters im Referenzvektor, berechnet über die Werte in den ausgerichteten Vektoren, zu bestimmen, und dadurch besagtes Sprachreferenzmodell aus der Folge von Vektoren zu konstruieren.
  11. Sprachverarbeitungssystem wie in einem beliebigen der Ansprüche 1 bis 10 beansprucht, worin besagtes System konfiguriert ist Anwendungen zu unterstützen, die sich auf: einem persönlichen digitalen Assistenten (PDA) (10) befinden, besagtes Sprachverarbeitungssystem weiter umfasst: ein Eingabemittel zum Erfassen von Sprachtrainingsdaten an besagtem persönlichen Assistenten, worin besagter Spracherkennen an das besagte Eingabemittel gekoppelt ist und fähig ist Sprachtrainingsdaten ab besagtem Eingabemittel zu empfangen.
  12. Sprachverarbeitungssystem wie in einem beliebigen der Ansprüche 1 bis 10 beansprucht, worin besagtes System konfiguriert ist Anwendungen zu unterstützen, die sich auf: einem Zellulartelefon-Bedienhörergerät (60) befinden, besagtes Sprachverarbeitungssystem weiter umfasst: ein Eingabemittel zum Erfassen von Sprachtrainingsdaten an besagtem Zellulartelefon-Bedienhörergerät, worin besagter Spracherkennen an das besagte Eingabemittel gekoppelt ist und fähig ist Sprachtrainingsdaten ab besagtem Eingabemittel zu empfangen.
  13. Verfahren zum Bilden von Sprachreferenzmodellen zur Verwendung in einem Spracherkennungssystem, wobei das Verfahren folgende Schritte umfasst: an einem Spracherkenner (22), der sich auf einem ersten Computergerät (10) befindet; Empfangen von Sprachtrainingsdaten für wenigstens ein Wort; Verarbeiten der Sprachtrainingsdaten zu einer Zwischenrepräsentation der Sprachtrainingsdaten; und Kommunizieren besagter Zwischenrepräsentation der Sprachtrainingsdaten ab besagtem Spracherkenner an einen Sprachmodell-Server (40), der sich auf einem zweiten Computergerät (42) befindet, wobei besagtes zweite Computergerät über ein Netzwerk mit besagtem ersten Computergerät verbunden ist; und am besagten Sprachmodell-Server des zweiten Computergeräts: Generieren eines Sprachreferenzmodells, das mit dem auf besagter Zwischenrepräsentation beruhendem Wort assoziiert ist; Kommunizieren besagten Sprachreferenzmodells ab besagtem Sprachmodell-Server an besagtes erste Computergerät; und Koppeln eines Lexikons (24) an besagten Spracherkenner, wobei besagtes Lexikon adaptiert ist besagtes Wort und besagtes Sprachreferenzmodell ab besagtem Sprachmodell-Server auf besagtem ersten Computergerät zu empfangen, hinzuzufügen und zu speichern.
  14. Sprachmodell-Servervorrichtung (40) zur Verwendung beim Bilden von Sprachreferenzmodellen, wobei besagte Servervorrichtung zur Verwendung in einem Spracherkennungssystem ein erstes Computergerät (10) umfasst, wobei sich besagte Sprachmodell-Servervorrichtung so auf einem zweiten Computergerät (42) befindet, dass besagter Server konfiguriert ist über ein Netzwerk mit besagtem ersten Computergerät verbunden zu werden; besagte Sprachmodell-Servervorrichtung (40) weiter dahingehend definiert ist, dass sie in Funktion konfiguriert ist folgendes zu tun: für wenigstens ein Wort Sprachtrainingsdaten zu empfangen, die über einen Spracherkenner (22), der sich auf besagtem ersten Computergerät (10) befindet, zu einer Zwischenform verarbeitet worden sind; Generieren eines Sprachreferenzmodells, das mit dem Wort assoziiert ist, das auf besagten empfangenen Zwischentrainingsdaten beruht; und Kommunizieren besagten Worts und besagten assoziierten Sprachreferenzmodells an ein Lexikon (24), das an besagten Spracherkenner besagten ersten Computergeräts gekoppelt ist, wobei besagte Kommunikation konfiguriert ist vom Lexikon empfangen, hinzugefügt und gespeichert werden zu können.
  15. Computervorrichtung (10) zur Verwendung in einem Sprachreferenzmodell zum Einsatz in einem Spracherkennungssystem, wobei besagte Vorrichtung umfasst: ein Spracherkennungsgerät (22), das für folgendes konfiguriert ist: (a) Empfangen von Sprachtrainingsdaten für wenigstens ein Wort; (b) Verarbeiten der Sprachtrainingsdaten zu einer Zwischenrepräsentation der Sprachtrainingsdaten; (c) in Betrieb die Zwischenrepräsentation an eine zweite Computervorrichtung (42) zu kommunizieren, die über ein Netzwerk mit besagter Vorrichtung verbunden ist; und ein Lexikon (24), das für folgendes konfiguriert ist: (a) Koppeln an besagtes Spracherkennungsgerät (22); und (b) Empfangen eines generierten Sprachreferenzmodells, das mit dem Wort assoziiert ist, das auf der Zwischenrepräsentation ab besagter zweiten Computervorrichtung (42) beruht, die in besagtem System verwendet wird, wobei das Lexikon (24) konfiguriert ist besagtes empfangene Wort und besagtes assoziiertes Sprachreferenzmodell hinzuzufügen und zu speichern.
DE60003971T 1999-04-20 2000-03-22 Verteilte Architektur zum Trainieren eines Spracherkennungssystems Expired - Fee Related DE60003971T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US295276 1999-04-20
US09/295,276 US6463413B1 (en) 1999-04-20 1999-04-20 Speech recognition training for small hardware devices

Publications (2)

Publication Number Publication Date
DE60003971D1 DE60003971D1 (de) 2003-08-28
DE60003971T2 true DE60003971T2 (de) 2004-05-27

Family

ID=23137012

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60003971T Expired - Fee Related DE60003971T2 (de) 1999-04-20 2000-03-22 Verteilte Architektur zum Trainieren eines Spracherkennungssystems

Country Status (3)

Country Link
US (1) US6463413B1 (de)
EP (1) EP1047046B1 (de)
DE (1) DE60003971T2 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013219649A1 (de) * 2013-09-27 2015-04-02 Continental Automotive Gmbh Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher
DE102012212185B4 (de) 2011-07-25 2019-03-07 International Business Machines Corporation Pflegen und Bereitstellen von Sprachmodellen
DE102009017177B4 (de) 2008-04-23 2022-05-05 Volkswagen Ag Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges

Families Citing this family (183)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU777693B2 (en) * 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
US7091959B1 (en) * 1999-03-31 2006-08-15 Advanced Digital Systems, Inc. System, computer program product, computing device, and associated methods for form identification and information manipulation
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
US6789061B1 (en) * 1999-08-25 2004-09-07 International Business Machines Corporation Method and system for generating squeezed acoustic models for specialized speech recognizer
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
DE60036486T2 (de) * 1999-10-28 2008-06-12 Canon K.K. Methode und apparat zum prüfen von musterübereinstimmungen
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8355912B1 (en) * 2000-05-04 2013-01-15 International Business Machines Corporation Technique for providing continuous speech recognition as an alternate input device to limited processing power devices
US6826551B1 (en) * 2000-05-10 2004-11-30 Advanced Digital Systems, Inc. System, computer software program product, and method for producing a contextual electronic message from an input to a pen-enabled computing system
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US6990533B1 (en) * 2000-05-23 2006-01-24 Palm Source, Inc. Method and system for device bootstrapping via server synchronization
US6701162B1 (en) * 2000-08-31 2004-03-02 Motorola, Inc. Portable electronic telecommunication device having capabilities for the hearing-impaired
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US6728676B1 (en) * 2000-10-19 2004-04-27 International Business Machines Corporation Using speech recognition to improve efficiency of an inventory task
US8135589B1 (en) 2000-11-30 2012-03-13 Google Inc. Performing speech recognition over a network and using speech recognition results
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US6823306B2 (en) 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
EP1215661A1 (de) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Sprachgesteuertes tragbares Endgerät
DE60008893T2 (de) * 2000-12-14 2004-09-09 Telefonaktiebolaget L M Ericsson (Publ) Sprachgesteuertes tragbares Endgerät
DE50003756D1 (de) * 2000-12-18 2003-10-23 Siemens Ag Verfahren und Anordnung zur Spracherkennung für ein Kleingerät
ES2208212T3 (es) * 2000-12-18 2004-06-16 Siemens Aktiengesellschaft Procedimiento y disposicion para el reconocimiento de voz indenpendiente del locutor para un terminal de telecomunicaciones o terminales de datos.
JP4240807B2 (ja) * 2000-12-25 2009-03-18 日本電気株式会社 移動通信端末装置、音声認識方法、およびそのプログラムを記録した記録媒体
US20020091515A1 (en) * 2001-01-05 2002-07-11 Harinath Garudadri System and method for voice recognition in a distributed voice recognition system
US6681207B2 (en) * 2001-01-12 2004-01-20 Qualcomm Incorporated System and method for lossy compression of voice recognition models
US6798907B1 (en) 2001-01-24 2004-09-28 Advanced Digital Systems, Inc. System, computer software product and method for transmitting and processing handwritten data
US6889190B2 (en) * 2001-01-25 2005-05-03 Rodan Enterprises, Llc Hand held medical prescription transcriber and printer unit
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US6961414B2 (en) * 2001-01-31 2005-11-01 Comverse Ltd. Telephone network-based method and system for automatic insertion of enhanced personal address book contact data
US20020107885A1 (en) * 2001-02-01 2002-08-08 Advanced Digital Systems, Inc. System, computer program product, and method for capturing and processing form data
FR2820872B1 (fr) 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
US6934682B2 (en) * 2001-03-01 2005-08-23 International Business Machines Corporation Processing speech recognition errors in an embedded speech recognition system
FI20010792A (fi) * 2001-04-17 2002-10-18 Nokia Corp Käyttäjäriippumattoman puheentunnistuksen järjestäminen
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US20030050783A1 (en) * 2001-09-13 2003-03-13 Shinichi Yoshizawa Terminal device, server device and speech recognition method
US6901364B2 (en) * 2001-09-13 2005-05-31 Matsushita Electric Industrial Co., Ltd. Focused language models for improved speech input of structured documents
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US8248528B2 (en) * 2001-12-24 2012-08-21 Intrasonics S.A.R.L. Captioning system
US7139713B2 (en) * 2002-02-04 2006-11-21 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US8374879B2 (en) 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7188066B2 (en) * 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
US7167831B2 (en) * 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
US7603627B2 (en) * 2002-02-05 2009-10-13 Microsoft Corporation Systems and methods for creating and managing graphical user interface lists
US7257776B2 (en) * 2002-02-05 2007-08-14 Microsoft Corporation Systems and methods for scaling a graphical user interface according to display dimensions and using a tiered sizing schema to define display objects
US7587317B2 (en) * 2002-02-15 2009-09-08 Microsoft Corporation Word training interface
JP2003316387A (ja) 2002-02-19 2003-11-07 Ntt Docomo Inc 学習装置、移動通信端末、情報認識システム、及び、学習方法
US20040128129A1 (en) * 2002-12-11 2004-07-01 Sherman William F. Voice recognition peripheral device based wireless data transfer
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US7786987B2 (en) * 2003-09-25 2010-08-31 The Nielsen Company (Us), Llc Methods and apparatus to detect an operating state of a display based on visible light
US9027043B2 (en) * 2003-09-25 2015-05-05 The Nielsen Company (Us), Llc Methods and apparatus to detect an operating state of a display
KR100554442B1 (ko) * 2003-10-06 2006-02-22 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
GB2409560B (en) 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US20050273337A1 (en) * 2004-06-02 2005-12-08 Adoram Erell Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
US20060009974A1 (en) * 2004-07-09 2006-01-12 Matsushita Electric Industrial Co., Ltd. Hands-free voice dialing for portable and remote devices
AU2005273948B2 (en) 2004-08-09 2010-02-04 The Nielsen Company (Us), Llc Methods and apparatus to monitor audio/visual content from various sources
WO2006051180A1 (fr) 2004-11-08 2006-05-18 France Telecom Procede de construction distribuee d'un modele de reconnaissance vocale , dispositif, serveur et programmes d'ordinateur pour mettre en œuvre un tel procede
US7639876B2 (en) 2005-01-14 2009-12-29 Advanced Digital Systems, Inc. System and method for associating handwritten information with one or more objects
JP2008529101A (ja) * 2005-02-03 2008-07-31 ボイス シグナル テクノロジーズ インコーポレイテッド 移動通信装置の音声語彙を自動的に拡張するための方法及び装置
US7720286B2 (en) 2005-05-25 2010-05-18 Advanced Digital Systems, Inc. System and method for associating handwritten information with one or more objects via discontinuous regions of a printed pattern
US20060271368A1 (en) * 2005-05-25 2006-11-30 Yishay Carmiel Voice interface for consumer products
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
MX2008002317A (es) 2005-08-16 2008-03-24 Nielsen Media Res Inc Metodos y aparatos de deteccion de encendido/apagado del dispositivo de visualizacion.
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7720681B2 (en) * 2006-03-23 2010-05-18 Microsoft Corporation Digital voice profiles
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US9462118B2 (en) * 2006-05-30 2016-10-04 Microsoft Technology Licensing, Llc VoIP communication content control
US8971217B2 (en) * 2006-06-30 2015-03-03 Microsoft Technology Licensing, Llc Transmitting packet-based data items
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
DE102006056286B4 (de) * 2006-11-29 2014-09-11 Audi Ag Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug
US20080255835A1 (en) * 2007-04-10 2008-10-16 Microsoft Corporation User directed adaptation of spoken language grammer
US20090006085A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automated call classification and prioritization
KR20090013876A (ko) * 2007-08-03 2009-02-06 한국전자통신연구원 음소를 이용한 분산형 음성 인식 방법 및 장치
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20090271106A1 (en) * 2008-04-23 2009-10-29 Volkswagen Of America, Inc. Navigation configuration for a motor vehicle, motor vehicle having a navigation system, and method for determining a route
GB2460306B (en) * 2008-05-29 2013-02-13 Intrasonics Sarl Data embedding system
US8180712B2 (en) 2008-09-30 2012-05-15 The Nielsen Company (Us), Llc Methods and apparatus for determining whether a media presentation device is in an on state or an off state
US8793717B2 (en) 2008-10-31 2014-07-29 The Nielsen Company (Us), Llc Probabilistic methods and apparatus to determine the state of a media device
US8375404B2 (en) 2008-12-30 2013-02-12 The Nielsen Company (Us), Llc Methods and apparatus to enforce a power off state of an audience measurement device during shipping
US8156517B2 (en) 2008-12-30 2012-04-10 The Nielsen Company (U.S.), Llc Methods and apparatus to enforce a power off state of an audience measurement device during shipping
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8484023B2 (en) * 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
WO2013096314A1 (en) 2011-12-19 2013-06-27 The Nielsen Company (Us), Llc Methods and apparatus for crediting a media presentation device
US9692535B2 (en) 2012-02-20 2017-06-27 The Nielsen Company (Us), Llc Methods and apparatus for automatic TV on/off detection
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DK2713367T3 (en) * 2012-09-28 2017-02-20 Agnitio S L Speech Recognition
US9691377B2 (en) 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US10504622B2 (en) 2013-03-01 2019-12-10 Nuance Communications, Inc. Virtual medical assistant methods and apparatus
US9275638B2 (en) 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US11183300B2 (en) 2013-06-05 2021-11-23 Nuance Communications, Inc. Methods and apparatus for providing guidance to medical professionals
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (de) 2013-06-09 2016-04-20 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9280968B2 (en) * 2013-10-04 2016-03-08 At&T Intellectual Property I, L.P. System and method of using neural transforms of robust audio features for speech processing
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578465B (zh) * 2013-10-18 2016-08-17 威盛电子股份有限公司 语音辨识方法及电子装置
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10319004B2 (en) 2014-06-04 2019-06-11 Nuance Communications, Inc. User and engine code handling in medical coding system
US10331763B2 (en) 2014-06-04 2019-06-25 Nuance Communications, Inc. NLU training with merged engine and user annotations
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
US10366424B2 (en) 2014-06-04 2019-07-30 Nuance Communications, Inc. Medical coding system with integrated codebook interface
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9910840B2 (en) 2015-04-03 2018-03-06 Microsoft Technology Licensing, Llc Annotating notes from passive recording with categories
US9924224B2 (en) 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10366687B2 (en) 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11152084B2 (en) 2016-01-13 2021-10-19 Nuance Communications, Inc. Medical report coding with acronym/abbreviation disambiguation
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053531A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
AU2017327003B2 (en) 2016-09-19 2019-05-23 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
WO2018057639A1 (en) 2016-09-20 2018-03-29 Nuance Communications, Inc. Method and system for sequencing medical billing codes
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
KR102509821B1 (ko) * 2017-09-18 2023-03-14 삼성전자주식회사 Oos 문장을 생성하는 방법 및 이를 수행하는 장치
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US11646018B2 (en) 2019-03-25 2023-05-09 Pindrop Security, Inc. Detection of calls from voice assistants
US10841424B1 (en) 2020-05-14 2020-11-17 Bank Of America Corporation Call monitoring and feedback reporting using machine learning

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4754326A (en) * 1983-10-25 1988-06-28 Keycom Electronic Publishing Method and apparatus for assisting user of information retrieval systems
US4751737A (en) 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4903305A (en) 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US5054082A (en) * 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5983179A (en) 1992-11-13 1999-11-09 Dragon Systems, Inc. Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation
US5497447A (en) * 1993-03-08 1996-03-05 International Business Machines Corporation Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
US5488652A (en) 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
US5749072A (en) * 1994-06-03 1998-05-05 Motorola Inc. Communications device responsive to spoken commands and methods of using same
US5477511A (en) * 1994-07-13 1995-12-19 Englehardt; C. Duane Portable documentation system
JPH0877176A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd 外国語翻訳装置
US5864810A (en) 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5825977A (en) 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5684925A (en) 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5839107A (en) 1996-11-29 1998-11-17 Northern Telecom Limited Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing
US5950157A (en) * 1997-02-28 1999-09-07 Sri International Method for establishing handset-dependent normalizing models for speaker recognition
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009017177B4 (de) 2008-04-23 2022-05-05 Volkswagen Ag Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges
DE102012212185B4 (de) 2011-07-25 2019-03-07 International Business Machines Corporation Pflegen und Bereitstellen von Sprachmodellen
DE102013219649A1 (de) * 2013-09-27 2015-04-02 Continental Automotive Gmbh Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher

Also Published As

Publication number Publication date
DE60003971D1 (de) 2003-08-28
EP1047046A2 (de) 2000-10-25
EP1047046B1 (de) 2003-07-23
US6463413B1 (en) 2002-10-08
EP1047046A3 (de) 2002-05-22

Similar Documents

Publication Publication Date Title
DE60003971T2 (de) Verteilte Architektur zum Trainieren eines Spracherkennungssystems
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE69433593T2 (de) Aufgeteiltes spracherkennungssystem
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69827667T2 (de) Vokoder basierter spracherkenner
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE19533541C1 (de) Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE60015531T2 (de) Client-server spracherkennungssystem
DE69923253T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60009583T2 (de) Sprecheradaptation auf der Basis von Stimm-Eigenvektoren
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
CN110277088B (zh) 智能语音识别方法、装置及计算机可读存储介质
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon
US20050216272A1 (en) System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
CN111429914A (zh) 麦克风控制方法、电子装置及计算机可读存储介质
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE112020005337T5 (de) Steuerbare, natürliche paralinguistik für text-zu-sprache-synthese
DE60014583T2 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte
CN114492382A (zh) 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee
8370 Indication of lapse of patent is to be deleted
8339 Ceased/non-payment of the annual fee