DE60201262T2 - Hierarchische sprachmodelle - Google Patents

Hierarchische sprachmodelle Download PDF

Info

Publication number
DE60201262T2
DE60201262T2 DE60201262T DE60201262T DE60201262T2 DE 60201262 T2 DE60201262 T2 DE 60201262T2 DE 60201262 T DE60201262 T DE 60201262T DE 60201262 T DE60201262 T DE 60201262T DE 60201262 T2 DE60201262 T2 DE 60201262T2
Authority
DE
Germany
Prior art keywords
contextual
models
hierarchy
contextual models
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60201262T
Other languages
English (en)
Other versions
DE60201262D1 (de
Inventor
Edward Mark EPSTEIN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE60201262D1 publication Critical patent/DE60201262D1/de
Application granted granted Critical
Publication of DE60201262T2 publication Critical patent/DE60201262T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Description

  • GRUNDLAGEN DER ERFINDUNG
  • Technisches Gebiet
  • Diese Erfindung betrifft das Gebiet der Spracherkennung und dialogbasierter Systeme und insbesondere die Verwendung von Sprachmodellen zur Umwandlung von Sprache in Text.
  • Beschreibung des Standes der Technik
  • Spracherkennung ist der Prozess, durch den ein von einem Mikrofon empfangenes akustisches Signal von einem Computer in einen Satz von Textwörtern, Zahlen oder Symbolen umgewandelt wird. Diese erkannten Wörter können sodann in einer Vielfalt von Computersoftwareanwendungen für verschiedene Zwecke verwendet werden, beispielsweise für Dokumenterstellungen, Dateneingaben sowie Befehl und Steuerungen. Verbesserungen an Spracherkennungssystemen stellen eine wichtige Möglichkeit zur Steigerung der Benutzerproduktivität bereit.
  • Spracherkennungssysteme können akustische Signale modellieren und klassifizieren, um akustische Modelle zu erstellen, die Darstellungen von grundlegenden linguistischen Einheiten sind, die als Phoneme bezeichnet werden. Auf den Empfang des akustischen Signals hin kann das Spracherkennungssystem dieses analysieren, eine Reihe von akustischen Modellen im akustischen Signal ermitteln und eine Liste von möglichen Wortkandidaten für die gegebene Reihe von akustischen Modellen ableiten.
  • Anschließend kann das Spracherkennungssystem die möglichen Wortkandidaten unter Verwendung eines Sprachmodells als Anhaltspunkt kontextbezogen analysieren. Insbesondere kann das Sprachmodell Einschränkungen ausdrücken, die der Art und Weise auferlegt sind, wie Wörter zur Bildung von Sätzen kombiniert werden können. Das Sprachmodell ist normalerweise ein statistisches Modell, das die Wahrscheinlichkeit ausdrücken kann, mit der ein Wort unmittelbar an ein oder mehrere andere Wörter angrenzend vorkommt. Das Sprachmodell kann als ein Netzwerk mit endlichen zuständen (finite state network) angegeben werden, wobei die zulässigen Wörter, die auf jedes Wort folgen, ausdrücklich aufgelistet werden, oder es kann auf eine aufwändigere Weise unter Verwendung einer kontextsensitiven Grammatik realisiert werden. Zu anderen beispielhaften Sprachmodellen gehören – jedoch nicht ausschließlich – N-Gramm-Modelle (n-gram models) und Sprachmodelle mit maximaler Entropie (maximum entropy language models), die beide nach dem Stand der Technik bekannt ist. Ein allgemeines Beispiel eines Sprachmodells kann ein N-Gramm-Modell sein. Insbesondere die Bigramm- und Trigramm-Modelle sind beispielhafte N-Gramm-Modelle, die nach dem Stand der Technik allgemein verwendet werden.
  • Herkömmliche Sprachmodelle können aus einer Analyse eines Trainingstextbausteins (training corpus of text) abgeleitet werden. Ein Trainingsbaustein enthält Text, der die übliche Sprechweise von Personen widerspiegelt. Der Trainingsbaustein kann zur Ermittlung der statistischen Sprachmodelle verarbeitet werden, die vom Spracherkennungssystem zur Umwandlung von Sprache in Text verwendet werden, was auch als Sprachentschlüsselung bezeichnet wird. Es muss verstanden werden, dass solche Verfahren nach dem Stand der Technik bekannt sind. Für eine vollständigere Erläuterung von Sprachmodellen und Verfahren zum Erstellen von Sprachmodellen siehe "Statistical Methods for Speech Recognition" von Frederick Jelinek (The MIT Press ed., 1997). Nach dem Stand der Technik können Spracherkennungssysteme derzeit eine Kombination von Sprachmodellen verwenden, um eine sprachliche Äußerung des Benutzers in Text umzuwandeln. Jedes Sprachmodell kann zum Ermitteln einer sich ergebenden Textfolge verwendet werden. Die sich aus jedem Sprachmodell ergebenden Textfolgen können statistisch gewichtet werden, um das genaueste oder wahrscheinlichste Ergebnis zu ermitteln. Beispielsweise können Spracherkennungssysteme ein im System enthaltenes allgemeines oder generisches Sprachmodell sowie ein benutzerspezifisches Sprachmodell beinhalten, das aus den ersten Diktatsitzungen oder von einem Benutzer diktierten Dokumenten abgeleitet wird. Einige Spracherkennungssysteme können ein vorhandenes Sprachmodell noch weiter verbessern, wenn ein Benutzer neue Dokumente diktiert oder neue Diktatsitzungen einleitet. Folglich können die Sprachmodelle in vielen herkömmlichen Spracherkennungssystemen kontinuierlich aktualisiert werden.
  • Die PCT-Veröffentlichung WO 00/58945 beschreibt eine Spracherkennungsvorrichtung mit einer Hierarchie von Sprachmodellen, die mit Modellen mit einem eher generischen Kontext bis hin zu Modellen mit einem spezifischeren Kontext angeordnet werden.
  • Leider kann die Bedeutung des themenspezifischen Benutzerdiktats bei ständig wachsenden Sprachmodellen geringer werden. Insbesondere kann die Auswirkung der neueren Sprachsitzungen durch die zunehmende Datenmenge im Sprachmodell abnehmen. Ähnlich können neuere Benutzerdiktate unabhängig davon, ob sie themenspezifisch sind, im wachsenden Sprachmodell hinsichtlich ihrer Bedeutung vermindert werden. Dies geschieht in erster Linie in Bezug auf statistische Sprachmodelle, wobei die statistische Bedeutung einer bestimmten Sitzung oder eines Dokumentes, die bzw. das zur Verbesserung des Sprachmodells verwendet werden kann, durch eine sich stetig erweiternde Datenmenge verringert wird. Diese statistische Auswirkung kann erheblich sein, beispielsweise falls sich die Sprachmuster des Benutzers ändern, wenn der Benutzer mit der Interaktion mit dem Spracherkennungssystem oder dialogbasierten System vertrauter wird. Insbesondere ändert jede sich aus einer einzigen Sitzung oder einem einzigen Dokument ergebende Verbesserung eines Sprachmodells, die insbesondere im Hinblick auf den gesamten dem Sprachmodell entsprechenden Datensatz eine begrenzte Menge von Daten erzeugen kann, das Verhalten eines statistischen sprachbasierten Systems aller Wahrscheinlichkeit nach nicht. Infolgedessen spiegelt das Sprachmodell den sich ändernden Diktatstil eines Benutzers möglicherweise nicht genau wider.
  • Ähnliche Probleme können im Zusammenhang mit dialogbasierten Systemen vorkommen, beispielsweise bei Systemen mit Verständnis der natürlichen Sprache, wobei ein Benutzer verbal auf eine oder mehrere Systemeingabeaufforderungen antworten kann. Obwohl solche Systeme ein oder mehrere Sprachmodelle zur Verarbeitung von Benutzerantworten enthalten können, können die an spezifische Eingabeaufforderungen angepassten Sprachmodelle unter Verwendung einer unzureichenden Datenmenge erstellt werden. Infolgedessen können solche Sprachmodelle zu spezifisch sein, um empfangene Sprachäußerungen genau zu verarbeiten. Insbesondere kann den Sprachmodellen die Fähigkeit zur Abstraktion ausgehend vom Sprachmodell fehlen, um eine verallgemeinerte Benutzerantwort zu verarbeiten.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die hierin beschriebene Erfindung betrifft ein Verfahren zur Erzeugung einer Hierarchie von kontextbezogenen Modellen, wie es in Anspruch 1 beansprucht wird, ein Verfahren zur Verwendung dieser kontextbezogenen Modelle zur Umwandlung von Sprache in Text, wie es in Anspruch 4 beansprucht wird, und einen maschinenlesbaren Speicher, wie er in Anspruch 7 beansprucht wird. Das Verfahren der Erfindung kann in einem Spracherkennungssystem und in einem dialogbasierten System mit Verständnis der natürlichen Sprache verwendet werden. Insbesondere kann die Erfindung eine Vielzahl von kontextbezogenen Modellen aus verschiedenen Benutzersprachsitzungen, Dokumenten, Teilen von Dokumenten oder Benutzerantworten in Form von sprachlichen Äußerungen des Benutzers erzeugen. Diese kontextbezogenen Modelle können unter Verwendung einer bekannten Abstandsmaßzahl (distance metric) in zusammengehörige Paare aufsteigend organisiert oder eingeteilt werden. Die zusammengehörigen Paare von Sprachmodellen können fortlaufend vermischt werden, bis eine baumähnliche Struktur erzeugt wird. Die baumähnliche Struktur von kontextbezogenen Modellen oder die Hierarchie von kontextbezogenen Modellen kann sich von einem einzigen Wurzelknoten nach außen erstrecken. Die Hierarchie von kontextbezogenen Modellen kann unter Verwendung eines vorliegenden Textbausteins mit Hilfe von nach dem Stand der Technik bekannten Verfahren, beispielsweise der gelöschten Interpolation (deleted Interpolation) oder des Rückkopplungsverfahrens(back off method), interpoliert werden. Insbesondere ist die Erfindung nicht so sehr durch die hierin beschriebenen spezifischen Glättungsverfahren (smoothing techniques) begrenzt. Vielmehr kann jedes geeignete nach dem Stand der Technik bekannte Glättungsverfahren verwendet weiden.
  • Nachdem die Hierarchie von kontextbezogenen Modellen ermittelt und geglättet worden ist, können sprachliche Äußerungen des Benutzers unter Verwendung der sich ergebenden Hierarchie von kontextbezogenen Modellen verarbeitet werden. Eines oder mehrere kontextbezogene Modelle innerhalb der Hierarchie von kontextbezogenen Modellen können ermittelt werden, die einer oder mehreren sprachlichen Äußerungen des Benutzers entsprechen. Die ermittelten kontextbezogenen Modelle können zur Verarbeitung von nachfolgend empfangenen sprachlichen Äußerungen des Benutzers verwendet werden.
  • Zu einem Aspekt der Erfindung kann ein Verfahren zur Umwandlung von Sprache in Text unter Verwendung einer Hierarchie von kontextbezogenen Modellen gehören. Die Hierarchie von kontextbezogenen Modellen kann statistisch zu einem Sprachmodell geglättet werden. Das Verfahren kann Folgendes beinhalten: (a) Verarbeiten von Text mit einer Vielzahl von kontextbezogenen Modellen, wobei jedes aus der Vielzahl von kontextbezogenen Modellen einem Knoten in einer Hierarchie der Vielzahl von kontextbezogenen Modellen entsprechen kann. Die Verarbeitung von Text kann seriell oder parallel ausgeführt werden. Außerdem kann das Verfahren Folgendes beinhalten: (b) Ermitteln vom mindestens einem der kontextbezogenen Modelle, das sich auf den empfangenen Text bezieht, und (c) Verarbeiten von nachfolgenden sprachlichen Äußerungen des Benutzers mit dem mindestens einen ermittelten kontextbezogenen Modell.
  • Mindestens eines aus der Vielzahl von kontextbezogenen Modellen kann einem Dokument oder einem Teil eines Dokumentes, einem Abschnitt eines Dokumentes, mindestens einer in einem bestimmten Dialogzustand in einem dialogbasierten System empfangenen Benutzerantwort oder mindestens einer Benutzerantwort entsprechen, die an einer bestimmten Position in einer bestimmten Transaktion in einem dialogbasierten System empfangen wurde. Trotzdem kann das mindestens eine aus der Vielzahl von kontextbezogenen Modellen der Syntax einer dialogbasierten Systemeingabeaufforderung, einer bestimmten bekannten dialogbasierten Systemeingabeaufforderung oder einer empfangenen elektronischen Postnachricht entsprechen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • In den vorliegenden Zeichnungen werden Ausführungsformen gezeigt, die gegenwärtig bevorzugt werden, wobei jedoch verstanden werden muss, dass die Erfindung nicht auf die gezeigten genauen Anordnungen und Einrichtungen begrenzt ist, wobei.
  • 1 eine schematische Darstellung eines beispielhaften Computersystems ist, in dem die Erfindung verwendet werden kann.
  • 2 eine schematische Darstellung ist, die eine beispielhafte Architektur für die Spracherkennung zeigt.
  • Die 3A und 3B schematische Darstellungen sind, die typische Komponenten zeigen, die eine Spracherkennungsvorrichtung umfassen können.
  • 4 eine Darstellung ist, die eine beispielhafte Hierarchie von kontextbezogenen Modellen veranschaulicht.
  • 5 ein Flussdiagramm ist, das ein beispielhaftes Verfahren der Erfindung veranschaulicht.
  • 6 ein Flussdiagramm ist, das ein beispielhaftes Verfahren der Erfindung veranschaulicht.
  • AUSFÜHRLICHE BESCHREIBUNG DER AUSFÜHRUNGSFORM
  • Die hierin beschriebene Ausführungsform betrifft ein Verfahren zur Erzeugung einer Hierarchie von kontextbezogenen Modellen und die Verwendung dieser kontextbezogenen Modelle zur Umwandlung von Sprache in Text. Das Verfahren der Ausführungsform kann in einem Spracherkennungssystem und in einem dialogbasierten System mit Verständnis der natürlichen Sprache verwendet werden. Insbesondere kann die Ausführungsform eine Vielzahl von kontextbezogenen Modellen aus verschiedenen Benutzersprachsitzungen, Dokumenten, Teilen von Dokumenten oder Antworten in Form von sprachlichen Äußerungen des Benutzers erzeugen. Diese kontextbezogenen Modelle können unter Verwendung einer bekannten Abstandsmaßzahl in zusammengehörige Paare aufsteigend organisiert oder eingeteilt werden. Insbesondere kann die Organisation von kontextbezogenen Modellen in zusammengehörige Paare automatisch und dynamisch zur Laufzeit ausgeführt werden. Die zusammengehörigen Paare von kontextbezogenen Modellen können vermischt werden, um ein kontextbezogenes Elternmodell zu erstellen. Der Prozess kann wiederholt werden, bis eine Hierarchie von kontextbezogenen Modellen entsteht, die einer Baumstruktur ähnelt. Die Hierarchie kann einen einzigen Wurzelknoten aufweisen, von dem andere Knoten ausgehen. Insbesondere kann jeder Knoten der Hierarchie von kontextbezogenen Modellen einem kontextbezogenen Modell entsprechen. Es muss verstanden werden, dass der hierin verwendete Begriff "kontextbezogenes Modell" sich auf ein aus Trainingsdaten erstelltes Sprachmodell beziehen kann, die aus einem einzigen Dokument, einem Teil eines Dokumentes oder im Falle eines Systems mit Verständnis der natürlichen Sprache (NLU) aus einer oder mehreren sprachlichen Äußerungen oder Antworten des Benutzers erhalten werden.
  • Die sich ergebende Hierarchie von kontextbezogenen Modellen kann unter Verwendung eines vorliegenden Textbausteins unter Verwendung von nach dem Stand der Technik bekannten Verfahren, beispielsweise der gelöschten Interpolation oder des Rückkopplungsverfahrens, interpoliert werden. Insbesondere wird die Erfindung nicht so sehr durch die hierin beschriebenen spezifischen Glättungsverfahren begrenzt. vielmehr kann jedes geeignete, nach dem Stand der Technik bekannte Glättungsverfahren verwendet werden.
  • Nachdem die Hierarchie von kontextbezogenen Modellen ermittelt wurde, können sprachliche Äußerungen des Benutzers unter Verwendung der sich ergebenden Hierarchie von kontextbezogenen Modellen verarbeitet werden. Insbesondere kann ein bestimmtes kontextbezogenes Modell in der Hierarchie von kontextbezogenen Modellen ermittelt werden, das einer oder mehreren empfangenen sprachlichen Äußerungen des Benutzers entspricht oder diese am genauesten widerspiegelt. Beispielsweise kann die Ausführungsform eine empfangene sprachliche Äußerung des Benutzers mit der Hierarchie von kontextbezogenen Modellen verarbeiten und das kontextbezogene Modell ermitteln, das einen sich ergebenden Text mit dem höchsten Vertrauenswert (confidence score) liefert. Die Ausführungsform kann von der Annahme ausgehen, dass das Hauptthema von nachfolgenden sprachlichen Äußerungen des Benutzers ähnlich wie das Hauptthema der zuvor empfangenen sprachlichen Äußerungen des Benutzers oder der zum Ermitteln des entsprechenden kontextbezogenen Modells verwendeten Äußerungen ist. Folglich können nachfolgende sprachliche Äußerungen des Benutzers mit dem ermittelten kontextbezogenen Modell verarbeitet werden, um eine gesteigerte Leistung des Spracherkennungssystems zu erzielen.
  • Insbesondere können die sich ergebende Hierarchie von kontextbezogenen Modellen und das sich ergebende geglättete Sprachmodell es ermöglichen, dass die Verarbeitung von nachfolgenden sprachlichen Äußerungen des Benutzers in höherem Maße verallgemeinert werden kann. Dies kann insbesondere bei der Anwendung auf ein NLU-System von Vorteil sein, wo "untertrainierte" Sprachmodelle die Systemleistung nachteilig beeinflussen können. Insbesondere kann die geglättete Hierarchie von kontextbezogenen Modellen in Richtung des Wurzelknotens durchquert werden, so dass die kontextbezogenen Modelle in höherem Maße verallgemeinert werden, jedoch noch immer kontextsensitiv sind, oder in Richtung der Blattknoten (leaves), wo die kontextbezogenen Modelle spezifischer werden, jedoch noch immer kontextsensitiv sind.
  • 1 stellt ein typisches Computersystem 100 zur Verwendung in Verbindung mit der vorliegenden Erfindung dar. Das System kann einen Computer 105 mit einer Zentraleinheit 110 (CPU), eine oder mehrere Speichereinheiten 115 und eine zugeordnete Schaltungsanordnung enthalten. Die Speichereinheiten 115 können aus einem elektronischen Arbeitsspeicher und einem Massendatenspeichermedium bestehen. Außerdem kann das System ein Mikrofon 120, das über eine geeignete Schnittstellenschaltung 125 funktionsmäßig mit dem Computersystem verbunden ist und eine zusätzliche Benutzerschnittstellen-Anzeigeeinheit 130 enthalten, beispielsweise einen funktionsmäßig damit verbundenen Monitor. Die CPU kann aus irgendeinem geeigneten Mikroprozessor oder euer anderen elektronischen Datenverarbeitungseinheit bestehen, wie Fachleuten bekannt ist. Die Lautsprecher 135 und 14D sowie eine Schnittstelleneinheit, beispielsweise eine Maus 143 und eine Tastatur 150, können mit dem System bereitgestellt werden, sind jedoch für die Funktionsweise der hierin beschriebenen Erfindung nicht notwendig. Die verschiedenen Hardwareanforderungen für das hierin beschriebene Computersystem können im Allgemeinen durch irgendeinen von vielen handelsüblichen Hochgeschwindigkeitscomputern erfüllt werden.
  • 2 ist eine schematische Darstellung, die eine typische Architektur für ein Spracherkennungssystem im Computersystem 10D zeigt. Wie in 2 gezeigt wird, können sich im Speicher 115 des Computersystems 100 ein Betriebssystem 200 und eine Spracherkennungsvorrichtung 210 befinden. Außerdem können eine Sprachtextprozessoranwendung (speech text processor application) 220 und eine Sprachnavigationsanwendung (voice navigator application) 230 enthalten sein. Die Erfindung ist jedoch in dieser Hinsicht nicht begrenzt, und die Spracherkennungsvorrichtung 210 kann mit jedem anderen Anwendungsprogramm mit der Fähigkeit zur Spracherkennung verwendet werden. In 2 werden die Spracherkennungsvorrichtung 210, die Sprachtextprozessoranwendung 220 und die Sprachnavigationsanwendung 230 als gesonderte Anwendungsprogramme gezeigt. Es sei jedoch darauf hingewiesen, dass die Erfindung in dieser Hinsicht nicht begrenzt ist und diese verschiedenen Anwendungsprogramme als ein einziges, komplexeres Anwendungsprogramm realisiert werden können. Beispielsweise kann die Spracherkennungsvorrichtung 210 mit der Sprachtextprozessoranwendung 220 oder mit jeder anderen Anwendung mit der Fähigkeit zur Spracherkennung kombiniert werden. Falls keine anderen sprachgesteuerten Anwendungsprogramme in Verbindung mit der Sprachtextprozessoranwendung 220 und der Spracherkennungsvorrichtung 210 ausgeführt werden müssen, kann das System außerdem so geändert werden, dass es ohne die Sprachnavigationsanwendung 230 betrieben wird. Die Sprachnavigationsanwendung 230 unterstützt in erster Linie die Koordination der Funktionsweise der Spracherkennungsvorrichtung 210.
  • Die zuvor erwähnten Komponenten können auf eine zentralisierte Weise im Computersystem 100 realisiert werden. Alternativ können die zuvor erwähnten Komponenten auf eine verteilte Weise realisiert werden, wobei verschiedene Elemente über mehrere miteinander verbundene Computersysteme verteilt werden. In jedem Fall können die Komponenten in Hardware, Software oder einer Kombination aus Hardware und Software ausgeführt werden. Jede Art von Computersystem oder einer anderen zum Ausführen der hierin beschriebenen Verfahren geeigneten Vorrichtung ist geeignet. Das hierin beschriebene System kann unter Verwendung von handelsüblichen Entwicklungswerkzeugen (development tools) für das jeweils verwendete Betriebssystem von einem Programmierer realisiert werden.
  • Ein Computerprogrammmittel oder ein Computerprogramm bedeutet im vorliegenden Kontext einen beliebigen Ausdruck eines Befehlssatzes in einer beliebigen Sprache, einem beliebigen Code oder einer beliebigen Schreibweise, der dafür vorgesehen ist, ein System mit einer Fähigkeit zur Datenverarbeitung zu veranlassen, eine bestimmte Funktion entweder direkt oder nach einem oder beiden der folgenden Vorgänge auszuführen: a) Umwandlung in eine andere Sprache, einen anderen Code oder eine andere Schreibweise; b) Wiedergabe in einer anderen materiellen Form.
  • Während des Betriebs können Tonsignale, die im Mikrofon 120 empfangene Töne darstellen, unter Verwendung einer herkömmlichen Audioschaltungsanordnung im Computer 100 verarbeitet werden, so dass sie dem Betriebssystem 200 in digitalisierter Form zur Verfügung gestellt werden. Alternativ können Tonsignale über ein Computerkommunikationsnetz von einem anderen Computersystem in analogem oder digitalem Format oder von einer anderen Wandlereinheit (transducive device), beispielsweise einem Telefon, empfangen werden. Die vom Computersystem 100 empfangenen Tonsignale werden herkömmlicherweise über das Computerbetriebssystem 200 zur Spracherkennungsvorrichtung 210 übertragen, um Spracherkennungsfunktionen auszuführen. Wie bei herkömmlichen Spracherkennungssystemen können die Tonsignale von der Spracherkennungsvorrichtung 210 verarbeitet werden, um von einem Benutzer in das Mikrofon 120 gesprochene Wörter zu ermitteln. 3A ist eine Darstellung, die typische Komponenten zeigt, die die Spracherkennungsvorrichtung 210 umfassen können. Wie in 3 gezeigt wird, empfängt die Spracherkennungsvorrichtung 210 ein digitalisiertes Sprachsignal vom Betriebssystem. Das Signal wird anschließend im Darstellungsblock 310 in einen brauchbaren Datensatz umgewandelt, indem es mit einer feststehenden Geschwindigkeit abgetastet wird, normalerweise alle 10 bis 20 ms. Der Darstellungsblock erzeugt eine neue Darstellung des Tonsignals, die sodann in nachfolgenden Schritten des Spracherkennungsprozesses verwendet werden kann, um die Wahrscheinlichkeit zu ermitteln, dass der Teil der gerade analysierten Signalform einem bestimmten phonetischen Ereignis entspricht. Dieser Prozess ist dafür vorgesehen, wichtige sprecherunabhängige Merkmale der vom Betriebssystem empfangenen Sprachsignale hervorzuheben. Im Modellierungs/Klassifizierungsblock 320 verarbeiten Algorithmen die Sprachsignale weiter, um sprecherunabhängige akustische Modelle an die des aktuellen Sprechers anzupassen. Schließlich werden im Suchblock 330 Suchalgorithmen verwendet, um die Suchmaschine zu den Wörtern zu lenken, die mit der größten Wahrscheinlichkeit dem Sprachsignal entsprechen. Der Suchprozess im Suchblock 330 erfolgt mit Hilfe von akustischen Modellen 340, lexikalischen Modellen 350 und Sprachmodellen 360.
  • Die Sprachmodelle 360 können verwendet werden, um die Begrenzung der Anzahl von möglichen einem Sprachsignal entsprechenden Wörtern zu unterstützen, wenn ein Wort zusammen mit anderen Wörtern in einer Folge verwendet wird. Das Sprachmodell kann als ein Netzwerk mit endlichen Zuständen(finite state network) angegeben werden, wobei die auf jedes Wort folgenden zulässigen Wörter ausdrücklich aufgelistet werden, oder es kann auf eine aufwändigere Weise unter Verwendung einer kontextsensitiven Grammatik realisiert werden. Zu anderen beispielhaften Sprachmodellen können – jedoch nicht ausschließlich – N-Gramm-Modelle und Sprachmodelle mit maximaler Entropie (maximum entropy language models) gehören, die beide nach dem Stand der Technik bekannt ist. In jedem Fall ist es oftmals wünschenswert, den Inhalt des Sprachmodells mit Daten zu aktualisieren, die Sprachmuster betreffen, die im Falle eines spezifischen Benutzers mit hoher Wahrscheinlichkeit vorliegen. Der Suchprozess ermittelt den Wortkandidaten mit dem höchsten Vertrauenswert als Textausgabe.
  • Ein Vertrauenswert spiegelt die Wahrscheinlichkeit wider, dass ein bestimmter Wortkandidat eine entsprechende sprachliche Äußerung des Benutzers genau wiedergibt. Der Vertrauenswert kann ein von akustischen Modellen, lexikalischen Modellen und Sprachmodellen abgeleiteter Wert sein. Beispielsweise kann der Vertrauenswert die Wahrscheinlichkeit berücksichtigen, dass ein bestimmter Wortkandidat eine sprachliche Äußerung des Benutzers darstellt, wie unter Verwendung eines akustischen Modells festgestellt wurde, und außerdem die Wahrscheinlichkeit, dass der bestimmte Wortkandidat sich neben einem anderen Wort oder einer Gruppe von Wörtern befinden kann, wie unter Verwendung eines Sprachmodells festgestellt wurde.
  • Erkannter Text kann einer Sprachmodell-Sitzungsverwaltungseinrichtung (Language Model Session Manager) (LMSM) 380 zugeführt werden. Aufgrund der Wahrscheinlichkeit, dass der sich ergebende Text die empfangene sprachliche Äußerung des Benutzers genau widerspiegelt, kann die LMSM 380 ein geeigneteres kontextbezogenes Modell zur Verarbeitung von nachfolgend empfangenen sprachlichen Äußerungen des Benutzers ermitteln. Insbesondere kann die LMSM 380 ein kontextbezogenes Modell ermitteln, das zur Verarbeitung von Text verwendet werden kann, wobei der sich ergebende Text die größte Wahrscheinlichkeit zur Wiedergabe der empfangenen sprachlichen Äußerung des Benutzers aufweisen kann. Folglich kann die LMSM 380 ein geeignetes kontextbezogenes Modell zur Verwendung bei der Verarbeitung nachfolgend empfangener Sprachäußerungen auswählen. Wie gezeigt wurde, kann die LMSM 380 einen Rückführungspfad (feedback path) zum Spracherkennungssystem bereitstellen.
  • Außerdem kann die LMSM 380 Abschnitte von Dokumenten erkennen. Beispielsweise kann die LMSM 380 den Abschnitt eines Dokumentes durch die Position eines Cursors im Dokument ermitteln. Die LMSM 380 kann mit einer oder mehreren Schablonen (templates) programmiert werden, wobei die Schablonen Hinweise auf verschiedene Dokumentabschnitte enthalten können, beispielsweise die Einleitung, die Grundlagen oder einen anderen definierbaren Abschnitt eines Dokumentes. Die Abschnitte können benutzerdefinierte Abschnitte, und sie können themenspezifisch sein. Beispielsweise können die Abschnitte Teilbereiche eines Dokumentes sein, die eventuell einen themenspezifischen Test, der einen richtigen oder falschen Abschnitt enthält, einen kurzen Antwortabschnitt oder einen Multiple-Choice-Abschnitt darstellen. Insbesondere herkömmliche Textverarbeitungsprogramme können eine Unterteilung von Dokumenten in Abschnitte bereitstellen.
  • Die LMSM 380 kann außerdem so programmiert werden, dass sie ermittelt, wann die Sprachmodellerstellungseinrichtung (Language Model Builder) (LMB) 390 angewiesen werden muss, ein neues kontextbezogenes Modell zu erstellen und die Hierarchie von kontextbezogenen Modellen neu aufzubauen. Die LMB 390 kann dynamisch ein neues anfängliches kontextbezogenes Modell erstellen sowie die Hierarchie von kontextbezogenen Modellen neu aufbauen. Falls beispielsweise anfängliche kontextbezogene Modelle aus Dokumenten erstellt werden müssen, kann die LMSM 380 feststellen, wann ein Dokument oder ein Teil eines Dokumentes vollständig ist, so dass ein neues kontextbezogenes Modell erstellt und die Hierarchie von kontextbezogenen Modellen neu aufgebaut werden kann. Insbesondere wenn der Benutzer ein Dokument schließt oder das Spracherkennungssystem auf andere Weise informiert, dass er das Diktat eines Dokumentes oder eines Teils eines Dokumentes fertiggestellt hat, kann die LMSM 380 die LMB 390 veranlassen, mit dem Neuaufbau der Hierarchie von kontextbezogenen Modellen zu beginnen. Die LMSM 380 kann mit verschiedenen Schablonen und Dokumentabschnitten programmiert werden, wie sie in herkömmlichen Textverarbeitungsprogrammen verwendet werden, so dass die Beendigung von irgendeinem der zuvor erwähnten Vorgänge dazu führen kann, dass die Hierarchie von kontextbezogenen Modellen neu aufgebaut wird. Beispielsweise kann die LMSM 380 dynamisch ein kontextbezogenes Modell erstellen, das einem Dokumentabschnitt entspricht, und die Hierarchie von kontextbezogenen Modellen neu aufbauen, wenn der Cursor eines Textverarbeitungsprogramms diesen Abschnitt des Dokumentes verlässt. Falls die kontextbezogenen Modelle aus Teilen von Dokumenten, zum Beispiel Absätzen, erstellt werden, kann die Beendigung eines Absatzes, beispielsweise ein Zeilenwechselbefehl (hard return command), der LMSM 380 auf ähnliche Weise signalisieren, die LMB 390 zum Erstellen eines neuen kontextbezogenen Modells auf der Grundlage des im neuesten Absatz enthaltenen Textes zu veranlassen. Die LMB 390 kann sodann die Hierarchie von kontextbezogenen Modellen neu aufbauen. Wie zuvor erwähnt wurde, können die anfänglichen kontextbezogenen Modelle aus Schablonen von Dokumenten, Dokumenten, Abschnitten von Dokumenten oder Teilen von Dokumenten erstellt werden.
  • 3B ist eine Darstellung von typischen Komponenten, die die Spracherkennungsvorrichtung 210 ähnlich der Darstellung von 3A umfassen können. 3B kann jedoch ein NLU-System beinhalten. Insbesondere kann ein NLU-System einen Computer dazu befähigen, Daten aus geschriebener oder gesprochener Sprache zu gewinnen. Solche Systeme können vorteilhaft bei einer Vielzahl von anderen Computeranwendungen funktionieren, wo eine Notwendigkeit zum Verständnis der menschlichen Sprache besteht. NLU-Systeme können in einem Text enthaltene wichtige Daten extrahieren und diese anschließend einem anderen Anwendungsprogramm zuführen.
  • Das NLU-System kann mit der LMSM 380 kommunizieren, um diese mit Daten bezüglich der sprachlichen Äußerung des Benutzers als Antwort auf ein dialogbasiertes System zu versehen. Solche Daten können den jeweiligen Transaktionstyp, an dem der Benutzer beteiligt ist, die Position des Benutzers innerhalb der Transaktion, die jeweilige dialogbasierte Systemeingabeaufforderung und die Syntax der Eingabeaufforderung beinhalten. Beispielsweise kann das NLU-System 395 die LMSM mit der Information versehen, dass die sprachliche Äußerung des Benutzers eine Antwort auf eine Eingabeaufforderung war, die eine Kontobezeichnung im Zusammenhang mit einer Auszahlungstransaktion in einem Finanzsystem erforderte. Außerdem kann das NLU-System die LMSM informieren, dass die erwartete Antwort eine Ziffer, eine Textfolge mit einer bestimmten Syntax oder ein bestimmtes Thema betreffend oder eine Eingabeaufforderung vom Ja/Nein-Typ war.
  • Die anfänglichen kontextbezogenen Modelle können beispielsweise aus Benutzerantworten erstellt werden, die sich auf Folgendes beziehen: den Zustand eines gegebenen Dialogs, das Thema eines gegebenen Dialogs, die Position eines Benutzers in einer bestimmten Transaktion, Benutzerantworten auf eine bestimmte bekannte Dialogeingabeaufforderung oder die Syntax der Dialogeingabeaufforderung, auf die der Benutzer antwortet. Der Zustand eines gegebenen Dialogs kann sich im Allgemeinen auf jeden der zuvor erwähnten Faktoren beziehen.
  • Das Thema einer gegebenen Transaktion kann sich auf den Vorgang oder den Befehl beziehen, den der Benutzer anfordert. In einem Finanzverwaltungssystem können zu den Transaktionen beispielsweise Auszahlungen, Überweisungen, Einzahlungen usw. gehören. Im Zusammenhang mit einem Reisesystem können die Buchung eines Fluges, das Mieten eines Autos usw. zu den Transaktionen gehören. Die Transaktionen können anwendungsspezifisch sein und auf dem System beruhen, zu dem das NLU-System eine Schnittstelle bereitstellt. Folglich können kontextbezogene Modelle entsprechend jedem erkennbaren Thema in einem dialogbasierten System erstellt werden.
  • Die Position innerhalb einer Transaktion kann kontextbezogene Daten bezüglich einer Benutzerantwort bereitstellen. Insbesondere kann jede gegebene Transaktion einen oder mehrere vom Benutzer angegebene Parameter benötigen. Folglich kann das Spracherkennungssystem auf der Grundlage der zusätzlich zu dem jeweiligen Typ von eingeleiteter Transaktion empfangenen Parameter ein kontextbezogenes Modell erstellen, ohne die genaue dialogbasierte Systemeingabeaufforderung zu kennen, auf die der Benutzer geantwortet hat, wobei das Modell lediglich auf Daten bezüglich der Position des Benutzers innerhalb einer gegebenen Transaktion beruht.
  • Kontextbezogene Modelle können aus Benutzerantworten auf bestimmte bekannte dialogbasierte Systemeingabeaufforderungen erstellt werden. Außerdem können kontextbezogene Modelle aus Benutzerantworten auf Fragen mit einer bestimmten Syntax erstellt werden. Beispielsweise können Benutzerantworten auf Systemeingabeaufforderungen vom "ja"- oder "nein"-Typ in Gruppen zusammengestellt werden, um ein Sprachmodell zu erstellen. Ähnlich können Benutzerantworten auf Fragen vom Typ "wer", "was", "wo", "wann", "warum" oder "wie" sowie Benutzerantworten auf Eingabeaufforderungen vom Multiple-Choice- oder Listentyp in Gruppen zusammengestellt werden.
  • Ein statistisches Glätten kann Probleme in Bezug auf untertrainierte Systeme oder die Verwendung einer kleinen Menge von Trainingsdaten mildern. Außerdem ermöglicht die hierarchische Struktur dem Spracherkennungssystem die Verarbeitung von sprachlichen Äußerungen eines Benutzers mit zunehmend verallgemeinerten Modellen, die kontextsensitiv bleiben. Falls eine Benutzerantwort nicht den zuvor gesammelten Daten entspricht, kann daher ein in höherem Maße verallgemeinertes kontextbezogenes Modell zur Verarbeitung der Benutzerantwort verwendet werden.
  • Folglich kann die LMB 390 kontextbezogene Modelle dynamisch erstellen, beispielsweise die anfänglichen kontextbezogenen Modelle, wobei jedes kontextbezogene Modell aus einer Gruppierung von einer oder mehreren Benutzerantworten erstellt werden kann. Außerdem kann die LMB 390 die Hierarchie von kontextbezogenen Modellen auf den Empfang einer sprachlichen Äußerung eines Benutzers hin, die als Antwort auf eine Dialogeingabeaufforderung gegeben wurde, dynamisch neu aufbauen. Außerdem unterscheidet sich das System von 3B insofern von demjenigen von 3A, als das NLU-System 395 eine Dialogeingabeaufforderung erzeugen kann, die über eine Aufzeichnung oder die Verwendung einer Technologie zur Umwandlung von Text in Sprache wiedergegeben werden kann.
  • 4 zeigt die beispielhafte Hierarchie von kontextbezogenen Modellen 360 von 3. Das Sprachmodell 360 wird als eine Baumstruktur mit mehreren Knoten A, B, C, D, E und F dargestellt, die unterhalb des Wurzelknotens von diesem ausgehen. Jeder Knoten kann einem kontextbezogenen Modell entsprechen. Das Blattknotenpaar C und D und das Blattknotenpaar E und F, die auch als Endknoten bezeichnet werden, können unter Verwendung einer bekannten Abstandsmaßzahl als zusammengehörige kontextbezogene Modellpaare ermittelt werden. Zu einer solche Abstandsmaßzahl können beispielsweise – jedoch nicht ausschließlich- der Kullback-Lieber-Abstand, die relative Entropie, Unterscheidung oder Abweichung gehören. In jedem Fall kann die untere Ebene von kontextbezogenen Modellen unter Verwendung der bekannten Maßzahl in Paare gruppiert werden. Dieser als aufsteigende Gruppierung (bottom up clustering) bekannte Prozess kann fortgesetzt werden, bis ein Wurzelknoten ermittelt worden ist.
  • In einer anderen Ausführungsform der Erfindung können die kontextbezogenen Modelle durch das Hauptthema der Diktatsitzung, aus der das kontextbezogene Modelle abgeleitet wurde, in Gruppen eingeteilt werden. Beispielsweise kann das Spracherkennungssystem Wortsuchalgorithmen und eine Technologie für natürliche Sprache verwenden, um jedes einzelne kontextbezogene Modell (jeden Knoten) gemäß einem festgelegten Thema einzuteilen. Das kontextbezogene Modell kann dementsprechend gekennzeichnet werden, so dass nicht nur zusammengehörige kontextbezogene Modelle zu Paaren zusammengestellt werden können, sondern das Spracherkennungssystem nur zusammengehörige kontextbezogene Modelle in Gruppen zusammenstellen kann, die unter einem bestimmten Thema eingeteilt wurden. Alternativ kann der Benutzer eine bestimmte Themeneinteilung auswählen. In diesem Fall kann der Benutzer eine Folge von Schlüsselwörtern eingeben, die das Spracherkennungssystem zum Einteilen der kontextbezogenen Modelle verwenden kann. Außerdem kann das Spracherkennungssystem dem Benutzer das Überschreiben der Einteilung eines kontextbezogenen Modells ermöglichen.
  • Die in Gruppen zusammengestellten Paare von kontextbezogenen Modellen können zu einem kontextbezogenen Elternmodell vermischt werden. Beispielsweise kann der Knoten A ein Elter sein, der aus seinen vermischten Kindern abgeleitet wurde, den Blattknoten C und D. Ähnlich kann der Knoten B ein Elter sein, der aus seinen Kindern, den Blattknoten E und F, abgeleitet werden kann. Die Vermischung von zwei Kindknoten zum Erstellen eines Elters kann unter Verwendung einer Vielfalt von Verfahren ausgeführt werden. Ein solches Verfahren kann ein Interpolationsverfahren sein. Beispielsweise können mögliche Wortkandidaten unter Verwendung eines kontextbezogenen Modells eines Kindknotens verarbeitet werden. Anschließend können die beiden möglichen sich ergebenden Phrasen verglichen werden, wobei das wahrscheinlichste Ergebnis ausgewählt werden kann. Insbesondere kann die jedem kontextbezogenen Modellergebnis zugeordnete Wahrscheinlichkeit mit einer gewichteten Konstante multipliziert werden. In diesem Fall können zum Beispiel die auf den Blattknoten C angewandte Konstante und die auf den Blattknoten D angewandte Konstante eine Summe von 1 ergeben. Ein anderes Verfahren zur Vermischung zweier Kindknoten zum Erstellen eines Elters kann die Verwendung der jedem Kindknoten entsprechenden Daten zum Erstellen eines neuen kontextbezogenen Modells unter Verwendung bekannter Verfahren zum Erstellen kontextbezogener Modelle beinhalten. Folglich können die zum Erstellen des kontextbezogenen Elternmodells in einem Knoten verwendeten Daten die zusammengesetzten Daten der beiden Kinder des Elters sein.
  • Unabhängig von dem jeweils auf einer beliebigen Ebene der Hierarchie von kontextbezogenen Modellen zum Vermischen zweier Knoten verwendeten Verfahren können die Gruppierung von in Paare eingeteilten Knoten und die Vermischung jener Knoten zu einem Elternknoten fortgesetzt werden, bis ein Wurzelknoten erreicht wird. Die Elternknoten A und B können gemeinsame Merkmale ihrer Kinder enthalten. Ähnlich kann der Wurzelknoten gemeinsame Merkmale seiner Kinder enthalten, den den Knoten A und B entsprechenden kontextbezogenen Modellen. Folglich stellt die Hierarchie von kontextbezogenen Modellen eine Zusammenstellung von kontextbezogenen Modellen bereit, von denen jedes eine Mischung von benutzerabhängigen Sprachstilen beinhaltet. Insbesondere falls kontextbezogene Elternmodelle unter Verwendung von zusammengesetzten Daten erstellt werden, kann die sich ergebende Hierarchie von kontextbezogenen Modellen als ein einziges hierarchisches Sprachmodell bezeichnet werden. Dementsprechend sind die untersten kontextbezogenen Modelle die spezifischsten Modelle. Falls ein bestimmtes kontextbezogenes Modell keinen zufriedenstellenden Vertrauenswert liefert, kann auf ein allgemeineres kontextbezogenes Modell an einer höheren Stelle im Baum zurückgegriffen werden.
  • 5 ist ein Flussdiagramm 500, das ein beispielhaftes Verfahren zur Erzeugung von hierarchischen kontextbezogenen Modellen zeigt, wie es unter Verwendung des Computersystems von 1 und der Spracherkennungsvorrichtung von 2 ausgeführt wird. Das Verfahren beginnt in einem Zustand, in dem das Spracherkennungssystem eine Vielzahl von kontextbezogenen Modellen gesammelt hat, beispielsweise die den Blattknoten C, D, E und F zugeordneten kontextbezogenen Modelle, der untersten zu erzeugenden Reihe der Hierarchie kontextbezogener Modelle. Diese kontextbezogenen Modelle, die kontextbezogenen Startmodelle, können je nach Verwendung Unterschiede aufweisen. Für ein allgemeines Diktat kann das Spracherkennungssystem beispielsweise ein neues kontextbezogenes Modell für jede zuvor diktierte Sitzung, jedes Dokument, jeden Teil eines Dokumentes oder Abschnitt eines Dokumentes erzeugen, die einem bestimmten Benutzer entsprechen.
  • In der Darstellung kann das Spracherkennungssystem ein kontextbezogenes Modell für Patentanmeldungen erzeugen. Das Spracherkennungssystem kann jedoch auch ein kontextbezogenes Modell für jeden Teil einer Patentanmeldung erzeugen. Beispielsweise können die Ansprüche von verschiedenen Patentanmeldungen sowie andere Teile einer Patentanmeldungen, beispielsweise die Zusammenfassung, die ausführliche Beschreibung sowie die Zusammenfassung der Erfindung, ähnliche Merkmale enthalten. Folglich kann für jeden Teil eines Dokumentes, beispielsweise einer Patentanmeldung, ein kontextbezogenes Modell erstellt werden. Eine andere Ausführungsform kann das Erstellen eines kontextbezogenen Modells für weiteren Unterteilungen beinhalten. Beispielsweise kann ein kontextbezogenes Modell für unabhängige Ansprüche und ein anderes für abhängige Ansprüche erstellt werden. Insbesondere kann jeder erkennbare Teil eines Dokumentes zum Erstellen eines entsprechenden kontextbezogenen Modells verwendet werden. Herkömmliche Textprozessoren können Dokumente in einen oder mehrere Abschnitte unterteilen. Diese Unterteilungen können beispielsweise auch zum Erzeugen eines kontextbezogenen Modells für jede erkennbare Unterteilung eines Dokumentes verwendet werden.
  • Bei kontextbezogenen Modellen, die in einem dialogbasierten System verwendet werden, kann jedes kontextbezogene Startmodell der Gruppe von Sätzen entsprechen, die Antworten auf jede vom Dialogsystem ausgegebene Eingabeaufforderung sind. In jedem Fall können die kontextbezogenen Startmodelle oder die untere Reihe der Hierarchie als Grundlage für jede Interpolation zwischen kontextbezogenen Modellen oder jeder nachfolgenden Erstellung von neuen kontextbezogenen Elternmodellen dienen, wobei beide die sich ergebende Hierarchie von kontextbezogenen Modellen umfassen können.
  • Das Spracherkennungssystem kann einen vom Benutzer einstellbaren Parameter enthalten, um das Spracherkennungssystem anzuweisen, die kontextbezogenen Modelle der letzten n Diktatsitzungen, Dokumente oder Antworten zu speichern, die einem bestimmten Benutzer entsprechen. Alternativ kann das Spracherkennungssystem die letzten n kontextbezogenen Modelle speichern, die einer bestimmten Themeneinteilung des kontextbezogenen Modells entsprechen. Beispielsweise können die letzten n geschäftsbezogenen kontextbezogenen Modelle gespeichert werden, die letzten n persönlichen kontextbezogenen Briefmodelle usw. Außerdem kann der Parameter auf einer Basis pro Benutzer oder auch auf einer Basis pro Themeneinteilung angegeben werden. Folglich kann der Benutzer A zusätzlich zu einem eindeutigen Wert von n für jede Themeneinteilung einen Gesamtwert von n festlegen. Der Benutzer B kann ebenfalls zusätzlich zu verschiedenen Werten für n für jede Themeneinteilung einen Gesamtwert von n festlegen. Außerdem können die vom Benutzer B festgelegten Werte von n vollkommen unabhängig von den vom Benutzer A festgelegten Werten von n sein. Dadurch wird dem System eine Verallgemeinerung je nach Bedarf ermöglicht.
  • Das Verfahren 500 von 5 kann auf einer Basis pro Benutzer ausgeführt werden. Falls das Computersystem von 1 über eine ausreichende Verarbeitungsleistung verfügt, kann das Verfahren 500 außerdem auf die Einleitung jeder neuen Benutzerdiktatsitzung, jedes Dokumentes oder jeder Benutzerantwort hin ausgeführt werden. Folglich kann die einem bestimmten Benutzer entsprechende Hierarchie von kontextbezogenen Modellen ständig aktualisiert werden. Alternativ kann das Verfahren 500 vom Spracherkennungssystem automatisch auf einer periodischen Grundlage oder auf eine systemunabhängige Weise auf eine Benutzeranforderung hin ausgeführt werden.
  • In jedem Fall kann das Spracherkennungssystem im Schritt 510 eine Abstandsmaßzahl verwenden, um festzustellen, wie eng jedes kontextbezogene Modell mit jedem anderen einem bestimmten Benutzer entsprechenden kontextbezogenen Modell verwandt ist. Wie erwähnt wurde, kann das Spracherkennungssystem den Kullback-Liebler-Abstand sowie die Themeneinteilung jedes kontextbezogenen Modells für die Verwandtschaft- oder die Abstandsfeststellung verwenden. Nach der Ausführung von Schritt 510 kann das Verfahren zum Schritt 520 weitergehen.
  • Im Schritt 520 kann das Spracherkennungssystem das Paar von kontextbezogenen Modellen mit dem geringsten Abstand ermitteln. Nach der Ausführung von Schritt 520 kann das Verfahren zum Schritt 530 weitergehen, wo die kontextbezogenen Modelle vermischt werden können. Wie erwähnt wurde, können die kontextbezogenen Modelle durch Interpolation oder unter Verwendung der Daten jedes kontextbezogenen Kindmodells vermischt werden, um ein neues kontextbezogenes Elternmodell zu erstellen. Falls die kontextbezogenen Modelle bei jedem vermischten Elter neu erstellt werden, kann der Wurzelknoten der Verwendung eines einzigen Sprachmodells entsprechen. In diesem Fall können die Knoten des hierarchischen kontextbezogenen Modells unter Verwendung von Datengeglättet werden, die aus der anfänglichen Ableitung des kontextbezogenen Modells ausgeschlossen werden können. Die ausgeschlossenen Daten können sodann zum Ausführen eines statistischen Glättens des sich ergebenden kontextbezogenen Modells verwendet werden. Folglich kann das kontextbezogene Modell die Interpolation aller kontextbezogenen Modelle von einem Blattknoten bis zum Wurzelknoten sein. Unabhängig davon kann das Verfahren nach Ausführung vom Schritt 530 zum Schritt 540 weitergehen.
  • Im Schritt 540 kann das Spracherkennungssystem feststellen, ob ein einziger Wurzelknoten ermittelt wurde. Insbesondere kann das Spracherkennungssystem feststellen, ob die Hierarchie von kontextbezogenen Modellen in einem einzigen Wurzelknoten endet. Ist dies der Fall, kann das Verfahren enden. Falls nicht, kann das Verfahren jedoch in einer Schleife zur Wiederholung zum Schritt 510 zurückkehren. Es muss verstanden werden, dass das Verfahren 500 bei Bedarf wiederholt werden kann, wobei jede Wiederholung durch das verfahren auf eine aufsteigende Weise eine andere Ebene in der Hierarchie von kontextbezogenen Modellen erzeugt, die in Richtung eines einzigen Wurzelknotens fortschreitet.
  • 6 ist ein Flussdiagramm 600, das ein beispielhaftes Verfahren zur Umwandlung von Sprache in Text unter Verwendung der Hierarchie von kontextbezogenen Modellen von 4 darstellt. Insbesondere kann das Spracherkennungssystem ein geeignetes kontextbezogenes Modell auswählen, um nachfolgende sprachliche Äußerungen des Benutzers auf der Grundlage einer empfangenen sprachlichen Äußerung des Benutzers zu verarbeiten. Falls das Computersystem über eine ausreichende Verarbeitungsleistung verfügt, so dass das System Sprache in Echtzeit ohne unnötige Verzögerung in Text umwandeln kann, kann die Ermittlung des kontextbezogenen Modells für jede Benutzeräußerung oder jeden vom Spracherkennungssystem empfangenen Satz ausgeführt werden. Beispielsweise kann das Spracherkennungssystem nach jeder erkennbaren Pause in einer empfangenen sprachlichen Äußerung des Benutzers das Verfahren 600 ausführen.
  • Alternativ kann die Ermittlung zu Beginn einer Diktatsitzung, periodisch während der gesamten Sprachsitzung oder auf einen Benutzerbefehl zum Ausführen der Ermittlung hin ausgeführt werden. Beispielsweise kann das Spracherkennungssystem die Ermittlung automatisch ausführen, nachdem der Benutzer eine festgelegte Zeitspanne lang diktiert hat, oder auf das Sinken des vertrauenswertes unter einen festgelegten Schwellenwert hin. Im Falle einer Benutzeranforderung kann der Benutzer anfordern, dass die Ermittlung ausgeführt wird, wenn er zu einem bestimmten Diktatstil oder einem bestimmten Thema wechselt, beispielsweise von Geschäftskorrespondenz zu persönlicher Korrespondenz.
  • Das Verfahren 600 kann beim Schritt 610 beginnen, wobei das Spracherkennungssystem eine Texteingabe empfängt. Die Texteingabe kann vom einem Spracherkennungssystem abgeleitet werden, oder sie kann Text in einem vorhandenen Dokument sein. Insbesondere kann der Text eine empfangene elektronische Postnachricht sein. Nach Ausführung vom Schritt 610 kann das Verfahren zum Schritt 620 weitergehen. Im Schritt 620 kann das Spracherkennungssystem den empfangenen Text unter Verwendung der Hierarchie von kontextbezogenen Modellen verarbeiten. Beispielsweise kann der Text mit jedem in der Hierarchie von kontextbezogenen Modellen enthaltenen kontextbezogenen Modell verarbeitet werden. Das kontextbezogene Modell, das den Text mit dem höchsten Vertrauenswert liefert, kann als das korrekte oder geeignetste kontextbezogene Modell zur Verwendung bei der Umwandlung nachfolgender sprachlicher Äußerungen des Benutzers in Text ermittelt werden. Die Verarbeitung kann auf eine serielle oder parallele Weise ablaufen.
  • Obwohl beispielsweise in einem dialogbasierten System auf eine bestimmte Dialogeingabeaufforderung eine "ja"- oder "nein"-Antwort vom Benutzer erwartet werden kann, kann der Benutzer folgendermaßen antworten: "Ja, ich hätte jedoch gerne X". In diesem Fall hat der Benutzer geantwortet und zusätzliche Informationen bereitgestellt. Obwohl ein dialogbasiertes System ein kontextbezogenes Modell enthalten kann, das der Eingabeaufforderung entspricht, auf die der Benutzer geantwortet hat, kann die Antwort des Benutzers folglich mehr einer erwarteten Antwort auf eine andere Systemeingabeaufforderung ähneln, besonders einer erwarteten Antwort, die nicht auf ein "ja" oder "nein" begrenzt ist. Unabhängig davon kann der vom Spracherkennungssystem abgeleitete Text mit der Hierarchie von kontextbezogenen Modellen verarbeitet werden. Das kontextbezogene Modell, das Text mit dem höchsten Vertrauenswert liefert, kann ermittelt werden. Besonders wenn die Benutzerantwort sich von dem vom NLU-System erwarteten Typ von Benutzerantwort unterschied, kann das ermittelte kontextbezogene Modell sich von dem kontextbezogenen Modell unterscheiden, das der Verarbeitung von Benutzerantworten auf die entsprechende Dialogeingabeaufforderung, auf die der Benutzer antwortete, üblicherweise zugeordnet wird. Das ermittelte kontextbezogene Modell kann sich außerdem vom kontextbezogenen Modell unterscheiden, das vom Spracherkennungssystem zur Umwandlung der sprachlichen Äußerung des Benutzers in Text verwendet wird.
  • In einer anderen Ausführungsform der Erfindung kann ein einem erkennbaren Dokumentabschnitt entsprechendes kontextbezogenes Modell ermittelt werden. Falls ein Benutzer beispielsweise ein Dokument diktiert und das Spracherkennungssystem feststellt, dass der Cursor des Benutzers sich in einem bestimmten Abschnitt des Dokumentes befindet, kann es das diesem Dokumentabschnitt entsprechende kontextbezogene Modell ermitteln. Das ermittelte kontextbezogene Modell kann zumindest anfänglich zum Verarbeiten nachfolgend empfangener sprachlicher Äußerungen des Benutzers verwendet werden, während der Cursor des Benutzers sich im entsprechenden Dokumentabschnitt befindet. Allerdings kann der Benutzer dem Spracherkennungssystem den Dokumentabschnitt auch mit Hilfe eines anderen Verfahrens angeben, beispielsweise durch einen Sprach- oder Zeigerbefehl. Insbesondere können andere Verfahren zum Ermitteln eines kontextbezogenen Modells ebenso enthalten sein. Beispielsweise kann das Spracherkennungssystem aufgrund von unbefriedigenden Vertrauenswerten die Verwendung des ermittelten kontextbezogenen Modells zugunsten eines anderen kontextbezogenen Modells unterbrechen.
  • Es muss verstanden werden, dass das Spracherkennungssystem ein oder mehrere kontextbezogene Modelle ermitteln kann, die Text mit einem Vertrauenswert über einem festgelegten Mindestschwellenwert erzeugen. In diesem Fall kann das Spracherkennungssystem jedes ermittelte kontextbezogene Modell verwenden, wobei die Ergebnisse unter Verwendung jedes Modells unter Verwendung von Wahrscheinlichkeitskoeffizienten gewichtet werden können. Beispielsweise kann der Koeffizient direkt mit den Vertrauenswerten des sich ergebenden Textes zusammenhängen. Alternativ kann das Spracherkennungssystem zwischen den ermittelten kontextbezogenen Modellen extrapolieren. Auch hier besteht die Möglichkeit, das kontextbezogene Modell auszuwählen, das den Text mit dem höchsten Vertrauenswert liefert. Nach Ausführung vom Schritt 620 kann das Verfahren zum Schritt 630 weitergehen.
  • Im Schritt 630 kann das ermittelte kontextbezogene Modell zur Verarbeitung von nachfolgenden sprachlichen Äußerungen des Benutzers im Spracherkennungssystem verwendet werden. Das Spracherkennungssystem kann unter der Voraussetzung fortfahren, dass nachfolgende sprachliche Äußerungen des Benutzers, die innerhalb eines bestimmten Zeitraums der Ermittlung des kontextbezogenen Modells erfolgen, wahrscheinlich eine ähnliche Syntax und ein ähnliches Vokabular aufweisen oder sich auf ein ähnliches Hauptthema beziehen wie der zum Ausführen der Ermittlung verwendete Text. Folglich kann das Verfahren außer der Auswahl eines kontextbezogenen Modells aufgrund des Hauptthemas in Bezug auf ein Diktatsystem ein kontextbezogenes Modell aus der Hierarchie von kontextbezogenen Modellen gemäß dem Dialogzustand in einem NLU-System auswählen.
  • Eine andere Ausführungsform der Erfindung kann die Auswahl eines kontextbezogenen Modells aufgrund einer empfangenen elektronischen Postnachricht beinhalten. Beispielsweise kann eine empfangene elektronische Postnachricht verarbeitet werden, um ein dieser entsprechendes geeignetes kontextbezogenes Modell zu ermitteln. Das ermittelte kontextbezogene Modell kann zum Umwandeln von nachfolgenden sprachlichen Äußerungen des Benutzers in Text verwendet werden. Insbesondere kann das kontextbezogene Modell zum Umwandeln von sprachlichen Äußerungen eines Benutzers während einer Diktatsitzung verwendet werden, wobei der Benutzer auf die empfangene elektronische Postnachricht antworten kann. Folglich kann die empfangene elektronische Postnachricht zum Ermitteln eines kontextbezogenen Modells verarbeitet werden, das dem Thema von dieser entspricht. Dieses kontextbezogene Modell kann zum Verarbeiten der diktierten Antwort des Benutzers auf diese elektronische Postnachricht verwendet werden. Außerdem kann das Spracherkennungssystem die verschiedenen das Thema enthaltenen Teile der empfangenen elektronischen Postnachricht verarbeiten. In einer anderen Ausführungsform der Erfindung kann dem Thema eine zusätzliche Gewichtung bei der Ermittlung eines geeigneten kontextbezogenen Modells gegeben werden. Nach Ausführung von Schritt 630 kann das Verfahren zum Schritt 640 weitergehen.
  • Im Schritt 640 kann das Verfahren zum Schritt 650 weitergehen, falls das Segment vollständig war. Falls nicht, kann das Verfahren zum Schritt 610 weitergehen, um mehr Text zu sammeln. Insbesondere kann das Segment der Texteinheit entsprechen, die zum Erstellen der anfänglichen kontextbezogenen Modelle verwendet wurde, die als Grundlage für die Hierarchie von kontextbezogenen Modellen dienen. Beispielsweise kann das Segment einem Dokument, einem Absatz, einem Satz, einem Teil des Dokumentes oder einer Benutzerantwort auf eine gegebene Dialogeingabeaufforderung entsprechen. Sobald die festgelegte Menge von Text gesammelt wurde, ist das Segment vollständig. Alternativ kann der Benutzer das Spracherkennungssystem über den Anfang und das Ende seiner in Text umzuwandelnden sprachlichen Äußerung benachrichtigen. In jedem Fall kann die zum Erstellen eines anfänglichen kontextbezogenen Modells verwendete Textmenge gesammelt werden, wobei auf diese Weise ein Segment vervollständigt wird.
  • Falls das Segment vervollständigt wurde, kann das Verfahren im Schritt 650 dynamisch ein neues kontextbezogenes Modell erstellen, das dem vervollständigten Segment entspricht. Außerdem kann das Verfahren das Verfahren 500 zum dynamischen Neuaufbau der Hierarchie von kontextbezogenen Modellen ausführen. Nach Ausführen von Schritt 650 kann das Verfahren wiederholt werden.

Claims (10)

  1. Verfahren zur Erzeugung einer Hierarchie von kontextbezogenen Modellen, wobei das Verfahren Folgendes umfasst: (a) Messen des Abstandes zwischen jedem aus einer Vielzahl von kontextbezogenen Modellen unter Verwendung einer Abstandsmaßzahl, wobei mindestens eines aus der Vielzahl von kontextbezogenen Modellen einem Teil eines Dokumentes oder einer Benutzerantwort in einem dialogbasierten System entspricht; (b) Kennzeichnen von zweien aus der Vielzahl von kontextbezogenen Modellen, wobei die gekennzeichneten kontextbezogenen Modelle hinsichtlich des Abstandes näher beieinander liegen als andere aus der Vielzahl von kontextbezogenen Modellen; (c) Mischen der gekennzeichneten kontextbezogenen Modelle zu einem kontextbezogenen Elternmodell; (d) Wiederholen der Schritte (a), (b) und (c), bis eine Hierarchie der Vielzahl von kontextbezogenen Modellen erzeugt worden ist, wobei die Hierarchie einen Wurzelknoten aufweist; und (e) statistisches Glätten der Hierarchie der Vielzahl von kontextbezogenen Modellen, woraus sich ein Spracherkennungsmodell ergibt.
  2. Verfahren nach Anspruch 1, wobei der Schritt (c) des Mischens außerdem Folgendes umfasst: Interpolieren zwischen den gekennzeichneten kontextbezogenen Modellen, wobei die Interpolation zu einer Kombination der gekennzeichneten kontextbezogenen Modelle führt.
  3. Verfahren nach Anspruch 1, wobei der Schritt (c) des Mischens außerdem Folgendes umfasst: Erstellen eines kontextbezogenen Elternmodells unter Verwendung von Daten, die den gekennzeichneten kontextbezogenen Modellen entsprechen.
  4. Verfahren zum Umwandeln von Sprache in Text unter Verwendung einer Hierarchie von kontextbezogenen Modellen, die durch das Verfahren erzeugt wurden, wie es in jedem der Ansprüche 1 bis 3 beansprucht wurde, wobei die Hierarchie von kontextbezogenen Modellen statistisch zu einem Sprachmodell geglättet wird, wobei das Verfahren Folgendes umfasst: (a) Verarbeiten von Text mit einer Vielzahl von kontextbezogenen Modellen, wobei jedes aus der Vielzahl von kontextbezogenen Modellen einem Knoten in der Hierarchie der Vielzahl von kontextbezogenen Modellen entspricht; (b) Kennzeichnen von mindestens einem der kontextbezogenen Modelle, die sich auf den Text beziehen; und (c) Verarbeiten von nachfolgenden vom Benutzer gesprochenen Äußerungen mit dem gekennzeichneten mindestens einen kontextbezogenen Modell.
  5. Verfahren nach Anspruch 4, wobei der Schritt (a) seriell oder parallel ausgeführt wird.
  6. Verfahren nach Anspruch 4 oder 5, wobei mindestens eines aus der Vielzahl von kontextbezogenen Modellen einem oder mehreren von folgenden Punkten entspricht: (i) einem Dokument oder einem Teil eines Dokumentes; (ii) mindestens einer Benutzerantwort, die in einem bestimmten Dialogzustand in einem dialogbasierten System empfangen wurde; (iii) mindestens einer Benutzerantwort, die an einer bestimmten Position in einer bestimmten Transaktion in einem dialogbasierten System empfangen wurde; (vi) der Syntax einer Eingabeaufforderung in einem dialogbasierten System; (v) einer bestimmten und bekannten Eingabeaufforderung im dialogbasierten System; oder (vi) einer empfangenen elektronischen Postnachricht.
  7. Maschinenlesbarer Speicher, in dem ein Computerprogramm mit einer Vielzahl von Codeabschnitten gespeichert ist, die von einer Maschine ausgeführt werden können, um die Maschine zu veranlassen, die folgenden Schritte auszuführen: (a) Messen des Abstandes zwischen jedem aus einer Vielzahl von kontextbezogenen Modellen unter Verwendung einer Abstandsmaßzahl, wobei mindestens eines aus der Vielzahl von kontextbezogenen Modellen einem Teil eines Dokumentes oder einer Benutzerantwort in einem dialogbasierten System entspricht; (b) Kennzeichnen von zweien aus der Vielzahl von kontextbezogenen Modellen, wobei die gekennzeichneten kontextbezogenen Modelle hinsichtlich des Abstandes näher beieinander liegen als andere aus der Vielzahl von kontextbezogenen Modellen; (c) Mischen der gekennzeichneten kontextbezogenen Modelle zu einem kontextbezogenen Elternmodell; (d) Wiederholen der Schritte (a), (b) und (c), bis eine Hierarchie der Vielzahl von kontextbezogenen Modellen erzeugt worden ist, wobei die Hierarchie einen Wurzelknoten aufweist; und (e) statistisches Glätten der Hierarchie der Vielzahl von kontextbezogenen Modellen, woraus sich ein Spracherkennungsmodell ergibt.
  8. Maschinenlesbarer Speicher von Anspruch 7, wobei der Schritt (c) des Mischens außerdem Folgendes umfasst: Interpolieren zwischen den gekennzeichneten kontextbezogenen Modellen, wobei die Interpolation zu einer Kombination der gekennzeichneten kontextbezogenen Modelle führt.
  9. Maschinenlesbarer Speicher von Anspruch 7, wobei der Schritt (c) des Mischens außerdem Folgendes umfasst: Erstellen eines kontextbezogenen Elternmodells unter Verwendung von Daten, die den gekennzeichneten kontextbezogenen Modellen entsprechen.
  10. Maschinenlesbarer Speicher nach den Ansprüchen 7, 8 oder 9, in dem ein weiteres Computerprogramm mit einer Vielzahl von Codeabschnitten gespeichert ist, die vom einer Maschine ausgeführt werden können, um die Maschine zu veranlassen, die folgenden Schritte auszuführen: (a) Verarbeiten von Text mit einer Vielzahl von kontextbezogenen Modellen, wobei jedes aus der Vielzahl von kontextbezogenen Modellen einem Knoten in einer Hierarchie der Vielzahl von kontextbezogenen Modellen entspricht; (b) Kennzeichnen von mindestens einem der kontextbezogenen Modelle, die sich auf den Text beziehen; und (c) Verarbeiten von nachfolgenden vom Benutzer gesprochenen Äußerungen mit dem gekennzeichneten mindestens einen kontextbezogenen Modell.
DE60201262T 2001-03-01 2002-02-28 Hierarchische sprachmodelle Expired - Lifetime DE60201262T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US798655 1985-11-15
US09/798,655 US6754626B2 (en) 2001-03-01 2001-03-01 Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
PCT/GB2002/000889 WO2002071391A2 (en) 2001-03-01 2002-02-28 Hierarchichal language models

Publications (2)

Publication Number Publication Date
DE60201262D1 DE60201262D1 (de) 2004-10-21
DE60201262T2 true DE60201262T2 (de) 2005-11-17

Family

ID=25173942

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60201262T Expired - Lifetime DE60201262T2 (de) 2001-03-01 2002-02-28 Hierarchische sprachmodelle

Country Status (10)

Country Link
US (1) US6754626B2 (de)
EP (1) EP1366490B1 (de)
JP (1) JP3940363B2 (de)
KR (1) KR100563365B1 (de)
CN (1) CN1256714C (de)
AT (1) ATE276568T1 (de)
CA (1) CA2437620C (de)
DE (1) DE60201262T2 (de)
ES (1) ES2227421T3 (de)
WO (1) WO2002071391A2 (de)

Families Citing this family (150)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20030023437A1 (en) * 2001-01-27 2003-01-30 Pascale Fung System and method for context-based spontaneous speech recognition
DE10110977C1 (de) * 2001-03-07 2002-10-10 Siemens Ag Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
KR100480272B1 (ko) * 2001-10-31 2005-04-07 삼성전자주식회사 소결합 고도 병렬 라우터 내의 라우팅 조정 프로토콜을위한 프리픽스 통합 방법
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
FR2841355B1 (fr) 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
US6944612B2 (en) * 2002-11-13 2005-09-13 Xerox Corporation Structured contextual clustering method and system in a federated search engine
US7171358B2 (en) * 2003-01-13 2007-01-30 Mitsubishi Electric Research Laboratories, Inc. Compression of language model structures and word identifiers for automated speech recognition systems
US20040138883A1 (en) * 2003-01-13 2004-07-15 Bhiksha Ramakrishnan Lossless compression of ordered integer lists
US7346151B2 (en) * 2003-06-24 2008-03-18 Avaya Technology Corp. Method and apparatus for validating agreement between textual and spoken representations of words
CA2486128C (en) * 2003-10-30 2011-08-23 At&T Corp. System and method for using meta-data dependent language modeling for automatic speech recognition
US8656274B2 (en) * 2003-10-30 2014-02-18 Avaya Inc. Automatic identification and storage of context information associated with phone numbers in computer documents
US7295981B1 (en) * 2004-01-09 2007-11-13 At&T Corp. Method for building a natural language understanding model for a spoken dialog system
US7231019B2 (en) * 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
CN1655232B (zh) * 2004-02-13 2010-04-21 松下电器产业株式会社 上下文相关的汉语语音识别建模方法
US8687792B2 (en) * 2004-04-22 2014-04-01 Hewlett-Packard Development Company, L.P. System and method for dialog management within a call handling system
US7908143B2 (en) * 2004-04-28 2011-03-15 International Business Machines Corporation Dialog call-flow optimization
US8768969B2 (en) * 2004-07-09 2014-07-01 Nuance Communications, Inc. Method and system for efficient representation, manipulation, communication, and search of hierarchical composite named entities
US8036893B2 (en) 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7840404B2 (en) * 2004-09-20 2010-11-23 Educational Testing Service Method and system for using automatic generation of speech features to provide diagnostic feedback
US7630976B2 (en) * 2005-05-10 2009-12-08 Microsoft Corporation Method and system for adapting search results to personal information needs
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
EP1960998B1 (de) * 2005-12-08 2011-06-22 Nuance Communications Austria GmbH Dynamische Erzeugung von Kontexten zur Spracherkennung
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US8301448B2 (en) 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
US7992091B2 (en) * 2006-03-30 2011-08-02 At&T Intellectual Property I, L.P. Message-oriented divergence and convergence of message documents
US9497314B2 (en) * 2006-04-10 2016-11-15 Microsoft Technology Licensing, Llc Mining data for services
EP2026327A4 (de) * 2006-05-31 2012-03-07 Nec Corp Sprachenmodell-lernsystem, sprachenmodell-lernverfahren und sprachenmodell-lernprogramm
WO2007150005A2 (en) * 2006-06-22 2007-12-27 Multimodal Technologies, Inc. Automatic decision support
ATE466361T1 (de) * 2006-08-11 2010-05-15 Harman Becker Automotive Sys Spracherkennung mittels eines statistischen sprachmodells unter verwendung von quadratwurzelglättung
US8418217B2 (en) 2006-09-06 2013-04-09 Verizon Patent And Licensing Inc. Systems and methods for accessing media content
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8464295B2 (en) * 2006-10-03 2013-06-11 Verizon Patent And Licensing Inc. Interactive search graphical user interface systems and methods
US8316320B2 (en) * 2006-10-03 2012-11-20 Verizon Patent And Licensing Inc. Expandable history tab in interactive graphical user interface systems and methods
US20080091423A1 (en) * 2006-10-13 2008-04-17 Shourya Roy Generation of domain models from noisy transcriptions
JP4568371B2 (ja) * 2006-11-16 2010-10-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム
US9058319B2 (en) * 2007-06-18 2015-06-16 International Business Machines Corporation Sub-model generation to improve classification accuracy
US8285539B2 (en) * 2007-06-18 2012-10-09 International Business Machines Corporation Extracting tokens in a natural language understanding application
US9342588B2 (en) * 2007-06-18 2016-05-17 International Business Machines Corporation Reclassification of training data to improve classifier accuracy
US8521511B2 (en) 2007-06-18 2013-08-27 International Business Machines Corporation Information extraction in a natural language understanding system
US8019760B2 (en) * 2007-07-09 2011-09-13 Vivisimo, Inc. Clustering system and method
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8983841B2 (en) * 2008-07-15 2015-03-17 At&T Intellectual Property, I, L.P. Method for enhancing the playback of information in interactive voice response systems
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8457967B2 (en) * 2009-08-15 2013-06-04 Nuance Communications, Inc. Automatic evaluation of spoken fluency
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8977537B2 (en) 2011-06-24 2015-03-10 Microsoft Technology Licensing, Llc Hierarchical models for language modeling
US9733901B2 (en) 2011-07-26 2017-08-15 International Business Machines Corporation Domain specific language design
US10229139B2 (en) 2011-08-02 2019-03-12 Cavium, Llc Incremental update heuristics
WO2013020001A1 (en) * 2011-08-02 2013-02-07 Cavium, Inc. Lookup front end output processor
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8965763B1 (en) 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9275411B2 (en) * 2012-05-23 2016-03-01 Google Inc. Customized voice action system
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US8880398B1 (en) 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US20140136210A1 (en) * 2012-11-14 2014-05-15 At&T Intellectual Property I, L.P. System and method for robust personalization of speech recognition
US9070366B1 (en) * 2012-12-19 2015-06-30 Amazon Technologies, Inc. Architecture for multi-domain utterance processing
US9761225B2 (en) 2013-03-11 2017-09-12 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
US9269354B2 (en) 2013-03-11 2016-02-23 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
US9361884B2 (en) 2013-03-11 2016-06-07 Nuance Communications, Inc. Communicating context across different components of multi-modal dialog applications
US10083200B2 (en) 2013-03-14 2018-09-25 Cavium, Inc. Batch incremental update
US9595003B1 (en) 2013-03-15 2017-03-14 Cavium, Inc. Compiler with mask nodes
US9195939B1 (en) 2013-03-15 2015-11-24 Cavium, Inc. Scope in decision trees
US9430511B2 (en) 2013-03-15 2016-08-30 Cavium, Inc. Merging independent writes, separating dependent and independent writes, and error roll back
US9626960B2 (en) * 2013-04-25 2017-04-18 Nuance Communications, Inc. Systems and methods for providing metadata-dependent language models
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US9558749B1 (en) * 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
US9412365B2 (en) * 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US20150309984A1 (en) * 2014-04-25 2015-10-29 Nuance Communications, Inc. Learning language models from scratch based on crowd-sourced user text input
US9972311B2 (en) 2014-05-07 2018-05-15 Microsoft Technology Licensing, Llc Language model optimization for in-domain application
US9437189B2 (en) * 2014-05-29 2016-09-06 Google Inc. Generating language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3161666A1 (de) * 2014-06-25 2017-05-03 Nuance Communications, Inc. Semantische neuordnung von nlu-ergebnissen in gesprächsdialoganwendungen
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR101610151B1 (ko) * 2014-10-17 2016-04-08 현대자동차 주식회사 개인음향모델을 이용한 음성 인식장치 및 방법
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9734826B2 (en) 2015-03-11 2017-08-15 Microsoft Technology Licensing, Llc Token-level interpolation for class-based language models
US10108603B2 (en) * 2015-06-01 2018-10-23 Nuance Communications, Inc. Processing natural language text with context-specific linguistic model
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10274911B2 (en) * 2015-06-25 2019-04-30 Intel Corporation Conversational interface for matching text of spoken input based on context model
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10229675B2 (en) * 2016-06-08 2019-03-12 Google Llc Scalable dynamic class language modeling
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN108573697B (zh) * 2017-03-10 2021-06-01 北京搜狗科技发展有限公司 一种语言模型更新方法、装置及设备
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10832658B2 (en) 2017-11-15 2020-11-10 International Business Machines Corporation Quantized dialog language model for dialog systems
CN108922543B (zh) * 2018-06-11 2022-08-16 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
US11372823B2 (en) * 2019-02-06 2022-06-28 President And Fellows Of Harvard College File management with log-structured merge bush
WO2020238341A1 (zh) * 2019-05-31 2020-12-03 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质
CN114078469B (zh) * 2022-01-19 2022-05-10 广州小鹏汽车科技有限公司 语音识别方法、装置、终端和存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4320522A (en) * 1980-05-09 1982-03-16 Harris Corporation Programmable frequency and signalling format tone frequency encoder/decoder circuit
CH662224A5 (de) * 1982-10-01 1987-09-15 Zellweger Uster Ag Digitalfilter fuer fernsteuerempfaenger, insbesondere fuer rundsteuerempfaenger.
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US5257313A (en) * 1990-07-09 1993-10-26 Sony Corporation Surround audio apparatus
US5465318A (en) * 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
US5694558A (en) * 1994-04-22 1997-12-02 U S West Technologies, Inc. Method and system for interactive object-oriented dialogue management
US5742797A (en) * 1995-08-11 1998-04-21 International Business Machines Corporation Dynamic off-screen display memory manager
US5832492A (en) * 1995-09-05 1998-11-03 Compaq Computer Corporation Method of scheduling interrupts to the linked lists of transfer descriptors scheduled at intervals on a serial bus
US6278973B1 (en) * 1995-12-12 2001-08-21 Lucent Technologies, Inc. On-demand language processing system and method
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
DE19635754A1 (de) * 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
US5913038A (en) * 1996-12-13 1999-06-15 Microsoft Corporation System and method for processing multimedia data streams using filter graphs
EP0903727A1 (de) 1997-09-17 1999-03-24 Istituto Trentino Di Cultura System und Verfahren zur automatischen Spracherkennung
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6061653A (en) * 1998-07-14 2000-05-09 Alcatel Usa Sourcing, L.P. Speech recognition system using shared speech models for multiple recognition processes
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
JP4244423B2 (ja) * 1999-01-28 2009-03-25 株式会社デンソー 適正単語列推定装置
US6253179B1 (en) * 1999-01-29 2001-06-26 International Business Machines Corporation Method and apparatus for multi-environment speaker verification
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6308151B1 (en) * 1999-05-14 2001-10-23 International Business Machines Corp. Method and system using a speech recognition system to dictate a body of text in response to an available body of text

Also Published As

Publication number Publication date
JP2004523004A (ja) 2004-07-29
CN1535460A (zh) 2004-10-06
JP3940363B2 (ja) 2007-07-04
EP1366490A2 (de) 2003-12-03
CA2437620C (en) 2005-04-12
ES2227421T3 (es) 2005-04-01
US20020123891A1 (en) 2002-09-05
DE60201262D1 (de) 2004-10-21
WO2002071391A3 (en) 2002-11-21
EP1366490B1 (de) 2004-09-15
CA2437620A1 (en) 2002-09-12
US6754626B2 (en) 2004-06-22
KR20030076686A (ko) 2003-09-26
CN1256714C (zh) 2006-05-17
KR100563365B1 (ko) 2006-03-22
WO2002071391A2 (en) 2002-09-12
ATE276568T1 (de) 2004-10-15

Similar Documents

Publication Publication Date Title
DE60201262T2 (de) Hierarchische sprachmodelle
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69814589T2 (de) Spracherkennung unter verwendung mehrerer spracherkenner
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60012655T2 (de) Audiowiedergabe von einem geschriebenen Dokument aus mehreren Quellen
DE60033733T2 (de) Datenbankabfragesystem basierend auf Spracherkennung
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
EP0797185A2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1336955A2 (de) Verfahren zur Erzeugung natürlicher Sprache in Computer-Dialogsystemen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN