DE60017000T2 - Verfahren zur zielorientierten Sprachübersetzung mittels Extraktion der Bedeutung und Dialog - Google Patents

Verfahren zur zielorientierten Sprachübersetzung mittels Extraktion der Bedeutung und Dialog Download PDF

Info

Publication number
DE60017000T2
DE60017000T2 DE60017000T DE60017000T DE60017000T2 DE 60017000 T2 DE60017000 T2 DE 60017000T2 DE 60017000 T DE60017000 T DE 60017000T DE 60017000 T DE60017000 T DE 60017000T DE 60017000 T2 DE60017000 T2 DE 60017000T2
Authority
DE
Germany
Prior art keywords
language
semantic
user
spoken utterance
semantic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60017000T
Other languages
English (en)
Other versions
DE60017000D1 (de
Inventor
Jean-Claude Santa Barbara Junqua
Roland Santa Barbara Kuhn
Matteo Santa Barbara Contolini
Murat Santa Barbara Karaorman
Ken Santa Barbara Field
Michael Goleta Galler
Yi Goleta Zhao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE60017000D1 publication Critical patent/DE60017000D1/de
Application granted granted Critical
Publication of DE60017000T2 publication Critical patent/DE60017000T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Description

  • Die gegenwärtige Erfindung bezieht sich allgemein auf Sprachanalysesysteme und im Besonderen auf computerimplementierte natürliche Sprach-Parser. (Anmerkung: Parser = Grammatik-Analysator)
  • Der Dialog kann als die wirkungsvolle Kommunikation zwischen zwei oder mehr Teilnehmern beschrieben werden. Eine wirkungsvolle Kommunikation erfordert die Teilnahme von wenigstens zwei Partnern. Wenn zwei Partner versuchen, sich in einen Dialog zu begeben aber keine gemeinsame Sprache haben, kann ihre Kommunikation nicht wirkungsvoll sein, resultierend aus dem Fehlen eines Dialoges. Ein anderer wichtiger Aspekt des Dialoges ist das Abwechseln beim Sprechen. Ein wirkungsvoller Dialog besteht aus dem Wechsel (oder der Chance zu sprechen) für jeden der Teilnehmer.
  • Aktuellen, computerimplementierten Sprachentwicklungssystemen mit Übersetzung fehlt die natürliche hin- und hergehende Abwechslung eines Dialoges. Typischer Weise sind diese Systeme passive Systeme, die sklavenhaft die Sprache innerhalb eines Dialoges übersetzen. Die gegenwärtigen Systeme übernehmen kaum eine oder gar keine aktive Rolle, die Dialogteilnehmer dabei zu unterstützen, ein Ziel zu erreichen, wie z. B. den Kauf eines Flugscheines.
  • In „Multilingual spoken-language understanding in the MIT Voyager system", Glass J. Et Al, Speech Communication, NL, Elsevier Science Publishers, Amsterdam volume 17, Number 1 August 01, 1995 Seite 1 bis 18 (XP 004062387 ISSN – 017 – 6393) schließen die Autoren ein System mit gesprochener Sprache, das Mensch-Computer-Wechselaktionen unterstützt, ausdrücklich aus. Jedoch beschäftigt sich diese Ausschließung nicht mit der wirkungsvollen Organisation von zwei menschlichen Personen, die eine verschiedene Sprache sprechen.
  • In „Janus – III: Speech to speech translation in multiple languages, Lawie, A et al, IEEE International conference on acoustics, speech and signal processing (ICASSP); US Loss Alimentos, California, IEEE Comp. Society Press; 21. April 1997, Seite 99 bis 102 (XP 00789144 ISBN 7 – 8186 – 7920 – 4) ist eine Sprachübersetzungstechnik ausgeschlossen, aber dieser Ausschluss enthält nicht die Andeutung oder den Vorschlag einer Integration von Dialogorganisation zwischen Mensch zu Mensch Interaktionen.
  • Die vorliegende Erfindung überwindet die vorerwähnten Nachteile sowohl wie andere Nachteile. In Übereinstimmung mit den Lehren aus der gegenwärtigen Erfindung sind die computerimplementierte Methode und der Apparat für die Umsetzung von gesprochenen Anforderungen eines Benutzers ausgerüstet. Ein Spracherkenner wandelt die gesprochene Anforderung in ein digitales Format um. Eine Rahmen-Daten-Struktur ordnet semantische Komponenten von der digitalisierten, gesprochenen Anforderung vorbestimmten Schlitzen zu. (Anmerkung: Schlitz = eng begrenzter Raum im Datenspeicher) Die Schlitze sind Anzeiger für Daten, die benutzt werden, um ein vorbestimmtes Ziel zu erreichen. Ein Sprach-Verständnis-Modul, welches mit dem Sprach-Erkenner und der Rahmen-Daten-Struktur verbunden ist, leitet semantische Komponenten aus der gesprochenen Anforderung ab. Die Schlitze sind auf der Basis der vorbestimmten semantischen Komponenten belegt. Ein Dialogmanager, der mit dem Sprachverständnismodul verbunden ist, kann wenigstens einen Schlitz bestimmen, der auf der Basis der abgeleiteten semantischen Komponen ten nicht belegt ist. In einer zu bevorziehenden Ausführungsform kann der Dialogmanager die Bestätigung von belegten Schlitzen zur Verfügung stellen. Eine computererzeugte Anforderung wird formuliert, um vom Benutzer Daten in Beziehung zum unbelegten Schlitz zu erhalten.
  • Für ein weiter umfassendes Verständnis der Erfindung, ihres Inhalts und ihrer Vorteile soll der Bezug zu den folgenden Spezifikationen und den begleitenden Zeichnungen hergestellt werden.
  • Kurze Beschreibung der Zeichnungen:
  • 1 ist ein Blockdiagramm, das die computerimplementierten Komponenten zeigt um einen Dialog zwischen wenigstens zwei Personen mit verschiedenen Sprachen wirkungsvoll zu beeinflussen;
  • 2 ist ein Blockdiagramm, das die Komponenten eines Systems nach 1 mit mehr Einzelheiten zeigt
  • 3a3b sind Flussdiagramme, welche die Verfahrensschritte in Übereinstimmung mit den Lehren der gegenwärtigen Erfindung zur Beeinflussung eines Dialoges zwischen wenigstens zwei Menschen mit verschiedenen Sprachen zeigt.
  • 4 ist ein Blockdiagramm, das eine alternative Ausführungsform der aktuellen Erfindung zeigt, worin der Dialog vorrangig nur eine einzige Person einschließt
  • 55b sind Flussdiagramme, welche die Verfahrensschritte für die alternative Ausführung von 4 zeigen.
  • Beschreibung der bevorzugten Ausführungsform
  • 1 zeigt ein computerimplementiertes kontinuierliches Sprachentwicklungssystem für Dialoge, das zwei Menschen, die verschiedene Sprachen sprechen, eine wirkungsvolle Kommunikation erlaubt. In dem nicht darauf beschränkten Beispiel von 1 möchte ein Käufer 20 mit der Verkaufsperson 22 kommunizieren, um ein Stück Handelsware zu kaufen. Die Schwierigkeit entsteht daraus, dass der Käufer 20 nur englisch spricht, wohingegen die Verkaufsperson 22 nur japanisch spricht.
  • Das Dialog-Sprache-Entwicklungs-System 24 der vorliegenden Erfindung benutzt einen Spracherkenner 26 um die englische Sprache des Käufers 20 in eine Kette von Worten zu übertragen. Die Kette der Worte wird von einem Sprach-Verständnis-Modul 28 als Text gelesen. Das Modul 28 zieht daraus die semantischen Komponenten der Wortabfolge heraus.
  • Der Dialog-Manager 30 bestimmt auf der Basis der semantischen Komponenten, die vom Sprach-Verständnis-Modul 28 abgeleitet worden sind, ob ein ausreichender Umfang von Informationen vom Käufer 20 bereitgestellt worden ist. Wenn ein ausreichender Informationsumfang erreicht ist, erlaubt der Dialog-Manager 30 den Übersetzungsmodul 32 den Vortrag des Käufers aus den vorbestimmten semantischen Komponenten ins Japanische zu übersetzen. Das Übersetzungsmodul 32 übersetzt die semantischen Komponenten ins japanische und führt eine Sprachsynthese aus, um die japanische Übersetzung in Stimme zu übertragen, damit sie die Verkaufsperson 22 hören kann.
  • Die Verkaufsperson 22 benutzt dann das Dialog Sprachentwicklungssystem 24 um dem Käufer 20 zu antworten. In gleicher Weise üben ein japanischer Spracherkenner 36 und ein japanisches Sprachverständnismodul 38 die Spracherkennung für die Sprache der Verkaufsperson 22 aus, sofern ungenügende Information von der Verkaufsperson 22 bereitgestellt worden ist.
  • Wenn der Dialog-Manager 30 ableitet, dass ein unzureichender Umfang an Information vom Käufer zur Verfügung gestellt worden ist, um ein vorbestimmtes Ziel erreichen zu können (wie z. B. der Kauf eines Stückes Handelsware), instruiert der Dialog-Manager 30 das Computerantwortmodul 34, eine Antwort in Stimme umzusetzen, mit welcher der Benutzer gebeten wird, die fehlenden Informationsteile bereitzustellen. Ein unzureichender Umfang an Informationen kann durch Unvollständigkeiten in Bezug auf das semantische Niveau und/oder sachliche Niveau entstanden sein; ist aber nicht darauf beschränkt.
  • Die bevorzugte Ausführungsform ist für die Implementation in ein Computer-Hand-Gerät 43 geeignet, wobei das Gerät ein Werkzeug ist, welches dem Benutzer erlaubt, seine oder ihre Nachfragen in der Zielsprache zu formulieren. So ein tragbares „Hand-Gerät" ist gut geeignet, um einen Fahrschein oder ein Hotel in einem ausländischen Land zu reservieren, ein Stück Handelsware zu kaufen, sich bei der Suche nach dem richtigen Weg unterstützen zu lassen oder um Geld zu wechseln. Die bevorzugte Ausführung erlaubt dem Benutzer von der einen zur anderen Aufgabe zu wechseln, indem sie auf dem Hand-Gerät auswählen, welche Aufgabe sie ausführen möchten. In einer alternativen Ausführung kann eine Flashmemorykarte zur Verfügung gestellt werden, die auf einzelne Aufgaben spezialisiert ist, so dass der Benutzer von einer Aufgabe zur anderen wechseln kann. Der Benutzer kann vorzugsweise eine Flashmemorykarte, die auf eine einzige Aufgabe oder auf einen Aufgabenbereich spezialisiert ist, einstecken und sie dann wieder entfernen, sodass dann eine andere Flashmemorykarte benutzt werden kann, die auf eine zweite Aufgabe spezialisiert ist.
  • 2 zeigt die Komponenten des Dialog-Sprache-Entwicklungssystems 24 mit mehr Einzelheiten. Im Besonderen schließt das Sprachverständnismodul 28 einen lokalen Parser 60 ein, der aufgabenspezifische Frag mente vorbestimmter Art identifizieren kann, vorzugsweise durch eine Sprachmarkierungsmethode. Das Sprachverständnismodul 28 beinhaltet auch einen globalen Parser 62, der die generelle Semantik (Anmerkung: Semantik = Wortbedeutung) von der Anforderung des Käufers herausziehen kann und der mögliche Zweideutigkeiten auf der Basis der Analyse, die vom lokalen Perser durchgeführt wird lösen kann.
  • z. B.: Der lokale Perser erkennt Phrasen wie Daten, Namen von Städten und Preise. Wenn ein Sprecher äußert: „Geben Sie mir einen Flug nach Boston am 23. Januar auf dem es Mittagessen gibt", erkennt der lokale Parser: „Flug" als eine Reise mit dem Flugzeug; „Boston" als Städtename; Januar den 23ten „als Datum und „Mittagessen" als Mahlzeit. Zum Beispiel verbindet in der bevorzugten Ausführung der lokale Parser „Boston" mit der Markierung eines Städtenamens. Der globale Perser setzt diese Einzelheiten zusammen (Flugreise, Städtename usw.) und erkennt, dass der Sprecher einen Flug unter bestimmten Bedingungen haben möchte.
  • Das Sprachverständnismodul 28 schließt die Wissensdatenbank 63 ein, welche die Semantik eines bestimmten Bereiches verschlüsselt (z. B. das zu erreichende Ziel). In diesem Sinn ist die Wissensdatenbank 63 vorzugsweise eine bereichsspezifische Datenbank wie sie mit Referenz Nr. 65 gezeigt wird. Sie wird von dem Dialog-Manager 30 gebraucht um abzuleiten, ob eine besondere Aktion in Verbindung mit dem Erreichen eines vorbestimmten Zieles möglich ist.
  • Die bevorzugte Ausführung verschlüsselt die Semantik über eine Rahmen-Daten-Struktur 64. Die Rahmen-Daten-Struktur 64 enthält leere Schlitze 66, die belegt sind, wenn die semantische Interpretation des glo balen Parsers 62 mit dem Rahmen übereinstimmt. z. B.: eine Rahmen-Daten-Struktur (deren Bereich der Kauf von Handelswaren ist) schließt einen nicht besetzten Schlitz ein, in dem der vom Käufer geforderte Preis für die Handelsware spezifiziert wird. Wenn der Käufer 20 den Preis zur Verfügung gestellt hat, dann ist der nicht besetzte Schlitz mit dieser Information belegt. Wenn jedoch ein besonderer Rahmen ausgefüllt werden muss, nachdem der Käufer zu Beginn seine Anforderung zur Verfügung gestellt hat, dann instruiert der Dialog-Manager 30 das Computerantwortmodul 34, den Käufer 20 darum zu bitten, dass er einen gewünschten Preis zur Verfügung stellt.
  • Die Rahmen-Daten-Struktur 64 schließt vorzugsweise Mehrfach-Rahmen ein, welche abwechselnd Mehrfachschlitze haben. Ein Rahmen kann Schlitze haben, die auf Eigenschaften eines Hemdes ausgerichtet sind, wie Farbe, Größe und Breite. Ein anderer Rahmen kann Schlitze haben, die auf Eigenschaften ausgerichtet sind, die in Verbindung mit der Adresse, an die das Hemd geschickt werden soll, stehen; wie z.B. Name, Adresse, Telefonnummer. Die folgende Referenz diskutiert globale Parser und Rahmen: J. Junqua und J. Haton, Robustness in Automatic Speech Recognition (Chapter 11: Spontaneous Speech) Kluwer Academic Publishers, Boston, 1996 und R. Kuhn und R. De Mori: Spoken Dialogues with Computers (Chapter 14 Sentence Interpretation) Academic Press, Boston, 1998.
  • Die vorliegende Erfindung schließt ein, dass der Dialog-Manager 30 Speicher von historischen Daten benutzt, um beim Ausfüllen von nicht besetzten Schlitzen zu assistieren, bevor der Sprecher um Informationen gebeten wird. Der Dialog-Historien-Daten-Speicher 67 enthält ein Logbuch der Konversation, die mit einem Gerät gemäß vorliegender Erfindung entstanden ist. Wenn z.B. ein Sprecher äußert: „Geben Sie mir einen Flug nach Boston am 23. Januar auf welchem auch Mittagessen serviert wird", prüft der Dialog-Manager 30 den Dialog-Historien-Datenspeicher 67 um zu prüfen, welchen Stadtnamen der Sprecher in einem vorherigen Dialog erwähnt haben könnte. Wenn der Sprecher erwähnt hat, dass er aus Detroit anruft, dann füllt der Dialog-Manager 30 den leeren Schlitz „Abreiseort" mit dem Städtenamen von „Detroit". Wenn eine ausreichende Anzahl von Schlitzen gefüllt worden ist, dann wird die vorliegende Erfindung den Sprecher bitten, den Flugplan zu überprüfen und zu bestätigen. Wenn in dieser Weise irgendwelche Annahmen vom Dialog-Manager 30 durch den Gebrauch des Dialog-Historien-Datenspeichers 67 sich als unzutreffend erweisen, dann kann der Sprecher diese Annahmen korrigieren.
  • Vorzugsweise hat das Computerantwortmodul 34 Mehrfach – Fähigkeiten und ist in der Lage, eine Antwort an den Benutzer über Sprachsynthese, Text oder Grafik zur Verfügung zu stellen. Wenn z. B. der Benutzer Hinweise auf einen besonderen Ort angefordert hat, kann der Computer antworten, in dem er eine graphische Karte zeigt, worin die Ausdrücke der Karte vom Übersetzungsmodul 40 übersetzt sind. Über dies kann das Computerantwortmodul 40 die Hinweise an den Benutzer durch Sprachsynthese aussprechen. In einer Ausführungsform benutzt das Computerantwortmodul 34 die Semantik, die erkannt worden ist, um einen Satz in der Zielsprache des Käufers zu erzeugen, der auf dem semantischen Konzept basiert. Dieser Erzeugungsprozess benutzt vorzugsweise ein paariges Wörterbuch von Sätzen – sowohl in der Ausgangssprache als auch in der Zielsprache. In einer alternativen Ausführungsform werden die Sätze automatisch erzeugt; und zwar auf der Basis typischer Sätze, die aus den verfügbaren Schlitzen in einem semantischen Rahmen konstruiert worden sind. Dies ist jedoch nicht so zu verstehen, dass die vorliegende Erfindung darauf beschränkt ist, stets über alle 3 Betriebsarten zu verfügen, sondern auch nur ein oder zwei Betriebsarten für das Computerantwortmodul 34 haben kann.
  • In einer alternativen Ausführungsform wird das Computerantwortmodul 34 vom Dialog-Manager 30 angewiesen, eine Suche in der entfernten Datenbank 70 auszuführen, um den Käufer 20 mit Informationen über ein bestimmtes Stück Handelsware zu versorgen. In diesem, nicht darauf beschränkten Beispiel, kann der Dialog-Manager 30 das Compterantwortmodul 34 beauftragen, in der entfernten Datenbank 70 des Geschäftes nach dem Preisbereich derjenigen Handelsware zu suchen, an der der Käufer 20 interessiert ist. Die entfernte Datenbank 70 kann mit dem Dialog-Manager 30 durch konventionelle Methoden, wie z. B. durch Übertragung mittels Radiofrequenzen, kommunizieren. Die alternative Ausführungsform verbessert die Qualität des Dialogs zwischen Käufer 20 und Verkaufsperson 22 wesentlich, indem sie dem Käufer 20 Informationen zur Verfügung stellt, sodass der Käufer 20 eine noch aussagefähigere Anforderung an das Verkaufsperson 22 stellen kann.
  • Der Dialog-Manager 30 nimmt eine verbindende Rolle im Dialog ein, indem er einen Hin- und Her-Dialog mit dem Käufer 20 ausführt, bevor der Käufer 20 mit der Verkaufsperson 22 kommuniziert. In einer solchen Rolle nutzt der Dialog-Manager 30 die Lehren aus der vorliegenden Erfindung und ist damit in der Lage, wirkungsvoll den Wechselaspekt eines menschlichen, hin- und hergehenden Dialoges zu organisieren. Der Dialog-Manager 30 ist in der Lage, seine eigene Entscheidung darüber zu treffen, welche Richtung der Dialog mit dem Käufer 20 im nächsten Schritt nehmen wird und wann eine neue Richtung des Dialoges ausgelöst werden wird.
  • Wenn z. B. der Käufer 20 einen bestimmten Typ eines Hemdes innerhalb eines bestimmten Preisbereiches angefordert hat, überprüft der Dialog-Manager, ob ein solches Hemd innerhalb dieses Preisrahmens erhältlich ist. So eine Überprüfung kann über die entfernte Datenbank 70 gemacht werden. In diesem Beispiel erkennt der Dialog-Manager 30, dass ein solches Hemd innerhalb des Preisbereiches vom Käufer nicht erhältlich ist, dass jedoch in diesem Preisbereich ein anderer Typ eines Hemdes erhältlich ist. Auf diese Weise kann der Dialog-Manager 30 ableiten, ob eine bestimmte Aktion oder ein bestimmtes Ziel des Käufers machbar ist und den Käufer dabei unterstützen, dieses Ziel zu erreichen.
  • 3a3b zeigt die Ausführungsschritte in Verbindung mit dem Dialog-Sprach-Entwicklungssystem von 2. Der Start-Anzeige-Block 120 zeigt an, dass der Prozess-Block 124 ausgeführt werden soll. Im Prozess-Block 128 spricht der Käufer in einer ersten Sprache (z.B. Englisch) über ein bestimmtes Hemd. Im Prozess-Block 128 erkennt die vorliegende Erfindung den Vortrag des Käufers und leitet im Prozessblock 132 vorbestimmte Wörter oder Phrasen aus dem Vortrag des Käufers ab, wie z. B. Phrasen über die Hemdgröße oder die Hemdfarbe.
  • Der Prozessblock 136 leitet die semantischen Teile aus dem Vortrag des Verkäufers durch Benutzung des globalen Persers ab. Prozess-Block 140 belegt die zutreffenden Rahmen mit den abgeleiteten semantischen Teilen aus dem Vortrag des Verkäufers. Der Ablauf wird vorgesetzt im Fortsetzungsblock A 144.
  • Mit Bezug auf 3b zeigt der Fortsetzungsblock A 144 an, dass der Entscheidungsblock 148 ausgeführt werden muss. Der Entscheidungsblock 148 fragt nach, ob eine ausreichende Anzahl von Schlitzen besetzt ist, um mit der Übersetzung in eine zweite Sprache beginnen zu können, mit der Absicht zum Verkäufer in der zweiten Sprache zu kommunizieren. Wenn eine ausreichende Anzahl von Schlitzen belegt ist, fordert der Prozessblock 140 den Sprecher auf, die Anforderungen an den Verkäufer zu überprüfen und zu bestätigen. Vorzugsweise erlaubt die vorliegende Erfindung dem Benutzer die Bestätigungsfunktion ein- oder aus zuschalten, je nach dem wie schnell der Benutzer in den Dialog mit einer anderen Person eintreten möchte.
  • Der Prozessblock 152 übersetzt die abgeleiteten semantischen Teile in die Sprache des Verkäufers. Im Prozessblock 156 erfolgt die Sprach-Synthese der Übersetzung. Gemäß der Technologie der vorliegenden Erfindung setzt der Prozessblock 160 alle nachträglichen Antworten der Verkaufsperson ebenso um, wie alle nachträglichen Antworten des Käufers. Die Umsetzung wird im End-Block 164 beendet.
  • Wenn jedoch der Entscheidungsblock 148 erkennt, dass eine ausreichende Anzahl von Schlitzen noch nicht ausgefüllt ist, wird die Ausführung im Prozessblock 168 fortgesetzt. Der Prozessblock 168 versucht, alle fehlenden Schlitze mit Informationen aus einer Datenbanksuche zu füllen. Wenn es immer noch unbesetzte Schlitzte gibt, versucht die vorliegende Erfindung, alle noch leeren Schlitze mit Informationen aus dem Dialog-Historien-Datenspeicher im Prozessblock 172 zu füllen.
  • Wenn immer noch Information fehlt, baut Prozessblock 176 eine Anfrage an den Käufer auf und macht ihn darauf aufmerksam, dass er Informationen in Bezug auf die fehlenden Schlitze zur Verfügung stellen soll. Prozessblock 180 führt die Sprach-Synthese der aufgebauten Anfrage durch. Im Prozessblock 184 antwortet der Käufer mit den angefragten Informationen und der Prozess setzt sich im Fortsetzungsblock B 168 in 3a fort, worin die vorliegende Erfindung den Vortrag des Käufers im Prozessblock 128 erkennt.
  • 4 zeigt eine alternative Ausführungsform der vorliegenden Erfindung, worin der Dialog vorrangig zwischen dem Nutzer 20 und dem Dia logsprachentwicklungssystems 24 ausgeführt wird. In einer solchen Ausführungsform nimmt der Dialog-Manager eine noch weiter beherrschende Rolle im Dialog ein, indem er festlegt, wann ein Wechsel in dem hin- und her-gehenden Dialog stattfinden soll. Der lokale Parser 60 und der globale Parser 62 ziehen aus dem erkannten Vortrag des Verkäufers in Beziehung zur gegenwärtigen Aufgabe aussagefähige Informationen heraus. Der Dialogmanager 30 nutzt die bereichsabhängige Wissensdatenbank 63 welche die Aufgaben bezogene Semantik enthält, um den Benutzer durch die Semantik der Aufgabe oder des Zieles zu führen.
  • Eine alternative Ausführungsform ist für eine Situation wie z.B. die Reservierung eines Fluges sinnvoll, aber nicht darauf beschränkt. In diesem nichteinschränkendem Beispiel wünscht ein Sprecher einen Flug von Detroit nach Boston. Aber der Dialog-Manager 30 erkennt durch die entfernte Datenbank 70 dass über 20 Flüge geplant sind, die die ursprünglichen Bedingungen des Sprechers erfüllen. In einer solchen Situation nimmt der Dialog-Manager 30 eine proaktive Rolle ein, indem er den Sprecher fragt, ob er die Liste der verfügbaren Flüge, sortiert nach ansteigendem Preis, anhören möchte, oder indem er den Sprecher fragt, welche Klasse er haben möchte. Auf diese Weise ist die vorliegende Erfindung in der Lage, den Fluss des Dialoges mit dem Sprecher zu kontrollieren und zu leiten, um ein vorbestimmtes Ziel zu erreichen.
  • 5a5b zeigt die Ausführungsschritte in Verbindung mit der alternativen Ausführungsform von 4 im nichteinschränkenden Kontext eines Nutzers, der eine Flugreise zu unternehmen wünscht. Mit Bezug auf 5a zeigt der Start-Anzeige-Block 220 an, dass der Prozessblock 224 auszuführen ist. Im Prozessblock 224 sagt ein Nutzer einem erfindungsgemäßen Gerät, dass er eine Flugreise unternehmen möchte. Im Prozessblock 228 wird der Vortrag des Benutzers erkannt und im Prozessblock 232 werden vorbestimmte Wörter oder Phrasen aus dem Vor trag des Verkäufers abgeleitet, wie z.B. Phrasen über den Bestimmungsort oder das Datum.
  • Der Prozessblock 236 leitet semantische Teile aus dem Vortrag des Benutzers durch Gebrauch des globalen Parsers ab. Der Prozessblock 240 füllt die geeigneten Rahmen mit den abgeleiteten semantischen Teilen aus dem Vortrag des Verkäufers. Der Prozessablauf wird in 5b im Fortsetzungsblock A 244 fortgesetzt.
  • Mit Bezug auf 5b fragt der Entscheidungsblock 248 nach, ob eine ausreichende Anzahl von Schlitzen belegt ist, um mit der Abfrage einer entfernten Flugdatenbank beginnen zu können. Solch eine Abfrage kann in der Flugdatenbank einer größeren Luftfahrtgesellschaft gemacht werden. Wenn eine ausreichende Anzahl von Schlitzen belegt ist, um die Nachfrage beginnen zu können, dann baut der Prozessblock 252 ein Datenbank-Such-Kommando auf der Basis der semantischen Komponenten der Rahmen auf. Die Datenbanksuche fragt entfernte Flugdatenbanken nach möglichen Flügen, die den Erfordernissen des Nutzers entsprechen. Der Prozessblock 256 enthält die Ergebnisse von der entfernten Datenbank und in Prozessblock 260 führt die vorliegende Erfindung die Sprachsynthese von dem Ergebnis der Datenbanksuche aus, um die Ergebnisse gegenüber dem Benutzer auszusprechen. Der Prozessblock 260 kann auch eine Zusammenfassung der Datenbanksuchergebnisse formulieren und gegenüber dem Benutzer aussprechen. Wenn keine Ergebnisse erhalten worden sind, dann wird der Dialog-Manager vorzugsweise die schwächste Bedingung aufweichen, um dann wenigstens noch einen geeigneten Flug auszuwählen. Diese Fähigkeit des Prozessblockes 260 haben ebenso wie die anderen Fähigkeiten sowohl die unidirektionale als auch die multidirektionale Ausführung der vorliegenden Erfindung.
  • Sobald der Besucher keine weiteren Vorträge in die gegenwärtige Erfindung eingibt, endet die Umsetzung im Endblock 264. Wenn jedoch der Entscheidungsblock 248 erkennt, dass noch eine zu geringe Anzahl von Schlitzen belegt worden ist, um die Suche in entfernten Flugdatenbanken zu beginnen, dann versucht der Prozessblock 268 die fehlenden Schlitze mit Informationen aus der entfernten Datenbank zu füllen. Wenn z. B. der Nutzer das Datum der Abreise ebenso wie den Beginn und den Bestimmungsort der Reise spezifiziert hat, aber keine Information in Bezug auf die gewünschte Zeit für Abreise oder Ankunft zur Verfügung gestellt hat, dann fragt die vorliegende Erfindung die entfernte Datenbank ab, um Zeiten zu finden, bei denen Flüge von dem gewünschten Ort abgehen, bzw. dort ankommen. Diese Zeiten werden mit dem Nutzer kommuniziert.
  • Wenn nötig versucht der Prozessblock 272 alle fehlenden Schlitze mit Informationen aus dem Dialog-Historien-Daten-Speicher zu füllen. Der Prozessblock 276 baut eine gesprochene Anfrage an den Benutzer auf, welche fehlenden Schlitze bis jetzt noch nicht gefüllt werden konnten. Der Prozessblock 280 führt die Sprachsynthese der aufgebauten Anfrage aus und in Prozessblock 284 antwortet der Nutzer mit der Information. Dann führt die vorliegende Erfindung die Antwort des Benutzers gemäß Block 228 aus 5a aus.
  • Die Erfindung wird in ihrer gegenwärtig bevorzugten Form beschrieben. Aber natürlich gibt es zahlreiche Anwendungen und Ausführungen für die vorliegende Erfindung. In Übereinstimmung damit kann die Erfindung modifiziert und geändert werden, ohne das Ziel der Erfindung zu verlassen, wie es in den anhängenden Ansprüchen festgesetzt ist.

Claims (26)

  1. Apparat zur Ausführung der Sprachübersetzung zwischen Sprechern verschiedener Sprachen, der Folgendes umfasst: Spracherkenner (26), der angepasst ist, eine in einer ersten Sprache gesprochene Äußerung eines ersten Sprechers zu empfangen und betriebsfähig ist, die Äußerung in ein digitales Format umzusetzen; Sprachverständnismodul (28), das zur Ermittlung semantischer Bestandteile der gesprochenen Äußerung an den Spracherkenner angeschlossen ist; Dialogmanager (30), der an das Sprachverständnismodul angeschlossen ist, um auf der Basis der ermittelten semantischen Bestandteile eine Bedingung für unzureichende semantische Information zu bestimmen, die in der gesprochenen Äußerung vorkommt; Computerantwortmodul (34), das an den Dialogmanager angeschlossen ist und betriebsfähig ist zur Ausgabe einer Antwort an den ersten Sprecher, wenn die Bedingung für unzureichende semantische Information in der gesprochenen Äußerung existiert, wobei sich die Antwort an den ersten Sprecher auf die semantischen Bestandteile der gesprochenen Äußerung bezieht; und Sprachübersetzungsmodul (40), das an den Dialogmanager angeschlossen ist und betriebsfähig ist, die semantischen Bestandteile in eine von der ersten Sprache verschiedene zweite Sprache zu übersetzen, falls eine Bedingung für die hinreichende Quantität semantischer Information existiert.
  2. Apparat nach Anspruch 1, der außerdem Folgendes umfasst: Datenstruktur, um semantische Bestandteile der digitalisierten gesprochenen Äußerung den Attributen zuzuordnen, die für ein vorausbestimmtes Ziel bezeichnend sind.
  3. Apparat nach Anspruch 2, der außerdem Folgendes umfasst: Rahmendatenstruktur (64), um semantische Bestandteile der digitalisierten gesprochenen Äußerung vorausbestimmten Slots zuzuordnen, wobei die Slots für Daten bezeichnend sind, die dazu verwendet werden, ein vorausbestimmtes Ziel zu erreichen; wobei die Slots auf der Basis der vom Sprachverständnismodul ermittelten semantischen Bestandteile bestückt werden.
  4. Apparat nach Anspruch 3, worin der Spracherkenner die Antwort des Benutzers in ein digitales Format umsetzt; wobei das Sprachverständnismodul semantische Bestandteile der Antwort ermittelt, um die Rahmendatenstruktur mit Information zu bestücken, die sich auf die nicht hinreichende semantische Information bezieht.
  5. Apparat nach Anspruch 4, worin der Dialogmanager feststellt, dass hinreichende semantische Information existiert und mindestens eine computerimplementierte Maßnahme trifft, die sich auf das vorausbestimmte Ziel bezieht.
  6. Apparat nach Anspruch 5, worin die computerimplementierte Maßnahme aus einer Gruppe ausgewählt wird, zu der Folgendes gehört: Buchung von Hotelreservierungen über eine entfernte Datenbank, Wareneinkauf über eine entfernte Datenbank, Adressenauskunft über eine entfernte Datenbank, Geldwechsel über eine entfernte Datenbank sowie Kombinationen dieser Maßnahmen.
  7. Apparat nach Anspruch 3, worin der Dialogmanager die Bedingung für unzureichende semantische Information wegen mindestens eines unbestückten Slots ermittelt.
  8. Apparat nach Anspruch 1, worin eine erste gesprochene Äußerung in einer ersten Sprache gesprochen wird, wobei das Sprachübersetzungsmodul auf der Basis der ermittelten semantischen Bestandteile eine Übersetzung in eine zweite Sprache erzeugt; worin eine zweite gesprochene Äußerung von einem anderen Benutzer in einer zweiten Sprache an den Spracherkenner gerichtet wird; wobei das Sprachverständnismodul zweite semantische Bestandteile der zweiten gesprochenen Äußerung bestimmt; wobei der Dialogmanager auf der Basis der zweiten ermittelten semantischen Bestandteile eine zweite Bedingung für in der zweiten gesprochenen Äußerung existierende unzureichende semantische Information bestimmt; wobei das Sprachübersetzungsmodul, bezogen auf die zweite unzureichende semantische Information, eine zweite Übersetzung in der zweiten Sprache erzeugt; wobei die zweite Übersetzung dem anderen Benutzer zur Verfügung gestellt wird, damit der andere Benutzer eine auf die zweite unzureichende semantische Information bezogene Antwort in den Sprecherkenner sprechen kann.
  9. Apparat nach Anspruch 8, der außerdem Folgendes umfasst: das Computerantwortmodul kommuniziert über einen vorausbestimmte Kommunikationsmodus die zweite Übersetzung an den Benutzer, wobei der vorausbestimmte Kommunikationsmodus aus der Gruppe gewählt wird, die Folgendes umfasst: einen Textdisplay-Kommunikationsmodus, ei nen Sprachvokalisierungs-Kommunikationsmodus, einen graphischen Kommunikationsmodus sowie Kombinationen dieser Modi.
  10. Apparat nach Anspruch 1, der außerdem Folgendes umfasst: entfernte Datenbank (70), die mit dem Dialogmanager kommuniziert, um Daten zu speichern, die sich auf ein vorausbestimmtes Ziel beziehen, wobei die entfernte Datenbank dem Dialogmanager die Daten zur Verfügung stellt.
  11. Apparat nach Anspruch 10, worin die entfernte Datenbank mit dem Dialogmanager über einen Radiofrequenz-Kommunikationsmodus kommuniziert.
  12. Apparat nach Anspruch 10, worin der Dialogmanager eine erste Datenbankanforderung formuliert, damit die entfernte Datenbank Daten zur Verfügung stellt, die sich auf das vorausbestimmte Ziel beziehen.
  13. Apparat nach Anspruch 12, worin der Dialogmanager feststellt, dass auf der Basis der Daten aus der entfernten Datenbank das vorausbestimmte Ziel im Wesentlichen nicht erreicht werden kann, wobei der Dialogmanager ermittelt, welche Elemente in der entfernten Datenbank im Wesentlichen dem vorausbestimmten Ziel ähneln, wobei der Dialogmanager diese Elemente dem Benutzer über das Sprachübersetzungsmodul mitteilt.
  14. Apparat nach Anspruch 13, worin die gesprochene Äußerung des Benutzers bezüglich des vorausbestimmten Ziels Beschränkungen einschließt, wobei der Dialogmanager für die entfernte Datenbank eine zweite Datenbankaufforderung formuliert, um zu ermitteln, welche Elemente in der entfernten Datenbank dem vorausbestimmten Ziel im Wesentlichen ähneln, wobei der Dialogmanager die zweite Datenbankaufforderung formuliert, indem er aus der zweiten Datenbankaufforderung mindestens eine der Beschränkungen auslässt.
  15. Apparat nach Anspruch 12, worin der Dialogmanager dem Benutzer eine Zusammenfassung der Daten aus der entfernten Datenbank zur Verfügung stellt.
  16. Apparat nach Anspruch 14, außerdem umfassend: eine Dialogverlaufsdatei (67) zum Speichern einer Vielzahl von Äußerungen des Benutzers, wobei der Dialogmanager über die Dialogverlaufsdatei Information ermittelt, die sich auf unzureichende semantische Information bezieht.
  17. Apparat nach Anspruch 16, worin der Dialogmanager feststellt, dass eine hinreichende semantische Information existiert, zumindest teilweise auf der über die Dialogverlaufsdatei ermittelten Information basierend, wobei der Dialogmanager mindestens eine computerimplementierte Maßnahme trifft, die sich auf das vorausbestimmte Ziel bezieht.
  18. Apparat nach Anspruch 14, worin der Dialogmanager feststellt, dass eine hinreichende semantische Information existiert und dem Benutzer die ermittelte semantische Information übermittelt, damit der Benutzer die Korrektheit der ermittelten semantischen Information bestätigt, wobei der Dialogmanager, nachdem der Benutzer die Korrektheit der ermittelten semantischen Information bestätigt hat, mindestens eine computerimplementierte Maßnahme trifft, die sich auf das vorausbestimmte Ziel bezieht.
  19. Apparat nach Anspruch 18, worin die computerimplementierte Maßnahme aus einer Gruppe gewählt wird, zu der Folgendes gehört: Buchung von Hotelreservierungen über eine entfernte Datenbank, Wareneinkauf über eine entfernte Datenbank, Adressenauskunft über eine entfernte Datenbank, Geldwechsel über eine entfernte Datenbank sowie Kombinationen dieser Maßnahmen.
  20. Apparat nach Anspruch 1, außerdem umfassend: lokalen Parser, der an das Sprachverständnismodul angeschlossen ist, um vorausbestimmte Sprachfragmente in der gesprochenen Äußerung zu identifizieren, wobei das Sprachverständnismodul aufgrund der identifizierten Sprachfragmente die semantischen Bestandteile bestimmt.
  21. Apparat nach Anspruch 20, worin der lokale Parser den Sprachfragmenten vorausbestimmte Tags zuordnet, wobei sich die Tags auf ein vorausbestimmtes Ziel beziehen.
  22. Apparat nach Anspruch 20, außerdem umfassend: globalen Parser (62), der an das Sprachverständnismodul angeschlossen ist, um die semantischen Bestandteile der gesprochenen Äußerung zu ermitteln.
  23. Apparat nach Anspruch 22, außerdem umfassend: Wissensdatenbank (63) zum Kodieren der Semantik eines vorausbestimmten Fachgebiets, wobei das Fachgebiet für ein vorausbestimmtes Ziel bezeichnend ist; wobei der globale Parser die Wissensdatenbank nutzt, um die semantischen Bestandteile der gesprochenen Äußerung zu ermitteln.
  24. Apparat nach Anspruch 23, außerdem umfassend: erste und zweite Computerspeichermittel zum Speichern einer ersten beziehungsweise zweiten Wissensdatenbank, wobei sich die erste und zweite Wissensdatenbank auf ein erstes beziehungsweise zweites Fachgebiet bezieht; wobei das erste Computerspeichermittel vom globalen Parser getrennt werden kann, sodass das Computerspeichermittel mit dem globalen Parser benutzt werden kann.
  25. Apparat nach Anspruch 24, worin es sich bei den ersten und zweiten Computerspeichermitteln um Flash-Speicherkarten handelt.
  26. Methode zum Übersetzen gesprochener Sprache zwischen Sprechern verschiedener Sprachen durch Verarbeitung einer in der ersten Sprache gesprochenen Äußerung (124) eines Benutzers, wobei die Methode Folgendes umfasst: Empfang der vom Benutzer in einer ersten Sprache gesprochenen Äußerung; Umsetzung (128) der gesprochenen Äußerung in ein digitales Format; Ermittlung (132, 236) der semantischen Bestandteile der gesprochenen Äußerung; Feststellen (148), aufgrund der ermittelten semantischen Bestandteile, ob in der gesprochenen Äußerung eine Bedingung unzureichender semantischer Information existiert; Erzeugung (176) einer Antwort an den Benutzer, wenn die Bedingung unzureichender semantischer Information in der gesprochenen Äußerung existiert, wobei sich die Antwort an den Benutzer auf die semantischen Bestandteile der gesprochenen Äußerung bezieht; Ausgabe (180) der erzeugten Antwort an den Benutzer, damit der Benutzer eine Antwort (284) bezüglich der unzureichenden semantischen Information ausspricht; und Erzeugung (152) einer Übersetzung der semantischen Bestandteile in eine von der ersten Sprache verschiedene zweite Sprache, falls eine Bedingung für eine hinreichende Quantität semantischer Information existiert.
DE60017000T 1999-04-12 2000-03-21 Verfahren zur zielorientierten Sprachübersetzung mittels Extraktion der Bedeutung und Dialog Expired - Fee Related DE60017000T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/290,628 US6233561B1 (en) 1999-04-12 1999-04-12 Method for goal-oriented speech translation in hand-held devices using meaning extraction and dialogue
US290628 1999-04-12

Publications (2)

Publication Number Publication Date
DE60017000D1 DE60017000D1 (de) 2005-02-03
DE60017000T2 true DE60017000T2 (de) 2006-02-23

Family

ID=23116878

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60017000T Expired - Fee Related DE60017000T2 (de) 1999-04-12 2000-03-21 Verfahren zur zielorientierten Sprachübersetzung mittels Extraktion der Bedeutung und Dialog

Country Status (5)

Country Link
US (1) US6233561B1 (de)
EP (1) EP1045373B1 (de)
JP (1) JP2000348033A (de)
CN (1) CN1204513C (de)
DE (1) DE60017000T2 (de)

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6615178B1 (en) * 1999-02-19 2003-09-02 Sony Corporation Speech translator, speech translating method, and recorded medium on which speech translation control program is recorded
US8065155B1 (en) 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
US6377913B1 (en) * 1999-08-13 2002-04-23 International Business Machines Corporation Method and system for multi-client access to a dialog system
US7024363B1 (en) * 1999-12-14 2006-04-04 International Business Machines Corporation Methods and apparatus for contingent transfer and execution of spoken language interfaces
US6598018B1 (en) * 1999-12-15 2003-07-22 Matsushita Electric Industrial Co., Ltd. Method for natural dialog interface to car devices
US6829603B1 (en) * 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
JP2001222296A (ja) * 2000-02-09 2001-08-17 Nec Corp 携帯型音声再生装置およびそれを用いたガイドシステム
US6868380B2 (en) 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
US7120585B2 (en) 2000-03-24 2006-10-10 Eliza Corporation Remote server object architecture for speech recognition
US7370086B2 (en) 2000-03-24 2008-05-06 Eliza Corporation Web-based speech recognition with scripting and semantic objects
US7366766B2 (en) * 2000-03-24 2008-04-29 Eliza Corporation Web-based speech recognition with scripting and semantic objects
US20030023435A1 (en) * 2000-07-13 2003-01-30 Josephson Daryl Craig Interfacing apparatus and methods
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
US20020087312A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented conversation buffering method and system
US20020087316A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented grammar-based speech understanding method and system
WO2002073449A1 (en) 2001-03-14 2002-09-19 At & T Corp. Automated sentence planning in a task classification system
US7729918B2 (en) * 2001-03-14 2010-06-01 At&T Intellectual Property Ii, Lp Trainable sentence planning system
US7574362B2 (en) * 2001-03-14 2009-08-11 At&T Intellectual Property Ii, L.P. Method for automated sentence planning in a task classification system
US6996528B2 (en) * 2001-08-03 2006-02-07 Matsushita Electric Industrial Co., Ltd. Method for efficient, safe and reliable data entry by voice under adverse conditions
US20030061029A1 (en) * 2001-08-29 2003-03-27 Efraim Shaket Device for conducting expectation based mixed initiative natural language dialogs
US20030065504A1 (en) * 2001-10-02 2003-04-03 Jessica Kraemer Instant verbal translator
US7167832B2 (en) * 2001-10-15 2007-01-23 At&T Corp. Method for dialog management
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7286993B2 (en) * 2002-01-31 2007-10-23 Product Discovery, Inc. Holographic speech translation system and method
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
US7191129B2 (en) * 2002-10-23 2007-03-13 International Business Machines Corporation System and method for data mining of contextual conversations
US20030115062A1 (en) * 2002-10-29 2003-06-19 Walker Marilyn A. Method for automated sentence planning
AU2003274592A1 (en) 2002-11-28 2004-06-18 Koninklijke Philips Electronics N.V. Method to assign word class information
US7249025B2 (en) * 2003-05-09 2007-07-24 Matsushita Electric Industrial Co., Ltd. Portable device for enhanced security and accessibility
BRPI0417636A (pt) * 2003-12-16 2007-03-27 Speechgear Inc sistema, método, e, meio legìvel por computador
JP2007515019A (ja) * 2003-12-17 2007-06-07 スピーチギア,インコーポレイティド 翻訳ツール
US7427024B1 (en) 2003-12-17 2008-09-23 Gazdzinski Mark J Chattel management apparatus and methods
US7596499B2 (en) * 2004-02-02 2009-09-29 Panasonic Corporation Multilingual text-to-speech system with limited resources
US7742580B2 (en) * 2004-02-05 2010-06-22 Avaya, Inc. Methods and apparatus for context and experience sensitive prompting in voice applications
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
JP3962766B2 (ja) * 2004-10-08 2007-08-22 松下電器産業株式会社 対話支援装置
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7552053B2 (en) 2005-08-22 2009-06-23 International Business Machines Corporation Techniques for aiding speech-to-speech translation
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (de) * 2005-08-31 2010-10-27 Voicebox Technologies Inc Dynamische sprachverschärfung
DE102005061365A1 (de) * 2005-12-21 2007-06-28 Siemens Ag Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem
US7752031B2 (en) * 2006-03-23 2010-07-06 International Business Machines Corporation Cadence management of translated multi-speaker conversations using pause marker relationship models
US20070225973A1 (en) * 2006-03-23 2007-09-27 Childress Rhonda L Collective Audio Chunk Processing for Streaming Translated Multi-Speaker Conversations
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8411840B2 (en) * 2008-01-21 2013-04-02 Aspect Software Inc. Method of unifying control of contact center system
JP2011523484A (ja) * 2008-05-27 2011-08-11 マルチ ベース リミテッド ビデオデータの非線形表示
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
JP2011209787A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8775156B2 (en) 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US8473300B1 (en) * 2012-09-26 2013-06-25 Google Inc. Log mining to modify grammar-based text processing
KR20140089871A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 대화형 서버, 그 제어 방법 및 대화형 시스템
US9201865B2 (en) * 2013-03-15 2015-12-01 Bao Tran Automated assistance for user request that determines semantics by domain, task, and parameter
US9754591B1 (en) 2013-11-18 2017-09-05 Amazon Technologies, Inc. Dialog management context sharing
JP2015129672A (ja) * 2014-01-07 2015-07-16 アルパイン株式会社 施設検索装置および方法
US10726831B2 (en) 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
CN104360897B (zh) 2014-10-29 2017-09-22 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10885129B2 (en) * 2014-12-10 2021-01-05 Google Llc Using frames for action dialogs
US20180356244A1 (en) * 2015-05-05 2018-12-13 Nuance Communications, Inc. Automatic Data Switching Approach In Onboard Voice Destination Entry (VDE) Navigation Solution
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10991369B1 (en) * 2018-01-31 2021-04-27 Progress Software Corporation Cognitive flow
US11037559B2 (en) * 2018-12-27 2021-06-15 At&T Intellectual Property I, L.P. Voice gateway for federated voice services

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5642519A (en) * 1994-04-29 1997-06-24 Sun Microsystems, Inc. Speech interpreter with a unified grammer compiler
JP3385146B2 (ja) * 1995-06-13 2003-03-10 シャープ株式会社 会話文翻訳装置
US5839106A (en) * 1996-12-17 1998-11-17 Apple Computer, Inc. Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model
US6173279B1 (en) * 1998-04-09 2001-01-09 At&T Corp. Method of using a natural language interface to retrieve information from one or more data resources
JP2999768B1 (ja) * 1999-03-04 2000-01-17 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識誤り訂正装置

Also Published As

Publication number Publication date
EP1045373A3 (de) 2001-04-04
CN1270359A (zh) 2000-10-18
US6233561B1 (en) 2001-05-15
CN1204513C (zh) 2005-06-01
EP1045373A2 (de) 2000-10-18
DE60017000D1 (de) 2005-02-03
JP2000348033A (ja) 2000-12-15
EP1045373B1 (de) 2004-12-29

Similar Documents

Publication Publication Date Title
DE60017000T2 (de) Verfahren zur zielorientierten Sprachübersetzung mittels Extraktion der Bedeutung und Dialog
DE60014743T2 (de) Verfahren und Vorrichtung zur Analyse natürlicher Sprache
DE60033733T2 (de) Datenbankabfragesystem basierend auf Spracherkennung
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE60316125T2 (de) Verfahren und betrieb eines sprach-dialogsystems
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE19709518C1 (de) Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
EP0802522B1 (de) Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens
DE112013006770B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE60202847T2 (de) Abfragesystem in natürlicher sprache für den zugriff auf ein informationssystem
DE19933524A1 (de) Verfahren zur Eingabe von Daten in ein System
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
EP1599866B1 (de) Sprachverarbeitendes system und verfahren
EP1239460B1 (de) Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
DE112016006512T5 (de) Absichtseinschätzungsvorrichtung und Absichtseinschätzungsverfahren
DE19910234A1 (de) Verfahren mit mehreren Spracherkennern
DE69333762T2 (de) Spracherkennungssystem
DE10043531A1 (de) Sprachdialogsystem
EP1340169B1 (de) Verfahren und vorrichtung zur automatischen auskunfterleitung mittels einer suchmaschine
DE10118127A1 (de) Verfahren zum Betrieb eines automatischen Branchen-Auskunftssystems
DE10327943B4 (de) Unterschiedliche Zahlenleseweisen zulassendes Spracherkennungssystem
DE60125597T2 (de) Vorrichtung für die Dienstleistungsvermittlung
WO1999005681A1 (de) Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
EP0902420B1 (de) Verfahren zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication of lapse of patent is to be deleted
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee