DE60017000T2 - Verfahren zur zielorientierten Sprachübersetzung mittels Extraktion der Bedeutung und Dialog - Google Patents
Verfahren zur zielorientierten Sprachübersetzung mittels Extraktion der Bedeutung und Dialog Download PDFInfo
- Publication number
- DE60017000T2 DE60017000T2 DE60017000T DE60017000T DE60017000T2 DE 60017000 T2 DE60017000 T2 DE 60017000T2 DE 60017000 T DE60017000 T DE 60017000T DE 60017000 T DE60017000 T DE 60017000T DE 60017000 T2 DE60017000 T2 DE 60017000T2
- Authority
- DE
- Germany
- Prior art keywords
- language
- semantic
- user
- spoken utterance
- semantic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Description
- Die gegenwärtige Erfindung bezieht sich allgemein auf Sprachanalysesysteme und im Besonderen auf computerimplementierte natürliche Sprach-Parser. (Anmerkung: Parser = Grammatik-Analysator)
- Der Dialog kann als die wirkungsvolle Kommunikation zwischen zwei oder mehr Teilnehmern beschrieben werden. Eine wirkungsvolle Kommunikation erfordert die Teilnahme von wenigstens zwei Partnern. Wenn zwei Partner versuchen, sich in einen Dialog zu begeben aber keine gemeinsame Sprache haben, kann ihre Kommunikation nicht wirkungsvoll sein, resultierend aus dem Fehlen eines Dialoges. Ein anderer wichtiger Aspekt des Dialoges ist das Abwechseln beim Sprechen. Ein wirkungsvoller Dialog besteht aus dem Wechsel (oder der Chance zu sprechen) für jeden der Teilnehmer.
- Aktuellen, computerimplementierten Sprachentwicklungssystemen mit Übersetzung fehlt die natürliche hin- und hergehende Abwechslung eines Dialoges. Typischer Weise sind diese Systeme passive Systeme, die sklavenhaft die Sprache innerhalb eines Dialoges übersetzen. Die gegenwärtigen Systeme übernehmen kaum eine oder gar keine aktive Rolle, die Dialogteilnehmer dabei zu unterstützen, ein Ziel zu erreichen, wie z. B. den Kauf eines Flugscheines.
- In „Multilingual spoken-language understanding in the MIT Voyager system", Glass J. Et Al, Speech Communication, NL, Elsevier Science Publishers, Amsterdam volume 17, Number 1 August 01, 1995 Seite 1 bis 18 (XP 004062387 ISSN – 017 – 6393) schließen die Autoren ein System mit gesprochener Sprache, das Mensch-Computer-Wechselaktionen unterstützt, ausdrücklich aus. Jedoch beschäftigt sich diese Ausschließung nicht mit der wirkungsvollen Organisation von zwei menschlichen Personen, die eine verschiedene Sprache sprechen.
- In „Janus – III: Speech to speech translation in multiple languages, Lawie, A et al, IEEE International conference on acoustics, speech and signal processing (ICASSP); US Loss Alimentos, California, IEEE Comp. Society Press; 21. April 1997, Seite 99 bis 102 (XP 00789144 ISBN 7 – 8186 – 7920 – 4) ist eine Sprachübersetzungstechnik ausgeschlossen, aber dieser Ausschluss enthält nicht die Andeutung oder den Vorschlag einer Integration von Dialogorganisation zwischen Mensch zu Mensch Interaktionen.
- Die vorliegende Erfindung überwindet die vorerwähnten Nachteile sowohl wie andere Nachteile. In Übereinstimmung mit den Lehren aus der gegenwärtigen Erfindung sind die computerimplementierte Methode und der Apparat für die Umsetzung von gesprochenen Anforderungen eines Benutzers ausgerüstet. Ein Spracherkenner wandelt die gesprochene Anforderung in ein digitales Format um. Eine Rahmen-Daten-Struktur ordnet semantische Komponenten von der digitalisierten, gesprochenen Anforderung vorbestimmten Schlitzen zu. (Anmerkung: Schlitz = eng begrenzter Raum im Datenspeicher) Die Schlitze sind Anzeiger für Daten, die benutzt werden, um ein vorbestimmtes Ziel zu erreichen. Ein Sprach-Verständnis-Modul, welches mit dem Sprach-Erkenner und der Rahmen-Daten-Struktur verbunden ist, leitet semantische Komponenten aus der gesprochenen Anforderung ab. Die Schlitze sind auf der Basis der vorbestimmten semantischen Komponenten belegt. Ein Dialogmanager, der mit dem Sprachverständnismodul verbunden ist, kann wenigstens einen Schlitz bestimmen, der auf der Basis der abgeleiteten semantischen Komponen ten nicht belegt ist. In einer zu bevorziehenden Ausführungsform kann der Dialogmanager die Bestätigung von belegten Schlitzen zur Verfügung stellen. Eine computererzeugte Anforderung wird formuliert, um vom Benutzer Daten in Beziehung zum unbelegten Schlitz zu erhalten.
- Für ein weiter umfassendes Verständnis der Erfindung, ihres Inhalts und ihrer Vorteile soll der Bezug zu den folgenden Spezifikationen und den begleitenden Zeichnungen hergestellt werden.
- Kurze Beschreibung der Zeichnungen:
-
1 ist ein Blockdiagramm, das die computerimplementierten Komponenten zeigt um einen Dialog zwischen wenigstens zwei Personen mit verschiedenen Sprachen wirkungsvoll zu beeinflussen; -
2 ist ein Blockdiagramm, das die Komponenten eines Systems nach1 mit mehr Einzelheiten zeigt -
3a –3b sind Flussdiagramme, welche die Verfahrensschritte in Übereinstimmung mit den Lehren der gegenwärtigen Erfindung zur Beeinflussung eines Dialoges zwischen wenigstens zwei Menschen mit verschiedenen Sprachen zeigt. -
4 ist ein Blockdiagramm, das eine alternative Ausführungsform der aktuellen Erfindung zeigt, worin der Dialog vorrangig nur eine einzige Person einschließt -
5 –5b sind Flussdiagramme, welche die Verfahrensschritte für die alternative Ausführung von4 zeigen. - Beschreibung der bevorzugten Ausführungsform
-
1 zeigt ein computerimplementiertes kontinuierliches Sprachentwicklungssystem für Dialoge, das zwei Menschen, die verschiedene Sprachen sprechen, eine wirkungsvolle Kommunikation erlaubt. In dem nicht darauf beschränkten Beispiel von1 möchte ein Käufer20 mit der Verkaufsperson22 kommunizieren, um ein Stück Handelsware zu kaufen. Die Schwierigkeit entsteht daraus, dass der Käufer20 nur englisch spricht, wohingegen die Verkaufsperson22 nur japanisch spricht. - Das Dialog-Sprache-Entwicklungs-System
24 der vorliegenden Erfindung benutzt einen Spracherkenner26 um die englische Sprache des Käufers20 in eine Kette von Worten zu übertragen. Die Kette der Worte wird von einem Sprach-Verständnis-Modul28 als Text gelesen. Das Modul28 zieht daraus die semantischen Komponenten der Wortabfolge heraus. - Der Dialog-Manager
30 bestimmt auf der Basis der semantischen Komponenten, die vom Sprach-Verständnis-Modul28 abgeleitet worden sind, ob ein ausreichender Umfang von Informationen vom Käufer20 bereitgestellt worden ist. Wenn ein ausreichender Informationsumfang erreicht ist, erlaubt der Dialog-Manager30 den Übersetzungsmodul32 den Vortrag des Käufers aus den vorbestimmten semantischen Komponenten ins Japanische zu übersetzen. Das Übersetzungsmodul32 übersetzt die semantischen Komponenten ins japanische und führt eine Sprachsynthese aus, um die japanische Übersetzung in Stimme zu übertragen, damit sie die Verkaufsperson22 hören kann. - Die Verkaufsperson
22 benutzt dann das Dialog Sprachentwicklungssystem24 um dem Käufer20 zu antworten. In gleicher Weise üben ein japanischer Spracherkenner36 und ein japanisches Sprachverständnismodul38 die Spracherkennung für die Sprache der Verkaufsperson22 aus, sofern ungenügende Information von der Verkaufsperson22 bereitgestellt worden ist. - Wenn der Dialog-Manager
30 ableitet, dass ein unzureichender Umfang an Information vom Käufer zur Verfügung gestellt worden ist, um ein vorbestimmtes Ziel erreichen zu können (wie z. B. der Kauf eines Stückes Handelsware), instruiert der Dialog-Manager30 das Computerantwortmodul34 , eine Antwort in Stimme umzusetzen, mit welcher der Benutzer gebeten wird, die fehlenden Informationsteile bereitzustellen. Ein unzureichender Umfang an Informationen kann durch Unvollständigkeiten in Bezug auf das semantische Niveau und/oder sachliche Niveau entstanden sein; ist aber nicht darauf beschränkt. - Die bevorzugte Ausführungsform ist für die Implementation in ein Computer-Hand-Gerät
43 geeignet, wobei das Gerät ein Werkzeug ist, welches dem Benutzer erlaubt, seine oder ihre Nachfragen in der Zielsprache zu formulieren. So ein tragbares „Hand-Gerät" ist gut geeignet, um einen Fahrschein oder ein Hotel in einem ausländischen Land zu reservieren, ein Stück Handelsware zu kaufen, sich bei der Suche nach dem richtigen Weg unterstützen zu lassen oder um Geld zu wechseln. Die bevorzugte Ausführung erlaubt dem Benutzer von der einen zur anderen Aufgabe zu wechseln, indem sie auf dem Hand-Gerät auswählen, welche Aufgabe sie ausführen möchten. In einer alternativen Ausführung kann eine Flashmemorykarte zur Verfügung gestellt werden, die auf einzelne Aufgaben spezialisiert ist, so dass der Benutzer von einer Aufgabe zur anderen wechseln kann. Der Benutzer kann vorzugsweise eine Flashmemorykarte, die auf eine einzige Aufgabe oder auf einen Aufgabenbereich spezialisiert ist, einstecken und sie dann wieder entfernen, sodass dann eine andere Flashmemorykarte benutzt werden kann, die auf eine zweite Aufgabe spezialisiert ist. -
2 zeigt die Komponenten des Dialog-Sprache-Entwicklungssystems24 mit mehr Einzelheiten. Im Besonderen schließt das Sprachverständnismodul28 einen lokalen Parser60 ein, der aufgabenspezifische Frag mente vorbestimmter Art identifizieren kann, vorzugsweise durch eine Sprachmarkierungsmethode. Das Sprachverständnismodul28 beinhaltet auch einen globalen Parser62 , der die generelle Semantik (Anmerkung: Semantik = Wortbedeutung) von der Anforderung des Käufers herausziehen kann und der mögliche Zweideutigkeiten auf der Basis der Analyse, die vom lokalen Perser durchgeführt wird lösen kann. - z. B.: Der lokale Perser erkennt Phrasen wie Daten, Namen von Städten und Preise. Wenn ein Sprecher äußert: „Geben Sie mir einen Flug nach Boston am 23. Januar auf dem es Mittagessen gibt", erkennt der lokale Parser: „Flug" als eine Reise mit dem Flugzeug; „Boston" als Städtename; Januar den 23ten „als Datum und „Mittagessen" als Mahlzeit. Zum Beispiel verbindet in der bevorzugten Ausführung der lokale Parser „Boston" mit der Markierung eines Städtenamens. Der globale Perser setzt diese Einzelheiten zusammen (Flugreise, Städtename usw.) und erkennt, dass der Sprecher einen Flug unter bestimmten Bedingungen haben möchte.
- Das Sprachverständnismodul
28 schließt die Wissensdatenbank63 ein, welche die Semantik eines bestimmten Bereiches verschlüsselt (z. B. das zu erreichende Ziel). In diesem Sinn ist die Wissensdatenbank63 vorzugsweise eine bereichsspezifische Datenbank wie sie mit Referenz Nr.65 gezeigt wird. Sie wird von dem Dialog-Manager30 gebraucht um abzuleiten, ob eine besondere Aktion in Verbindung mit dem Erreichen eines vorbestimmten Zieles möglich ist. - Die bevorzugte Ausführung verschlüsselt die Semantik über eine Rahmen-Daten-Struktur
64 . Die Rahmen-Daten-Struktur64 enthält leere Schlitze66 , die belegt sind, wenn die semantische Interpretation des glo balen Parsers62 mit dem Rahmen übereinstimmt. z. B.: eine Rahmen-Daten-Struktur (deren Bereich der Kauf von Handelswaren ist) schließt einen nicht besetzten Schlitz ein, in dem der vom Käufer geforderte Preis für die Handelsware spezifiziert wird. Wenn der Käufer20 den Preis zur Verfügung gestellt hat, dann ist der nicht besetzte Schlitz mit dieser Information belegt. Wenn jedoch ein besonderer Rahmen ausgefüllt werden muss, nachdem der Käufer zu Beginn seine Anforderung zur Verfügung gestellt hat, dann instruiert der Dialog-Manager30 das Computerantwortmodul34 , den Käufer20 darum zu bitten, dass er einen gewünschten Preis zur Verfügung stellt. - Die Rahmen-Daten-Struktur
64 schließt vorzugsweise Mehrfach-Rahmen ein, welche abwechselnd Mehrfachschlitze haben. Ein Rahmen kann Schlitze haben, die auf Eigenschaften eines Hemdes ausgerichtet sind, wie Farbe, Größe und Breite. Ein anderer Rahmen kann Schlitze haben, die auf Eigenschaften ausgerichtet sind, die in Verbindung mit der Adresse, an die das Hemd geschickt werden soll, stehen; wie z.B. Name, Adresse, Telefonnummer. Die folgende Referenz diskutiert globale Parser und Rahmen: J. Junqua und J. Haton, Robustness in Automatic Speech Recognition (Chapter 11: Spontaneous Speech) Kluwer Academic Publishers, Boston, 1996 und R. Kuhn und R. De Mori: Spoken Dialogues with Computers (Chapter 14 Sentence Interpretation) Academic Press, Boston, 1998. - Die vorliegende Erfindung schließt ein, dass der Dialog-Manager
30 Speicher von historischen Daten benutzt, um beim Ausfüllen von nicht besetzten Schlitzen zu assistieren, bevor der Sprecher um Informationen gebeten wird. Der Dialog-Historien-Daten-Speicher67 enthält ein Logbuch der Konversation, die mit einem Gerät gemäß vorliegender Erfindung entstanden ist. Wenn z.B. ein Sprecher äußert: „Geben Sie mir einen Flug nach Boston am 23. Januar auf welchem auch Mittagessen serviert wird", prüft der Dialog-Manager30 den Dialog-Historien-Datenspeicher67 um zu prüfen, welchen Stadtnamen der Sprecher in einem vorherigen Dialog erwähnt haben könnte. Wenn der Sprecher erwähnt hat, dass er aus Detroit anruft, dann füllt der Dialog-Manager30 den leeren Schlitz „Abreiseort" mit dem Städtenamen von „Detroit". Wenn eine ausreichende Anzahl von Schlitzen gefüllt worden ist, dann wird die vorliegende Erfindung den Sprecher bitten, den Flugplan zu überprüfen und zu bestätigen. Wenn in dieser Weise irgendwelche Annahmen vom Dialog-Manager30 durch den Gebrauch des Dialog-Historien-Datenspeichers67 sich als unzutreffend erweisen, dann kann der Sprecher diese Annahmen korrigieren. - Vorzugsweise hat das Computerantwortmodul
34 Mehrfach – Fähigkeiten und ist in der Lage, eine Antwort an den Benutzer über Sprachsynthese, Text oder Grafik zur Verfügung zu stellen. Wenn z. B. der Benutzer Hinweise auf einen besonderen Ort angefordert hat, kann der Computer antworten, in dem er eine graphische Karte zeigt, worin die Ausdrücke der Karte vom Übersetzungsmodul40 übersetzt sind. Über dies kann das Computerantwortmodul40 die Hinweise an den Benutzer durch Sprachsynthese aussprechen. In einer Ausführungsform benutzt das Computerantwortmodul34 die Semantik, die erkannt worden ist, um einen Satz in der Zielsprache des Käufers zu erzeugen, der auf dem semantischen Konzept basiert. Dieser Erzeugungsprozess benutzt vorzugsweise ein paariges Wörterbuch von Sätzen – sowohl in der Ausgangssprache als auch in der Zielsprache. In einer alternativen Ausführungsform werden die Sätze automatisch erzeugt; und zwar auf der Basis typischer Sätze, die aus den verfügbaren Schlitzen in einem semantischen Rahmen konstruiert worden sind. Dies ist jedoch nicht so zu verstehen, dass die vorliegende Erfindung darauf beschränkt ist, stets über alle 3 Betriebsarten zu verfügen, sondern auch nur ein oder zwei Betriebsarten für das Computerantwortmodul34 haben kann. - In einer alternativen Ausführungsform wird das Computerantwortmodul
34 vom Dialog-Manager30 angewiesen, eine Suche in der entfernten Datenbank70 auszuführen, um den Käufer20 mit Informationen über ein bestimmtes Stück Handelsware zu versorgen. In diesem, nicht darauf beschränkten Beispiel, kann der Dialog-Manager30 das Compterantwortmodul34 beauftragen, in der entfernten Datenbank70 des Geschäftes nach dem Preisbereich derjenigen Handelsware zu suchen, an der der Käufer20 interessiert ist. Die entfernte Datenbank70 kann mit dem Dialog-Manager30 durch konventionelle Methoden, wie z. B. durch Übertragung mittels Radiofrequenzen, kommunizieren. Die alternative Ausführungsform verbessert die Qualität des Dialogs zwischen Käufer20 und Verkaufsperson22 wesentlich, indem sie dem Käufer20 Informationen zur Verfügung stellt, sodass der Käufer20 eine noch aussagefähigere Anforderung an das Verkaufsperson22 stellen kann. - Der Dialog-Manager
30 nimmt eine verbindende Rolle im Dialog ein, indem er einen Hin- und Her-Dialog mit dem Käufer20 ausführt, bevor der Käufer20 mit der Verkaufsperson22 kommuniziert. In einer solchen Rolle nutzt der Dialog-Manager30 die Lehren aus der vorliegenden Erfindung und ist damit in der Lage, wirkungsvoll den Wechselaspekt eines menschlichen, hin- und hergehenden Dialoges zu organisieren. Der Dialog-Manager30 ist in der Lage, seine eigene Entscheidung darüber zu treffen, welche Richtung der Dialog mit dem Käufer20 im nächsten Schritt nehmen wird und wann eine neue Richtung des Dialoges ausgelöst werden wird. - Wenn z. B. der Käufer
20 einen bestimmten Typ eines Hemdes innerhalb eines bestimmten Preisbereiches angefordert hat, überprüft der Dialog-Manager, ob ein solches Hemd innerhalb dieses Preisrahmens erhältlich ist. So eine Überprüfung kann über die entfernte Datenbank70 gemacht werden. In diesem Beispiel erkennt der Dialog-Manager30 , dass ein solches Hemd innerhalb des Preisbereiches vom Käufer nicht erhältlich ist, dass jedoch in diesem Preisbereich ein anderer Typ eines Hemdes erhältlich ist. Auf diese Weise kann der Dialog-Manager30 ableiten, ob eine bestimmte Aktion oder ein bestimmtes Ziel des Käufers machbar ist und den Käufer dabei unterstützen, dieses Ziel zu erreichen. -
3a –3b zeigt die Ausführungsschritte in Verbindung mit dem Dialog-Sprach-Entwicklungssystem von2 . Der Start-Anzeige-Block120 zeigt an, dass der Prozess-Block124 ausgeführt werden soll. Im Prozess-Block128 spricht der Käufer in einer ersten Sprache (z.B. Englisch) über ein bestimmtes Hemd. Im Prozess-Block128 erkennt die vorliegende Erfindung den Vortrag des Käufers und leitet im Prozessblock132 vorbestimmte Wörter oder Phrasen aus dem Vortrag des Käufers ab, wie z. B. Phrasen über die Hemdgröße oder die Hemdfarbe. - Der Prozessblock
136 leitet die semantischen Teile aus dem Vortrag des Verkäufers durch Benutzung des globalen Persers ab. Prozess-Block140 belegt die zutreffenden Rahmen mit den abgeleiteten semantischen Teilen aus dem Vortrag des Verkäufers. Der Ablauf wird vorgesetzt im Fortsetzungsblock A144 . - Mit Bezug auf
3b zeigt der Fortsetzungsblock A144 an, dass der Entscheidungsblock148 ausgeführt werden muss. Der Entscheidungsblock148 fragt nach, ob eine ausreichende Anzahl von Schlitzen besetzt ist, um mit der Übersetzung in eine zweite Sprache beginnen zu können, mit der Absicht zum Verkäufer in der zweiten Sprache zu kommunizieren. Wenn eine ausreichende Anzahl von Schlitzen belegt ist, fordert der Prozessblock140 den Sprecher auf, die Anforderungen an den Verkäufer zu überprüfen und zu bestätigen. Vorzugsweise erlaubt die vorliegende Erfindung dem Benutzer die Bestätigungsfunktion ein- oder aus zuschalten, je nach dem wie schnell der Benutzer in den Dialog mit einer anderen Person eintreten möchte. - Der Prozessblock
152 übersetzt die abgeleiteten semantischen Teile in die Sprache des Verkäufers. Im Prozessblock156 erfolgt die Sprach-Synthese der Übersetzung. Gemäß der Technologie der vorliegenden Erfindung setzt der Prozessblock160 alle nachträglichen Antworten der Verkaufsperson ebenso um, wie alle nachträglichen Antworten des Käufers. Die Umsetzung wird im End-Block164 beendet. - Wenn jedoch der Entscheidungsblock
148 erkennt, dass eine ausreichende Anzahl von Schlitzen noch nicht ausgefüllt ist, wird die Ausführung im Prozessblock168 fortgesetzt. Der Prozessblock168 versucht, alle fehlenden Schlitze mit Informationen aus einer Datenbanksuche zu füllen. Wenn es immer noch unbesetzte Schlitzte gibt, versucht die vorliegende Erfindung, alle noch leeren Schlitze mit Informationen aus dem Dialog-Historien-Datenspeicher im Prozessblock172 zu füllen. - Wenn immer noch Information fehlt, baut Prozessblock
176 eine Anfrage an den Käufer auf und macht ihn darauf aufmerksam, dass er Informationen in Bezug auf die fehlenden Schlitze zur Verfügung stellen soll. Prozessblock180 führt die Sprach-Synthese der aufgebauten Anfrage durch. Im Prozessblock184 antwortet der Käufer mit den angefragten Informationen und der Prozess setzt sich im Fortsetzungsblock B168 in3a fort, worin die vorliegende Erfindung den Vortrag des Käufers im Prozessblock128 erkennt. -
4 zeigt eine alternative Ausführungsform der vorliegenden Erfindung, worin der Dialog vorrangig zwischen dem Nutzer20 und dem Dia logsprachentwicklungssystems24 ausgeführt wird. In einer solchen Ausführungsform nimmt der Dialog-Manager eine noch weiter beherrschende Rolle im Dialog ein, indem er festlegt, wann ein Wechsel in dem hin- und her-gehenden Dialog stattfinden soll. Der lokale Parser60 und der globale Parser62 ziehen aus dem erkannten Vortrag des Verkäufers in Beziehung zur gegenwärtigen Aufgabe aussagefähige Informationen heraus. Der Dialogmanager30 nutzt die bereichsabhängige Wissensdatenbank63 welche die Aufgaben bezogene Semantik enthält, um den Benutzer durch die Semantik der Aufgabe oder des Zieles zu führen. - Eine alternative Ausführungsform ist für eine Situation wie z.B. die Reservierung eines Fluges sinnvoll, aber nicht darauf beschränkt. In diesem nichteinschränkendem Beispiel wünscht ein Sprecher einen Flug von Detroit nach Boston. Aber der Dialog-Manager
30 erkennt durch die entfernte Datenbank70 dass über20 Flüge geplant sind, die die ursprünglichen Bedingungen des Sprechers erfüllen. In einer solchen Situation nimmt der Dialog-Manager30 eine proaktive Rolle ein, indem er den Sprecher fragt, ob er die Liste der verfügbaren Flüge, sortiert nach ansteigendem Preis, anhören möchte, oder indem er den Sprecher fragt, welche Klasse er haben möchte. Auf diese Weise ist die vorliegende Erfindung in der Lage, den Fluss des Dialoges mit dem Sprecher zu kontrollieren und zu leiten, um ein vorbestimmtes Ziel zu erreichen. -
5a –5b zeigt die Ausführungsschritte in Verbindung mit der alternativen Ausführungsform von4 im nichteinschränkenden Kontext eines Nutzers, der eine Flugreise zu unternehmen wünscht. Mit Bezug auf5a zeigt der Start-Anzeige-Block220 an, dass der Prozessblock224 auszuführen ist. Im Prozessblock224 sagt ein Nutzer einem erfindungsgemäßen Gerät, dass er eine Flugreise unternehmen möchte. Im Prozessblock228 wird der Vortrag des Benutzers erkannt und im Prozessblock232 werden vorbestimmte Wörter oder Phrasen aus dem Vor trag des Verkäufers abgeleitet, wie z.B. Phrasen über den Bestimmungsort oder das Datum. - Der Prozessblock
236 leitet semantische Teile aus dem Vortrag des Benutzers durch Gebrauch des globalen Parsers ab. Der Prozessblock240 füllt die geeigneten Rahmen mit den abgeleiteten semantischen Teilen aus dem Vortrag des Verkäufers. Der Prozessablauf wird in5b im Fortsetzungsblock A244 fortgesetzt. - Mit Bezug auf
5b fragt der Entscheidungsblock248 nach, ob eine ausreichende Anzahl von Schlitzen belegt ist, um mit der Abfrage einer entfernten Flugdatenbank beginnen zu können. Solch eine Abfrage kann in der Flugdatenbank einer größeren Luftfahrtgesellschaft gemacht werden. Wenn eine ausreichende Anzahl von Schlitzen belegt ist, um die Nachfrage beginnen zu können, dann baut der Prozessblock252 ein Datenbank-Such-Kommando auf der Basis der semantischen Komponenten der Rahmen auf. Die Datenbanksuche fragt entfernte Flugdatenbanken nach möglichen Flügen, die den Erfordernissen des Nutzers entsprechen. Der Prozessblock256 enthält die Ergebnisse von der entfernten Datenbank und in Prozessblock260 führt die vorliegende Erfindung die Sprachsynthese von dem Ergebnis der Datenbanksuche aus, um die Ergebnisse gegenüber dem Benutzer auszusprechen. Der Prozessblock260 kann auch eine Zusammenfassung der Datenbanksuchergebnisse formulieren und gegenüber dem Benutzer aussprechen. Wenn keine Ergebnisse erhalten worden sind, dann wird der Dialog-Manager vorzugsweise die schwächste Bedingung aufweichen, um dann wenigstens noch einen geeigneten Flug auszuwählen. Diese Fähigkeit des Prozessblockes260 haben ebenso wie die anderen Fähigkeiten sowohl die unidirektionale als auch die multidirektionale Ausführung der vorliegenden Erfindung. - Sobald der Besucher keine weiteren Vorträge in die gegenwärtige Erfindung eingibt, endet die Umsetzung im Endblock
264 . Wenn jedoch der Entscheidungsblock248 erkennt, dass noch eine zu geringe Anzahl von Schlitzen belegt worden ist, um die Suche in entfernten Flugdatenbanken zu beginnen, dann versucht der Prozessblock268 die fehlenden Schlitze mit Informationen aus der entfernten Datenbank zu füllen. Wenn z. B. der Nutzer das Datum der Abreise ebenso wie den Beginn und den Bestimmungsort der Reise spezifiziert hat, aber keine Information in Bezug auf die gewünschte Zeit für Abreise oder Ankunft zur Verfügung gestellt hat, dann fragt die vorliegende Erfindung die entfernte Datenbank ab, um Zeiten zu finden, bei denen Flüge von dem gewünschten Ort abgehen, bzw. dort ankommen. Diese Zeiten werden mit dem Nutzer kommuniziert. - Wenn nötig versucht der Prozessblock
272 alle fehlenden Schlitze mit Informationen aus dem Dialog-Historien-Daten-Speicher zu füllen. Der Prozessblock276 baut eine gesprochene Anfrage an den Benutzer auf, welche fehlenden Schlitze bis jetzt noch nicht gefüllt werden konnten. Der Prozessblock280 führt die Sprachsynthese der aufgebauten Anfrage aus und in Prozessblock284 antwortet der Nutzer mit der Information. Dann führt die vorliegende Erfindung die Antwort des Benutzers gemäß Block228 aus5a aus. - Die Erfindung wird in ihrer gegenwärtig bevorzugten Form beschrieben. Aber natürlich gibt es zahlreiche Anwendungen und Ausführungen für die vorliegende Erfindung. In Übereinstimmung damit kann die Erfindung modifiziert und geändert werden, ohne das Ziel der Erfindung zu verlassen, wie es in den anhängenden Ansprüchen festgesetzt ist.
Claims (26)
- Apparat zur Ausführung der Sprachübersetzung zwischen Sprechern verschiedener Sprachen, der Folgendes umfasst: Spracherkenner (
26 ), der angepasst ist, eine in einer ersten Sprache gesprochene Äußerung eines ersten Sprechers zu empfangen und betriebsfähig ist, die Äußerung in ein digitales Format umzusetzen; Sprachverständnismodul (28 ), das zur Ermittlung semantischer Bestandteile der gesprochenen Äußerung an den Spracherkenner angeschlossen ist; Dialogmanager (30 ), der an das Sprachverständnismodul angeschlossen ist, um auf der Basis der ermittelten semantischen Bestandteile eine Bedingung für unzureichende semantische Information zu bestimmen, die in der gesprochenen Äußerung vorkommt; Computerantwortmodul (34 ), das an den Dialogmanager angeschlossen ist und betriebsfähig ist zur Ausgabe einer Antwort an den ersten Sprecher, wenn die Bedingung für unzureichende semantische Information in der gesprochenen Äußerung existiert, wobei sich die Antwort an den ersten Sprecher auf die semantischen Bestandteile der gesprochenen Äußerung bezieht; und Sprachübersetzungsmodul (40 ), das an den Dialogmanager angeschlossen ist und betriebsfähig ist, die semantischen Bestandteile in eine von der ersten Sprache verschiedene zweite Sprache zu übersetzen, falls eine Bedingung für die hinreichende Quantität semantischer Information existiert. - Apparat nach Anspruch 1, der außerdem Folgendes umfasst: Datenstruktur, um semantische Bestandteile der digitalisierten gesprochenen Äußerung den Attributen zuzuordnen, die für ein vorausbestimmtes Ziel bezeichnend sind.
- Apparat nach Anspruch 2, der außerdem Folgendes umfasst: Rahmendatenstruktur (
64 ), um semantische Bestandteile der digitalisierten gesprochenen Äußerung vorausbestimmten Slots zuzuordnen, wobei die Slots für Daten bezeichnend sind, die dazu verwendet werden, ein vorausbestimmtes Ziel zu erreichen; wobei die Slots auf der Basis der vom Sprachverständnismodul ermittelten semantischen Bestandteile bestückt werden. - Apparat nach Anspruch 3, worin der Spracherkenner die Antwort des Benutzers in ein digitales Format umsetzt; wobei das Sprachverständnismodul semantische Bestandteile der Antwort ermittelt, um die Rahmendatenstruktur mit Information zu bestücken, die sich auf die nicht hinreichende semantische Information bezieht.
- Apparat nach Anspruch 4, worin der Dialogmanager feststellt, dass hinreichende semantische Information existiert und mindestens eine computerimplementierte Maßnahme trifft, die sich auf das vorausbestimmte Ziel bezieht.
- Apparat nach Anspruch 5, worin die computerimplementierte Maßnahme aus einer Gruppe ausgewählt wird, zu der Folgendes gehört: Buchung von Hotelreservierungen über eine entfernte Datenbank, Wareneinkauf über eine entfernte Datenbank, Adressenauskunft über eine entfernte Datenbank, Geldwechsel über eine entfernte Datenbank sowie Kombinationen dieser Maßnahmen.
- Apparat nach Anspruch 3, worin der Dialogmanager die Bedingung für unzureichende semantische Information wegen mindestens eines unbestückten Slots ermittelt.
- Apparat nach Anspruch 1, worin eine erste gesprochene Äußerung in einer ersten Sprache gesprochen wird, wobei das Sprachübersetzungsmodul auf der Basis der ermittelten semantischen Bestandteile eine Übersetzung in eine zweite Sprache erzeugt; worin eine zweite gesprochene Äußerung von einem anderen Benutzer in einer zweiten Sprache an den Spracherkenner gerichtet wird; wobei das Sprachverständnismodul zweite semantische Bestandteile der zweiten gesprochenen Äußerung bestimmt; wobei der Dialogmanager auf der Basis der zweiten ermittelten semantischen Bestandteile eine zweite Bedingung für in der zweiten gesprochenen Äußerung existierende unzureichende semantische Information bestimmt; wobei das Sprachübersetzungsmodul, bezogen auf die zweite unzureichende semantische Information, eine zweite Übersetzung in der zweiten Sprache erzeugt; wobei die zweite Übersetzung dem anderen Benutzer zur Verfügung gestellt wird, damit der andere Benutzer eine auf die zweite unzureichende semantische Information bezogene Antwort in den Sprecherkenner sprechen kann.
- Apparat nach Anspruch 8, der außerdem Folgendes umfasst: das Computerantwortmodul kommuniziert über einen vorausbestimmte Kommunikationsmodus die zweite Übersetzung an den Benutzer, wobei der vorausbestimmte Kommunikationsmodus aus der Gruppe gewählt wird, die Folgendes umfasst: einen Textdisplay-Kommunikationsmodus, ei nen Sprachvokalisierungs-Kommunikationsmodus, einen graphischen Kommunikationsmodus sowie Kombinationen dieser Modi.
- Apparat nach Anspruch 1, der außerdem Folgendes umfasst: entfernte Datenbank (
70 ), die mit dem Dialogmanager kommuniziert, um Daten zu speichern, die sich auf ein vorausbestimmtes Ziel beziehen, wobei die entfernte Datenbank dem Dialogmanager die Daten zur Verfügung stellt. - Apparat nach Anspruch 10, worin die entfernte Datenbank mit dem Dialogmanager über einen Radiofrequenz-Kommunikationsmodus kommuniziert.
- Apparat nach Anspruch 10, worin der Dialogmanager eine erste Datenbankanforderung formuliert, damit die entfernte Datenbank Daten zur Verfügung stellt, die sich auf das vorausbestimmte Ziel beziehen.
- Apparat nach Anspruch 12, worin der Dialogmanager feststellt, dass auf der Basis der Daten aus der entfernten Datenbank das vorausbestimmte Ziel im Wesentlichen nicht erreicht werden kann, wobei der Dialogmanager ermittelt, welche Elemente in der entfernten Datenbank im Wesentlichen dem vorausbestimmten Ziel ähneln, wobei der Dialogmanager diese Elemente dem Benutzer über das Sprachübersetzungsmodul mitteilt.
- Apparat nach Anspruch 13, worin die gesprochene Äußerung des Benutzers bezüglich des vorausbestimmten Ziels Beschränkungen einschließt, wobei der Dialogmanager für die entfernte Datenbank eine zweite Datenbankaufforderung formuliert, um zu ermitteln, welche Elemente in der entfernten Datenbank dem vorausbestimmten Ziel im Wesentlichen ähneln, wobei der Dialogmanager die zweite Datenbankaufforderung formuliert, indem er aus der zweiten Datenbankaufforderung mindestens eine der Beschränkungen auslässt.
- Apparat nach Anspruch 12, worin der Dialogmanager dem Benutzer eine Zusammenfassung der Daten aus der entfernten Datenbank zur Verfügung stellt.
- Apparat nach Anspruch 14, außerdem umfassend: eine Dialogverlaufsdatei (
67 ) zum Speichern einer Vielzahl von Äußerungen des Benutzers, wobei der Dialogmanager über die Dialogverlaufsdatei Information ermittelt, die sich auf unzureichende semantische Information bezieht. - Apparat nach Anspruch 16, worin der Dialogmanager feststellt, dass eine hinreichende semantische Information existiert, zumindest teilweise auf der über die Dialogverlaufsdatei ermittelten Information basierend, wobei der Dialogmanager mindestens eine computerimplementierte Maßnahme trifft, die sich auf das vorausbestimmte Ziel bezieht.
- Apparat nach Anspruch 14, worin der Dialogmanager feststellt, dass eine hinreichende semantische Information existiert und dem Benutzer die ermittelte semantische Information übermittelt, damit der Benutzer die Korrektheit der ermittelten semantischen Information bestätigt, wobei der Dialogmanager, nachdem der Benutzer die Korrektheit der ermittelten semantischen Information bestätigt hat, mindestens eine computerimplementierte Maßnahme trifft, die sich auf das vorausbestimmte Ziel bezieht.
- Apparat nach Anspruch 18, worin die computerimplementierte Maßnahme aus einer Gruppe gewählt wird, zu der Folgendes gehört: Buchung von Hotelreservierungen über eine entfernte Datenbank, Wareneinkauf über eine entfernte Datenbank, Adressenauskunft über eine entfernte Datenbank, Geldwechsel über eine entfernte Datenbank sowie Kombinationen dieser Maßnahmen.
- Apparat nach Anspruch 1, außerdem umfassend: lokalen Parser, der an das Sprachverständnismodul angeschlossen ist, um vorausbestimmte Sprachfragmente in der gesprochenen Äußerung zu identifizieren, wobei das Sprachverständnismodul aufgrund der identifizierten Sprachfragmente die semantischen Bestandteile bestimmt.
- Apparat nach Anspruch 20, worin der lokale Parser den Sprachfragmenten vorausbestimmte Tags zuordnet, wobei sich die Tags auf ein vorausbestimmtes Ziel beziehen.
- Apparat nach Anspruch 20, außerdem umfassend: globalen Parser (
62 ), der an das Sprachverständnismodul angeschlossen ist, um die semantischen Bestandteile der gesprochenen Äußerung zu ermitteln. - Apparat nach Anspruch 22, außerdem umfassend: Wissensdatenbank (
63 ) zum Kodieren der Semantik eines vorausbestimmten Fachgebiets, wobei das Fachgebiet für ein vorausbestimmtes Ziel bezeichnend ist; wobei der globale Parser die Wissensdatenbank nutzt, um die semantischen Bestandteile der gesprochenen Äußerung zu ermitteln. - Apparat nach Anspruch 23, außerdem umfassend: erste und zweite Computerspeichermittel zum Speichern einer ersten beziehungsweise zweiten Wissensdatenbank, wobei sich die erste und zweite Wissensdatenbank auf ein erstes beziehungsweise zweites Fachgebiet bezieht; wobei das erste Computerspeichermittel vom globalen Parser getrennt werden kann, sodass das Computerspeichermittel mit dem globalen Parser benutzt werden kann.
- Apparat nach Anspruch 24, worin es sich bei den ersten und zweiten Computerspeichermitteln um Flash-Speicherkarten handelt.
- Methode zum Übersetzen gesprochener Sprache zwischen Sprechern verschiedener Sprachen durch Verarbeitung einer in der ersten Sprache gesprochenen Äußerung (
124 ) eines Benutzers, wobei die Methode Folgendes umfasst: Empfang der vom Benutzer in einer ersten Sprache gesprochenen Äußerung; Umsetzung (128 ) der gesprochenen Äußerung in ein digitales Format; Ermittlung (132 ,236 ) der semantischen Bestandteile der gesprochenen Äußerung; Feststellen (148 ), aufgrund der ermittelten semantischen Bestandteile, ob in der gesprochenen Äußerung eine Bedingung unzureichender semantischer Information existiert; Erzeugung (176 ) einer Antwort an den Benutzer, wenn die Bedingung unzureichender semantischer Information in der gesprochenen Äußerung existiert, wobei sich die Antwort an den Benutzer auf die semantischen Bestandteile der gesprochenen Äußerung bezieht; Ausgabe (180 ) der erzeugten Antwort an den Benutzer, damit der Benutzer eine Antwort (284 ) bezüglich der unzureichenden semantischen Information ausspricht; und Erzeugung (152 ) einer Übersetzung der semantischen Bestandteile in eine von der ersten Sprache verschiedene zweite Sprache, falls eine Bedingung für eine hinreichende Quantität semantischer Information existiert.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/290,628 US6233561B1 (en) | 1999-04-12 | 1999-04-12 | Method for goal-oriented speech translation in hand-held devices using meaning extraction and dialogue |
US290628 | 1999-04-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60017000D1 DE60017000D1 (de) | 2005-02-03 |
DE60017000T2 true DE60017000T2 (de) | 2006-02-23 |
Family
ID=23116878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60017000T Expired - Fee Related DE60017000T2 (de) | 1999-04-12 | 2000-03-21 | Verfahren zur zielorientierten Sprachübersetzung mittels Extraktion der Bedeutung und Dialog |
Country Status (5)
Country | Link |
---|---|
US (1) | US6233561B1 (de) |
EP (1) | EP1045373B1 (de) |
JP (1) | JP2000348033A (de) |
CN (1) | CN1204513C (de) |
DE (1) | DE60017000T2 (de) |
Families Citing this family (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4538954B2 (ja) * | 1999-02-19 | 2010-09-08 | ソニー株式会社 | 音声翻訳装置、音声翻訳方法及び音声翻訳制御プログラムを記録した記録媒体 |
US8065155B1 (en) | 1999-06-10 | 2011-11-22 | Gazdzinski Robert F | Adaptive advertising apparatus and methods |
US6377913B1 (en) * | 1999-08-13 | 2002-04-23 | International Business Machines Corporation | Method and system for multi-client access to a dialog system |
US7024363B1 (en) * | 1999-12-14 | 2006-04-04 | International Business Machines Corporation | Methods and apparatus for contingent transfer and execution of spoken language interfaces |
US6598018B1 (en) * | 1999-12-15 | 2003-07-22 | Matsushita Electric Industrial Co., Ltd. | Method for natural dialog interface to car devices |
US6829603B1 (en) * | 2000-02-02 | 2004-12-07 | International Business Machines Corp. | System, method and program product for interactive natural dialog |
JP2001222296A (ja) * | 2000-02-09 | 2001-08-17 | Nec Corp | 携帯型音声再生装置およびそれを用いたガイドシステム |
US7370086B2 (en) | 2000-03-24 | 2008-05-06 | Eliza Corporation | Web-based speech recognition with scripting and semantic objects |
ATE494610T1 (de) * | 2000-03-24 | 2011-01-15 | Eliza Corp | Spracherkennung |
US7366766B2 (en) * | 2000-03-24 | 2008-04-29 | Eliza Corporation | Web-based speech recognition with scripting and semantic objects |
US6868380B2 (en) | 2000-03-24 | 2005-03-15 | Eliza Corporation | Speech recognition system and method for generating phonotic estimates |
US20030023435A1 (en) * | 2000-07-13 | 2003-01-30 | Josephson Daryl Craig | Interfacing apparatus and methods |
US7158935B1 (en) * | 2000-11-15 | 2007-01-02 | At&T Corp. | Method and system for predicting problematic situations in a automated dialog |
US20020087312A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented conversation buffering method and system |
US20020087316A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented grammar-based speech understanding method and system |
US7574362B2 (en) * | 2001-03-14 | 2009-08-11 | At&T Intellectual Property Ii, L.P. | Method for automated sentence planning in a task classification system |
US7729918B2 (en) * | 2001-03-14 | 2010-06-01 | At&T Intellectual Property Ii, Lp | Trainable sentence planning system |
WO2002073452A1 (en) * | 2001-03-14 | 2002-09-19 | At & T Corp. | Method for automated sentence planning |
US6996528B2 (en) * | 2001-08-03 | 2006-02-07 | Matsushita Electric Industrial Co., Ltd. | Method for efficient, safe and reliable data entry by voice under adverse conditions |
US20030061029A1 (en) * | 2001-08-29 | 2003-03-27 | Efraim Shaket | Device for conducting expectation based mixed initiative natural language dialogs |
US20030065504A1 (en) * | 2001-10-02 | 2003-04-03 | Jessica Kraemer | Instant verbal translator |
US7167832B2 (en) * | 2001-10-15 | 2007-01-23 | At&T Corp. | Method for dialog management |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US7286993B2 (en) * | 2002-01-31 | 2007-10-23 | Product Discovery, Inc. | Holographic speech translation system and method |
US7177814B2 (en) * | 2002-02-07 | 2007-02-13 | Sap Aktiengesellschaft | Dynamic grammar for voice-enabled applications |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US20040044517A1 (en) * | 2002-08-30 | 2004-03-04 | Robert Palmquist | Translation system |
US7191129B2 (en) * | 2002-10-23 | 2007-03-13 | International Business Machines Corporation | System and method for data mining of contextual conversations |
US20030115062A1 (en) * | 2002-10-29 | 2003-06-19 | Walker Marilyn A. | Method for automated sentence planning |
EP1567941A2 (de) | 2002-11-28 | 2005-08-31 | Koninklijke Philips Electronics N.V. | Verfahren zur zuordnung von wordklassifikationen |
US7249025B2 (en) * | 2003-05-09 | 2007-07-24 | Matsushita Electric Industrial Co., Ltd. | Portable device for enhanced security and accessibility |
BRPI0417636A (pt) * | 2003-12-16 | 2007-03-27 | Speechgear Inc | sistema, método, e, meio legìvel por computador |
JP2007515019A (ja) * | 2003-12-17 | 2007-06-07 | スピーチギア,インコーポレイティド | 翻訳ツール |
US7427024B1 (en) | 2003-12-17 | 2008-09-23 | Gazdzinski Mark J | Chattel management apparatus and methods |
US7596499B2 (en) * | 2004-02-02 | 2009-09-29 | Panasonic Corporation | Multilingual text-to-speech system with limited resources |
US7742580B2 (en) * | 2004-02-05 | 2010-06-22 | Avaya, Inc. | Methods and apparatus for context and experience sensitive prompting in voice applications |
US20060074980A1 (en) * | 2004-09-29 | 2006-04-06 | Sarkar Pte. Ltd. | System for semantically disambiguating text information |
WO2006040969A1 (ja) * | 2004-10-08 | 2006-04-20 | Matsushita Electric Industrial Co., Ltd. | 対話支援装置 |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7552053B2 (en) | 2005-08-22 | 2009-06-23 | International Business Machines Corporation | Techniques for aiding speech-to-speech translation |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US7634409B2 (en) * | 2005-08-31 | 2009-12-15 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
DE102005061365A1 (de) * | 2005-12-21 | 2007-06-28 | Siemens Ag | Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem |
US20070225973A1 (en) * | 2006-03-23 | 2007-09-27 | Childress Rhonda L | Collective Audio Chunk Processing for Streaming Translated Multi-Speaker Conversations |
US7752031B2 (en) * | 2006-03-23 | 2010-07-06 | International Business Machines Corporation | Cadence management of translated multi-speaker conversations using pause marker relationship models |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8411840B2 (en) * | 2008-01-21 | 2013-04-02 | Aspect Software Inc. | Method of unifying control of contact center system |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
CN102027467A (zh) * | 2008-05-27 | 2011-04-20 | 多基有限公司 | 视频数据的非线性表征 |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
JP2011209787A (ja) * | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
US8775156B2 (en) * | 2010-08-05 | 2014-07-08 | Google Inc. | Translating languages in response to device motion |
US8473300B1 (en) * | 2012-09-26 | 2013-06-25 | Google Inc. | Log mining to modify grammar-based text processing |
KR20140089871A (ko) * | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 대화형 서버, 그 제어 방법 및 대화형 시스템 |
US9201865B2 (en) * | 2013-03-15 | 2015-12-01 | Bao Tran | Automated assistance for user request that determines semantics by domain, task, and parameter |
US9754591B1 (en) | 2013-11-18 | 2017-09-05 | Amazon Technologies, Inc. | Dialog management context sharing |
JP2015129672A (ja) * | 2014-01-07 | 2015-07-16 | アルパイン株式会社 | 施設検索装置および方法 |
US10726831B2 (en) | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
CN107003996A (zh) | 2014-09-16 | 2017-08-01 | 声钰科技 | 语音商务 |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
CN107003999B (zh) | 2014-10-15 | 2020-08-21 | 声钰科技 | 对用户的在先自然语言输入的后续响应的系统和方法 |
CN104360897B (zh) * | 2014-10-29 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10885129B2 (en) * | 2014-12-10 | 2021-01-05 | Google Llc | Using frames for action dialogs |
CN107532914A (zh) * | 2015-05-05 | 2018-01-02 | 纽昂斯通讯公司 | 车载语音目的地输入(vde)导航解决方案中的自动数据切换方法 |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10991369B1 (en) * | 2018-01-31 | 2021-04-27 | Progress Software Corporation | Cognitive flow |
US11037559B2 (en) * | 2018-12-27 | 2021-06-15 | At&T Intellectual Property I, L.P. | Voice gateway for federated voice services |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
US5642519A (en) * | 1994-04-29 | 1997-06-24 | Sun Microsystems, Inc. | Speech interpreter with a unified grammer compiler |
JP3385146B2 (ja) * | 1995-06-13 | 2003-03-10 | シャープ株式会社 | 会話文翻訳装置 |
US5839106A (en) * | 1996-12-17 | 1998-11-17 | Apple Computer, Inc. | Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model |
US6173279B1 (en) * | 1998-04-09 | 2001-01-09 | At&T Corp. | Method of using a natural language interface to retrieve information from one or more data resources |
JP2999768B1 (ja) * | 1999-03-04 | 2000-01-17 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識誤り訂正装置 |
-
1999
- 1999-04-12 US US09/290,628 patent/US6233561B1/en not_active Expired - Lifetime
-
2000
- 2000-03-21 DE DE60017000T patent/DE60017000T2/de not_active Expired - Fee Related
- 2000-03-21 EP EP00302283A patent/EP1045373B1/de not_active Expired - Lifetime
- 2000-04-12 JP JP2000110745A patent/JP2000348033A/ja active Pending
- 2000-04-12 CN CNB001065556A patent/CN1204513C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1045373A2 (de) | 2000-10-18 |
EP1045373B1 (de) | 2004-12-29 |
DE60017000D1 (de) | 2005-02-03 |
EP1045373A3 (de) | 2001-04-04 |
CN1270359A (zh) | 2000-10-18 |
US6233561B1 (en) | 2001-05-15 |
CN1204513C (zh) | 2005-06-01 |
JP2000348033A (ja) | 2000-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60017000T2 (de) | Verfahren zur zielorientierten Sprachübersetzung mittels Extraktion der Bedeutung und Dialog | |
DE60014743T2 (de) | Verfahren und Vorrichtung zur Analyse natürlicher Sprache | |
DE60033733T2 (de) | Datenbankabfragesystem basierend auf Spracherkennung | |
DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
DE60316125T2 (de) | Verfahren und betrieb eines sprach-dialogsystems | |
DE69814114T2 (de) | Natürliche sprache verstehendes verfahren und verstehende vorrichung zur sprachsteuerung einer anwendung | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE19709518C1 (de) | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb | |
EP0802522B1 (de) | Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens | |
DE112013006770B4 (de) | Spracherkennungsvorrichtung und Spracherkennungsverfahren | |
DE60202847T2 (de) | Abfragesystem in natürlicher sprache für den zugriff auf ein informationssystem | |
DE102006006069A1 (de) | Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon | |
DE19933524A1 (de) | Verfahren zur Eingabe von Daten in ein System | |
DE60123153T2 (de) | Sprachgesteuertes Browsersystem | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
DE112016006512T5 (de) | Absichtseinschätzungsvorrichtung und Absichtseinschätzungsverfahren | |
EP1599866B1 (de) | Sprachverarbeitendes system und verfahren | |
EP1239460B1 (de) | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem | |
DE69920714T2 (de) | Spracherkennung | |
DE19910234A1 (de) | Verfahren mit mehreren Spracherkennern | |
EP1097447A1 (de) | Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache | |
DE10043531A1 (de) | Sprachdialogsystem | |
DE10118127A1 (de) | Verfahren zum Betrieb eines automatischen Branchen-Auskunftssystems | |
DE10327943B4 (de) | Unterschiedliche Zahlenleseweisen zulassendes Spracherkennungssystem | |
WO1999005681A1 (de) | Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8332 | No legal effect for de | ||
8370 | Indication of lapse of patent is to be deleted | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |