DE60017000T2

DE60017000T2 - Verfahren zur zielorientierten Sprachübersetzung mittels Extraktion der Bedeutung und Dialog

Info

Publication number: DE60017000T2
Application number: DE60017000T
Authority: DE
Inventors: Jean-Claude Santa Barbara Junqua; Roland Santa Barbara Kuhn; Matteo Santa Barbara Contolini; Murat Santa Barbara Karaorman; Ken Santa Barbara Field; Michael Goleta Galler; Yi Goleta Zhao
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-04-12
Filing date: 2000-03-21
Publication date: 2006-02-23
Anticipated expiration: 2020-03-22
Also published as: EP1045373A2; EP1045373B1; DE60017000D1; EP1045373A3; CN1270359A; US6233561B1; CN1204513C; JP2000348033A

Description

Die gegenwärtige Erfindung bezieht sich allgemein auf Sprachanalysesysteme und im Besonderen auf computerimplementierte natürliche Sprach-Parser. (Anmerkung: Parser = Grammatik-Analysator)
Der Dialog kann als die wirkungsvolle Kommunikation zwischen zwei oder mehr Teilnehmern beschrieben werden. Eine wirkungsvolle Kommunikation erfordert die Teilnahme von wenigstens zwei Partnern. Wenn zwei Partner versuchen, sich in einen Dialog zu begeben aber keine gemeinsame Sprache haben, kann ihre Kommunikation nicht wirkungsvoll sein, resultierend aus dem Fehlen eines Dialoges. Ein anderer wichtiger Aspekt des Dialoges ist das Abwechseln beim Sprechen. Ein wirkungsvoller Dialog besteht aus dem Wechsel (oder der Chance zu sprechen) für jeden der Teilnehmer.
Aktuellen, computerimplementierten Sprachentwicklungssystemen mit Übersetzung fehlt die natürliche hin- und hergehende Abwechslung eines Dialoges. Typischer Weise sind diese Systeme passive Systeme, die sklavenhaft die Sprache innerhalb eines Dialoges übersetzen. Die gegenwärtigen Systeme übernehmen kaum eine oder gar keine aktive Rolle, die Dialogteilnehmer dabei zu unterstützen, ein Ziel zu erreichen, wie z. B. den Kauf eines Flugscheines.
In „Multilingual spoken-language understanding in the MIT Voyager system", Glass J. Et Al, Speech Communication, NL, Elsevier Science Publishers, Amsterdam volume 17, Number 1 August 01, 1995 Seite 1 bis 18 (XP 004062387 ISSN – 017 – 6393) schließen die Autoren ein System mit gesprochener Sprache, das Mensch-Computer-Wechselaktionen unterstützt, ausdrücklich aus. Jedoch beschäftigt sich diese Ausschließung nicht mit der wirkungsvollen Organisation von zwei menschlichen Personen, die eine verschiedene Sprache sprechen.
In „Janus – III: Speech to speech translation in multiple languages, Lawie, A et al, IEEE International conference on acoustics, speech and signal processing (ICASSP); US Loss Alimentos, California, IEEE Comp. Society Press; 21. April 1997, Seite 99 bis 102 (XP 00789144 ISBN 7 – 8186 – 7920 – 4) ist eine Sprachübersetzungstechnik ausgeschlossen, aber dieser Ausschluss enthält nicht die Andeutung oder den Vorschlag einer Integration von Dialogorganisation zwischen Mensch zu Mensch Interaktionen.
Die vorliegende Erfindung überwindet die vorerwähnten Nachteile sowohl wie andere Nachteile. In Übereinstimmung mit den Lehren aus der gegenwärtigen Erfindung sind die computerimplementierte Methode und der Apparat für die Umsetzung von gesprochenen Anforderungen eines Benutzers ausgerüstet. Ein Spracherkenner wandelt die gesprochene Anforderung in ein digitales Format um. Eine Rahmen-Daten-Struktur ordnet semantische Komponenten von der digitalisierten, gesprochenen Anforderung vorbestimmten Schlitzen zu. (Anmerkung: Schlitz = eng begrenzter Raum im Datenspeicher) Die Schlitze sind Anzeiger für Daten, die benutzt werden, um ein vorbestimmtes Ziel zu erreichen. Ein Sprach-Verständnis-Modul, welches mit dem Sprach-Erkenner und der Rahmen-Daten-Struktur verbunden ist, leitet semantische Komponenten aus der gesprochenen Anforderung ab. Die Schlitze sind auf der Basis der vorbestimmten semantischen Komponenten belegt. Ein Dialogmanager, der mit dem Sprachverständnismodul verbunden ist, kann wenigstens einen Schlitz bestimmen, der auf der Basis der abgeleiteten semantischen Komponen ten nicht belegt ist. In einer zu bevorziehenden Ausführungsform kann der Dialogmanager die Bestätigung von belegten Schlitzen zur Verfügung stellen. Eine computererzeugte Anforderung wird formuliert, um vom Benutzer Daten in Beziehung zum unbelegten Schlitz zu erhalten.
Für ein weiter umfassendes Verständnis der Erfindung, ihres Inhalts und ihrer Vorteile soll der Bezug zu den folgenden Spezifikationen und den begleitenden Zeichnungen hergestellt werden.
Kurze Beschreibung der Zeichnungen:
1 ist ein Blockdiagramm, das die computerimplementierten Komponenten zeigt um einen Dialog zwischen wenigstens zwei Personen mit verschiedenen Sprachen wirkungsvoll zu beeinflussen;
2 ist ein Blockdiagramm, das die Komponenten eines Systems nach 1 mit mehr Einzelheiten zeigt
3a – 3b sind Flussdiagramme, welche die Verfahrensschritte in Übereinstimmung mit den Lehren der gegenwärtigen Erfindung zur Beeinflussung eines Dialoges zwischen wenigstens zwei Menschen mit verschiedenen Sprachen zeigt.
4 ist ein Blockdiagramm, das eine alternative Ausführungsform der aktuellen Erfindung zeigt, worin der Dialog vorrangig nur eine einzige Person einschließt
5 – 5b sind Flussdiagramme, welche die Verfahrensschritte für die alternative Ausführung von 4 zeigen.
Beschreibung der bevorzugten Ausführungsform
1 zeigt ein computerimplementiertes kontinuierliches Sprachentwicklungssystem für Dialoge, das zwei Menschen, die verschiedene Sprachen sprechen, eine wirkungsvolle Kommunikation erlaubt. In dem nicht darauf beschränkten Beispiel von 1 möchte ein Käufer 20 mit der Verkaufsperson 22 kommunizieren, um ein Stück Handelsware zu kaufen. Die Schwierigkeit entsteht daraus, dass der Käufer 20 nur englisch spricht, wohingegen die Verkaufsperson 22 nur japanisch spricht.
Das Dialog-Sprache-Entwicklungs-System 24 der vorliegenden Erfindung benutzt einen Spracherkenner 26 um die englische Sprache des Käufers 20 in eine Kette von Worten zu übertragen. Die Kette der Worte wird von einem Sprach-Verständnis-Modul 28 als Text gelesen. Das Modul 28 zieht daraus die semantischen Komponenten der Wortabfolge heraus.
Der Dialog-Manager 30 bestimmt auf der Basis der semantischen Komponenten, die vom Sprach-Verständnis-Modul 28 abgeleitet worden sind, ob ein ausreichender Umfang von Informationen vom Käufer 20 bereitgestellt worden ist. Wenn ein ausreichender Informationsumfang erreicht ist, erlaubt der Dialog-Manager 30 den Übersetzungsmodul 32 den Vortrag des Käufers aus den vorbestimmten semantischen Komponenten ins Japanische zu übersetzen. Das Übersetzungsmodul 32 übersetzt die semantischen Komponenten ins japanische und führt eine Sprachsynthese aus, um die japanische Übersetzung in Stimme zu übertragen, damit sie die Verkaufsperson 22 hören kann.
Die Verkaufsperson 22 benutzt dann das Dialog Sprachentwicklungssystem 24 um dem Käufer 20 zu antworten. In gleicher Weise üben ein japanischer Spracherkenner 36 und ein japanisches Sprachverständnismodul 38 die Spracherkennung für die Sprache der Verkaufsperson 22 aus, sofern ungenügende Information von der Verkaufsperson 22 bereitgestellt worden ist.
Wenn der Dialog-Manager 30 ableitet, dass ein unzureichender Umfang an Information vom Käufer zur Verfügung gestellt worden ist, um ein vorbestimmtes Ziel erreichen zu können (wie z. B. der Kauf eines Stückes Handelsware), instruiert der Dialog-Manager 30 das Computerantwortmodul 34, eine Antwort in Stimme umzusetzen, mit welcher der Benutzer gebeten wird, die fehlenden Informationsteile bereitzustellen. Ein unzureichender Umfang an Informationen kann durch Unvollständigkeiten in Bezug auf das semantische Niveau und/oder sachliche Niveau entstanden sein; ist aber nicht darauf beschränkt.
Die bevorzugte Ausführungsform ist für die Implementation in ein Computer-Hand-Gerät 43 geeignet, wobei das Gerät ein Werkzeug ist, welches dem Benutzer erlaubt, seine oder ihre Nachfragen in der Zielsprache zu formulieren. So ein tragbares „Hand-Gerät" ist gut geeignet, um einen Fahrschein oder ein Hotel in einem ausländischen Land zu reservieren, ein Stück Handelsware zu kaufen, sich bei der Suche nach dem richtigen Weg unterstützen zu lassen oder um Geld zu wechseln. Die bevorzugte Ausführung erlaubt dem Benutzer von der einen zur anderen Aufgabe zu wechseln, indem sie auf dem Hand-Gerät auswählen, welche Aufgabe sie ausführen möchten. In einer alternativen Ausführung kann eine Flashmemorykarte zur Verfügung gestellt werden, die auf einzelne Aufgaben spezialisiert ist, so dass der Benutzer von einer Aufgabe zur anderen wechseln kann. Der Benutzer kann vorzugsweise eine Flashmemorykarte, die auf eine einzige Aufgabe oder auf einen Aufgabenbereich spezialisiert ist, einstecken und sie dann wieder entfernen, sodass dann eine andere Flashmemorykarte benutzt werden kann, die auf eine zweite Aufgabe spezialisiert ist.
2 zeigt die Komponenten des Dialog-Sprache-Entwicklungssystems 24 mit mehr Einzelheiten. Im Besonderen schließt das Sprachverständnismodul 28 einen lokalen Parser 60 ein, der aufgabenspezifische Frag mente vorbestimmter Art identifizieren kann, vorzugsweise durch eine Sprachmarkierungsmethode. Das Sprachverständnismodul 28 beinhaltet auch einen globalen Parser 62, der die generelle Semantik (Anmerkung: Semantik = Wortbedeutung) von der Anforderung des Käufers herausziehen kann und der mögliche Zweideutigkeiten auf der Basis der Analyse, die vom lokalen Perser durchgeführt wird lösen kann.
z. B.: Der lokale Perser erkennt Phrasen wie Daten, Namen von Städten und Preise. Wenn ein Sprecher äußert: „Geben Sie mir einen Flug nach Boston am 23. Januar auf dem es Mittagessen gibt", erkennt der lokale Parser: „Flug" als eine Reise mit dem Flugzeug; „Boston" als Städtename; Januar den 23ten „als Datum und „Mittagessen" als Mahlzeit. Zum Beispiel verbindet in der bevorzugten Ausführung der lokale Parser „Boston" mit der Markierung eines Städtenamens. Der globale Perser setzt diese Einzelheiten zusammen (Flugreise, Städtename usw.) und erkennt, dass der Sprecher einen Flug unter bestimmten Bedingungen haben möchte.
Das Sprachverständnismodul 28 schließt die Wissensdatenbank 63 ein, welche die Semantik eines bestimmten Bereiches verschlüsselt (z. B. das zu erreichende Ziel). In diesem Sinn ist die Wissensdatenbank 63 vorzugsweise eine bereichsspezifische Datenbank wie sie mit Referenz Nr. 65 gezeigt wird. Sie wird von dem Dialog-Manager 30 gebraucht um abzuleiten, ob eine besondere Aktion in Verbindung mit dem Erreichen eines vorbestimmten Zieles möglich ist.
Die bevorzugte Ausführung verschlüsselt die Semantik über eine Rahmen-Daten-Struktur 64. Die Rahmen-Daten-Struktur 64 enthält leere Schlitze 66, die belegt sind, wenn die semantische Interpretation des glo balen Parsers 62 mit dem Rahmen übereinstimmt. z. B.: eine Rahmen-Daten-Struktur (deren Bereich der Kauf von Handelswaren ist) schließt einen nicht besetzten Schlitz ein, in dem der vom Käufer geforderte Preis für die Handelsware spezifiziert wird. Wenn der Käufer 20 den Preis zur Verfügung gestellt hat, dann ist der nicht besetzte Schlitz mit dieser Information belegt. Wenn jedoch ein besonderer Rahmen ausgefüllt werden muss, nachdem der Käufer zu Beginn seine Anforderung zur Verfügung gestellt hat, dann instruiert der Dialog-Manager 30 das Computerantwortmodul 34, den Käufer 20 darum zu bitten, dass er einen gewünschten Preis zur Verfügung stellt.
Die Rahmen-Daten-Struktur 64 schließt vorzugsweise Mehrfach-Rahmen ein, welche abwechselnd Mehrfachschlitze haben. Ein Rahmen kann Schlitze haben, die auf Eigenschaften eines Hemdes ausgerichtet sind, wie Farbe, Größe und Breite. Ein anderer Rahmen kann Schlitze haben, die auf Eigenschaften ausgerichtet sind, die in Verbindung mit der Adresse, an die das Hemd geschickt werden soll, stehen; wie z.B. Name, Adresse, Telefonnummer. Die folgende Referenz diskutiert globale Parser und Rahmen: J. Junqua und J. Haton, Robustness in Automatic Speech Recognition (Chapter 11: Spontaneous Speech) Kluwer Academic Publishers, Boston, 1996 und R. Kuhn und R. De Mori: Spoken Dialogues with Computers (Chapter 14 Sentence Interpretation) Academic Press, Boston, 1998.
Die vorliegende Erfindung schließt ein, dass der Dialog-Manager 30 Speicher von historischen Daten benutzt, um beim Ausfüllen von nicht besetzten Schlitzen zu assistieren, bevor der Sprecher um Informationen gebeten wird. Der Dialog-Historien-Daten-Speicher 67 enthält ein Logbuch der Konversation, die mit einem Gerät gemäß vorliegender Erfindung entstanden ist. Wenn z.B. ein Sprecher äußert: „Geben Sie mir einen Flug nach Boston am 23. Januar auf welchem auch Mittagessen serviert wird", prüft der Dialog-Manager 30 den Dialog-Historien-Datenspeicher 67 um zu prüfen, welchen Stadtnamen der Sprecher in einem vorherigen Dialog erwähnt haben könnte. Wenn der Sprecher erwähnt hat, dass er aus Detroit anruft, dann füllt der Dialog-Manager 30 den leeren Schlitz „Abreiseort" mit dem Städtenamen von „Detroit". Wenn eine ausreichende Anzahl von Schlitzen gefüllt worden ist, dann wird die vorliegende Erfindung den Sprecher bitten, den Flugplan zu überprüfen und zu bestätigen. Wenn in dieser Weise irgendwelche Annahmen vom Dialog-Manager 30 durch den Gebrauch des Dialog-Historien-Datenspeichers 67 sich als unzutreffend erweisen, dann kann der Sprecher diese Annahmen korrigieren.
Vorzugsweise hat das Computerantwortmodul 34 Mehrfach – Fähigkeiten und ist in der Lage, eine Antwort an den Benutzer über Sprachsynthese, Text oder Grafik zur Verfügung zu stellen. Wenn z. B. der Benutzer Hinweise auf einen besonderen Ort angefordert hat, kann der Computer antworten, in dem er eine graphische Karte zeigt, worin die Ausdrücke der Karte vom Übersetzungsmodul 40 übersetzt sind. Über dies kann das Computerantwortmodul 40 die Hinweise an den Benutzer durch Sprachsynthese aussprechen. In einer Ausführungsform benutzt das Computerantwortmodul 34 die Semantik, die erkannt worden ist, um einen Satz in der Zielsprache des Käufers zu erzeugen, der auf dem semantischen Konzept basiert. Dieser Erzeugungsprozess benutzt vorzugsweise ein paariges Wörterbuch von Sätzen – sowohl in der Ausgangssprache als auch in der Zielsprache. In einer alternativen Ausführungsform werden die Sätze automatisch erzeugt; und zwar auf der Basis typischer Sätze, die aus den verfügbaren Schlitzen in einem semantischen Rahmen konstruiert worden sind. Dies ist jedoch nicht so zu verstehen, dass die vorliegende Erfindung darauf beschränkt ist, stets über alle 3 Betriebsarten zu verfügen, sondern auch nur ein oder zwei Betriebsarten für das Computerantwortmodul 34 haben kann.
In einer alternativen Ausführungsform wird das Computerantwortmodul 34 vom Dialog-Manager 30 angewiesen, eine Suche in der entfernten Datenbank 70 auszuführen, um den Käufer 20 mit Informationen über ein bestimmtes Stück Handelsware zu versorgen. In diesem, nicht darauf beschränkten Beispiel, kann der Dialog-Manager 30 das Compterantwortmodul 34 beauftragen, in der entfernten Datenbank 70 des Geschäftes nach dem Preisbereich derjenigen Handelsware zu suchen, an der der Käufer 20 interessiert ist. Die entfernte Datenbank 70 kann mit dem Dialog-Manager 30 durch konventionelle Methoden, wie z. B. durch Übertragung mittels Radiofrequenzen, kommunizieren. Die alternative Ausführungsform verbessert die Qualität des Dialogs zwischen Käufer 20 und Verkaufsperson 22 wesentlich, indem sie dem Käufer 20 Informationen zur Verfügung stellt, sodass der Käufer 20 eine noch aussagefähigere Anforderung an das Verkaufsperson 22 stellen kann.
Der Dialog-Manager 30 nimmt eine verbindende Rolle im Dialog ein, indem er einen Hin- und Her-Dialog mit dem Käufer 20 ausführt, bevor der Käufer 20 mit der Verkaufsperson 22 kommuniziert. In einer solchen Rolle nutzt der Dialog-Manager 30 die Lehren aus der vorliegenden Erfindung und ist damit in der Lage, wirkungsvoll den Wechselaspekt eines menschlichen, hin- und hergehenden Dialoges zu organisieren. Der Dialog-Manager 30 ist in der Lage, seine eigene Entscheidung darüber zu treffen, welche Richtung der Dialog mit dem Käufer 20 im nächsten Schritt nehmen wird und wann eine neue Richtung des Dialoges ausgelöst werden wird.
Wenn z. B. der Käufer 20 einen bestimmten Typ eines Hemdes innerhalb eines bestimmten Preisbereiches angefordert hat, überprüft der Dialog-Manager, ob ein solches Hemd innerhalb dieses Preisrahmens erhältlich ist. So eine Überprüfung kann über die entfernte Datenbank 70 gemacht werden. In diesem Beispiel erkennt der Dialog-Manager 30, dass ein solches Hemd innerhalb des Preisbereiches vom Käufer nicht erhältlich ist, dass jedoch in diesem Preisbereich ein anderer Typ eines Hemdes erhältlich ist. Auf diese Weise kann der Dialog-Manager 30 ableiten, ob eine bestimmte Aktion oder ein bestimmtes Ziel des Käufers machbar ist und den Käufer dabei unterstützen, dieses Ziel zu erreichen.
3a – 3b zeigt die Ausführungsschritte in Verbindung mit dem Dialog-Sprach-Entwicklungssystem von 2. Der Start-Anzeige-Block 120 zeigt an, dass der Prozess-Block 124 ausgeführt werden soll. Im Prozess-Block 128 spricht der Käufer in einer ersten Sprache (z.B. Englisch) über ein bestimmtes Hemd. Im Prozess-Block 128 erkennt die vorliegende Erfindung den Vortrag des Käufers und leitet im Prozessblock 132 vorbestimmte Wörter oder Phrasen aus dem Vortrag des Käufers ab, wie z. B. Phrasen über die Hemdgröße oder die Hemdfarbe.
Der Prozessblock 136 leitet die semantischen Teile aus dem Vortrag des Verkäufers durch Benutzung des globalen Persers ab. Prozess-Block 140 belegt die zutreffenden Rahmen mit den abgeleiteten semantischen Teilen aus dem Vortrag des Verkäufers. Der Ablauf wird vorgesetzt im Fortsetzungsblock A 144.
Mit Bezug auf 3b zeigt der Fortsetzungsblock A 144 an, dass der Entscheidungsblock 148 ausgeführt werden muss. Der Entscheidungsblock 148 fragt nach, ob eine ausreichende Anzahl von Schlitzen besetzt ist, um mit der Übersetzung in eine zweite Sprache beginnen zu können, mit der Absicht zum Verkäufer in der zweiten Sprache zu kommunizieren. Wenn eine ausreichende Anzahl von Schlitzen belegt ist, fordert der Prozessblock 140 den Sprecher auf, die Anforderungen an den Verkäufer zu überprüfen und zu bestätigen. Vorzugsweise erlaubt die vorliegende Erfindung dem Benutzer die Bestätigungsfunktion ein- oder aus zuschalten, je nach dem wie schnell der Benutzer in den Dialog mit einer anderen Person eintreten möchte.
Der Prozessblock 152 übersetzt die abgeleiteten semantischen Teile in die Sprache des Verkäufers. Im Prozessblock 156 erfolgt die Sprach-Synthese der Übersetzung. Gemäß der Technologie der vorliegenden Erfindung setzt der Prozessblock 160 alle nachträglichen Antworten der Verkaufsperson ebenso um, wie alle nachträglichen Antworten des Käufers. Die Umsetzung wird im End-Block 164 beendet.
Wenn jedoch der Entscheidungsblock 148 erkennt, dass eine ausreichende Anzahl von Schlitzen noch nicht ausgefüllt ist, wird die Ausführung im Prozessblock 168 fortgesetzt. Der Prozessblock 168 versucht, alle fehlenden Schlitze mit Informationen aus einer Datenbanksuche zu füllen. Wenn es immer noch unbesetzte Schlitzte gibt, versucht die vorliegende Erfindung, alle noch leeren Schlitze mit Informationen aus dem Dialog-Historien-Datenspeicher im Prozessblock 172 zu füllen.
Wenn immer noch Information fehlt, baut Prozessblock 176 eine Anfrage an den Käufer auf und macht ihn darauf aufmerksam, dass er Informationen in Bezug auf die fehlenden Schlitze zur Verfügung stellen soll. Prozessblock 180 führt die Sprach-Synthese der aufgebauten Anfrage durch. Im Prozessblock 184 antwortet der Käufer mit den angefragten Informationen und der Prozess setzt sich im Fortsetzungsblock B 168 in 3a fort, worin die vorliegende Erfindung den Vortrag des Käufers im Prozessblock 128 erkennt.
4 zeigt eine alternative Ausführungsform der vorliegenden Erfindung, worin der Dialog vorrangig zwischen dem Nutzer 20 und dem Dia logsprachentwicklungssystems 24 ausgeführt wird. In einer solchen Ausführungsform nimmt der Dialog-Manager eine noch weiter beherrschende Rolle im Dialog ein, indem er festlegt, wann ein Wechsel in dem hin- und her-gehenden Dialog stattfinden soll. Der lokale Parser 60 und der globale Parser 62 ziehen aus dem erkannten Vortrag des Verkäufers in Beziehung zur gegenwärtigen Aufgabe aussagefähige Informationen heraus. Der Dialogmanager 30 nutzt die bereichsabhängige Wissensdatenbank 63 welche die Aufgaben bezogene Semantik enthält, um den Benutzer durch die Semantik der Aufgabe oder des Zieles zu führen.
Eine alternative Ausführungsform ist für eine Situation wie z.B. die Reservierung eines Fluges sinnvoll, aber nicht darauf beschränkt. In diesem nichteinschränkendem Beispiel wünscht ein Sprecher einen Flug von Detroit nach Boston. Aber der Dialog-Manager 30 erkennt durch die entfernte Datenbank 70 dass über 20 Flüge geplant sind, die die ursprünglichen Bedingungen des Sprechers erfüllen. In einer solchen Situation nimmt der Dialog-Manager 30 eine proaktive Rolle ein, indem er den Sprecher fragt, ob er die Liste der verfügbaren Flüge, sortiert nach ansteigendem Preis, anhören möchte, oder indem er den Sprecher fragt, welche Klasse er haben möchte. Auf diese Weise ist die vorliegende Erfindung in der Lage, den Fluss des Dialoges mit dem Sprecher zu kontrollieren und zu leiten, um ein vorbestimmtes Ziel zu erreichen.
5a – 5b zeigt die Ausführungsschritte in Verbindung mit der alternativen Ausführungsform von 4 im nichteinschränkenden Kontext eines Nutzers, der eine Flugreise zu unternehmen wünscht. Mit Bezug auf 5a zeigt der Start-Anzeige-Block 220 an, dass der Prozessblock 224 auszuführen ist. Im Prozessblock 224 sagt ein Nutzer einem erfindungsgemäßen Gerät, dass er eine Flugreise unternehmen möchte. Im Prozessblock 228 wird der Vortrag des Benutzers erkannt und im Prozessblock 232 werden vorbestimmte Wörter oder Phrasen aus dem Vor trag des Verkäufers abgeleitet, wie z.B. Phrasen über den Bestimmungsort oder das Datum.
Der Prozessblock 236 leitet semantische Teile aus dem Vortrag des Benutzers durch Gebrauch des globalen Parsers ab. Der Prozessblock 240 füllt die geeigneten Rahmen mit den abgeleiteten semantischen Teilen aus dem Vortrag des Verkäufers. Der Prozessablauf wird in 5b im Fortsetzungsblock A 244 fortgesetzt.
Mit Bezug auf 5b fragt der Entscheidungsblock 248 nach, ob eine ausreichende Anzahl von Schlitzen belegt ist, um mit der Abfrage einer entfernten Flugdatenbank beginnen zu können. Solch eine Abfrage kann in der Flugdatenbank einer größeren Luftfahrtgesellschaft gemacht werden. Wenn eine ausreichende Anzahl von Schlitzen belegt ist, um die Nachfrage beginnen zu können, dann baut der Prozessblock 252 ein Datenbank-Such-Kommando auf der Basis der semantischen Komponenten der Rahmen auf. Die Datenbanksuche fragt entfernte Flugdatenbanken nach möglichen Flügen, die den Erfordernissen des Nutzers entsprechen. Der Prozessblock 256 enthält die Ergebnisse von der entfernten Datenbank und in Prozessblock 260 führt die vorliegende Erfindung die Sprachsynthese von dem Ergebnis der Datenbanksuche aus, um die Ergebnisse gegenüber dem Benutzer auszusprechen. Der Prozessblock 260 kann auch eine Zusammenfassung der Datenbanksuchergebnisse formulieren und gegenüber dem Benutzer aussprechen. Wenn keine Ergebnisse erhalten worden sind, dann wird der Dialog-Manager vorzugsweise die schwächste Bedingung aufweichen, um dann wenigstens noch einen geeigneten Flug auszuwählen. Diese Fähigkeit des Prozessblockes 260 haben ebenso wie die anderen Fähigkeiten sowohl die unidirektionale als auch die multidirektionale Ausführung der vorliegenden Erfindung.
Sobald der Besucher keine weiteren Vorträge in die gegenwärtige Erfindung eingibt, endet die Umsetzung im Endblock 264. Wenn jedoch der Entscheidungsblock 248 erkennt, dass noch eine zu geringe Anzahl von Schlitzen belegt worden ist, um die Suche in entfernten Flugdatenbanken zu beginnen, dann versucht der Prozessblock 268 die fehlenden Schlitze mit Informationen aus der entfernten Datenbank zu füllen. Wenn z. B. der Nutzer das Datum der Abreise ebenso wie den Beginn und den Bestimmungsort der Reise spezifiziert hat, aber keine Information in Bezug auf die gewünschte Zeit für Abreise oder Ankunft zur Verfügung gestellt hat, dann fragt die vorliegende Erfindung die entfernte Datenbank ab, um Zeiten zu finden, bei denen Flüge von dem gewünschten Ort abgehen, bzw. dort ankommen. Diese Zeiten werden mit dem Nutzer kommuniziert.
Wenn nötig versucht der Prozessblock 272 alle fehlenden Schlitze mit Informationen aus dem Dialog-Historien-Daten-Speicher zu füllen. Der Prozessblock 276 baut eine gesprochene Anfrage an den Benutzer auf, welche fehlenden Schlitze bis jetzt noch nicht gefüllt werden konnten. Der Prozessblock 280 führt die Sprachsynthese der aufgebauten Anfrage aus und in Prozessblock 284 antwortet der Nutzer mit der Information. Dann führt die vorliegende Erfindung die Antwort des Benutzers gemäß Block 228 aus 5a aus.
Die Erfindung wird in ihrer gegenwärtig bevorzugten Form beschrieben. Aber natürlich gibt es zahlreiche Anwendungen und Ausführungen für die vorliegende Erfindung. In Übereinstimmung damit kann die Erfindung modifiziert und geändert werden, ohne das Ziel der Erfindung zu verlassen, wie es in den anhängenden Ansprüchen festgesetzt ist.

Claims

Apparat zur Ausführung der Sprachübersetzung zwischen Sprechern verschiedener Sprachen, der Folgendes umfasst: Spracherkenner (26), der angepasst ist, eine in einer ersten Sprache gesprochene Äußerung eines ersten Sprechers zu empfangen und betriebsfähig ist, die Äußerung in ein digitales Format umzusetzen; Sprachverständnismodul (28), das zur Ermittlung semantischer Bestandteile der gesprochenen Äußerung an den Spracherkenner angeschlossen ist; Dialogmanager (30), der an das Sprachverständnismodul angeschlossen ist, um auf der Basis der ermittelten semantischen Bestandteile eine Bedingung für unzureichende semantische Information zu bestimmen, die in der gesprochenen Äußerung vorkommt; Computerantwortmodul (34), das an den Dialogmanager angeschlossen ist und betriebsfähig ist zur Ausgabe einer Antwort an den ersten Sprecher, wenn die Bedingung für unzureichende semantische Information in der gesprochenen Äußerung existiert, wobei sich die Antwort an den ersten Sprecher auf die semantischen Bestandteile der gesprochenen Äußerung bezieht; und Sprachübersetzungsmodul (40), das an den Dialogmanager angeschlossen ist und betriebsfähig ist, die semantischen Bestandteile in eine von der ersten Sprache verschiedene zweite Sprache zu übersetzen, falls eine Bedingung für die hinreichende Quantität semantischer Information existiert.
Apparat nach Anspruch 1, der außerdem Folgendes umfasst: Datenstruktur, um semantische Bestandteile der digitalisierten gesprochenen Äußerung den Attributen zuzuordnen, die für ein vorausbestimmtes Ziel bezeichnend sind.
Apparat nach Anspruch 2, der außerdem Folgendes umfasst: Rahmendatenstruktur (64), um semantische Bestandteile der digitalisierten gesprochenen Äußerung vorausbestimmten Slots zuzuordnen, wobei die Slots für Daten bezeichnend sind, die dazu verwendet werden, ein vorausbestimmtes Ziel zu erreichen; wobei die Slots auf der Basis der vom Sprachverständnismodul ermittelten semantischen Bestandteile bestückt werden.
Apparat nach Anspruch 3, worin der Spracherkenner die Antwort des Benutzers in ein digitales Format umsetzt; wobei das Sprachverständnismodul semantische Bestandteile der Antwort ermittelt, um die Rahmendatenstruktur mit Information zu bestücken, die sich auf die nicht hinreichende semantische Information bezieht.
Apparat nach Anspruch 4, worin der Dialogmanager feststellt, dass hinreichende semantische Information existiert und mindestens eine computerimplementierte Maßnahme trifft, die sich auf das vorausbestimmte Ziel bezieht.
Apparat nach Anspruch 5, worin die computerimplementierte Maßnahme aus einer Gruppe ausgewählt wird, zu der Folgendes gehört: Buchung von Hotelreservierungen über eine entfernte Datenbank, Wareneinkauf über eine entfernte Datenbank, Adressenauskunft über eine entfernte Datenbank, Geldwechsel über eine entfernte Datenbank sowie Kombinationen dieser Maßnahmen.
Apparat nach Anspruch 3, worin der Dialogmanager die Bedingung für unzureichende semantische Information wegen mindestens eines unbestückten Slots ermittelt.
Apparat nach Anspruch 1, worin eine erste gesprochene Äußerung in einer ersten Sprache gesprochen wird, wobei das Sprachübersetzungsmodul auf der Basis der ermittelten semantischen Bestandteile eine Übersetzung in eine zweite Sprache erzeugt; worin eine zweite gesprochene Äußerung von einem anderen Benutzer in einer zweiten Sprache an den Spracherkenner gerichtet wird; wobei das Sprachverständnismodul zweite semantische Bestandteile der zweiten gesprochenen Äußerung bestimmt; wobei der Dialogmanager auf der Basis der zweiten ermittelten semantischen Bestandteile eine zweite Bedingung für in der zweiten gesprochenen Äußerung existierende unzureichende semantische Information bestimmt; wobei das Sprachübersetzungsmodul, bezogen auf die zweite unzureichende semantische Information, eine zweite Übersetzung in der zweiten Sprache erzeugt; wobei die zweite Übersetzung dem anderen Benutzer zur Verfügung gestellt wird, damit der andere Benutzer eine auf die zweite unzureichende semantische Information bezogene Antwort in den Sprecherkenner sprechen kann.
Apparat nach Anspruch 8, der außerdem Folgendes umfasst: das Computerantwortmodul kommuniziert über einen vorausbestimmte Kommunikationsmodus die zweite Übersetzung an den Benutzer, wobei der vorausbestimmte Kommunikationsmodus aus der Gruppe gewählt wird, die Folgendes umfasst: einen Textdisplay-Kommunikationsmodus, ei nen Sprachvokalisierungs-Kommunikationsmodus, einen graphischen Kommunikationsmodus sowie Kombinationen dieser Modi.
Apparat nach Anspruch 1, der außerdem Folgendes umfasst: entfernte Datenbank (70), die mit dem Dialogmanager kommuniziert, um Daten zu speichern, die sich auf ein vorausbestimmtes Ziel beziehen, wobei die entfernte Datenbank dem Dialogmanager die Daten zur Verfügung stellt.
Apparat nach Anspruch 10, worin die entfernte Datenbank mit dem Dialogmanager über einen Radiofrequenz-Kommunikationsmodus kommuniziert.
Apparat nach Anspruch 10, worin der Dialogmanager eine erste Datenbankanforderung formuliert, damit die entfernte Datenbank Daten zur Verfügung stellt, die sich auf das vorausbestimmte Ziel beziehen.
Apparat nach Anspruch 12, worin der Dialogmanager feststellt, dass auf der Basis der Daten aus der entfernten Datenbank das vorausbestimmte Ziel im Wesentlichen nicht erreicht werden kann, wobei der Dialogmanager ermittelt, welche Elemente in der entfernten Datenbank im Wesentlichen dem vorausbestimmten Ziel ähneln, wobei der Dialogmanager diese Elemente dem Benutzer über das Sprachübersetzungsmodul mitteilt.
Apparat nach Anspruch 13, worin die gesprochene Äußerung des Benutzers bezüglich des vorausbestimmten Ziels Beschränkungen einschließt, wobei der Dialogmanager für die entfernte Datenbank eine zweite Datenbankaufforderung formuliert, um zu ermitteln, welche Elemente in der entfernten Datenbank dem vorausbestimmten Ziel im Wesentlichen ähneln, wobei der Dialogmanager die zweite Datenbankaufforderung formuliert, indem er aus der zweiten Datenbankaufforderung mindestens eine der Beschränkungen auslässt.
Apparat nach Anspruch 12, worin der Dialogmanager dem Benutzer eine Zusammenfassung der Daten aus der entfernten Datenbank zur Verfügung stellt.
Apparat nach Anspruch 14, außerdem umfassend: eine Dialogverlaufsdatei (67) zum Speichern einer Vielzahl von Äußerungen des Benutzers, wobei der Dialogmanager über die Dialogverlaufsdatei Information ermittelt, die sich auf unzureichende semantische Information bezieht.
Apparat nach Anspruch 16, worin der Dialogmanager feststellt, dass eine hinreichende semantische Information existiert, zumindest teilweise auf der über die Dialogverlaufsdatei ermittelten Information basierend, wobei der Dialogmanager mindestens eine computerimplementierte Maßnahme trifft, die sich auf das vorausbestimmte Ziel bezieht.
Apparat nach Anspruch 14, worin der Dialogmanager feststellt, dass eine hinreichende semantische Information existiert und dem Benutzer die ermittelte semantische Information übermittelt, damit der Benutzer die Korrektheit der ermittelten semantischen Information bestätigt, wobei der Dialogmanager, nachdem der Benutzer die Korrektheit der ermittelten semantischen Information bestätigt hat, mindestens eine computerimplementierte Maßnahme trifft, die sich auf das vorausbestimmte Ziel bezieht.
Apparat nach Anspruch 18, worin die computerimplementierte Maßnahme aus einer Gruppe gewählt wird, zu der Folgendes gehört: Buchung von Hotelreservierungen über eine entfernte Datenbank, Wareneinkauf über eine entfernte Datenbank, Adressenauskunft über eine entfernte Datenbank, Geldwechsel über eine entfernte Datenbank sowie Kombinationen dieser Maßnahmen.
Apparat nach Anspruch 1, außerdem umfassend: lokalen Parser, der an das Sprachverständnismodul angeschlossen ist, um vorausbestimmte Sprachfragmente in der gesprochenen Äußerung zu identifizieren, wobei das Sprachverständnismodul aufgrund der identifizierten Sprachfragmente die semantischen Bestandteile bestimmt.
Apparat nach Anspruch 20, worin der lokale Parser den Sprachfragmenten vorausbestimmte Tags zuordnet, wobei sich die Tags auf ein vorausbestimmtes Ziel beziehen.
Apparat nach Anspruch 20, außerdem umfassend: globalen Parser (62), der an das Sprachverständnismodul angeschlossen ist, um die semantischen Bestandteile der gesprochenen Äußerung zu ermitteln.
Apparat nach Anspruch 22, außerdem umfassend: Wissensdatenbank (63) zum Kodieren der Semantik eines vorausbestimmten Fachgebiets, wobei das Fachgebiet für ein vorausbestimmtes Ziel bezeichnend ist; wobei der globale Parser die Wissensdatenbank nutzt, um die semantischen Bestandteile der gesprochenen Äußerung zu ermitteln.
Apparat nach Anspruch 23, außerdem umfassend: erste und zweite Computerspeichermittel zum Speichern einer ersten beziehungsweise zweiten Wissensdatenbank, wobei sich die erste und zweite Wissensdatenbank auf ein erstes beziehungsweise zweites Fachgebiet bezieht; wobei das erste Computerspeichermittel vom globalen Parser getrennt werden kann, sodass das Computerspeichermittel mit dem globalen Parser benutzt werden kann.
Apparat nach Anspruch 24, worin es sich bei den ersten und zweiten Computerspeichermitteln um Flash-Speicherkarten handelt.
Methode zum Übersetzen gesprochener Sprache zwischen Sprechern verschiedener Sprachen durch Verarbeitung einer in der ersten Sprache gesprochenen Äußerung (124) eines Benutzers, wobei die Methode Folgendes umfasst: Empfang der vom Benutzer in einer ersten Sprache gesprochenen Äußerung; Umsetzung (128) der gesprochenen Äußerung in ein digitales Format; Ermittlung (132, 236) der semantischen Bestandteile der gesprochenen Äußerung; Feststellen (148), aufgrund der ermittelten semantischen Bestandteile, ob in der gesprochenen Äußerung eine Bedingung unzureichender semantischer Information existiert; Erzeugung (176) einer Antwort an den Benutzer, wenn die Bedingung unzureichender semantischer Information in der gesprochenen Äußerung existiert, wobei sich die Antwort an den Benutzer auf die semantischen Bestandteile der gesprochenen Äußerung bezieht; Ausgabe (180) der erzeugten Antwort an den Benutzer, damit der Benutzer eine Antwort (284) bezüglich der unzureichenden semantischen Information ausspricht; und Erzeugung (152) einer Übersetzung der semantischen Bestandteile in eine von der ersten Sprache verschiedene zweite Sprache, falls eine Bedingung für eine hinreichende Quantität semantischer Information existiert.