CN1270359A

CN1270359A - 手持设备中使用意义提取和对话的面向目标的语言翻译方法

Info

Publication number: CN1270359A
Application number: CN00106555A
Authority: CN
Inventors: 琼－克劳德·朱奎; 罗兰·库恩; 麦特约·康图里尼; 穆拉特·卡拉奥曼; 肯·菲尔德; 迈克尔·加勒; 赵翊
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-04-12
Filing date: 2000-04-12
Publication date: 2000-10-18
Anticipated expiration: 2020-04-12
Also published as: EP1045373A2; US6233561B1; DE60017000T2; EP1045373B1; CN1204513C; DE60017000D1; JP2000348033A; EP1045373A3

Abstract

提供了一种用于处理用户的口头请求的计算机实施方法和设备,语言识别器将口头请求转换为数字格式。帧数据结构将数字化的口头请求的语义部分与预定条目联系起来。这些条目标示用于完成预定目标的数据。连至语言识别器和帧数据结构的语言理解模块确定口头请求的语义部分。这些条目根据确定的语义部分而分配。对话管理器可以确定至少一个未分配的条目及在优选实施例中可以确认分配的条目。

Description

手持设备中使用意义提取和对话的面向目标的语言翻译方法

本发明一般涉及语言分析系统，更具体地涉及计算机实施的自然语言分析器。

对话可描述为双方或多方之间的有效通信。一个有效通信需要至少两方面参加。如两个参加者愿意进行对话但又没有公共语言，则他们的通信不可能有效，导致无法对话。对话的另一个重要方面是轮换。一个有效的对话包括每个参加者的轮换(或讲话机会)。

现有计算机实施的用于翻译的语言处理系统缺乏对话的自然往返轮换特性。通常这些系统是被动系统，它们盲从地翻译对话中的语言。现有系统几乎不采取任何主动行动来引导对话以便帮助对话参加者达到目标，例如购买飞机票。

本发明能克服上述缺点和其他缺点。根据本发明原理，提供了计算机实施的用于处理来自用户的口头请求的方法和设备。一个语言识别器将口头请求转换为数字格式。一个帧数据结构将数字化口头请求的语义部分与预定条目联系起来。这些条目用于标示用于达到预定目标的数据。一个连至语言识别器和连至帧数据结构的语言理解模块确定口头请求的语义部分。条目根据确定的语义部分而分配。一个连至语言理解模块的对话管理器可根据确定的语义部分确定至少一个没有分配的条目，以及在一个优选实施例中可能提供对所分配条目的确认。将一个计算机生成的请求规范化以要求用户提供与不分配条目相关的数据。

为更全面地理解本发明，其目的和优点，应参照下列说明书和附图。

图1是用于阐述用于在至少两个使用不同语言的人之间进行对话的计算机实施部分的框图；

图2是更详细地阐述图1的系统各部分的框图；

图3a-3b是用于阐述根据本发明原理的用于在至少两个使用不同语言的人之间进行对话的操作步骤的流程图；

图4是用于阐述本发明一个选代实施例的框图，其中对话主要涉及一个人；及

图5a-5b是用于阐述图4中选代实施例的的操作步骤的流程图。

图1阐述一个计算机实施的对话连续语言处理系统，用于允许两个使用不同语言的人进行有效的交谈。在图1的不限制例子中，一个购买者20希望与一个售货者22交谈以便购买一件商品。困难在于购买者20只会说英文而售货者22只会说日文。

本发明的对话语言处理系统24使用一个语言识别器26以将购买者20的英文翻译成一串词。语言理解模块28将该串词读作文字并提取该串词的语义部分。

一个对话管理器30根据由语言理解模块28确定的语义部分来判定购买者是否已提供了足够信息量。如已提供了足够信息量，则对话管理器30允许翻译模块32把来自所确定语义部分的购买者语言翻译成日文。翻译模块32将语义部分翻译成日文并完成语言分析以使日文翻译结果发音以供售货者22听。

售货者22然后利用对话语言处理系统24对购买者20作出响应。因此，如售货者22提供了不足够的信息，则日文语言识别器36和日文语言理解模块38分别地完成售货者22语言的语言识别。

如对话管理器30判定购买者已提供了对于完成预定目标(例如购买一件商品)不足量的信息，则对话管理器30指令计算机响应模块34使一个响应发音以便要求用户提供遗漏的信息。不足量信息的困难是由于语义水平和/或实效水平的不足所引起的。

优选实施例适合于在手持计算机设备43上实施，其中该设备是一种允许用户将他或她的请求用目标语言规范化的工具。这类携带式手持设备能很好地适合于在外国订票/旅馆，购买一件商品，完成位置目录助理(location directory assistance)或货币兑换。优选实施例允许用户通过在手持设备上选择他们希望完成的任务而从一个任务切换到另一个。在一个选代实施例中，可提供对每个任务都是独一的闪烁存储卡以使用户能从一个任务切换到另一个。用户最好能插入一个与一个任务或领域相关的闪烁存储卡及随后拔出它以使与第二任务相关的另一个闪烁存储卡能供使用。

图2更详细地阐述对话语言处理系统24的各部分。具体地，语言理解模块28包括一个本地分析器60，用于识别预定的与任务相关的段落(fragment)(最好用一个语言标记方法)。语言理解模块28还包括一个全局分析器62，用于提取购买者请求的总语义及用于根据本地分析器完成的分析来解决潜在的二义性。

例如，本地分析器识别词组例如日期、城市名称和价格。如一个说话者讲出“get me a flight to Boston on January 23rd which alsoserves lunch”，本地分析器识别：“flight”为一个航班；“Boston”为一个城市名称；“January 23rd”为一个日期；及“lunch”为关于一顿饭的内容。在优选实施例中，例如，本地分析器将″Boston″与一个城市名称标记联系起来。全局分析器将这些项目(航班、城市名称等)组合在一起并识别出讲话者希望在一定约束条件下乘坐飞机。

语言理解模块28包括知识数据库63，后者将领域语义编码(即，将达到的目标)。从这方面讲，知识数据库63最好是一个由参考数字65阐述的领域特有数据库并由对话管理器30使用来判定是否有可能采取与完成预定目标相关的特定操作。

优选实施例通过一个帧数据结构64将语义编码。帧数据结构64包含空条目66，当全局分析器62的语义解释与帧匹配时，将空条目66填充。例如，一个帧数据结构(它的领域是购买商品)包括一个用于规定购买者请求的商品价格的空条目。如购买者20提供了价格，则空条目用该信息来填充。然而，如该特定帧需要在购买者已初始地提供请求后加以填充，则对话管理器30指令计算机响应模块34要求购买者20提供一个所需价格。

帧数据结构64最好包括多个帧，而它们中的每一个又具有条目。一个帧可能具有针对一件衬衫的属性的多个条目，这些属性例如颜色、尺寸和价格。另一个帧可能具有针对与发送衬衫地点相关的属性的条目，这些属性例如名字、地址、电话号码。下列参考资料讨论全局分析器和帧：J.Jungua和J.Haton的“自动语言识别的健壮性(robustness)”(第11章：自发语言)，Kluwer AcademicPublishers，Boston出版(1996)；及R.Kuhn和R.De Mori的“与计算机的口头对话”(第14章：句子解释)，Academic Press，Boston(1998)。

本发明包括对话管理器30，它使用对话历史数据文件67以便在向讲话者要求信息之前帮助填充空条目。对话历史数据文件67包含一个使用本发明设备进行会话的记录。例如，如一个讲话者讲出“get me a flight to Boston on January 23rd which also serveslunch”，则对话管理器30检查对话历史数据文件67以便验证该讲话者可能在以前对话中提到哪一个城市名称。如讲话者曾提到他从Detroit呼叫，则对话管理器30用Detroit的城市名称填入源城市的空条目。如已填够条目数，则本发明将要求讲话者证实和确认飞行计划。因此，如发现对话管理器30使用对话历史数据文件67所作任何假定不正确，则讲话者可以改正该假定。

计算机响应模块34最好是多模块，能够通过文字或图形的语言分析向用户提供响应。例如，如用户已请求指向一个特定位置的方向，则计算机响应能显示一个图形地图，在其上的项目都由翻译模块40翻译。此外，计算机响应模块40能通过语音合成向用户讲出方向。在一个实施例中，计算机响应模块34使用已经识别的语义来根据语义概念生成一个用购买者的目标语言写的句子。此生成过程最好使用成对的句子词典，一个是初始语言及一个是目标语言。在一个选代实施例中，根据从一个语义帧的可用条目中构造的每一种句子来自动地生成句子。然而，应理解本发明不限于具有现有三种模式，它能包含计算机响应模块34的一个或多个模式。

在另一个选代实施例中，对话管理器30指令计算机响应模块34在远程数据库70上完成一个搜索，以便向购买者20提供有关该件商品的信息。在此非限制例子中，对话管理器30能够指令计算机响应模块34在商店的远程数据库70中搜索购买者20感兴趣商品的价格范围。远程数据库70能够用常规方法例如通过射频通信模式完成与对话管理器的通信。选代实施例向购买者20提供信息以使购买者20能将对售货者22的更多信息的请求规范化，从而事实上改进购买者20与售货者22之间的对话。

对话管理器30在购买者20与售货者22交谈之前完成一个与购买者20的往返对话，从而在对话中发挥一个整体作用。在这个作用中，对话管理器30使用本发明原理，能够有效地管理类似人类的往返对话的轮换操作。对话管理器30能够自己决定下一次在哪个方向与购买者20对话及新方向的对话何时开始。

例如，如购买者20已请求在一个规定价格范围内的一定样式的衬衫，对话管理器30判定在此价格范围内是否能有这种衬衫。这一判定可通过远程数据库70完成。在此例子中，对话管理器30判定在购买者的价格范围内买不到这一衬衫，然而在此价格范围内可买到另一种衬衫。因此，对话管理器30能判定购买者的特定操作或目标是否可行，并协助购买者完成此目标。

图3a-3b阐述与图2的对话语言处理系统相关的操作步骤。起始标示块120标示将处理过程块124。在过程块124，购买者用第一语言(例如英文)谈论一种特定衬衫。在块128，本发明识别购买者的语言，并在过程块132确定购买者语言的预定词或词组，例如有关衬衫尺寸或颜色的词组。

过程块136使用一个全局分析器来确定购买者语言的语义部分。过程块140分配带有确定的购买者语言的语义部分的合适帧。在继续块A 144处继续处理。

参照图3b，继续块A 144标示将处理判定块148。判定块148查询是否已分配足够数量的条目以便开始翻译成第二语言从而用第二语言向售货者交谈。如已分配足够数量的条目，则过程块150要求讲话者证实和确认对售货者的请求。本发明最好允许用户根据用户优选起用或关闭确认特征以便尽快地与另一个人交换对话。

过程块152将确定的语义部分翻译成售货者的语言。过程块156完成翻译的语音合成。过程块160然后根据本发明的技术来处理任何来自售货者的随后响应及任何来自购买者的随后响应。处理在结束块164结束。

然而，如判定块148判定还没有分配足够数量的条目，则处理在过程块168处继续。过程块168试图用来自数据库搜索的信息填充任何遗漏的条目。如遗漏的条目仍然存在，则本发明试图用来自过程块172的对话历史数据文件的信息来填充任何遗漏的条目。

如仍然缺乏信息，则过程块176向购买者查询相关遗漏条目的待提供的信息。过程块180完成所构作查询的语音合成。在过程块184，购买者用查询的信息作出响应，及处理在图3b的继续块B 188处继续，其中本发明在过程块128处识别购买者语言。

图4阐述本发明的一个选代实施例，其中对话主要在用户200与对话语言处理系统24之间进行。在这个实施例中，对话管理器30确定在往返对话中何时应该轮换，从而在对话中发挥更主要作用。本地分析器60和全局分析器62从用户识别的语言中提取与手头任务相关的有意义的信息。对话管理器30使用领域相关的包含任务语义的知识数据库63以便通过任务或目标语义引导用户。

选代实施例在下个例子例如订飞机票中有用但不限于此。在此非限制例子中，讲话者希望从Detroit飞到Boston，对话管理器30通过远程数据库70知道大约有20个航班符合讲话者的初始条件。在这一情况下，对话管理器70询问讲话者是否希望按递升的票价了解航班或者询问讲话者他喜欢哪一类舱，从而发挥先知资料的作用。因此，本发明能够控制和重新引导与讲话者的对话流向以便达到预定目标。

图5a-5b阐述在希望乘飞机旅行的用户的非限制范围中与图4的选代实施例相关的操作步骤。参照图5a，开始标示块220标示将处理过程块224。在过程块224，用户向本发明的设备讲到乘飞机旅行。在过程块228，本发明识别用户语言，及在过程块232确定购买者语言的预定词或词组，例如关于城市目的地或日期的词组。

过程块236利用全局分析器来确定用户语言的语义部分。过程块240分配带有确定的购买者语言的语义部分的合适帧。处理在图5b中在继续块A 244处继续。

参照图5b，判定块248查询是否已分配了足够数量的条目以便开始查询航班远程数据库。这一查询可按主要航线航班数据库来进行。如已分配足够数量条目以便开始查询，则块252根据帧的语义部分构作一个数据库搜索命令。该数据库搜索自航班远程数据库中查询满足用户需要的可能的航班。过程块256自远程数据库获取结果，及在过程块260本发明完成数据库搜索结果的语音合成以便使结果向用户发音。过程块260也可能将数据库结果摘要规范化及使结果向用户发音。如没有获得结果，则对话管理器最好放宽最低约束以便获得至少一个合适航班。如同其他特征，过程块260的这一特征可应用于本发明实施例的单向和多向两种对话交谈。

如用户没有证实对本发明还有附加语言输入，则处理在结束块264结束。然而，如判定块248已判定没有分配足够数量的条目以开始查询航班远程数据库，则过程块268试图用来自远程数据库搜索的信息填充任何遗漏条目。例如，如用户已规定出发日期及航程起点和终点，但没有提供任何有关希望出发或到达的时间，则本发明查询远程数据库以便找出与所需出发也点和到达地点的飞机相关的时间。然后将这些时间发送给用户。

如果需要，过程块272试图用来自对话历史数据文件的信息填充遗漏的条目。过程块276构作一个有待发音化的给用户的查询，以便了解任何尚无法填充的遗漏条目。过程块280完成所构作查询的语音合成，及在过程块284用户用该信息进行响应。本发明然后执行图5a的过程块228以便处理用户响应。

虽然已用当前优选方式描述了本发明，但应理解本发明有很多应用和实施。因此，可在不背离所附权利要求书中所规定的本发明实质的情况下对本发明作出改变和修改。

Claims

1.一种在处理用户口头发言时用于完成口头翻译的设备，包括：

一个语言识别器，用于将口头发言转换成数字格式；

一个连至所述语言识别器的语言理解模块，用于确定所述口头发言的语义部分；

一个连至所述语言理解模块的对话管理器，用于根据所述确定的语义部分来确定所述口头发言中存在的语义信息的不足条件；及

一个语言翻译模块，用于生成一种与所述不足语义信息相关的翻译，

将所述生成的翻译提供给所述用户以使所述用户能向所述语言识别器发出一个与所述不足语义信息相关的响应。

2.权利要求1的设备还包括：

一个数据结构，用于将所述数字化口头发言的语义部分与标示一个预定目标的属性联系起来。

3.权利要求2的设备还包括：

一个帧数据结构，用于将所述数字化口头发言的语义部分与预定条目联系起来，所述条目标示用于完成预定目标的数据，

所述条目根据由所述语言理解模块所确定的所述语义部分而分配。

4.权利要求3的设备，其中所述语言识别器将来自所述用户的所述响应转换成数字格式，

所述语言理解模块确定所述响应的语义部分以便用与所述不足语义信息相关的信息来分配所述帧数据结构。

5.权利要求4的设备，其中所述对话管理器判定存在着足够语义信息及完成至少一个与所述预定目标相关的计算机实施的活动。

6.权利要求5的设备，其中所述计算机实施的活动选自包含以下内容的组：通过远程数据库订旅馆房间，通过远程数据库购买一件商品，通过远程数据库完成位置目录助理，通过远程数据库兑换货币以及它们的组合。

7.权利要求5的设备，其中所述口头发言使用第一语言，所述语言翻译模块根据所述确定的语义部分用第二语言生成第二翻译，所述计算机实施的活动包括使所述生成的第二翻译发音。

8.权利要求3的设备，其中所述对话管理器确定由于至少一个所述条目没有分配而引起所述语义信息不足的条件。

9.权利要求1的设备，其中所述对话管理器相对于语义水平而确定由于自所述用户输入至所述语言识别器的信息不足而引起的语义信息不足。

10.权利要求9的设备，其中所述对话管理器相对于实效水平而确定由于自所述用户输入至所述语言识别器的信息不足而引起的语义信息不足。

11.权利要求1的设备，其中第一口头发言使用第一语言，所述语言翻译模块根据所述所确定的语义部分用第二语言生成一个翻译结果。

12.权利要求11的设备，其中由另一个用户用第二语言向所述语言识别器发出第二口头发言，

所述语言理解模块确定所述第二口头发言的第二语义部分，

所述对话管理器根据所述确定的第二语义部分确定所述第二口头发言内存在的第二语义信息不足条件，

所述语言翻译模块用第二语言生成一个与所述第二语义信息不足条件相关的第二翻译结果，

所述生成的第二翻译结果提供给所述另一个用户以供所述另一个用户向所述语言识别器发出与所述第二语义信息不足条件相关的响应。

13.权利要求1的设备还包括：

一个计算机响应模块，用于通过一个预定通信模式将所述生成的第二翻译结果送至所述用户，所述预定通信模式选自一组通信模式，它们包括文字显示通信模式，语言发音化通信模式，图形通信模式和它们的组合。

14.权利要求1的设备还包括：

一个与所述对话管理器通信的远程数据库，用于存储与一个预定目标相关的数据，所述远程数据库向所述对话管理器提供所述数据。

15.权利要求14的设备，其中所述远程数据库通过一个射频通信模式与所述对话管理器通信。

16.权利要求14的设备，其中所述对话管理器将对所述远程数据库的第一数据库请求规范化以便提供与所述预定目标相关的数据。

17.权利要求16的设备，其中所述对话管理器根据来自所述远程数据库的所述数据来判定所述预定目标是基本上不可达到的，所述对话管理器判定所述远程数据库中哪些项目是基本上类似于所述预定目标的，所述对话管理器通过所述语言翻译模块向所述用户发送所述项目。

18.权利要求17的设备，其中所述用户的所述口头发言包括与所述预定目标相关的约束，所述对话管理器将对所述远程数据库的第二数据库请求规范化以便判定所述远程数据库中哪些项目是基本上类似于所述预定目标的，所述对话管理器通过从第二数据库请求中去除至少一个所述约束来将所述第二数据库请求规范化。

19.权利要求16的设备，其中所述对话管理器向所述用户提供来自所述远程数据库的所述数据的摘要。

20.权利要求1的设备还包括：

一个对话历史数据文件，用于存储所述用户的多个发言，所述对话管理器通过所述对话历史数据文件确定与所述语义信息不足条件相关的信息。

21.权利要求20的设备，其中所述对话管理器至少部分地根据通过所述对话历史数据文件确定的信息来判定存在着足够语义信息条件，所述对话管理器完成至少一个与所述预定目标相关的计算机实施活动。

22.权利要求1的设备，其中所述对话管理器确定存在着一个足够语义信息条件并将确定的语义信息送至所述用户以供用户确认所述确定的语义信息的正确性，在所述用户确认所述确定的语义信息的正确性后，所述对话管理器完成至少一个与所述预定目标相关的计算机实施活动。

23.权利要求22的设备，其中所述计算机实施活动选自以下组中：通过远程数据库订旅馆房间，通过远程数据库购买一件商品，通过远程数据库完成位置目录助理，通过远程数据库兑换货币和它们的组合。

24.权利要求22的设备，其中所述口头发言使用第一语言，所述语言翻译模块根据所述确定的语义部分用第二语言生成一个翻译结果，所述计算机实施活动包括使所述翻译的第一口头发言发音。

25.权利要求1的设备还包括：

一个连至所述语言理解模块的本地分析器，用于在所述口头发言中识别预定语言段落，所述语言理解模块根据所述识别的语言段落确定所述语义部分。

26.权利要求25的设备，其中所述本地分析器将所述语言段落与预定标记联系起来，所述标记与一个预定目标相关。

27.权利要求25的设备还包括：

一个连至所述语言理解模块的全局分析器，用于确定所述口头发言的所述语义部分。

28.权利要求27的设备还包括：

一个知识数据库，用于将一个预定领域编码，所述领域用于标示一个预定目标，

所述全局分析器利用所述知识数据库来确定所述口头发言的所述语义部分。

29.权利要求28的设备还包括：

第一和第二计算机存储媒体，用于分别存储第一和第二知识数据库，所述第一和第二知识数据库分别与第一和第二领域相关，

所述第一计算机存储媒体可从所述全局分析器中分离出来以使所述第二计算机存储媒体能用于所述全局分析器。

30.权利要求29的设备，其中所述第一和第二计算机存储媒体是闪烁存储器卡。

31.一种在处理一个用户的口头发言中完成口头翻译的方法，包括：

将所述口头发言转换为数字格式；

确定所述口头发言的语义部分；

根据所述确定的语义部分确定在所述口头发言中存在的不足语义信息条件；及

生成一个与所述不足语义信息条件相关的翻译结果，

向所述用户提供所述生成的翻译结果以使所述用户能发出一个与所述不足语义信息条件相关的响应。