CN1419686A

CN1419686A - 模拟人际交互并利用相关数据装载外部数据库的用户接口/娱乐设备

Info

Publication number: CN1419686A
Application number: CN01805385A
Authority: CN
Inventors: H·J·斯特鲁贝; L·埃舍尔曼; S·古塔; J·米兰斯基; D·L·佩勒蒂尔
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-10-30
Filing date: 2001-10-24
Publication date: 2003-05-21
Anticipated expiration: 2021-10-24
Also published as: DE60130355D1; US6795808B1; ATE372575T1; KR20020071917A; WO2002037472A2; JP2004513444A; WO2002037472A3; EP1332491B1; EP1332491A2; CN1237505C

Abstract

一种交互仿真器，例如聊天工具箱，被与一种外部数据库如电子编程向导相连接。在交互过程中，尤其是对话过程中，被收集的信息被语法分析并被用于增加数据库中的数据。交互模拟器由被保存在数据库中的数据所引导以便帮助填满可识别的空隙，例如通过间断性的提出与主题数据要求相关的问题实现。交互模拟器被提供了基于数据库需要的特定的响应模板和相应的一组用以摘录数据库所需信息的模板。另一种示例数据库用作通过关键词素材库或者其它由用户说出来的自由形式的词汇数据进行记录并检索。交互模拟器也可以被编程以便帮助用户利用为此目的而设计的模板开拓素材。

Description

模拟人际交互并利用相关数据装载外部数据库的用户接口/娱乐设备

发明背景

1.发明领域

本发明所涉及的设备用于通过各种形式的输出形式如灯光闪烁、人工语言、计算机生成的动画、声音等，模拟与用户之间的人际交互，以便创建一种有人在场的印象，他有心情参与、能交谈以及具备性格特征等。

2.背景

随着技术复杂性的日益提高，与大多数设备相关的各式各样的可能功能和选项是令人畏惧的。这种现象可由卫星和有线电视所证实，其中有些情况下节目选择的数目是很难操作的。很多实例中存在这种现象，包括蜂窝电话、个人计算机应用程序以及电子商务系统等。在这类环境中，如果机器能够进行某些日常工作而免除从众多数量的选项中进行选择，这将是非常有用的。但是，通常解决方案并不比所提出的问题更能减少痛苦。例如，利用用于各个用户的用户模板过滤掉大量选项的用户接口必须按用户的喜好被训练。例如，用户通过主动地对他/她的喜好与厌恶进行归类(“用户化”)，可以输入他/她的爱好。该一过程也可以被动实现，例如通过让计算机处理进程在一段时间内“观察”用户所制定的选择(“个性化”)。这类系统在被转让给Gemstar和Philips电子的众多专利申请中都被进行了讨论。例如，美国专利No.5515173“在电视机系统中利用录像机外部的频道选择器自动记录电视节目的系统和方法”；美国专利No.5673089“用于根据主题进行频道扫描的装置和方法”；美国专利No.5949471“用于改进父母对电视机使用控制的装置和方法”。其它实例在美国专利No.5223924中都有给出。

允许明确地或被动地详细指定喜好的用户接口通常很复杂，以致于失去了趣味和直观性。越来越多的这类系统朝向所谓的“智能”系统发展，这类系统设法能够看起来像是人类的助手而不是控制面板。例如，在复杂软件应用程序如MicrosoftOffice中的帮助对话框就接收自然的语句，并与动画准同步地给出文本响应。接收自然语言提问的接口的另一个实例是AskJeeves，一种用在因特网中的搜索引擎。

用户接口正在迅速地从功能导向型系统向着对象导向型接口发展。在前一种系统中一系列的步骤被执行且最后一步才给出理想的结果，后一类系统则允许用户处理所关心的主要事件并在结果中提供即时反馈。这种想法的最终体现是非命令式接口，例如允许用户操纵控制、体验效果而并非执行规定的一系列步骤以获取结果的虚拟现实环境。代理是另一种类型的非命令式接口。一些研究的最终目的是提供高度智能化的代理，它们能够了解有关用户需要和生活方式的所有信息并能够在任何给定的时间确切地检索出所需的用户信息。但是，这类非命令式接口的实际具体实现并未完备到能够引入到现实产品中。问题之一是要求的软件技术高度复杂并需要大量编程和/或训练。现在，计算机依然需要被告知该做些什么，和那些能够给以“智能”印象的真正易于使用的接口，对于多数应用设备而言，仍然是遥远的梦想。

但是，那些看上去聪明而实际并非如此的计算机已经存在相当一段时间了。计算机软件技术发展的一块艰难领域始于20世纪60年代中期，其中包括MIT计算机科学家Joseph Weizenbaum创建了一个除了看起来聪明、却没有实用性的简单程序。该程序通过尝试让用户讲出实情并鼓励他连续交谈的方式模拟了一个Rogerian精神治疗医生的角色。该程序被称为ELIZA。许多用户发现ELIZA十分令人信服。甚至Weizenbaum的秘书都要求能与该程序单独呆一会儿。但是，只有您愿意接受一名Rogerian精神治疗医生非常被动的交谈方式时，其中在交谈中“治疗医生”的答复通常是通过重复“病人”所说的部分内容或者通过要求“病人”对其刚刚说过的进行解释或详细阐述的方式进行，ELIZA的交谈才是有效的。使得ELIZA看起来令人信服的是它并非以死记硬背的方式进行这种交谈。例如，如果用户谈及他的母亲，ELIZA会请求该用户告诉“她”更多的有关他的家庭的情况。

下面是一段由ELIZA生成的交谈采样：

用户：所有的人都一样。

ELIZA ：哪方面？

用户：他们总是来烦我，不是这事儿就是那事儿。

ELIZA ：您能想出一个具体的例子吗？

用户：你看，我的男友把我弄到这儿来。

ELIZA ：你的男友把你弄到这儿来的。

用户：他说我消沉的时候太多了。

ELIZA ：听说你不开心我很难过。

用户：真的，我不开心。

ELIZA ：你认为到这儿来能够帮助你摆脱那些不开心吗？

用户：我需要帮助，好像确实需要。

ELIZA ：要是您得到了帮助，这对您又意味着什么呢？

用户：或许我就能和我母亲很好地相处啦。

ELIZA ：告诉我有关你家里的更多情况。

用户：我妈妈关心我。

ELIZA ：你家中还要其它人关心你吗？

用户：我父亲。

ELIZA ：您父亲。

用户：在某些方面你有点像我的父亲。

ELIZA ：你看出我们有什么相像吗？

到目前为止，实际上所有的这些所谓的交谈仿真器都使用了一种基本的方式—基于模板匹配(规则)而非任何真正的理解产生浅显的回答。例如，模板“I wish I were<x>”(其中<X>代表任意一串词)与用户的叙述“I wish I were taller.”相匹配。该模板与该机器的答复“Why do you wish you were<x>？”关联。机器将用下面的陈述进行答复：“Why do you wish you were taller？”区别一种交谈仿真器与另外一种的地方与其说是它们诡辩术和复杂度，不如说是它们响应数据库的规模和多样性更为确切。更为复杂的变体应具有更大容量的模板数据库，以及使其回答中包含无规律可循的答复，这类答复使其比ELIZA被动、平铺直叙的答复更有趣味。

一些交谈仿真器提供有关特定主题的信息，而胜于普通的交谈仿真器。例如，交谈仿真器被用于提供有关一种特定话题的信息。基本上，它们的响应库对有关某一主题的问题做好准备工作，并提供“罐装”式的回答。一些交谈仿真器被编程得看上去好像具有一种生活经历可以讲述。当他们不能提供适当的模板匹配使交谈继续进行下去的时候，他们就会讲述他们的经历。

一类典型的交谈仿真器就被描述成具有两部分：一个用户接口外壳和一个数据库。用户接口是一类计算机程序，无论哪种性格数据库或信息数据库被使用它都基本保持不变。这种数据库能赋予交谈仿真器性格、学识等。它包含有关某个话题的问题的特定答案和信息。该数据库具有预先定义好并被问题模板链接到一起的答案。交谈仿真器的真实性依赖于数据库的生成器能够在何等程度上恰当地预期人们可能提出的问题、以及与共有相同答案的一类问题的模式。用户接口接收一个人的问题，从头到尾搜索模板并返回符合它的最适当的(或最适当的任意)一种答复(或一组答复)。该技术要求程序设计者创建典型的数据库；在用户接口中没有有关自然语言的初始知识，而且系统不能依靠自己去学习。该系统并不完善，当恰当匹配不能找到时系统就会给出难以理解的话或者仅仅不加理会。但是这是尚能容忍的。原则上，完善的数据库应该对于各种可以想象到的情况都能工作，但是即使只有80％的问题能够被充分地处理，这看起来也足以维持人们对其兴趣。

制造能够进行交谈的机器的另一种方法是应用更为复杂的“智能”技术，但是如上所述，这就需要更高的复杂度和/或更多训练，以致于不能用作交谈仿真器的基础。这类尝试例如Mega Hal，它给人一种实际上没有感觉的印象。但是这种智能技术具有其用处。一项被称为“计算机语言学”的研究领域，即人工智能的一个分支，正尝试这开发一种语言的算法描述或者语法。该技术能够被用于进行句子的语法分析以及完成诸如识别一个句子中的最重要的词汇或识别直接宾语和动词以及其它类似内容的任务。实际上，该研究已经迈出很远了。计算机语言学家们对一种要求让计算机能够真正理解一个人正在讲述的内容—词汇和复合语义—的技术十分感兴趣。这要从言词(写下来的或者说出来的)中确定独立使用的词以及使用在狭小或广泛的上下文关系中的词的含义。但是，对计算机进行编程以分辨一个单词的模糊含义远远没有要求让一台计算机恰当地随之进行答复—至少单词答复—困难。

在交谈仿真器中，已被成功应用的技术典型地通过将用户的输入与其模板数据库相比进行工作。他们选择一种预定义好的能够与用户的陈述“最佳”匹配的模板，并产生一种与模板相关的答复。为了更为详细的说明该机制，使用一个具体的实例是有帮助的。为此目的，我们将使用Splotch，它是由Carnegie Mellon大学的Duane Fields所创建的一个程序，其源代码可以从CMU网址上公开地获得。“Splotch”是“Spot”的变体，这样命名是因为它是受庞爱的类，即，指不确定的光点。

Splotch像其它这类程序一样，通过模板匹配进行工作。用户输入被与模板数据库进行对比。在那些匹配的模板中，等级最高的模板被选中，然后与该模板相关的答复之一被选中作为输出。模板可以是单个词、词的组合或者短语。

一个单一的模板中可以包含可进行替换的词或者短语。例如，“钱”模板也可以与“现金”这个词匹配。还有另外一种方法可以指定这些替换：同步词典。在用户的输入与Splotch模板进行比较之前，输入中的词和短语被转换成规范的形式。这是通过将他们与同步词典中的词和短语进行比较并且对所有的变体都用优选的形式进行替换而实现。多数这类变体是可进行替换的拼写，包括拼写错误。例如，“kool”可转换成“cool”，“gotta”转换成“got to”。这样就能使一个单一的模板能够与多个可替换选择但等价的词或短语进行匹配，而无需对各种模板都指定这些可替换的选择。

模板中的词或者短语可以被标记，实现必要的包含或者禁止。如果一个词或者短语被用于禁止匹配中，那么当该词或者短语出现时，在这一特定模板中就无匹配出现。例如，“business：！none of you”，如果短语“none of you”通过前置“！”被标记成前面必须为空时，Splotch就不能对“business”模板进行匹配。另一方面，当一个词或者短语被标记成用于必要的包含时，那么如果指定的词或者短语不存在时匹配就会失败。例如，当用户输入中包括了词“gender”或者“sex”时，只有也包括词“what”时，“gender：sex：&what”模板才能成功匹配。

另外，模板中可能有变量。例如，“Do you like<x>”模板中拥有一个变量用作它的第四项。变量能够被传递到答复中，例如“No，Idon’t like<x>.”。在这种情况下，“Do you like”后的所有词都必定是变量。在模板“Men are<x>than woman”中，在“are”和“than”之间的词需要是变量。

各个模板都具有一个由执行器赋值的等级。当Splotch尝试过对用户的答复与其所有模板进行匹配后，它选中具有最高等级的模板，然后用与该模板一起被列举出的答复之一进行回答。下一次同一模板再被选中时，将选择另一个不同的答复，直到所有被列举出的答复从头到尾循环一次。

除了从模板传递来的变量外，答复中可能具有其它类型的“变量”。这类变量表示指向可替换词或者短语的占位符。例如，在回答“My favorite color is @color.w”中，表明颜色是可以从一个包含了颜色单词列表的文件“color.w”中任意选取的。这样使与一个模板相关的一种答复实际上是多个可替换的答复。在“@”文件中的短语自身也可以包含指向其它“@”文件的指针。

现有技术下的交谈仿真器，除非他们包含了数量众多的已被安装的模板文件，否则就趋于重复。大量模板文件是不易于操作的。另外，即使具有大量数目的可替换模板，交谈仿真器仍是静态的。例如，真实的人知道USSR(苏联)已经解体了，已经不再保持它曾在间谍影片中所营造出的浪漫联想。早在1989年之前被编程的交谈仿真器中将包含多个这样的模板，它们所给出的答复如果要是出自一人之口将会听起来特别怪异。

现有技术下的多数交谈仿真器，如果它们确实对性格进行了模拟，它们在这方面完成得很差劲。例如，Hutchens’HeX是成功的，因为它具有讽刺和藐视的性格特点。当然，现有技术下的交谈仿真器缺乏任何深度下的性格展现。交谈仿真器不能模拟出相互信任的关系中人们确实表现出的某种方式的分享，因为他们之间没有可以分享的历史或经历；除了缺乏性格展示外，它们通常还缺乏一种身份的外在。

交谈仿真器通常被设计为鼓励用户进行交谈。当然这是在这类程序的先驱ELIZA出现之后的想法。但是，用于引发用户进行交谈的技巧很快就会变得令人疲劳而且可预测。一种用于使交谈仿真器有趣味的设备是设计交谈仿真器使其能够提供确凿的或娱乐性的信息。因为交谈仿真器不能理解用户询问的语义，任何用以答复事实提问或者声明的尝试都导致不恰当的答复。此外，简单引用事实的交谈立刻感觉为知其一切的和讨厌的人。最令人信服的交谈仿真器鼓励用户进行交谈，并更多地根据感情而非事实给以答复，语句观点并对用户的观点和价值观给以反应(例如赞成)。这并不是说交谈仿真器在实现令人信服的同时不能做到内容自由。Hutchens就做了充分的工作，向HeX提供这类通常在所谓的闲聊中发现的信息。

交谈仿真器的另一个问题是他们特别容易根据来自用户的简要答复而放弃当前话题。他们对上下文关系毫无感知，而且难于创建一种感知上下文关系的仿真。一种解决方法是通过提出一个由用户引发的旧话题，借助于要求用户对该主题进行答复的模板—例如一个有关话题<x>的问题，提供一些持久化机制。但是一些自称上下文敏感的交谈仿真器会始终坚持一种主题，即使用户想要更换话题时也是如此。

机器学习方案中，新的交谈内容是从以往的交谈或者交谈取样中被学习的，这种方案不可能成功。这种方法通常产生新奇的答复，但是这种答复通常是无意义的。此问题部分源自这样一个事实：这些技术企图采用大量输入去从大量输出中进行选择，同时还伴随有对大量训练和结果中不可预知误差的要求。

即使对于高度可信的交谈仿真器，长期来看，他们基本上是一种娱乐，一种消遣活动。一旦了解了他们能做些什么，多数人就要问为何有人要不厌其烦地花费时间在交谈仿真器上。多数人起初被引发兴趣，后来就厌烦了，因此，甚至连交谈仿真器的娱乐价值也是有限的。利用在交谈中汇集的信息装载答复模板中的空白，或者，当计算机语言学方法被使用新的短语结构或想法，除此之外，用户发送给交谈仿真器的所有数据最终都无保留地流失掉了。因此，所有那些数据只是引发更多的闲谈，但是并没有新知识的增长，也没有一点儿被投入使用。这一点加强将交谈仿真器视作有趣的试验、几乎不具备实用判断能力的观点。

交谈仿真器的另一问题是使用他们并非是一种自然而然的行为。目前，没有一种交谈仿真器其行为能够作为大量常识的例证，这种常识如，它能够知道何时邀请用户加入到对话中，或者何时终止、暂停、或者改变话题。即使交谈仿真器有一些特别有用的东西要说，也还没有关于向交谈仿真器提供此类能力的要求的已知政策、建议，甚至认识。

一项研究领域，它产生的技术可以被应用到计算机程序中，通常被称为所谓的“情感信息计算机学”。这是关于应用计算机对人类情感和性格特征作出响应以便创建出更好的用户交互。例如，美国专利5987415说明了一种系统，其中用户感情状态和性格特征的网络模型被推导出，该推导结果被用于从各种可替换的由应用程序生成的释义中进行选择。该方法是由故障查找系统引发而产生的。故障查找系统中用户利用能够进行提问以帮助用户诊断并亲自解决问题的基于机械的系统，尝试获取有关故障例如计算机失灵的信息。该方法可被归纳如下。首先，系统基于一种网络模型确定用户的情绪，该网络模型链接着一种被预期语句的各种可替换释义。该情绪和性格特征与向用户产生反馈的引擎中所期望的情绪和性格特征被关联在一起。情绪描述符被用于推测用户的情绪，相关处理导致情绪描述符被生成并被用于从独立存在的适当答复的可替换的释义中进行选择。因此，如果计算机给出的独立存在的答复存在两种可能的释义(比如说：“Give it up”或者“Sorry，I cannot help you！”)，该应用程序将选择其中之一，该选项应最能符合编程者根据用户的情绪/性格所确定出的最适于要求计算机映射的情绪和性格。简言之，存在着一种随机模型，被用于确定出由用户答复所映射的情绪和性格，然后一个模型被用于将用户的情绪和性格与被计算机映射的期望的情绪和性格相关联。最后，与期望情绪和性格最佳匹配的答复的释义被选中，并且反过来借助于同一随机模型该释义被用于生成答复。

上述用户接口将情绪和性格从内容中分离出来。而且，随机模型也极其难于整理出来。过去，交谈仿真器在基于规则的系统中享有极大的影响力和成功。

用于向计算机传达用户态度的另一种技术措施是一种可以手动设置的用户接口。用户可以明确地指出他/她的态度，例如通过在一张面部的图像上移动鼠标将一张苦脸改成一张笑脸。这种用于创建用户接口的方法在美国专利No.5977968中被说明。然而，利用这种接口可以传达的情感范围是有限的，而且用这种方式传达情感也是困难且不自然的。

用户的情绪状态需要被计算机确定的另一种应用领域是医学诊断。例如，美国专利5617855中说明了一种系统，它将脸部和声音特点以及脑电图和其它诊断数据进行分类以辅助进行诊断。该设备是针对精神病学和神经病学领域。

在其它的应用领域中，机器能够自动地探测用户的存在或者用户的特定特征，用于机器授权和认证的目的或者出于便利的考虑。为此，一些现有技术系统采用生物统计学的传感技术、邻近探测器、射频识别标记或者其它设备。

另一种要输入用户情绪状态的系统在JP10214024中被说明，其中一种设备基于视频输入生成场景。有关用户情绪状态的信息通过一部识别系统从用户被输入，并被用于控制情节的发展。

发明概述

一种交互仿真器与交谈仿真器相似，但是具有更广范围的可行的输入和输出。人和机器可能按交谈以外的其它方式表达自己。例如，人可以使用手势、遥控、眼神以及声音(击掌)等。机器可以使灯闪烁、创建计算机生成动画、使机械设备变得有生气等。交互仿真器是一个更加概括性的术语，它囊括了整个范围内的可以被用于创建用户和机器之间表达交互的输入和输出。简言之，该发明是一种交互仿真器，它提供了比现有技术下的交谈仿真器更为便利的使用，增强了用户和仿真器之间交互的品质，而且拓展了由与仿真器进行的交互演变出来的实用性。该发明也为用户接口领域提供了数据存储和检索的某些好处。因此，本发明是围绕着一种交互仿真器而被建立起来的，该仿真器通过自动地使其自身适应某一特定用户而能对各个用户的性格中的独特方面进行响应。另外，被该交互仿真器采用一种系统和方法提供了一种机制，凭借该机制仿真器启动的交互可以对用户的状况进行响应。例如，一种交谈仿真器实施例可以停止谈话以避免打断用户的独白，而且在用户睡熟后终止交谈。而且，交互仿真器的实用性可以被扩展，通过被动地将与用户交谈中收集到的有用信息集中到可以利用这些信息的系统中实现。例如，一个电子编程向导优选项数据库可以通过从对话框中摘录出喜好与厌恶并将它们应用到数据库中而被扩大。这类数据可能是为了响应数据库的需要而从用户那里被引出来。还有，交互仿真器模型可被扩展到输入和输出形式的范围内。例如，一台具有音频输入输出性能的电视机可以产生人工语音加入交谈中，同时伴随着电视机机箱上同步化的灯或者颜色变换、或者屏幕上同步化的动画，以提供一种电视机正在交谈的印象。用户的表达也可以通过手势、声音、身体姿态、手动控制等被输入到交互仿真器中。还有，交互仿真器的输出中的独立存在的内容通过提供一种从定期更新的数据资源或者现场数据反馈中获取信息的能力而被增强。这类信息的摘取是被仿真器从交谈和/或其它交互中收集到的数据所操纵。

附图简述

图1是硬件环境的图解说明，其中本发明的一种实施例被实践。

图2是功能图概览，说明了一种可被用于按本发明的实施例实践本发明的软件系统中各个进程之间的数据流。

图3-5共同组成了图2中流程图的更为详尽的表示。

图6图解说明了一种实例情况：一个用户睡着了，图3-5中的系统对这种情况的响应。

图7图解说明了一种实例情况：用户被另外一个人打断，图3-5中的系统对这种情况的响应。

图8图解说明了一种实例情况：用户正在大笑，图3-5中的系统对这种情况的响应。

图9图解说明了一种实例情况：用户正在讨论一个感兴趣的话题，图3-5中的系统对这种情况的响应。

图10图解说明了一种实例情况：用户正感觉到沮丧，图3-5中的系统对这种情况的响应。

图11图解说明了一种实例情况：用户正在表示出兴趣，图3-5中的系统通过扩展外部数据库中的数据对这种情况响应。

优选实施例的详细说明

本发明包括一种基础原理的结合，它代表了将交谈仿真器技术向着更加有效的方向迈进了一步。现有技术已经证实交谈仿真器可以做得相当令人信服。这里提出的该发明的特点是基于这种实力，通过利用其它的已被证实的技术，例如能够将他们的环境特征进行分类的机器识别系统，将其进行扩展的。结果是交互仿真器看上去具备更多共有的常识、行为上更人性化、以及更便于使用。本发明的特点还基于交谈仿真器技术的说服力，以进行教育或者愉悦，这是通过以有效的方式利用信息交互实现的，例如，通过增加一个优选项数据库或者从数据资源如因特网上访问更进一步的信息。该发明特点中的这些主要的驱动器引入其它的必须被提及的问题。例如，如果交谈仿真器要成为未来家用电子或办公电子中的有用的主要产品，它必须无奋斗适应其中。首先，这些问题要被提出。

要成为令人信服的陪伴者，交谈仿真器要优选地通过语言进行交流，能够在由用户提供的社交环境中做出响应。因为陪伴是一种社会关系，交谈仿真器必须能够展示社交的正确行为。按一种实施例，这可以通过以下方式被提供：向交谈仿真器按以下方式提供有关特定用户的信息和限制仿真器行为的规则—即仿真器处于能够提供有礼貌的外表的形式，而且给予交谈仿真器一种一贯的讨人喜欢的性格。为了使交谈仿真器能够恰当地对特定的用户给出响应，交谈仿真器可以被一种系统所扩展，该系统允许它识别出个人，结果允许交谈仿真器适应不同的用户以及长期内适应同一用户。

优选地，交谈仿真器应采用听得见的语言作为输入和输出的手段。Splotch同许多其它的交谈仿真器一样，通过被键入的文本与用户进行交互。从文本输出的语言是一种直接的提出，只不过问题在于这一代设备的声音平淡。几种缓解这种问题的方法已被提供。首先，不在存储标准化的语句和短语(响应模板)作为简要文本并通过文本到语音转换器将其输出，而是这些响应模板的音调变化也要与他们的文本一起被存储。音调变化方案中也提供短语或句子中变量的表达式。例如，拿出模板文件中的一个标准句EX1：

EX1：Tell me，more’about，why”you，hate<x>.

撇号表明它前面的单词应被以强调的口气说出。引号表明更强的强调，逗号表示稍弱的强调。没有标记表示适中的强调。用<x>指示出的变量来自于用户说过的句子。因为它是以适中的强调被重复，所以缺少重音标记。对可变短语的强调可以从一个与标准模板答复相联系的公式中推测出来。由于该模板是一个问题，而且通常被期望能引出具亲密和敏感性质的信息，因而对变量中词的强调到最后会减弱。因此，如果短语是：

going to school，

那么强调可以被标记成在最后的音节上具有减弱的强调。这与在模板句子EX2中同样的变量短语被使用的情况形成对照。

EX2：What？You don’t like<go”ing to school”>

这里，强调是歌唱式的、突出强调的。系统设计者按照他/她的需要和优先权，选出规则的详细内容。但是，优选地，该规则应追随相关语言的自然人语音风格。在以上例子中，即使对事先不能被知晓的变量短语，定义规则也是可行的。用于变量短语的规则是不可预知的。但是，它所使用在其中的模板句子所提供的信息比简单的标准模板能够形成一条更好的用于提供音调的规则，这就是用于EX1的逐渐降低强调规则以及用于EX2的歌唱式规则。注意到在以上的实例中，只有一维的音调被讨论了，但是应当理解音调包括音调、响度、节拍以及其它尺度。这些尺度可以被提供用于由适当方案单独处理这些尺度使各个音节具有一个对应的音调-响度对。

还有几种其它方式用于解决并非从一个固定模板中获得的语言的音调问题。一种方法是将变量短语的录音回放给用户。例如，如果用户说“I think my English teacher is completely out of hermind”，交谈仿真器就播放“Why do you think your”，随后接着用户所说的一段录音—“English teacher is completely out of hermind”。声音的品质可以数字化地被修改，用以模仿交谈仿真器接口。这种方法的缺点在于，在该例中，可能听起来有些讥讽，因为用户的句子和交谈仿真器的句子要求不同的音调模式。通过修改声音数据改变音调模式是可行的。另一种可选用的方法是让交谈仿真器接口利用其自身的语言生成器注意该音调并尝试重新生成它(同样的或者经过修改的，例如形成一个问题而不是用户的声明)。

另一引起的问题是与语言理解力相关的。它必须处理的问题是确定出何时用户结束说话，以便它能够在预期的时间内给出答复。现有技术下的基于文本的交谈仿真器系统确定何时答复被期望通过简单地，例如，通过键入一个或者两个回车符将其指出实现。在通常的口语交谈中，没有这类具体指示符可被利用。然而，作为一个合适陪伴者的交谈仿真器应该知道何时用户结束说话而避免插嘴。另一方面，当交谈仿真器正在说话时如果用户插嘴，交谈仿真器必须能够认识这一点到并停止说话，恰当地进行响应。几种方法可以被单独或者联合使用。

1)超过时间间隔的域值的停顿可以被看作说话结束的信号。

a)域值停顿可以根据用户说话的节奏被调整。交谈仿真器对说话快的交谈者的响应比对说话慢的交谈者的响应快得多。

b)域值停顿可以按照用户说话和音调模板的比较结果而被调制。因为句子通常在结尾处裁去强调，这一点可以被用于缩短延迟时间。

2)交谈仿真器可以按以上(或者其它)方案简单地进行最佳猜测，如果它被用户所打断，只需要闭嘴、继续“倾听”。优选地，交谈仿真器如果已经开始进行答复，应该尽可能迅速的停止讲话。

3)交谈仿真器能够生成一种正在思考的声音，类似于词“well”或者声音“Ummmm...”或“Hmmm”，用于表明它将要说话。用户如果正在讲话就要被打断。这样就允许用户在交谈仿真器实质性地地进行答复之前终止它。这些非实质性的声响提供了其后要被打断的谈话的一种模式，它比交谈仿真器开始生成实质性答复后再被打断的模式更好。

4)使用了任意一种基于打断的方案的交谈仿真器程序能够从打断反馈中进行学习，并调整停顿时间域值。它能够从特定的用户身上寻找能够表明他/她答复的尾声已经到来的线索，这是通过将音调和节奏模式反馈给内部的机器学习处理程序实现的，其中视频线索如手势或者面部表情等，或者能提供交谈仿真器何时应当讲话的可靠的指示符的其它输入。这些也可以被明确地编程。该想法是利用用户的中断作为反馈机制用在机器学习的处理进程中。

a)各种输入可以被用在这种机器学习处理进程中：响度模式、音调模式、以及其它音调模式，当某些用户对交谈仿真器的延迟变得不耐烦时，特定词如“well...？”可能会被频繁地使用。

b)因为一个用户的风格不必与另一个用户相同，因此机器学习方案应能独立于各个用户而被发展和维持。

c)眼睛凝视的信息在辨识一个人的注意力集中方面起到非常重要的作用。该信息在现有系统中可以被用于提供交流线索。例如，它能被用于辨识一个人正在看什么，他/她正在注意着什么。用户眼睛凝视的方向由两个因素决定：头部定向和眼睛定向。头部定向确定了整体凝视的方向，而眼睛定向决定了确切的凝视方向并受到头部定向的限制。其它的提示可以从讲话者的身体倾斜方向(身体姿态)、面部表情和讲话者的情绪状态中推测出来。讲话者的情绪状态可以从比如讲话速度、音调、声音强度等声响和韵律特点中被估计出来。了解讲话者的情绪状态有利于指示何时讲话者将会结束交谈。

5)用于提示何时交谈仿真器应该讲话的线索来自于用户谈话的实质性内容。例如，问题可以通过用户谈话的实质性文本以及音调模式被识别出来，这一点可以被交谈仿真器所依赖作为它正被期望给以答复的指示。特定陈述表达或者短语可以被交谈仿真器编程分类，作为指示用户此时已经说完并且正希望得到答复。例如“What do youthink？”、“Hmmm...！”、“OK？”。

a)提示线索比被简单分类的短语更为精细。被交谈仿真器辨识的某些句子比其它句子更具终止性。例如，与“I don’t think so.”相比，“Yes，that is what I think.”更具有终止性，因为前者可能是详细解释的开头，而后者是对交谈仿真器说过的某些内容的确认。

在多数上下文关系中，让交谈仿真器更有趣而且避免重复是更可取的。这一点可以用几种方法被提供。一种方法是让交谈仿真器创造一种具有性格的形象。这一点依次又通过将其编程为能同时在感情和事实层次上进行答复的方式被提供。但是，要成为一个合适的陪伴者，这些属性必须被资格检验。交谈仿真器的兴趣、性格和情绪都必须站在用户一方。在这方面，一个可以做伴的交谈仿真器必须像ELIZA一样有支持力的，但是它还必须是令人感兴趣的。多数交谈仿真器趋于或者有趣味(至少在一段时期内)或者具有支持力，但是不能同时满足以上两方面。该问题部分出自于令人感兴趣的回答通常不能鼓励用户继续交谈。一种能够提供趣味性和支持力两者相结合的方法是提供双向式答复。它可以对用户刚刚说过的话进行或许相关、以及或许幽默的评论，同时提供支持并鼓励用户继续讲或进行详细的解释。这就要求一个能够成为陪伴者的交谈仿真器具有大量的模板，这些模板能够对表达情绪、感受、心情和态度的词进行辨识并响应。例如，如果用户说：“I hate meetings”，交谈仿真器就需要一个模板—它能与“I hate<x>”进行匹配，其答复应如“I don’t like meetings verymuch either，they are so boring.What do you dislike most aboutmeetings？”。

理想上，交谈仿真器的音调和谈话应该与交谈时的情绪氛围以及谈话回复的内容一致。其难度和适应性已经恰恰超过了回应用户最后所讲内容中的特定短语。交谈仿真器可能被赋予识别用户情绪状态的能力，它要能够对其进行响应，随着用户情绪状态的变化变换其答复。例如，它能够识别出何时用户伤心、何时高兴、何时用户的情绪状态从伤心变成高兴。这可以通过对音频、语言、用户图像、以及其它输入如他/她施加到遥控器按键上的压力等的各种特点进行分类而被提供。

音频信号包含了有关用户的信息，而这些信息不被包含在语言中。例如，用户声音的响度和音调提供了有关用户情绪状态的有用线索。同样地，背景噪声表明了活动，尤其是像神经痉挛或者哭泣一样的重复活动，它可以从音频信号中被分辨出来。一种音频信号分类器包含了对应各种音频信号的分类处理程序，因此它有能力辨识出特定的声音特征，即使当它们被叠加时也能办到。同样地，用户所在的场景视频图像可以被处理，视频图像中可分辨出来的对象和事件可以被分类以提供有关用户正在干什么的信息。例如，房间的连续而重复的运动表明焦虑。当然，最终谈话内容被分析得到用户情绪状态的提示线索。一种心情分类器的基于文本的功能可以被进行编程为能通过生成一个指示消极或评判状态的信号对反复使用具有消极属性的词进行响应。字典可以给各种输入都提供一个心情向量。心情向量可以被定义为一个对于各种心情类的权，该权表示了该心情可被一个相应词或者短句指示的几率。

输出权可以被提供用以表示心情类型的置信度。因此，各个可以选用的输出都与一个相应的置信度关联。心情分类器的输出信号可以是向量的形式，对于各个可以选用的心情类别都给出一个置信度。心情类可以被赋予一种逐渐减弱的特点，以便不至于过于突然地从一类对话转变成另一类对话。例如，如果一个用户已经表现出了近半个小时的忧郁状态，但是突然大笑起来，让心情信号突然发生改变是不可取的。

被交谈仿真器使用的响应模板每个都被提供了一个向量，用于指示模板对各种心情的适用性。争取被用于生成下一次答复的各种可选用模板的净分数通过心情类向量和模板向量的点积被权衡。心情指示可被用于修改输出模板选择的任何其它方案也可以被使用。关于使用哪个输出模板生成交谈仿真器的答复的最终确定会被可选用的心情信号所改变。即使可能存在不只一种情绪在两种情绪类的竞争中取胜，模板的选取仍能被改进。例如，一个模板符合两种可供选用的心情中的任何一个，即使被定义的心情具有高度的模糊性(即两种心情类具有相同的概率)，每个具有低的但仍然是好的置信度代表了一个好的选择。美国专利5987415中的方法被用于进行心情/性格分类。

下表表示了一种心情分类以及部分提示实例的粗略列表。这些提示实例可以利用现有技术被扩展。例如，这里有能够在某一场景中辨识并追踪用户头部位置的视频跟踪系统。也有用于生物鉴别目的的能够实现基于视频的面部识别的系统，它也适用于识别心情类。注意到可以被使用的各类指示符中包含充分但不必要的心情指示符。例如，或许只有极少数人确实高兴时在空中舞动双手，但该动作与沮丧或高兴紧密相关的概率却很高。

心情类别	指示项
心情类别	指示项	阴沉/忧郁	视频：头部相对静止不动，向下看或者周期性地移动。音频：声音轻柔，音调较高表明逆境反应。语言：单词表明心情。
轻率	视频：重复或突发性的动作，摇晃肩头；音频：讲话快速、大笑。语言：单词表明心情。	阴沉/忧郁	视频：头部相对静止不动，向下看或者周期性地移动。音频：声音轻柔，音调较高表明逆境反应。语言：单词表明心情。
轻率	视频：重复或突发性的动作，摇晃肩头；音频：讲话快速、大笑。语言：单词表明心情。	集中精力和认真	视频：静止，如果视频UI存在(例如动画)直视交谈仿真器接口。音频：正常、节奏规律的谈话。不笑。语言：单词表明心情。
沮丧/发怒	视频：手抱头，发怒或者沮丧的姿势。音频：语言是武断而激愤的。语言异乎寻常的单调。语言：单词表明心情	集中精力和认真	视频：静止，如果视频UI存在(例如动画)直视交谈仿真器接口。音频：正常、节奏规律的谈话。不笑。语言：单词表明心情。
沮丧/发怒	视频：手抱头，发怒或者沮丧的姿势。音频：语言是武断而激愤的。语言异乎寻常的单调。语言：单词表明心情	高兴/满足	视频：姿势表明高兴。视频：说话是唱歌式的，字数统计高。

优选地，交谈仿真器应该具备有关用户性格的知识，并能够相应地调节其答复。例如，某些人喜欢与具有“占据主动(take-charge)”的性格的人进行交流，与这类人在一起时，交谈仿真器可以被编程为更为自信，而与不具有这种特点的人进行交流时就被编程为更为更具试探性。一种性格分类器对于一个确定的个人可以建立一个永久模型，通过下列步骤实现：首先在各次对话中确认用户身份，然后利用用户的叙述中和他/她对交谈仿真器的反应中的提示线索，建立各次交换。

多种性格拓扑技术已被开发。其中的任何一种技术都与性格测试有关，用以确定个人所属的类型。例如，Myers-Briggs是一种四维模型，具有16种独立的性格类。性格的“五大”或者“五要素”模型是另一种已被熟知的、具有五维基底的模型。尽管交谈仿真器可以向用户提供一种测试(这种测试可以提供受用户欢迎的有趣味的交谈)，可能存在被嵌入在普通谈话中的可以被交谈仿真器用于对用户进行分类的指示符。如已被提及过的，分类是永久性的；交谈仿真器能在多次对话中维持这种分类，只有通过长期积累信息才能修改这一结论。类似的方法可以被用于确定用户的兴趣以及性格。来自用户答复中的关键字利用标准学习技术被分类，以便支持兴趣和性格的分类法。在形成答复搜索的过程中，某些关键字比其它关键字应被给以更多的重视。例如，特定答复被标记以指示用户对那些叙述的答复对于确定用户的性格和兴趣尤其相关。源自这些答复的这些关键字被相应地进行加权。这些关键字的权可以按照它们出现在用户答复中的频率而被递增(如已被指出过的，要考虑到引出这些字的交谈仿真器的答复)。

除了性格以外，可被用于改进输出选择的对象指示符也可以被交谈仿真器所采用。例如，用户的性别、年龄、身高、民族、社会经济等级、智利水平等，都可以被定义并被用在模板选择中。交谈仿真器也可以用有关该用户的其它真实信息进行编程。例如，它可以知道用户的姓名以及用户正在谈论什么，以便它能继续此话题。它还可以存储在先交谈的话题。另外，它可以被编程为能存储用户感兴趣的话题，并被赋予了当谈话暂停时提供这些话题建议的能力。这些也是持久变量，它们被与一种设备联合使用，用于确认身份，例如询问用户的姓名或者使用生物统计学方案，如声纹。

对于希望跟交谈仿真器谈论他们的感触和心情的用户，交谈仿真器必须要建立起信任。一种实现的方法是通过将交谈仿真器编程为看上去是自我揭露的，即展现有关它自身的事情，尤其是那些影响过它的“经历”。这可以通过赋予交谈仿真器一个背景故事来实现，这样它就能谈论自己了。具有历史的交谈仿真器会更令人信服，看上去具有更加强烈、真实和富于同情心的性格。背景故事的基本思想曾被用在著名的Loebner竞赛中的交谈仿真器上。一名交谈仿真器竞赛的编程者，Whalen，给它的交谈仿真器创建了一段要呈现给评审员们的故事。交谈仿真器被编程为能始终回溯到该故事中，尝试抓住评审员们的兴趣以便他们进行提问。该故事是有关交谈仿真器的失业。现有技术策略是一种尝试引导评审员们进行提问的巧技。在本发明的交谈仿真器中，背景故事是一种用于创建亲近和信任感的设备。背景故事因而被设计成能产生同情心或理解力，或者设计成能让用户“识别(identify with)”交谈仿真器。一种解决方案是定义大量的背景故事，对于各种不同的性格类别按它们适用性进行排序。因此，不仅要根据交谈中的暂时倾向还要根据用户的性格，从背景故事库中抽取出一段背景故事。

一旦交谈仿真器具备响应用户谈话的能力，交际中的前后关系就变得比较重要。因为用户不再被要求在键盘前，交谈仿真器应被编程为能够响应用户或者能够在适当的时候启动一次对话。为避免打断用户，交谈仿真器可以被编程为能够响应用户中断事件或用户的连续讲话，和只在适当的时机才开始讲话。如果用户是个小孩儿，交谈仿真器实际上被编程为当该用户确实中断时教育该用户要注意礼貌。优选地，交谈仿真器能够对用户在场或不在场，例如用户进入或者离开房间，给以响应。这样，交谈仿真器在用户进来时能够欢迎该用户，当用户离开房间时或者挪到远至需要大声方能交谈的地方时应避免交谈。无论用户繁忙还是空闲，交谈仿真器都应该能给以响应。

为了赋予交谈仿真器一种遵守交际礼仪的形象，各种输入形式要同时被使用。用户行为的各种分类要再一次利用视频、声音和语言数据等被识别。一个例子是用户把他/她的身体姿态变成与睡觉时的姿态一致，例如仰卧身体的姿态，然后用户变得安静还可能打鼾。在这种情况下，交谈仿真器被编程为要停止讲话。另一个例子是用户离开房间。这是两个简明的例子，可以被适当的图像和音频处理算法所识别。

为了更为真实，交谈仿真器被赋予了一种了解当今世界的形象。例如它被提供了各种与当前时间、天气和头条新闻相关的可变动数据。这些数据与输出模板一起被用于形成相关句子。如果电视机正开着，它可以被提供一种能够响应电视机信号中行为的能力。例如，它可以与追随着一段笑声而大笑，或者为了响应背景音乐中的哀伤曲调而呈现出心情凝重的形象。这一点可以通过赋予一种能够辨识笑声音迹以及不和谐音乐的能力而被实现。

交谈仿真器被提供了一种数据接口，它可被用在新的模板上。数据源可以通过多种方式被提供。一种方式是从被格式化后的资源中当场反馈。通过网络、切换线路、基于无线电的或者其它的通信资源的连接被提供，用于链接交谈仿真器与各种新模板资源。模板可以基于如当前新闻、股票自动收报机数据、天气和杂志文章等信息被创建。它们可以被手动创建或者自动地从可变模板中被生成。新模板可能被存储到服务器上，并周期性地发送给交谈仿真器处理进程或被其所访问。模板可能被当地存储或被存储到服务器上。模板可以被组织得如像数据库一样，以便有关用户性格属性的信息能被用于引导对模板的访问，由此，最合适的新模板可被给定的交谈仿真器用户所访问。模板不必整个地被存储。定义可变模板，利用数据库中的数据装载其空白，这是可行的。例如，可变模板由下面一个句子组成“Have you heard<x>？”。可变数据以及指示哪种模板应与其一起被使用的标记符被存储在一条记录中。交谈仿真器处理进程获取这一信息，并利用它创建谈话。在这一基本思想的基础上，其它变化是可行的，对于普通技术人员而言这是显而易见的。

另一种更新模板的方法是通过一个来自未被格式化的资源的反馈。被用于新模板中的数据并不是从其结构和组织被用于这一目的的库中被创建，而是从任何数据资源中被创建，这类数据资源如一种搜索因特网提供有关特定话题的数据的代理。假设，在交谈过程中，用户指出他尤其喜欢某个特定的作曲家。交谈仿真器处理进程可以被编程为产生一个能够在因特网上搜索有关该作曲家的信息的代理。数据分析器和过滤器在非处理性链接中可以辨识出那些与该作曲家相关的句子，并填写到模板句子中(例如，“Did you know<x>？”)以便在对话中使用。数据分析器可以采用类似的模板匹配算法，如当前这一代交谈仿真器中所使用的算法。或者，它可以采用来自计算机语言学领域中的方法，摘录出既与特定话题相关又可以被用于生成特定输出模式的信息。注意到这种处理方法不只限于语言。交谈仿真器可以获取图形、音乐以及其它的媒体信息，并将它们应用到交互中。这类应用的一个例子是一个可以代表该交谈仿真器的动画人物“播放”该作曲家一段经数字化剪辑的音乐。对这些非语言性的多媒体的变体在此后的有关交谈仿真器系统的说明中将更清楚的给出。

在最大程度上使交谈仿真器令人信服取决于其答复的品质，该品质听从于模板(包括答复)数据库的规模。目前，创建新模板是一种相当繁重的处理过程。尽管存在多种途径详细说明这些变体，这还是相当有限的。因此，在基于可行的表达方式的多数变体需要被语句成可以互相替代的模板。例如，模板“I like<x>.”中，“<x>”是变量，它与“I like horse.”相匹配，但是却不能与“I really likehorse.”匹配。一个单独的模板应为“I really like<x>.”所创建。当然，这样做是非常繁琐的。但是，问题并非只是效率低。通常，模板句法不是富于表现力的。例如，多个模板只能匹配一个变量。一种能提供这类灵活性的词汇手册是可取的。

模板句法可以提供处理可相互替换的必要条件的能力。例如，在Splotch中，目前，人们可以通过符号“&”作为前缀详细指出必要条件。由于Splotch不能在提供一种方式，能够为任何条件详细指定可替换的选择，除对各种可替换选择都创建一个独立的模板外，模板句法可以被加强以便可替换的必要条件可以被详细指定。一种标签可以被用于标识分离性的项以及利用括号、分隔连接符等这些条件可以将其化分成组，以便能够创建复杂的逻辑条件，例如利用一种好的搜索引擎所能定义出的逻辑条件。一种方案的一个好例子是一种被用于搜索Lexis@数据库的方案。特例可以被提供以消除对详细指明进行非形容词匹配的条件的错误匹配，这样就允许非相关词被忽略掉，如在上述“I really like”的情况中那样。该句法忽略了词序。例如，通过指定“I”和“like”对于匹配是必要的，该模板能够匹配以下情况“Ilike”、“ I really like”、以及“I very much like”，它还可以对下面的句子进行匹配，“Like I”、“Like，I don’t think youare making sense.”。模板句法可以被增强，以便非相关词可以被忽略，但是却不能忽略词序。例如，特例可以被加入，以致从生成与“I”和“like”模板合得上的当中排除“Like I”(对词序敏感)。另一种可能是简单地使一条规则详细指出必要条件是必须依次进行匹配。另一种可能性是具有一种例程，十分像利用用户输入中的变动部分替换规范同义词的“扩展”例程，这种例程去除了不重要的词汇。

关键字摘录不必被限制成模板匹配技术。已知的自然语言技术也可以被用于识别口语句和键入句子中的关键字和短语。

通常了解是否用户正提出一个问题是十分重要的，因为如果一个问题被提出时答复是很不相同的。是否问题被提出通常可以通过句子中的第一个词来确定，例如问句以“why”、“what”、“where”、“how”等开头。交谈仿真器可以被编程以确定是否用户的输入是一个问题。在Splotch中，一种实现方法是创建一个像扩展例程一样的例程，但是它能识别问题而不是同义词。这种处理过程应能够利用某些问题标志信号生成器如符号“ppp”修改用户的输入，以便生成模板与其进行匹配。这样使得写模板只与问题匹配并对其响应变得比较容易。在一种基于语言的系统中，自然语言或者模板匹配技术可以被用于辨识问题。同样的技术(如处理问句的技术)可以被用于处理富含情感的词：一种例程可确定是否情绪和态度被指向交谈仿真器或者其它主体上。视频线索和/或标识符(例如名字)可以被用于指示用户所提到的对象或实体(交谈仿真器或其它的人/事)。这都是决定答复类型的重要信息。

由准则可优先级化的模板超出了用户答复中的词的拟合度。例如，Splotch被编程为从两个同样令人满意的选项中选出一个更有内容的选项。这些匹配使Splotch看上去更加聪明，但是它们也可能成为交谈杀手。另一方面，企图鼓励用户继续交谈的答复，例如“Tell memore，”，可能相当令人厌烦而且重复。一种可行方案是将答复分解成两类：表明理解的答复(评论)和有助于继续交谈的答复(引出)。输出有时可能是由两种类型的答复复合而成，例如相关的表白再加上能使交谈继续下去的鼓励说辞。答复的主要内容可能由两种类型的答复组成：对用户已说过内容的评述以及能够引起用户继续进行交谈的答复。例如，一个人可以总说：“That’s interesting.Tell memore.(很有趣，再告诉我点儿吧。)”但是，有时这种引出的答复是非常具体的，以致于给以评述是不必要的。例如，“why”问题总是要引出一个回答，该问题中包含了足够的内容能够表明交谈仿真器已经“理解”了用户正在讲述的内容，例如“Why are you and at yoursister？(你为何要对姐姐狂暴呢？)”

一种实施这种机制的方法是将模板划分为那些能作为评述的答复和那些能进一步引出用户输入的答复。模板匹配器从每个类别中选出排序最高的匹配模板，确定是否适合于用双向式答复或者能引出更多信息的单向式答复进行响应。或者，各种模板都具有两种类型的答复依附于其上，两种答复都可以被选中，在每个列表中选择一个。后一种方法使得进行答复复合时变得比较容易，当然这里假定两个列表中的答复是兼容的。但是，前一种方法对于写模板而言不繁重，而且比较灵活，因为人们不是总能对于任何一个模板都能提出两种类型的答复。

用于选择优先级的信息包括用户的性格类别、当前情况(如模板中新闻数据的发布日期)、用户周围环境(例如是否用户已经睡着了？)、用户的情绪状态等。当然，输出生成无需采用两种不同的处理进程，一种用于对候选输出模板进行筛选，一种用于在它们之中进行选择。

多数交谈仿真器，包括Splotch在内，并不能对前后文进行感知。它们只能对用户最近一次答复中所说的话进行答复。如果该答复是一个只含单个词的答复，如“Yes”或者“why”，交谈仿真器就不知道用户正在说什么。一种增强上下文联系的方法是将那些与用户前几次答复匹配的模板包括到匹配模板列表中。为了避免以前的、高优先级的模板完全控制交谈内容，先前匹配模板的优先级被暂时地调整得低些，以便先匹配的模板最终从交谈中退出，除非是用户所讲的内容对它们进行更新。这样能赋予系统一种具有短时记忆的形象。如前面有关对用户性格进行分类时所论述过的，该系统可以被提供长期记忆，通过对与性格分类相关的模板优先级以及特定用户的其它长期特征进行长期调整来实现。

以上讨论的优先级调整方案中，特定模板的适用性部分地被性格分类所确定，该调整机制被用在保持当前讨论话题的上下文关系中。各种各样的技术可以被使用。模板可以与规范关键字描述符一起被存储，并被索引以便允许查找。查找向量是由关键词和其它当前分类法—例如心情、个性、音频等构成的，用以查找当前模板。查找向量中的关键词部分不必一定是关键词的有序集合。关键词部分包括连接符—如邻近连接符、必要字和可替换字。

如果用户经常提出某些特定话题，由这些话题引发的模板就会使它们地优先级逐渐增加，以至它们更可能在以后的交谈被选中。另外，那些具有多种答复的模板可以使其答复优先级被调节，增加与其偏爱话题相关的任何答复的优先级。但是，当交谈暂停而且需要一个新的话题要被注入到交谈中时，一种附加的机制要被使用。无需与关键字进行匹配，这些模板不会在潜在模板列表中。一种补救方法是注入来自为特定用户所建立的用户属性数据库中的信息。该数据库可能包括来自先前交谈中的关键字，该数据库可以利用来自例如可以通过因特网访问的外部数据资源的数据进行扩充。多数答复中具有随机变量。例如，答复“My favorate color is @color.w”告诉Splotch可以从颜色列表中随机的选择一种颜色。这种选择可以基于用户的性格或者兴趣被确定优先级。

用于在一个被选定的模板的众多答复中进行辨别的任何机制都会引起相同答复会被重复使用的危险。为了避免这种情况，一旦一个答复被选中，它就被作出标记以便在某段时间内它不会被再次选中。在随机变量的情况下，概率被调整，这样它们就非均匀分布了。因此，各种答复被一个指示符标记，表明它最近被选中的时间。然后这一信息被用于确保该答复在一段时间内不会被复用，这样，即使是在一定程度上随机进行选择，答复也不会很快地被接连选中。

调整优先级可以使用监督式学习和非监督式学习。用于创建新模板的非监督式方法—用于检测过去的谈话并生成新的模板—趋于产生毫无意义的答复。但是，它可以以不受监督的方式学习对旧模板的新答复，与创建新模板相比正好相反。不是基于样本交谈训练交谈仿真器学习新模板，这种训练而是被用于学习新的答复。无论何时，模板中有相当一部分详细内容与交谈的某个部分相匹配，另一个人的答复就被增加到该模板的答复中。当然，准则需要被详细确定以用于确定模板需要详细到何种程度以及匹配应该近似到何种程度。

目前，当没有匹配存在时，Splotch就选择一个缺省模板，其答复或者是一个如“I understand.”似的空谈或者是一些无关的幽默评论。通过在答复中增加过去曾经受欢迎的话题，这些反应可以被改编。例如，如果“movie”过去曾经是一个受偏爱的话题，答复“Would youlike to talk about movie？”可就以被添加到缺省模板中。

包含了随机变量的文档(例如@color.w)也可以基于用户对特定询问的回答允许新的变量被添加。另外，来自数据库的信息对装载随机变量十分有用。一般来说，交谈仿真器不必回答复杂的事实提问，以避免暴露其局限性。回答这类询问大多依靠语言领悟力，在任何情况下，只想通过死记硬背事实进行答复的交谈家很可能被觉得是令人厌倦的人。但是，通过利用相关信息，数据库在辅助交谈仿真器表达其观点方面是很有用的，例如，知道既然用户喜欢x，由于x和y都是z，所以用户会喜欢y。这类信息可以被用于使交谈仿真器与用户具有相似的品味。

因为交谈仿真器不必一定具有深刻的理解力，对交际关系敏感并能够适应用户答复的交谈仿真器比不具备这些特点的交谈仿真器更具说服力。通过鼓励用户进行交谈以及偶尔地以一种营造出它能够理解用户所说内容的幻象的方式进行响应，交谈仿真器可以维持交谈的进行。而且，它越能成功地让用户讲话，它就越难维持其具备理解力的假象。如果用户只用一个短句进行答复，就只能对几个关键词进行答复。但是如果用户用长篇讲话进行答复，就会有很多可能的可以引发答复的关键字。对错误的关键词进行答复会给出一种交谈仿真器不专心的印象，或者更糟的是它不能理解正在说的内容。如果处于这种情况，用户可能不愿意再进行更多的交谈，并且开始询问交谈仿真器以便查看是否它真地在注意听。

真正的语音辨识依赖于对自然语言的理解力。当然，交谈仿真器利用一定规则生成具有意义的答复，骗取用户相信它们能够理解所说的内容，设法做到令人信服。但是，自然语言技术仍只在被限定的范围内可被用于辅助交谈仿真器识别来自大量上下文中的词的特定意思或者按语法分析句子。因而，基于规则的模板方法可以被用于必须从答复中进行选取的情况中，而更为复杂，训练强化网络技术可以被用于确定正确的规范术语以表示句子中的变量，以及对句子进行语法分析—例如从动词短语中分辨出直接宾语。在最终确定要生成大量答复中的哪一种答复时，如果交谈仿真器依赖可预测的而且相当简单的选择规则，那么它将是最令人信服的。

参考图1，交谈仿真器作为控制器100中执行的一种程序进行操作。控制器100可以接收来自各种资源的输入，例如被连接的笔记本195、被连接到照相机135和136上的图像处理器305、如遥控器150和键盘155的传统用户接口设备160。其它输入设备可包括麦克风112，各种仪器140—例如温度传感器、位置传感器、安全开关、距离传感器、电负荷传感器、环境光传感器，以及可选择的用户接口设备如鼠标(未被单独给出)等。数据可以被控制器100通过局域网或者广域网或者因特网115和110被收集。被连接到局域网115上的设备包括智能设备130、家用服务器120、或者包括显示、音频输出、无线装置(未单独给出)等的输出设备130。家用服务器120可以存储数据，这类数据如用于易腐烂商品和食物的存货清单数据、用于艺术和手工设计的其它供应品数据、用于业余爱好的物资的数据等。智能设备130包括了具有如条形码阅读器和显示器接口的微波炉、电视机、音响(未单独给出)等。控制器100可以直接通过监视器175输出。监视器可包括机壳190，其上具有灯或者模式输出元件，允许机壳190外表能够被控制器100所改变。因特网110可接收它的来自卫星103或者服务器140的数据。

图2给出了一种事件驱动结构的功能图，该结构被用于产生与用户进行的包括交谈仿真在内的交互过程。有关用户的信息被输入用户接口400的处理进程接收，该处理进程吸收的数据如音频、从谈话中导出的文本、视频、控制设备-如键盘、鼠标、手持控制器等。输入用户接口向分类器405发送文本和未经处理的信号。被接收的数据被分类器405进行分类，它能辨识出哪些事件请求一个来自响应生成器415的响应。被输入用户接口400接收的信息也被施加到一个输入语法分析器410中，它能够收集信息如用户所说的语句，并对其进行语法分析和过滤，再将这些信息应用到响应生成器415上。被收集到的信息位于存储在数据库435中的其它信息中。每次一个事件由分类器405发出信令，响应生成器415从分类器405中获得状态信息，例如用户的心情、用户的注意力等级、性格、兴趣等，并生成答复。一些状态信息部分地由先前的状态信息所确定。例如，用户的性格就是这种情况。如果分类器405指出来自交谈仿真器的一种口头答复被要求，响应生成器415从响应数据库440中选择适当的数据，并向输出用户接口425发出信号以输出对应该响应的人工语音。这种数据可能要求动画驱动器260、闪烁着的灯、或者其它类型的最终输出设备或驱动器与语音同步。响应数据生成器445接收来自输入语音分析器410的数据请求，例如请求有关用户最喜爱的一名男演员的信息。响应数据生成器445生成一个代理205，从数据资源如全球网中获取信息并创建一个数据模块，响应生成器415从该数据模块中可以生成一个可在以后的日子中或者同时能同该请求一起被使用的一种响应。该响应数据被存储到或者被传送到响应数据存储器440中。当一个响应被生成时，响应生成器415可以有选择地向输入语法分析器410发送信号，指出期望在(来自用户的)对计算机响应的答复中出现什么，以便帮助输入语法分析器410对该答复进行语法分析。这可以以模板的形式帮助输入语法分析器410识别该答复。

现在参考图3，这仍是一幅功能方框图，图2中的分类器405和输入用户接口400被更详细地显示。又，图3中的图也代表了一种功能结构，它能被用于实现本发明的各种特性，但是在本发明系统的范围内绝非仅有的实现方法。音频输入245、视频输入255和其它用户接口设备(未被给出)生成可以被施加到各种分类器中的信号。音频输入245可以由一个麦克风(未被给出)或者一个既能指出声音响度又能给出其方向的方向音频探测器(未被给出)或者任何其它适合的音频传感器接收，并被施加到音频分类器210中。后者的数据形成了实时信号，该信号由音频分类器210利用适当的数字或者模拟或者两者结合的方式进行分类。然后，音频分类器210生成一个要被施加到心情/性格分类器290和事件/类别处理器上的当前状态信息信号。例如，音频分类器210可以被编程为能够识别说话的开端，生成一个信号最终导致终止由交谈仿真器生成的语言，这样就避免了交谈仿真器打断用户。音频分类器210可以分辩特定的声音例如开灯、打鼾、收音机的声音、许多人同时说话的声音等。它也可以确定是否存在多个正在产生声音的声源，声音是否为语言，是否声音来自机器如真空吸尘器或者一个正在播放的收音机。这些事件和/或状态中的每一种都与一个划分范围的时间标记结合在一起，结合后的信号被施加到事件/类别处理器207中。事件/类别处理器207结合来自多个分类器的状态信息生成一种用以指示包括用户在内的系统环境的当前状态的环境/用户状态信号，还生成事件信号(中断信号)以确保特定事件被分类器辨识出后能立即响应。对事件的识别需要来自多个分类器的状态信息，因此事件/分类处理器207结合来自多个分类器的状态数据生成一个组合的状态信号和一个组合的事件信号。环境/状态信号可包括对各种分类器都可以识别所有可能事件类的指示信息，或者仅有的那些超出了置信限值的可能事件类的指示信息。

视频分类器240接收视频输入255，对图像数据进行分类并生成状态信息信号，该信号被施加到心情/性格分类器290和事件/类别处理器207中。视频图形分类器240被编程以便提供，例如，用户正在指向的坐标、与手语对应的指示信息、视野范围内的人物个数、用户身份等。来自各种领域中的视频处理技术，例如身份认证、机械的姿态控制等，按系统设计者的具体目的都可以被应用到当前的系统中。其它的输出设备(未被给出)分别将他们的输入施加到其它的UI分类器235，该分类器再将它们的输出信号施加到事件/类别处理器207上。其它UI分类器235可包括典型的计算机控制例如手持遥控器、鼠标、键盘、游戏杆等。它们也可能包括用于监测环境的仪表如环境照明等级、当天时间、室内温度、建筑物安全状态、电流趋肤响应传感器、心率传感器、键盘或者遥控器按键上的压力传感器等。产生直接文本输入的任何用户接口设备250都可以将文本数据施加到输入语法分析器410中。文本数据也可以从语音到文本转换器215中被获得，该转换器接收音频输入245并将其转换成文本。当从音频设备上获得信号时，文本就被语言时间标记到文本转换器215。

语言到文本转换器215利用如现有交谈仿真器技术中、自然语言搜索引擎中以及其它适当方法中所使用的语法或者结构规则对文本进行语法分析。这种语法分析的结果是摘录出以下数据：用于指示输入文本(短句、句子或者用户说的话)类型的数据；可以从输入文本中被摘录出的具体变量数据；与输入文本相对应的数据请求。如在现有的交谈仿真器技术中一样，有选择性的使用直接的基于规则的模板匹配方法，输入文本可以被进行语法分析。并非如现有的交谈仿真器技术那样对一个具体响应简单地链接这种结构(虽然最终的结果依赖于响应生成器415如何被编程)，文本输入模板被用于从输入文本中摘取具体信息。这一点将依照这里被详细说明的基于规则的模板匹配方法被进行说明，但是也可以利用其它的自然语言系统实现。例如，如果输入文本被认定与特定的文本输入模板相对应，这样可能对应着一个或者多个可以被响应生成器415使用的输出模板。文本输出模板也可以指定具体的词或者短语被用于从外部数据存储器中获取信息或者添加信息到外部数据存储器中。例如，假设由交谈仿真器的程序设计者定义的一条规则表明该规则适合于如“I am a big fan ofShakespear.”的答复。该规则可能是以一定接近关系的词“I”，用一些具体的排除规则成扇形“展开”从而防止错误的肯定匹配。尚有一个或者多个规则可以被用于识别句子中的直接宾语，这里是“Shakepear”。后面的一条规则或多条规则可以被详细定义用于对文本输入模板进行匹配，或者可以为通用规则或其它方法。匹配文本输入模板可以对应语法分析器410生成的数据请求。在Shakespear的例子中，数据请求可以是一个对有关Shakespear额外信息的请求。该请求可以被施加到响应数据生成器445中(它在图2中被给出并在下面进行详细讨论)，该生成器从外部资源中获取数据，这类数据被响应数据生成器445用以形成新的输出模板。该处理过程将结合图4被详细讨论。

心情/性格分类器290接收来自各种分类器的信号并对它们进行处理以生成心情/性格状态信号。心情/性格分类器290可以是一种可被训练的神经网络、Bayesian网络、简单的基于规则的系统或者任何其它类型的能够接受多种不同输入并预测用户处于一定情绪状态和具有一定性格的概率的分类器。优选地，性格信号是对行为的多次观测的结果，并长期趋于持续存在。各种性格和心情拓扑方法被使用，从简单到复杂运行。一组用于将用户分类为令人厌倦型的规则的一个实例如下：

·句子/短语的词数少(用户的句子包括少数几个单词)(输入语法分析器410信号指示答复词数)

·输入启示热情的词例如最高级的出现率低(输入语法分析器410信号指示形容词)

·声音中相当平淡的音调(音频分类器210信号指示调制音调变化强度)

·缺少实际行动(视频图象分类器240信号进行指示等)

·遥控按键上的压力低

·头部或者身体运动少

·叹气声等

·看表

·缺少与被交谈仿真器所识别的对象(例如，语言同步化的动画人物)的眼神接触

这些中的每一点都由被指定的分类器进行分类。用户衣服的颜色、用户声音的音调、用户进入和离开该房间的次数、用户摆姿势的方式等等都能够提供用户心情状态和/或性格的线索。“五大(BigFive)”性格拓扑方法、或者在美国专利No.5987415中推荐的更为简单的持久力/强度心情状态拓扑方法、或者其它适当的拓扑方法都可以被使用。

对于即刻的精神状态，任何适当的构架都可以被应用。下表概括了“五大”的基本内容，它是从MyersBriggs拓扑学派生物发展起来的。有关对情绪状态和性格进行建模的课题存在许多学术文章，其中多数是针对基于声音、面部表情、身体姿态和多种其它类型机器输入进行机器分类的问题。甚至天气信息，可以利用代理从因特网获取或者通过仪器测量基本天气数据如日照等获取，也可以被用于推测精神、情绪状态。

消极情绪的六个方面，界定在连续状态的两个极端情况下(摘录自Costa&McCrae 1992)

消极情绪的六个方面	愉快R+	消极R-
消极情绪的六个方面	愉快R+	消极R-	担忧	放松；平静	焦虑；心神不安
气愤	沉静；慢慢变得气愤	立即发怒	担忧	放松；平静	焦虑；心神不安
气愤	沉静；慢慢变得气愤	立即发怒	沮丧	慢慢变得沮丧	很快沮丧起来
自我意识	不易受窘	容易受窘	沮丧	慢慢变得沮丧	很快沮丧起来
自我意识	不易受窘	容易受窘	冲动	易于抵制怂恿	极易于被引诱
脆弱性	易于处理逆境反应	难于处理逆境反应	冲动	易于抵制怂恿	极易于被引诱

外向型性格的六个方面，界定在连续状态的两个极端情况下(摘录自Costa&McCrae 1992)

外向性格的六个方面	内向性格E+	外向性格E-
外向性格的六个方面	内向性格E+	外向性格E-	热情	含蓄；刻板	热情；友好；亲近
爱社交	很少找人陪伴	爱好交际，喜欢有人做伴	热情	含蓄；刻板	热情；友好；亲近
爱社交	很少找人陪伴	爱好交际，喜欢有人做伴	固执已见	安于幕后	断然的；大胆讲出；
活动	休闲的步履	生气勃勃的步伐	固执已见	安于幕后	断然的；大胆讲出；
活动	休闲的步履	生气勃勃的步伐	寻找刺激	很少寻求刺激	渴求刺激
积极情绪	精力不太旺盛的	欢快的；乐观的	寻找刺激	很少寻求刺激	渴求刺激

思维开阔的六个方面，界定在连续状态的两个极端情况下(摘录自Costa&McCrae 1992)

思维开阔的六个方面	保守家O+	探险者O-
思维开阔的六个方面	保守家O+	探险者O-	幻想	能集中精力在这里或那里	善于想象的；爱做白日梦
审美	对艺术不感兴趣	欣赏艺术和美学	幻想	能集中精力在这里或那里	善于想象的；爱做白日梦
审美	对艺术不感兴趣	欣赏艺术和美学	感受	忽略或者不太在意感受	重视所有的感受
行动	喜欢熟悉的东西	喜欢变化，尝试新鲜事物	感受	忽略或者不太在意感受	重视所有的感受
行动	喜欢熟悉的东西	喜欢变化，尝试新鲜事物	思想	较狭隘的智能上的集中	广阔的智能上的好奇
价值观	教条；保守	公开重新审视价值观	思想	较狭隘的智能上的集中	广阔的智能上的好奇

令人赞同的六个方面，界定在连续状态的两个极端情况下(摘录自Costa&McCrae 1992)

欣然同意的六个方面	挑战A-	采纳A+
欣然同意的六个方面	挑战A-	采纳A+	信任	爱挑剔；怀疑	将他人看成诚实且善良
直率	有所戒备；曲解事实	直接；率真	信任	爱挑剔；怀疑	将他人看成诚实且善良
直率	有所戒备；曲解事实	直接；率真	利他主义	不愿意被牵连进去	愿意帮助他人
顺从	好斗；好争辩	在冲突面前屈服；顺从	利他主义	不愿意被牵连进去	愿意帮助他人
顺从	好斗；好争辩	在冲突面前屈服；顺从	谦逊	感觉高于他人	谦卑；恭顺
意志柔弱	固执；有理性	意志柔弱；易于被感动	谦逊	感觉高于他人	谦卑；恭顺

富有责任心的六个方面，界定在连续状态的两个极端情况下(摘录自Costa&McCrae 1992)

富有责任心的六个方面	三心二意C-	集中精力C+
富有责任心的六个方面	三心二意C-	集中精力C+	竞争	经常感到未做好准备	感到有能力、有效率
秩序	未组织好；没有系统性	组织良好；利落；整洁	竞争	经常感到未做好准备	感到有能力、有效率
秩序	未组织好；没有系统性	组织良好；利落；整洁	尽职尽责	对义务漫不经心	受责任心驱使；可靠
努力成就	对成就的要求低	被驱使着达到成功	尽职尽责	对义务漫不经心	受责任心驱使；可靠
努力成就	对成就的要求低	被驱使着达到成功	自律	拖延；弄得糊里糊涂的	集中于完成任务
细心	自发的；草率的	行动之前仔细思索	自律	拖延；弄得糊里糊涂的	集中于完成任务

心情/性格分类器209输出一个具有大量自由度的状态向量，这些自由度与由设计者选择的性格和精神模型相对应。心情/性格分类器290要在一段时期内积累有关构造性格模型的即时数据，因为性格是一种长期的状态。精神状态中则有更易变的元素。

还参考图4，响应生成器415接收分别来自心情/性格分类器290和输入语法分析器410的心情/性格状态向量和经过语法分析后的答复数据。响应生成器415也接收来自事件/类别处理器207的环境/用户状态信号和事件信号。响应生成器415也接收来自与数据库430链接的语法分析器/请求器432的数据请求信号。响应生成器415根据来自用户的被语法分析过的回答、心情/性格状态、环境/用户状态和事件信号，从响应数据存储器440中选取一种答复。

语法分析器/请求器432完成三件事情：它检测被语法分析过的来自用户的回答用于能够被添加到数据库430以对其进行更新的信息；生成请求，用于有关编程中所指定的话题的进一步信息；确定数据库430需要什么样的数据以使其更加有效。如果被语法分析过的回答能够提供数据，语法分析器/请求器432被编程以致能认定它们有益于更新数据库430，那么那些数据就被语法分析器/请求器432提取出来并被添加到数据库430中。例如，如果数据库430是一种用户属性信息库，其中包含了用户关于对电视节目的喜好，当用户在与交谈仿真器交谈过程中说“I like Pokeman”时，语法分析器/请求器432将关键词“Pokeman”添加到数据库430中。语法分析器/请求器432也生成一个请求，用于通过例示的代理205从数据资源(由资源数据450表示)中获取进一步的信息。例如，代理205就能从指定Pokeman人物的姓名的因特网网址上获取文本。语法分析器/请求器432可以摘录出这些人物的姓名并把它们添加到数据库430的属性数据中。

如果数据库430积累大量有关喜好的数据，但是发现一些模糊之处可以通过提问被澄清，那么语法分析器/请求器432可以生成数据请求并将其应用到响应生成器415上以便通过要求用户进行解释响应在某一点上被生成。例如，数据库430可能指出体育节目最近被经常观看，但是有关哪种运动被偏爱的数据并不清楚。数据库430也可能包括标准数据请求，通过间断性地由交谈仿真器提出问题的方式标准数据请求经历一段时期后可以逐渐被填满。这是一种对填表的模拟，但是用户永远无需知道所发生的就是这么一回儿事。在一个例子中，数据库430是EPG的属性数据库，其中存在一组标准的创建信息，或者换一种说法，这些就是通过用用户化数据装载表格的方式进行处理。以上可以由交谈仿真器通过下列步骤完成：简单地生成请求相关数据的模板；偶尔将来自于这些模板中的问题插入到对话中；检索来自用户答复中的相关数据。

数据库340的其它例子是一种具有投资信息的智能卡和一种包括了用户每月受款人的外部数据库(通过因特网被链接)，在受款人那里与用户进行交互导致每月要及时交付账单。例如，智能卡可以被旅馆的信息站所使用，该信息站根据卡上存储的用户喜好数据推荐活动信息(例如访问旧教堂和骑车旅行)。除了智能卡外，同样的数据也可以被存储到射频设备、个人数字助手或者其它适用装置中。数据库430可以是一种能执行查询的外部数据库，例如产品查询。数据库430可能是一种来自家用消费网络上的购货清单，与用户进行的交互被用于向购货清单上添加和/或删除。在本发明的范围内还存在着其它的可能性。

参考图5，例如，响应数据库440中包含一组模板，其中每个模板可以要求驱动一个或多个动画。因此，当这类模板被启动后，响应是一种被链控到语言(声音等)输出上或者独立于任何其它形式输出的动画。响应生成器415可以选择输出模板并将其传送至动画驱动器260，图5中已给出。动画驱动器260依次又在显示设备(未被给出)上输出特定的相应动画。显示设备可能是如图1所示的监视器。响应生成器415也选择包含文本的模板。响应生成器415可以向模板文本添加文本并且将它们传送给文本到语言转换器275以产生语言输出。模板选择和可变语言或可变文本都按语言仿真器如Splotch的传统方式被处理。响应生成器415可以直接向直接文本输出280—例如计算机显示器或者监视器—输出文本数据。响应生成器415也可以访问用于提供其它输出效果270的模板。输出效果的另一实例是机壳(cabinet)效果驱动器265，包括监视器(如图1)的机壳190上的可变化照明，其外观对应输出命令而变化。由动画驱动器260提供的动画通过文本到语言转换器275与语言声道80进行同步，因此出现在动画中的人物被赋予一种正在讲话的形象。同样的同步化过程发生在其它的效果中，例如电视机的机壳190被机壳效果驱动器265所驱动并向用户赋予一种电视机具有性格的形象。或者，电视机可以被赋予一种人类形象。

由语言到文本转换器215或者直接文本输入250获取到的输入被输入语法分析器410进行语法分析，并且将被分析过的回答施加到响应生成器415。根据被语法分析过的回答、心情/性格状态、环境/用户状态和事件信号，响应生成器415选出响应数据存储器440中最合适的模板。响应生成器415基于所有的相关信号可以计算出各个后选模板的适用估计品质因数。结果是，例如，响应生成器415不仅根据被包含在文本中的数据对用户所说的话进行响应，而且对其它这里讨论过的多种因素进行响应。尤其是，被分类的用户的情绪状态和性格会导致交谈内容、交谈仿真器响应方式(情绪)的转变。

跟踪数据流始于视频输入255，视频输入255信号被施加到视频图像分类器240上。视频图像分类器240被编程为能够识别在视频输入255的信号中的大量不同的图像以及视频序列类别。例如，它可以被编程为能够识别一个人坐着还是躺着；一个是静静地站着还是不安地移动着或者正离开交谈仿真器系统的附近；等等。属于这些类别中的一种的概率被生成并作为信号输出。或者，单独一个最可能类别被生成并作为信号输出。该信号被施加到事件/类别处理器207中，它将该数据与其它类别的数据组合在一起生成一种环境/用户状态信号。如果事件/类别处理器207接收一个来自视频图像分类器240的指示信息表明一个突发的重要事件正在发生，例如用户起床并离开房间，事件/类别处理器207就对该结果生成一个事件信号，它可以立即中断响应生成器415产生的输出。如果心情/性格分类器290接收来自视频图像分类器240的一个信号，表明用户正以与焦躁不安的状态一致的方式运动着，那么心情/性格分类器290可以将这一信息与其它分类器信号相结合生成一种心情/性格状态向量，表明高度焦虑的情绪状态。例如，音频分类器210可能立即指出说话者的声音与平时相比过于尖锐，输入语法分析器410指出最近答复中的单词个数异常的少。响应生成器415可以选择的后选响应模板的可选项将受到心情/性格状态的影响，例如通过选择将交谈话题转换成在这种环境下响应生成器415被编程可以选择的一个或者多个话题。

注意到要允许系统确定是否当前类别或者状态代表了从先前时间起的一次改变，事件/类别处理器207和心情/性格分类器290可被提供一种数据存储能力和用于确定当前用户的装置，以便可以为不同的用户存储对应的历史。系统也可以被提供一种用户识别器460。后者采用任何适当的方式识别用户，例如借助于视频图像分类器240进行的面部识别、射频身份确认标记、智能卡、声音签名，或者允许用户利用生物统计学的指示符—如拇指指纹或者简单PIN码—来标识他/她的身份的简单用户接口。以这种方式，心情/性格分类器290和事件/类别处理器207均可以将相关历史数据与特定用户联系在一起并在身份识别和向响应生成器415发送趋势信号的过程中运用它。

另一个关于响应生成器415对来自各种输入的信息进行响应的例子如下。当视频图像分类器240识别出被视频输入255接收的图像是一个人正在睡觉时，交谈仿真器应用程序就生成语言。响应生成器415将终止对话并产生白噪声或者音乐。另一个例子是，如果有其它人进入房间，响应生成器415就引起一个要被引入到其连续的谈话中的暂停，以便允许用户能与刚刚进入房间的人进行交谈。然后，交谈生成器240再插进语句，例如请求被介绍给刚刚进入房间的人或者询问用户是否打算终止对话。在另一个例子中，由音频分类器210进行转换的音频输入245识别出一个人正在大笑。音频分类器210可以生成一个信号，按照编程中的规则—指出笑声之后的答复中应包括笑话，响应生成器415为其选择一个可替换的响应模板。

输入语法分析器410对用户表达的兴趣或问题对应的句子中的特定部分进行语法分析。例如，用户可能问：“修理家中的空调困难吗？”或者表示出对日本料理的兴趣。输入语法分析器410可以被编程为摘录与问题和被表明的兴趣相关的特定符号或者文本数据，并且生成数据请求。然后，响应数据生成器445生成一个代理205实例用以从资源数据450如局域网或者因特网(用“局域网/因特网200”表示)中获取进一步信息。被代理205接收的数据再被响应数据生成器445进行语法分析，并从中生成新的模板。为实现这些功能，响应生成器415可以被编程为能够连接响应数据和其使用规则。几个实例将被讨论以便说明哪些是可行的。首先，用户提出以上关于空调的问题。响应数据生成器445接收指明主体事件和具体需求的数据请求；在这种情况下，需求是一种对信息的直接请求。代理205获取一个或两个答案，响应数据生成器445制定一种回答和一种表明该答复应该在交谈仿真器的谈话中被赋予较高优选权的指示信息。在这种情况下，响应中应该优选地对被提出的问题进行识别。例如，响应可能是“从我所能了解的来看，对您的有关是否易于修理家用空调的问题的答案，<x>。”符号“<x>”表示从资源数据450中收集的响应数据。第二，用户表示出对日本料理的兴趣，这样导致了对该话题信息的数据请求。响应数据生成器445检索出相关的信息并形成几个模板，例如“你知道吗？在第14大街有一家很受欢迎的日本餐馆。”，与这类模板同时生成的还有以下指示信息：这是一次交谈的开始或者更换答复类型的谈话主题，它与用户表达出的兴趣直接相关。被检索出的数据可以由交谈仿真器在以后的“谈话”中被引入，或者可以被立即发表。

输入语法分析器410可以利用识别模板、计算机语言学技术或者其它模型进行从句子中摘录出特定类型信息的操作。如另一个例子中，如果用户使用一个句子如“I very much enjoyed the Pokemantelevision program that I saw yesterday.”，那么输入语法分析器410会摘录出直接宾语“Pokeman”，并将其作为数据请求来传递，因为它对应了一个特定的识别模板，或者利用自然语言技术可能识别出这一直接宾语。识别模板采用了如“I”和“like”的邻近关系的规则。自然语言设备则更加灵活，而且它能够产生相似的结果。通过简单地应用模板句子结构，模板可以被用于区别表述与提问，喜好与厌恶等。更为简单的模板结构不能使用用户所说内容中的所有数据，但是它能够提供易于编程的技术，这种技术能够在相当较少的规则条件下提供相当令人信服的交谈。

代理205可以离开到局域网/因特网200收集数据，例如，除了显示在网站上根据数据请求的搜索相匹配的文本之外的数据链接到其它信息上的。响应数据生成器445对从代理205获取的文本和其它数据进行过滤以及语法分析。在对来自用户的回答文本和来自资源数据450的原始文本进行加工的过程中，输入语法分析器410和响应数据生成器445可以按照识别模板或者其它自然语言处理程序选择特定的词或者短语。为了简化与其它数据间的比较，这些处理程序可以将被选定的文本转换成规范形式。例如，代表响应模板的关键字被限定成一组预先定义好的规范术语。当用户产生一次对话，用户自身的词汇就会在与能够表征各种响应模板的关键词向量进行比较之前被转换成它们的规范形式。在搜索被检索出的数据的过程中，转换成规范形式之后紧接着就生成搜索查询，该查询采用规范术语变体的分离表以达到最高的成功率。

参考图6，交谈仿真器响应用户的行为和环境以确保它自身的行为是恰当的。例如，在图6的情况中，用户正在睡觉。视频输入255生成一个被施加到视频图像分类器240中的信号。视频图像分类器240具有一个包含一列元素的实时状态向量。各个元素添加有关交谈仿真器“视觉”环境状态的信息。例如，用户活动可以在几种不同的状态中被归类。这里，用户的活动被辨识为“静止”，意味着用户没有在绕着房间移动而是相对安静的。状态向量中的另一个元素是房间中的人数，在这种情况中是一个人。

视频图像分类器240可以利用现有技术进行轻松识别的另一种分类法是房间中新对象的个数。在前一种情形中，视频图像分类器240可以用一种简单的模式存储其环境。例如，它可以在某一天对环境进行拍照，而在另一天当系统再次启动时，被存储的图像中的对象个数将与当前图像中被识别出的对象个数进行比较。然后，新对象的个数被输出，该信息被用于产生答复。

另一种分类法是身体姿态，例如站立、俯卧、坐下等。在这种情况中，用户被识别出处于俯卧的姿态。也能被交谈仿真器系统接收的音频信号被施加到两种处理过程中：语言到文本转换器215和音频分类器210。输入语法分析器410尝试标识出最符合由语言到文本转换器215输出的文本的识别模板。因此，例如，匹配熟睡人的鼾声的模板不能与具体的识别模板相互关联。但是，有关音频分类器210指示出的鼾声以及视频图像分类器240指示出的用户活动的其它信息会导致响应生成器415分辨出交谈仿真器输出的语言不恰当的状态，并且改作让模板选择器/存储器225生成白噪声(或者音乐、没有一点音响，或者调暗灯光)。

事件/分类处理器207担当了过滤器和数据合并器的角色。它将来自多种分类器中的类别数据进行组合，输出更高级的类别信息。在图6的例子中，事件/类别处理器207将来自音频分类器210和视频分类器240的输入进行合并，对照用户的活动—熟睡，生成一个更高级的类别(一个“元类”)。音频分类器210输入声音，并尝试用被训练得能够识别的类别来识别它。事件/分类处理器207接收来自音频分类器210和其它分类器的类别信息，并尝试着用被训练得能够识别的元类去辨识它们。当然，这里说明的结构并非实现本发明各种特征的唯一方法，事件/类别处理器207完全可以被省略，其功能可以由响应生成器415接替。但是，分离这些功能的一种优点是事件/类别处理器207可以采用与响应生成器415中所使用的不同类型的分类器。例如，响应生成器415可以使用一种基于规则的模板匹配器，例如Splotch中所使用的；而事件/类别处理器207可以使用一种可被训练的神经网络型分类器。这些功能分配可能更为适合，因为响应生成器415输出的数目比事件/类别处理器207(或者其它的分类器)被训练得能够识别出的类别的数目要大得多。这根源自这样一个事实：当网络类型的分类器(例如神经网络和Bayesian网络分类器)具有大量可能的输出状态时，它们是非常难于训练的。

图6中的结构完全不同于现有技术的交谈仿真器。现有技术下的交谈仿真器只是基于语言模式选择最佳的模板，但是本系统却将有关用户环境的其它信息考虑在内，启动交谈回应那些信息。来自音频分类器210和视频图像分类器240的其它信息被用于生成一个更好的答复。这类额外信息的作用以及应用它们提供最可行的输出使得作为交谈仿真器的本系统表现得更像一个真实的人。

参考图7，在一种相似环境中，除了语言文本外，经由视频输入255和音频输入245而被获取的额外信息被使用，用以生成交谈仿真器的输出。在这个例子中，音频分类器210输出三种指示符：一种用于指示除用户之外的一个人正在说话；一种用于指示这里存在着第二种声音；因此，接下来一种指示交谈仿真器会有一阵子的沉默。语言到文本转换器215生成文本：“Hi Bob！How is it going(你好Bob，最近怎么样？)”。输入语法分析器410将该文本分类为一种直接对Bob的问候语，同时给出该提问的规范形式。即“How is it going？(最近怎么样？)”在输出语法分析器410中被指示给由“How are your？”所代表的一种标准形式。同样的数据会被施加到心情/性格分类器290上。视频图像分类器240指示某个人正在慢慢的走动，在其视野范围内有两个人，没有其它的新对象，这两个人的身体姿态表明他们正站着。心情/性格分类器290存储有关用户的性格数据，并从先前交谈中已探察用户的心情。这些数据都在要被施加到事件/类别处理器207上的输出信号中被指出来。

事件/类别处理器207将指示存在两种声音的音频分类法与下面两个事实联系起来：其一，用户姓名在文本中被使用；其二，房间中存在两个人，其中一个人刚刚进来。这些信息组合能被事件/类别处理器207识别为一种不应该被打断的情况。它生成一种可以被施加到响应生成器415上的事件信号，该生成器立即终止输出语言，并插入一个暂停。响应生成器415使用来自分类器的其它数据确定出一个模板，提示它被引入。来自心情/性格分类器290的性格信息在进行该选择时要被采用，编程者认为一种喜好介入其中的交谈仿真器会适合于交际场合中安静、性格内向型的人。响应生成器415插入一个暂停，然后，稍过一会儿，生成语句“Excuse me，I don’t know Bob.”。词“Bob”经由事件/类别处理器207，来自于输入语法分析器410。

注意到视频图像分类器240对于场景中各个被识别出的人都包含独立的活动、身体姿态等类别信息。对于每个由视频图像分类器240识别出的人，都会用一个独立的向量分别输出。还注意到音频分类器210具有定向功能，因此它也能够在众多人之中分辩出声音从哪个人传出的。例如，图7的场景中，音频分类器210辨识出一个特定的说话者—一个正在讲话的当事人A，并且在它的输出中指出这一点。为了将由输入语法分析器410进行语法分析的文本与正在讲话的人联系起来，所有的输出都被进行时间标记。例如，音频分类器210对各个声音信号进行时间标记并指示声音来源的方向。音频分类器210也可以被赋予辨识音响声纹的能力。使用这类信息，事件/类别处理器207就能够对文本进行时间标记，并允许响应生成器415将声音的方向坐标和声纹与文本联系起来。然后，文本就能被与正在讲话的人联系在一起了。

参考图8，处于视频输入的视野范围内的一个坐着的孩子315导致一个视频图像分类器240的向量被生成。该向量表明用户坐着，用户是个孩子，人数是一，用户的活动级别是空闲。音频输入245被再次施加到语言到文本转换器215和音频分类器210中。语言到文本转换器215将从孩子笑声中识别出来的文本应用到输入语法分析器410中。输入语法分析器410生成一个指示用户正在发笑的向量。音频分类器210辨识出相同类别的声音。视频图像分类器240将用户分类成空闲并坐着，而且指出没有新的对象，只有一个人存在。事件/类别处理器207向响应生成器415指出用户正在发笑。响应生成器415利用简单规则被编程为发笑时应继之一个有趣的语句或者笑话。它随机地选择一个笑话，将其施加到文本到语言转换器215上。它也通过电视机机壳效果驱动器265生成一个被同步化的灯光效果，以及通过动画驱动器260生成一个与笑声动画之后的笑话同步的动画。

参考图9，从与用户325交谈中得到的数据被语法分析后，被用于生成一个新的交谈数据。从用户谈话中被转换过来的语言包括一对处于很邻近关系中的词“Pokeman”和“like”，输入语法分析器410按此表示识别出对话题“Pokeman”的兴趣。它生成一个对有关“Pokeman”的话题的其它数据的请求，并将一个指示该请求的信号施加到响应数据生成器445上。响应数据生成器445创建一个代理205的实例，该代理实例能够从局域网/因特网200上获取数据，200又被链接到资源数据450上，如全球网站。进一步的信息被语法分析，并以一个或多个响应模板的形式被存储在响应数据存储器440中。视频图像分类器240将该用户分类为儿童，并指明该用户正处于兴奋或者激动状态。事件/类别处理器207指出用户所说的内容以及渴望和激动的元类状态，用以描述用户对话题“Pokeman”的兴趣。只要响应生成器415在响应数据存储器440中发现一个“Pokeman”模板，它就生成一个包含了由代理205获取的、经过语法分析的、由响应数据生成器445形成响应数据的响应。由通过动画驱动器260生成的同步动画陪伴该响应。

参考图10，交谈仿真器探测到用户的哀伤心情，产生了同情的响应。它也利用属性数据库中的用户喜好数据提出建议。视频输入255包括了用户345的表情。用户的回答包含了其它表明哀伤心情的词汇。视频图像分类器240将用户的面部表情分类为哀伤。音频分类器210将该用户的声音分类成微弱而低沉。心情/性格分类器290将这些分类信息组合在一起生成一个用户心情的超类，即忧郁，而且其输出状态向量表明了这一点。响应生成器415接收用户所说实质内容，为了能够随心情分类进行响应，要找出一个与富于同情的响应相符的模板并将其输出。响应数据生成器445先前从存储有关用户属性数据的数据库430中接收到的属性数据指出了诸如最喜爱的电视节目、业余爱好和兴趣等的事情。在响应中，响应数据生成器445从来自资源数据450的电子编程向导中获取编程信息，并且生成要被它存储在响应数据存储器440中的响应模板。因此，响应生成器在其同情的言谈之后紧跟着一段应能引起愉快的语句，提示用户今晚他最喜爱的节目将被播放。

参考图11，如图9中讨论过的，词“Pokeman”被摘录出来。但是，并非简单的从外部数据资源上获取信息，如图9中那样用以生成新响应模板的目的，而是该数据被用于扩增数据库430。在当前的例子中，数据库430是属性信息数据库，它被用于按照用户的喜好对EPG内容进行过滤和分类。语法分析器/请求器432接收来自输入语法分析器410的经过语法分析后的回答，并有选择性地生成代理205实例以便获取进一步的信息。代理205恢复有关Pokeman的新数据，这些数据被进行语法分析，其中的一部分可能被添加到数据库中。例如，Pokeman人物的姓名可以被代理205得到，这一数据可能与用户喜爱Pokeman这一信息一起被添加到数据库430中。

注意到属性数据(在此例中被存储在数据库430中)被存储在当地或者远程服务器中。属性数据不仅可以被用作生成新模板的资源，也可以被用作形成性格类或者其它个性化响应的信息资源。

响应数据存储器440可能是装满了模板的数据库。这些模极不必是永久性模板。其中多数是在通过因特网获取“现时”数据并创建新模板的过程中被添加到其中的。这些信息从因特网或者局域网中或者数据资源中由响应数据生成器445摘录出来，并被合并到新的模板中。这些信息包括文本、链接、或者其它类型的数据信息如可被显示在监视器175中的图形。

交谈仿真器的一种实现方式是允许其它设备作为该系统的一种语言启动接口被其驱动。例如，交谈仿真器可以说“Would you like todownload a Pokeman game？”，语言到文本转换器可以在命令中传达语句“Yes”，并且该命令被用于调用一个由响应数据生成器445获取的链接，然后访问此链接。

如上述例子所示，交谈仿真器使用的模板组不必是仅仅通过交谈从用户那里检索出的静态信息的集合。而且，它确实可以利用来自外部资源中的信息组建模板。在系统起步阶段，外部资源可以被访问；或者，如上例中，它们可以被输入语法分析器410辨识出的启动术语或者启动模板所访问。例如，当“Pokeman”与“I like”同时被用在句子中时，将引发如下事件：脱开和用具体例子说明代理205去搜寻进一步信息和链接等，到关于Pokeman的数据事实。

视频图像分类器240处理进程包括了控制接收视频信息的相机(用视频输入255表示)的能力。视频图像分类器240包括一种处理过程—即定期的尝试区分房间中的对象，对象可以是人或者物，以及对这些个体的各种特征进行缩放处理。例如，每当视频图像分类器识别出一个新的个体时，图像分类器将尝试识别视野范围内该面部所在的位置，并均匀地缩放视野范围内被识别出的各个人的面部，以便获取可以被用于进行个人身份识别或者用于个人的心情识别的面部表情信息。

虽然本发明是在以上被说明的优选实施例的内容中被阐述的，应当理解的是，在不背离本发明的范围和精神的条件下，各种变化可以被应用到这些实施例中，各种等价的方法可以被替换，这一点对于相关技术领域中的技术人员是显而易见的。

Claims

1.用于模拟与用户之间进行交谈式交互的交谈仿真器包括：

一个被编程用以接收用户输入的自然语言的控制器(100)；

所说控制器(100)被编程为生成对应用户输入的自然语言响应；

所说控制器(100)被编程用以识别被存储在外部数据库中的数据类型；

所说控制器(100)还被编程为对被存储在外部数据库中来自用户输入的自然语言类型的数据进行语法分析，并且将上述结果中的被语法分析过的数据存储到该数据库中。

2.按权利要求1的仿真器，其中所说数据包括用户喜好数据，该数据库是用户属性数据库。

3.按权利要求2的仿真器，其中所说属性数据库存储的数据指出了用于视频编程的用户的喜好。

4.按权利要求1的仿真器，其中所说数据库被存储到便携式介质中，以便与各种需要该用户信息的设备一起使用。

5.按权利要求1的仿真器，其中所说控制器(100)被编程为提出问题，该问题引出被存储在外部数据库中的类型的数据，对外部数据库内容进行响应。

6.装载数据库的一种方法包括下列步骤：

利用交谈仿真器模拟与用户进行的交谈，同时第一数据库保存着交谈数据，所说模拟步骤包括从第一数据库中的数据中生成语句；

接收来自用户的回答；

确定何时该回答中的数据包括了被并入到第二数据库中的类型的数据；

响应所说确定步骤，在第二数据库中并入该数据。

7.按权利要求6的方法，其中所说第二数据库是一种保存了用户喜好数据的属性数据库。

8.按权利要求6的方法，其中所说第二数据库是一种保存了调查答复的数据库。

9.按权利要求6的方法，其中所说第二数据库是受欢迎的一串因特网网址列表。

10.按权利要求6的方法，还包括的步骤是：搜索因特网用于与所说回复中的所说数据相关的额外信息，并将所说额外信息并入到该第二数据库中。

11.用于装载数据库的方法包括以下步骤：

利用交谈仿真器模拟与用户之间的交谈，第一数据库保存了交谈数据，所说模拟步骤包括从该第一数据库的数据中生成语句；

响应所说数据库内容确定对该数据库内容的信息请求；

生成用于所说交谈仿真器的语句以引出响应所说信息请求的信息，并接收来自所说用户对此做出响应的回答；

确定何时所说答复中的数据包括响应所说信息请求的数据；

响应所说确定步骤，将该数据并入到该数据库中。