CN1372660A

CN1372660A - 与消费电子系统进行交互的方法

Info

Publication number: CN1372660A
Application number: CN01801210A
Authority: CN
Inventors: E·M·A·迪德里克斯; B·M·范德斯卢伊斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-03-09
Filing date: 2001-03-02
Publication date: 2002-10-02
Also published as: JP2003526120A; EP1190301A1; US6778191B2; US20010056364A1; KR20010113919A; WO2001067228A1

Abstract

消费电子系统的运行情况用多个动态改变的系统元素如系统状态或变量进行模拟。优选地系统是话音控制的。此方法不是单独地向用户呈现所有系统元素,像时间跨度以及命令是否已被识别,而是选择一种表示多个系统元素实际值的形态。此形态从一个对象的多种不同视觉和/或听觉形态中被选择出来。优选地该对象是一种拟人化角色。所选的形态会被呈现给用户。

Description

与消费电子系统进行交互的方法

本发明涉及一种让用户能与消费电子系统进行交互的方法，系统的运行情况用多个动态改变的系统元素如系统状态或变量进行模拟。

本发明也涉及一种消费电子系统，该系统的运行情况用多个动态改变的系统元素如系统状态或变量进行模拟。

消费电子产品正变得越来越复杂，这使用户与产品/系统的交互越来越困难。现在，产品的许多功能性都用软件实现，这样系统的运行情况在很大程度上对用户不是直接可见的。许多情况都需要用户能获悉系统运行情况以充分地与系统进行交互。因此需要给用户呈现某种代表着如系统状态和变量的系统元素。特别对于话音控制的系统，需要呈现的不仅有关于系统正常运行情况的系统元素，还有某些话音控制/语音识别单元的系统元素。这造成需要给用户呈现更多的元素。常规地，呈现不同系统元素分别使用像不同显示窗口之类的不同用户界面元素，或者在窗口中使用不同文字或图形对象。用这种方式许多用户界面元素可能被同时呈现或者可能通过分级排列菜单访问。大量呈现给用户的信息使用户难于迅速评定系统总体运行情况。还需要大显示区域，或者如果使用了分级菜单，还要提供对信息的较为间接的访问。从微软的用于交互代理的ActiveX技术可以知道一种如拟人化角色的代理可以代表一个系统事件。PC应用程序可以向ActiveX层发送事件。该层执行对应此事件的动画。在这种系统中，在事件和动画之间存在着一种严格的一对一耦合。如果多个事件需要在同一时间呈现给用户，则多个动画需要被并行地调用。如前所述，这使用户难于迅速评定系统总体运行情况。而且，这需要许多系统资源。

在用户控制的系统中通常需要就用户所发出的命令给其反馈。还要求这种反馈是直观的以便于用户不需任何学习就很容易解释。该反馈应该以这样一种方式给出：人们可以方便地理解并预测系统运行情况。但是，在话音控制系统中必须呈现各种类型的反馈，而且经常是同时的。其中这些类型的反馈有时间跨度(即话音控制单元尝试识别和解释话音输入的周期)、剩余时间跨度、用户是否被听到、用户是否被理解、用户讲的是否是有效命令、用户用的是否是敏感命令、哪个用户被识别出来(多用户环境)、系统是否会执行命令、以及系统是否忙。使用传统方法给用户呈现信息可能容易使用户不知所措并造成用户和系统之间并不有效的交互。

本发明的一个目的是提供一种在用户和消费电子系统之间进行交互的改进方法。还有一个目的是提供一种具有改进的用户交互的消费电子系统。

为了满足本发明的目的，让用户能与消费电子系统交互的方法包括向用户呈现多个系统元素，其中这种消费电子系统的运行情况由多个动态改变的系统元素如系统状态或变量进行模拟，这种方法是通过：

—根据多个系统元素的实际值，从一个对象的多种不同视觉和/或听觉形态中选择一种形态；并且

—向用户呈现所选形态。

通过使用仅一个对象来表示多个系统元素，用户可以通过集中于仅一个对象来评定系统总体运行情况/状态。而且，对诸如显示区域、处理能力、存储能力等资源的要求会较低。

正如在从属权利要求5中所述，此对象最好是一种拟人化角色，它具有表示多种元素的能力。特别地，对于在从属权利要求11和12中所要求的一种允许语音输入的系统，同时表示多个独立系统元素的能力是非常有益的。

话音控制作为一种对于(消费)产品的交互形式正变得越来越成熟。但是，人们感到向一种产品如一台电视讲话是非常陌生、不很舒服甚至不能接受的。为避免无意于控制产品的会话或表达被识别和执行，大部分话音控制系统需要用户激活系统(产生一个系统处于活动态的时间跨度)。这样的激活可以通过话音来执行，例如用户说出一个关键词像“电视”。通过使用拟人化角色会更自然的针对该角色(而非产品)，例如向一种像狗的角色说“贝洛(Bello)”。这去除了交互中的一个障碍。而且，这种系统可以有效利用具有多种形态的对象，这种选择是多种状态元素的结果。例如，一类基本形态(如一种睡觉的动物)可用在系统还未处于活动态时。另一类形态可用在系统处于活动态时(如这种动物的清醒形态)。于是时间跨度的进展可以用例如耳朵的角度来表示(时间跨度开始时完全竖起、结束时完全垂下)。同一类形态也可以表示一种表达是否被理解(一种“理解的表情”对应一种“困惑的表情”)。同样，听觉反馈可以结合其中，像单词被识别时的“高兴”吠叫。通过关注一种表示所有这些系统元素的形态(例如，竖起的耳朵和理解的表情或者垂下的耳朵和困惑的表情)，用户可以迅速领会其反馈。

通常，识别错误仍会出现在话音控制系统中，例如，用户确实讲出命令却什么都没识别出来或者识别出一些不同的东西。用户觉得这样的交互困难而非常不可接受，毕竟它是一种产品并且不应该失败。通过使用从属权利要求5中所要求的一种拟人化角色，用户将自动的把交互期间所期望的质量级别与为交互所选的角色种类联系起来。通过选择一种类似狗的角色用户会更加容易接受一些命令未被理解的情况。一个命令需要向狗发出多次或者需要改述，这是非常正常的。

正如在从属权利要求2中所定义的方法，系统可能已经存储了一个从基本对象得出的形态集合。可以使用任何适当的形式从集合中选择形态。例如，可以用表将N个系统元素映射到一个规定了集合中某种形态的值上。可选的是可以使用一种加权机制，其中例如一种以N个系统元素作为输入参数的公式为某种形态产生一种描述符。有利的是可以使用一种模糊逻辑算法。

正如在从属权利要求3的方法中所定义，一旦所表示的系统元素其中之一发生变化，就会产生一种新的形态(表示所有元素)。这种产生可以从一种基本形态开始。优选地，修改当前所呈现的形态。通常，一次仅有一个系统元素改变。如在从属权利要求6的方法中所定义，一个系统元素最好涉及对象的一个不同方面。例如，话音控制系统中的剩余时间跨度是通过动物耳朵的角度来表示。那种元素值的改变仅会引起相应部分的改变。其实现可以通过从形态集中选择一个新的形态。通过使用合适的图形引擎还有可能仅修改当前所呈现形态的那个方面。例如，当系统已经识别出一条话音命令时，一种“中性”的嘴(基本水平)可以改变成一种高兴的表情(翘起的嘴角)。通过仅局部的改变某个方面，对象中反映其他系统元素的其他方面可以保持不变，如果希望那样。例如只要话音音量相对较低(但仍高到可以识别出单词)则在所有呈现的形态中角色可能将他的手拢近耳朵，而嘴的变化可以反映一个命令是否被识别出来，耳朵的角度可以反映剩余时间跨度。

正如从属权利要求3的方法中所定义，修改可能涉及所有类型的方面。它可能涉及形态的大小或形状，以及形态的图形属性如亮度、颜色或不透明度。用最新的图形引擎，形态的表示如面部或者肢体表示也可以进行改变。不仅或者不是改变对象的视觉方面，听觉方面也可以改变，如听觉输出音量或者韵律(例如如果识别出一条不期望的命令时是一种升调)。

正如从属权利要求9的方法中所定义，形态动画化非常有利。这便于把用户的注意力吸引到此形态当时所反映的重要系统元素上来。正如从属权利要求10的方法中所定义，优选的是这种动画与变量的改变同步。例如，耳朵的下垂与时间跨度的进展同步。在系统元素的变化会实时地通过修改形态来实现情况下，优选地执行此修改的引擎了解变量的每个变化。

参考附图所示的实施方案，本发明的这些方面及其他方面会显而易见并进行阐述。

图1表示了一个根据本发明的系统的框图；

图2表示了“多种形态”的对象210；

图3说明了此对象的多种形态；

图4说明了一个可以和其他形态相结合的表情；

图5表示了一个此系统的状态框图；以及

图6表示了一个响应系统事件进行动画显示的状态框图。

图1表示了一种消费电子系统100。该系统就话音控制的消费电子系统方面进行详细描述。应当理解的是根据本发明的呈现技术也可以用于传统控制系统，如具有经遥控装置的输入。系统100包括一种控制器110，它提供对于如TV、DVD播放机、置顶盒等产品传统功能性的控制。由于类似这样的功能性不是本发明的主题，所以不进一步详细描述消费电子产品本身。应当理解的是交互可能局限于仅与一个孤立设备进行交互。随着全数字网络的出现，设备和系统之间的差别会日益消失。根据本发明的交互可以应用到孤立设备以及系统之中。因而术语系统会包括这两种情况。

此系统包括一个接收语音信号(SIS)的输入115。此输入可以经过麦克风被接收。一种语音分析子系统(SAS)120分析信号，以便为一种语音识别器130的识别过程作准备。语音分析是公知的，它可以包括例如A/D转换、信号分段成帧(通常重叠)、将帧表示成向量(通常基于LPC谱分析)。这种分析也可以包括检测语音信号是否存在(如基于能量或者更先进的方法)。识别器130尝试用一种公知的方式来识别分析器120的输出，把它与参考模型如一种声学模型进行比较。这里的输出表示一个或者多个已识别出的单词。这被输入到一种话音控制单元140，它把所识别的单词转换成内部系统操作。这些操作被传送到控制器110。应当注意的是这些功能日益在硬件中得到实现。这样，作为使用单独模块(在专用硬件中实现、或者全部或部分地用专用微控制器实现)的替代，也可以使用一种大控制器完成多种任务，像语音识别、话音控制和系统控制。

根据本发明，系统还包括一个交互引擎150。控制器110向交互引擎提供有关多个系统元素的信息。这些元素可以代表会由交互引擎表示的正常系统状态或系统变量。在话音控制系统中，优选地交互引擎150也接收各自语音相关部分的输入。例如，语音分析子系统120可能指明语音是否正被接收(控制时间跨度指示)和音量是否足够。语音识别器可以指示可用命令全集中的一条命令是否已被识别、以及所识别的命令是否为当前有效子集的一部分(通常并非所有命令在所有时间都可以发送，例如，如果VCR中没有磁带，播放命令可能就不在识别器的有效集合中)。话音控制单元可以根据系统当前状态而指明所识别的命令是否可以被翻译成内部操作。在一个优选实施方案中，至少话音控制单元140是交互引擎150的一部分。用这种方式交互引擎还控制交互的输入侧，对主控制器110屏蔽交互细节。于是，交互还可以不给控制器110加太多重负而更加有功效。交互引擎可以全面控制交互并决定一条指令何时应被发往控制器。这为用户和交互层之间全面和自由的对话创造了可能，这时用户不必害怕系统会无意识地执行一条命令。例如，用户可以在这样一次对话中使用像“停止”的单词而不必担心那总会停止VCR播放。交互层会决定用户是否意图停止VCR播放或者实际想取消与用户的(部分)对话。

根据本发明，交互引擎150包括一种形态选择模块152。根据所提供的N(N＞1)个系统元素的各种实际值，该模块选择一种呈现给用户的形态。如前所述，这种选择可以用任何适当的方式进行，包括使用映射表、投影公式和模糊逻辑。在一个优选实施方案中，系统包括一个存储相同对象形态集合的存储器160。在这种系统中，形态选择模块152确保正确的形态从存储器160中检索到。另一个选择是系统也可以包括另一引擎(未表出)来转换(至少部分)形态。在这种系统中，形态选择模块152为这另一个引擎确定适当参数。用这种方式形态选择模块152更有效地选择所要呈现的形态。也有可能把这两种方法结合起来。例如，形态选择模块152可以从形态的基本集合(例如基于仅一个或几个系统元素)中选择形态，并且修改所选形态，以精确地把它调整到所要呈现的实际系统元素值的整个集合。

交互引擎150还包括一种向用户呈现所选形态的呈现模块154。这种呈现可以是视觉的(如通过显示器150)和/或听觉的(如通过扩音器180)。

在根据本发明的系统中，有利地是使用一种对象，它可以表示许多不同系统元素并且用户可以迅速评定。最好使用一种拟人化角色。如上所述，该对象具有广泛的表达范围，这样它可以同时表示一个(话音控制)系统的多个(不直接相关的)元素。用这种方式此对象成为话音控制交互的中心目标。要表示的元素可以包括(但不局限于)识别器/话音控制单元的不同状态和变量。这种参数的例子有：

.监听

.时间跨度、剩余时间跨度

.可信度级别

.可能命令

.所听到但未识别的东西

.所识别、将执行、已执行的命令

.所识别但不有效的命令

在一个优选实施方案中，交互引擎向系统中加入功能性。交互引擎不是仅仅把系统事件映射到形态并呈现形态，而是对于主动吸引用户注意力(加强交互焦点)也有效。作为示例，交互引擎本身可以决定期望用户与系统进行交互。例如，交互可能还未完成，或系统正处于一种系统通常不停留很久的状态中(如同样的图文电视页面已经显示了数分钟)。有利地，交互引擎可作用以独立于系统元素“自然地”吸引用户注意力。例如，一个随机数产生器可以用于平均一小时一次地触发吸引用户注意力。这加强了形态是鲜活的对象并因此降低了交互中的阈限。由于并非所有用户都会欣赏自主行为，用户可以优选地禁止这种行为。吸引用户注意力最好通过使用动画来进行。

相对于现有技术的话音控制交互系统，其中系统控制器完全控制交互并且使用了一种被动表示层，交互引擎也可作用以用主动传达系统状态来主动参与交互。例如，交互引擎可以提供一种确认的表情来向用户传达命令已被话音控制单元识别并将被执行。这里不需要来自控制器的任何指令。

优选地，交互引擎也可作用以主动让用户进一步参与交互。例如当一条命令本身不完全清楚或者当所识别命令的可信度级别(一个来自识别器的变量)有些低时，模块可以呈现一种困惑、探询的表情，这样要求用户进一步解释和阐明。另一个例子是当一条(或其中部分)命令被错误识别或者当用户改变主意时，用户有可能干预。用户可能说“隐藏...”，然后改变其主意。动画引擎是这样：用户通过说“不”而进行干预，引起系统监听一条全新的命令而不是监听必须隐藏什么。现在用户说“启动...网页浏览器”，然后呈现显示了一种确认的表情，向用户传达该命令已被识别并且将被执行。

拟人化角色

如上所述，使用一种拟人化角色是一种与系统尤其是话音控制系统进行交互的有效方式。这种拟人化角色是用户可与之交谈的实体。拟人化角色关注于实现用户所告诉它要做的。拟人化角色可以实现为视觉一听觉的或者仅有听觉或视觉的。这样，用户不是称呼例如TV(“电视...”)，而是可以用其名字来称呼拟人化角色，例如“贝洛...”。这还开辟出一条从基于孤立命令的传统话音控制形式到一种面向更自然语言的控制的道路。例如，用户不是通过说“电视，频道X”来命令一台电视转换到频道X，而是可以告诉拟人化角色他想干什么，像“贝洛，换到X频道”。

另一个优点是拟人化角色比产品本身更加像人。大部分的人类和动物不会100％的响应给他们的命令，而且与其他人相比他们更喜欢某个人。实际上，语音识别系统和话音控制系统会更好地理解某些人。使用一个角色代表这种系统运行情况会使系统的运行情况更可接受。如果拟人化角色并不对某个命令作出反应，用户可能会接受并愿意重复这个命令。

通常拟人化角色可以更清晰地表达正在进行什么，例如通过使用拟人化表情(面部和/或肢体表示)来显示它是否理解这些单词、它会执行/实现用户的命令、或者它不明白用户说了什么。

拟人化角色示例

一种可能的实现是一只生活在电视中的小狗形式的拟人化角色，图2中进行了说明。狗210是一种3D动画屏幕角色，其中同样使用了声音。可从语音识别器得出的多个状态都被定义。对于每个状态，设计了动画和非语音的听觉提示(狗声)，它们对所说的命令提供适当的反馈。狗210伴随着一种对系统所识别命令进行文本显示的屏幕文本框220。如果用户说了“贝洛”，狗就出现在屏幕上。“换到X频道”引起贝洛在TV换到X频道时肯定地叫两次。此外，如果一条命令未被理解，贝洛开始看起来很困惑并发出声音，这可以被解释为“你什么意思？”。在没有检测到话音命令的8秒时长后，贝洛慢慢地睡着，随后它被从屏幕上去除。

图3阐明了贝洛的四种基本形态。在图3A中贝洛刚被叫唤，正在等待命令。在图3B中一条命令已被识别出来并且贝洛正肯定地叫着。在图3C中语音已被接收但没有命令被识别出来，贝洛很不理解。在图3D中用户停止了交互，贝洛正被送走(“贝洛，下去”)。

图4阐明了在时间跨度期满时贝洛的最终形态。这种形态可以方便地与反应其他系统元素的形态相结合。例如，从形态3A开始，如果未接收到输入就会出现慢慢向形态4的转变。相似的转变可能出现在从3C到4中。

图5表示了一种上部是语音识别子系统的状态框图，它包含可识别的用户输入和因之而呈现的状态。这个子系统向交互引擎发送消息。引擎对消息的反应被表示在图的下半底部。图5表示了话音控制的全部激活。通常需要话音控制系统总是处于活动态，监听命令。然而，典型的用于命令的单词像“启动”、“停止”等在日常语言中出现十分频繁。系统很不容易区别命令单词的偶然使用和真正的命令。因此优选地在一条话音控制命令之前加一条触发命令，像系统名称。如果这个名称没有太短以致与其他相似单词相混淆也没有普通到在日常语言中使用，那么就可以实现语音识别在确实需要时安全地触发。后者的方法可以进一步细化：在命令发出后在某一超时周期内保持语音识别处于活动态等待进一步的命令，或者将活动态保持到用户说出一条明确的“再见”命令。这意味着系统名称仅在输入整个系列命令时说一次。有利地是对这两种终止话音控制活动的方法进行结合。在超时周期期满时或者明确的终止命令被给出时，识别会变成不活动态。这在图5A中表示出来。系统从初始空闲态510开始，响应于在520步检测到激活/选择命令而转换到监听状态530。这还在525步用信号通知给交互引擎，它在527步向用户提供(听觉/或视觉)反馈。作为转换到监听状态530的响应，还有一个时间跨度定时器被启动。当在540步检测到此定时器期满时，系统转换到空闲状态570(通常与初始状态510一样)。如果系统如560步所示识别出一条明确的变为不活动的命令时，也会出现相同的转换。在575步转到空闲状态也被用信号通知给交互引擎。作为响应，在578步引擎会提供反馈。图5B解释了用在图5A中的符号。符号580表示系统状态。符号582表示事件，像状态改变、变量改变或用户输入。符号584表示判定分支。符号586表示系统动作。符号588表示给交互引擎的消息。

图6显示一种系统，其中单一事件引起动画被触发。在所示例子中，在事件和动画之间存在着一对一关系。在例子中，使用了总共12种动画(位图序列和各自的声音文件)。文件名与系统状态框图标号相一致。如果四秒以上未识别出任何东西，则该系统具有三个主要状态：空闲(610)、监听(620)和变为不活动(630)。对于可能出现的各种事件都指明了启动哪个动画。在图6所示的简单系统中，动画仍然只由一个系统元素确定。根据本发明，诸如动画的形态由一个以上的系统元素确定。在这样一种系统中，可能删除状态630，并将这个状态的“睡觉”行为结合到表示监听状态620的各种形态中。

Claims

1.一种让用户能与消费电子系统进行交互的方法，系统运行情况用多个动态改变的系统元素如系统状态或者变量进行模拟；该方法包括向用户呈现多个系统元素，这是通过：

—根据多个系统元素的实际值，从一个对象的多种不同视觉/听觉形态中选择一种形态；并且

—向用户呈现所选形态。

2.如在权利要求1中所要求的方法，其中该系统包括一个存储该对象的不同视觉和/或听觉形态集合的存储器；而且其中选择形态的步骤包括在集合中选择一种形态并从存储器中检索出所选形态。

3.如在权利要求1中所要求的方法，其中该系统包括一个存储该对象的基本视觉和/或听觉形态的存储器；而且其中选择形态的步骤包括把基本形态或当前所选形态修改成期望的形态。

4.如在权利要求3中所要求的方法，其中修改形态的步骤包括修改该对象的基本形态或者当前所选形态的视觉形态，如大小、形状、亮度、颜色、不透明度或表情。

5.如在权利要求1中所要求的方法，其中对象包括一种拟人化角色。

6.如在权利要求1中所要求的方法，其中第一独立系统元素专门对应着对象的第一方面；该方法包括响应第一系统元素的预定改变而选择对象的一种视觉和/或听觉形态，它仅在第一方面和当前所选的形态不同。

7.如在权利要求6中所要求的方法，其中对象的第一方面是该对象的视觉子元素的视觉形态，如大小、形状、亮度、颜色、不透明度或表情。

8.如在权利要求6中所要求的方法，其中对象的第一方面是该对象听觉元素的声音/话音属性，如音量或韵律。

9.如在权利要求1中定义的方法，其中该方法包括对该对象的所选形态进行动画化。

10.如在权利要求9中定义的方法，其中至少一个系统元素是动态改变的变量；该方法包括把动画和变量的改变进行同步。

11.如在权利要求1中所要求的方法，其中该系统包括一个语音识别器，而且至少其中一个系统状态是此识别器的状态。

12.如在权利要求9中所要求的方法，其中该系统包括一个话音控制单元，而且至少其中一个系统状态是此话音控制单元的状态。

13.一种消费电子系统，该系统的运行情况用多个动态改变的系统元素如系统状态或变量进行模拟；该系统包括：

用于根据多个系统元素的实际值从一个对象的多个不同视觉和/或听觉形态中选择一种形态的装置；以及

用于通过向用户呈现所选形态来向用户呈现多个系统元素的装置。

14.如在权利要求13中所要求的消费电子设备，其中该系统包括一个用于存储该对象的不同视觉和/或听觉形态集合的存储器；而且其中选择形态的装置可作用以从集合中选择一种形态并从存储器中检索出所选形态。

15.如在权利要求13中所要求的消费电子设备，其中该系统包括一个用于存储该对象的基本视觉和/或听觉形态的存储器；而且其中选择形态的装置包括把基本形态修改成期望形态的装置。