CN1302056A

CN1302056A - 信息处理设备,信息处理方法和存储介质

Info

Publication number: CN1302056A
Application number: CN00137498A
Authority: CN
Inventors: 山下润一; 小川浩明; 本田等; 赫尔穆特·卢克; 田丸英司; 藤田八重子
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-12-28
Filing date: 2000-12-28
Publication date: 2001-07-04
Anticipated expiration: 2020-12-28
Also published as: US6509707B2; JP2001188555A; CN1204543C; KR20010062767A; US20010020837A1

Abstract

公开了一种执行各种动作的机器人装置。麦克风拾取的用户的语音由语音识别器识别。CCD拾取的用户的示意动作由图像识别器识别。行为决定单元根据语音识别器提供的语音信息和图像识别器提供的图像信息,决定机器人装置采取的行为。

Description

信息处理设备，信息处理方法和存储介质

本发明涉及信息处理设备，信息处理方法和存储介质，并且特别涉及使用语音信息和图像信息决定机器人装置的行为的信息处理设备、信息处理方法，以及用于存储信息处理方法的软件程序的存储介质。

现在市场上有大量的玩具机器人装置(某些时候被充滞(stuffed))。一些机器人装置根据触动开关的按动输出合成语音。另一些机器人装置识别用户发出的话音并且说话来进行应答，这样用户乐于与这样的机器人装置交谈。

市场上也有许多机器人装置，它们拾取图像用于图像识别，并且估计它们周围的环境，以自我控制的方式移动。

当用户的语音不很清楚时，语音识别是不稳定的识别。具体地说，当用户的词语包括没有被清楚定义并且有几种解释的指示代词时，机器人装置不能识别该代词指示的物体。

上述机器人装置根据语音或图像以自我控制的方式移动，并且难以根据语音信息和图像信息运行。

因此，本发明的一个目的是提供一种使用语音和图像信息可靠执行语音识别的机器人装置，从而给机器人装置提供多种运动。

在本发明的一个方面中，机器人装置中使用的一种信息处理设备包括：语音识别器，用于识别语音；图像识别器，用于识别图像；和决定单元，根据由语音识别器提供的语音识别结果和由图像识别器提供的图像识别结果中的至少一个结果，决定机器人装置的行为。

信息处理设备可以包括：存储单元，存储描述语音识别器提供的话音识别结果和图像识别器提供的图像识别结果的关系、和根据语音识别结果和图像识别结果唯一确定的机器人装置的行为的表。

当语音识别不由语音识别器唯一确定时，决定单元可以按照由图像识别器唯一确定的图像识别结果，决定机器人装置的行为。

当多个物体出现在图像识别器识别的图像区域内时，决定单元可以按照由语音识别器唯一确定的语音识别结果，决定机器人装置的行为。

图像识别器可以识别在用户的手指、面部、眼睛和下领中的用户的预定部分之一所指的方向上出现的场景的图像。

该信息处理设备还进一步包括：存储单元，用于存储由用户施行的示意动作数据，其中图像识别器识别用户的图像，以检测与存储在存储单元中的示意动作数据匹配的示意动作；并且将所检测的示意动作看作图像识别结果。

该信息处理设备还进一步包括：检测器，用于检测用户的面部；和距离查找器，用于根据检测器检测的用户面部的大小，测量用户和机器人装置之间的距离，其中决定单元使用测量的距离决定机器人装置的行为。

语音识别器可以检测包含在背景声音中的旋律，并且将检测的旋律当成语音识别结果。

语音识别器可以从背景声音中检测声学现象，并且将所检测的声学现象当成语音识别结果来处理。

在本发明的另一方面中，机器人装置使用的信息处理设备的信息处理方法包括：语音识别步骤，识别语音；图像识别步骤，识别图像；和决定步骤，根据在语音识别步骤提供的语音识别结果和在图像识别步骤提供的图像识别结果中的至少一个结果，决定机器人装置的行为。

在本发明的另一方面中，在机器人装置中使用的信息处理设备的软件程序包括：用于执行下列步骤的程序代码：识别语音的语音识别步骤、识别图像的图像识别步骤、根据在语音识别步骤提供的语音识别结果和在图像识别步骤提供的图像识别结果中的至少一个结果泱定机器人装置行为的决定步骤。

在本发明的另一方面中，存储介质存储机器人装置中使用的信息处理设备的软件程序。包括执行下列步骤的程序代码：识别语音的语音识别步骤、识别图像的图像识别步骤、根据在语音识别步骤提供的语音识别结果和在图像识别步骤提供的图像识别结果中的至少一个结果决定机器人装置行为的决定步骤。

图1是本发明的机器人装置的一个实施例的外观图；

图2是图1所示的机器人装置内部结构的方框图；

图3是图2的控制器的功能方框图；

图4是执行语音和图像识别的机器人装置一部分的功能方框图；

图5是语音识别器的内部结构方框图；

图6是图像识别器的内部结构方框图；

图7是行为决定单元的内部结构方框图；

图8是行为表存储单元中存储的行为表；

图9是在行为分类表存储单元中存储的行为分类表；

图10是语音识别过程的流程图；

图11是图像识别过程的流程图；

图12是行为决定过程的流程图；

图13是使用语音信息和图像信息输出识别结果的过程流程图；

图14是使用语音信息和图像信息输出识别结果的另一过程流程图；

图15是使用语音信息和图像信息输出识别结果的又一过程流程图；

图16示出了用户和机器人装置的几何图；

图17示出了语音识别器的另一结构；

图18示出了行为表存储单元中存储的另一行为表；

图19示出了行为表存储单元中存储的另一行为表；

图20示出了存储介质。

图1是本发明的机器人装置1的一个实施例的外观图，图2示出了机器人装置1的电气结构。

该实施例的机器人装置1模拟一只狗。腿单元3A、3B、3C和3D分别连接到左前侧、右前侧、左后侧和右后侧的躯干单元2。头单元4和尾单元5分别连接到在前和后方的躯干单元2。

尾单元5从躯干单元2的基底部分5B可两个自由度地延伸，使得尾单元5弯曲或转动。躯干单元2内装：控制器10，用于控制整个机器人装置1；电池11，作为机器人装置1的电源；和内部传感器14，诸如电池传感器12和热传感器13。

头单元4包括：与狗的“耳朵”对应的麦克风15；与狗的“眼睛”对应的CCD(电荷耦合器件)摄像机16；与狗的触觉对应的触觉传感器17；和与狗的“嘴部”对应的扬声器18。

致动器3AA₁到3AA_K、3BA₁到3BA_K、3CA₁到3CA_K和3DA₁到3DA_K分别设置在腿单元3A、3B、3C和3D中，并且分别在腿单元3A、3B、3C、3D和躯干单元2之间的关节处。致动器4A₁到4A_L设置在头单元4和躯干单元2之间的关节处，并且致动器5A₁和5A₂设置在尾单元5和躯干单元2之间的关节处。这些关节使得各连接单元以预定的自由度转动。

在头单元4中的麦克风15拾取包含用户语音的周围声音，并且将产生的声音信号输出到控制器10。CCD摄像机16拾取机器人装置1周围的图像，并且将产生的图像信号传送到控制器10。

设置在头单元4的顶部的触觉传感器17检测施加于其上的物理作用压力，诸如“被抚摸”或“被敲打”，并且将检测结果作为压力信号发送到控制器10。

在躯干单元2中的电池传感器12检测在电池11中剩余的电力，并且将检测的电力电平作为剩余电力指示信号输出到控制器10。热传感器13检测机器人装置1内积累的热量，并且将检测结果作为热电平信号传送到控制器10。

控制器10包括CPU(中央处理单元)10A和存储器10B。CPU10A通过执行存储在存储器10B中的控制程序，执行各种处理。具体地说，控制器10根据分别由麦克风15、CCD摄像机16、触觉传感器17、电池传感器12和热传感器13提供的语音信号、图像信号、压力信号、电池剩余电力指示信号和热电平信号，确定机器人装置1周围的情况、来自用户的命令、和用户动作的存在或不存在。

根据确定结果，控制器10决定采取什么动作或行为。响应于决定结果，致动器3AA₁到3AA_K、3BA₁到3BA_K、3CA₁到3CA_K和3DA₁到3DA_K、4A₁到4A_L和5A₁和5A₂根据需要被驱动。头单元4可以纵向或横向转动，尾单元5可以摆动，腿单元3A到3D可以被驱动，从而机器人装置1进行任何动作诸如四足行走。

控制器10按照需要合成声音，并且通过扬声器18输出合成的声音。设置在机器人装置1的眼睛位置的LED(发光二极管)(未示出)可以接通，可以熄灭或可以眨动。

用此方法，机器人装置1响应于其周围情况，以自我控制方式动作。

图3是图2所示的控制器10的功能方框图。当CPU 10A执行存储在存储器10B中的控制程序时，机器人装置1按照图3所示的功能方框图操作。

控制器10包括：传感器信号处理器31，用于识别机器人装置1周围的特定情况；情感/本能模型单元32，用于表达机器人装置1的感情和本能状态；行为决定单元33，根据由传感器信号处理器31提供的识别结果，决定要采取的动作；姿态转换单元34，用于按照行为决定单元33提供的决定结果驱动机器人装置1动作；驱动控制器35，用于驱动和控制致动器3AA₁到5A₂；语音合成器36，语音合成声音；和声音处理器37，用于控制语音合成器36的输出。

传感器信号处理器31按照分别由麦克风15、CCD摄像机16和触觉传感器17提供的语音信号、图像信号和压力信号，识别机器人装置1周围的特定情况、用户采取的特定行动、和用户给出的指令。传感器信号处理器31将指示识别结果的识别信息输出到情感/本能模型单元32和行为决定单元33。

具体地说，传感器信号处理器31包括语音识别器31A。在行为决定单元33的控制下，语音识别器31A对来自麦克风15的语音信号进行语音识别。语音识别器31A将语音识别结果诸如象“走”、“躺下”、“跟着球走”之类的命令等通知给情感/本能模型单元32和行为决定单元33。

传感器信号处理器31还包括图像识别器31B。该图像识别器31B对来自CCD摄像机16的图像信号进行图像识别。例如，当图像识别器31B已经检测到“红色和圆形物体”或“从地面垂直延伸并且比预定高度高的平面”时，图像识别器31B将图像识别结果通知给情感/本能模型单元32和行为决定单元33，该图像识别结果可能指示“有一个球”或“有一堵墙”。传感器信号处理器31还识别用户的示意动作，并且将相应识别结果通知给行为决定单元33。

传感器信号处理器31还包括处理器识别器31C。处理器识别器31C处理来自触觉传感器17的压力信号。当触觉传感器17检测到高于预定阈值电平的、短持续时间的压力时，处理器识别器31C识别机器人装置1正在被“敲打(或惩罚)”。当触觉传感器17检测到低于预定阈值电平的、长持续时间的压力时，处理器识别器31C识别为“被抚摸(或表扬)”。然后，处理器识别器31C将识别结果馈送给情感/本能模型单元32和行为决定单元33。

情感/本能模型单元32管理机器人装置1的表达情感状态的情感模型和本能模型。行为决定单元33根据传感器信号处理器31的识别结果、情感/本能模型单元32的情感/本能状态信息和过去的时间决定采取的下一个行为。然后行为决定单元33将行为信息作为行为命令信息送给姿态转换单元34。

响应于来自行为决定单元33的行为命令信息，姿态转换单元34产生姿态转换信息，该信息用来使机器人装置1从当前姿态转换到下一个姿态。姿态转换信息送给驱动控制器35。响应于来自姿态转换单元34的姿态转换信息，驱动控制器35产生控制信号，用于驱动致动器3AA₁到5A₁，并且分别输出控制信号到致动器3AA₁到5A₂。致动器3AA₁到5A₁和5A₂按照各控制信号被驱动。于是机器人装置1以自我控制方式工作。

机器人装置1识别用户的语音和示意动作，由此决定其行为。图4示出了图3所示的系统的一部分，在识别用户语音和示意动作之后其决定机器人装置的行为。参照图4，示出了识别用户语音的麦克风15和语音识别器31A；识别用户的示意动作的CCD摄像机16和图像识别器31B；和行为决定单元33。基于语音识别器31A和图像识别器31B提供的识别结果，行为决定单元33决定机器人装置1采取的下一个动作。

图5详细示出了语音识别器31A。用户的语音输入到麦克风15，在此将用户的语音转换成电语音信号。电语音信号送给语音识别器31A中的模拟数字(AD)转换器51。AD转换器51将是模拟信号的电语音信号采样、量化并且由此转换成数字语音信号。该数字语音信号送给特征提取器52。

特征提取器52每隔合适数目的帧，从来自AD转换器51的语音数据中提取特征参数，诸如频谱、线性预测系数、倒谱系数和线性频谱对。然后，该特征提取器52将特征参数送给特征参数缓冲器53和匹配单元54。特征参数缓冲器53临时存储来自特征提取器52的特征参数。

基于来自特征提取器52的特征参数和来自特征参数缓冲器53的特征参数，匹配单元54在参照声学模型数据库55、字典数据库56和语法数据库57的同时，识别输入到麦克风15的语音。

声音模型数据库55以将被识别的语言来存储代表语音中的声学特性诸如音素和音节的声学模型。作为一个声学模型，可以采用HMM(隐含马尔克夫模型)。字典数据库56存储包含要被识别的每个词语的发音信息(发音信息)的词语字典。语法数据库57存储描述在字典数据库56中登记的每个词语如何被链接的语法。该语法可以是上下文无关语法(CFG)，或基于词语链概率的规则(N语法)。

匹配单元54通过参考字典数据库56中的字典，连接存储在声学模型数据库55中的声学模型，产生新词语(词语模型)。匹配单元54还通过参考存储在语法数据库57中的语法，连接几个词语模型，并且基于特征参数通过连续HMM方法处理所连接的词语模型，从而识别输入到麦克风15的语音。于是匹配单元54的语音识别结果以文本输出。

当匹配单元54需要再处理输入的语音时，使用存储在特征参数缓冲器53中的特征参数。用该方法，没有必要请求用户再次说话。

图6示出了图像识别器31B的内部结构。由CCD摄像机16拾取的图像输入到图像识别器31B中的AD转换器61。图像数据由AD转换器61转换成数字图像数据，然后输出到特征提取器62。特征提取器62从输入图像数据中提取各特征，诸如图像中的物体的边缘和密度变化，从而确定特征量，诸如特征参数或特征矢量。

由特征提取器62提取的特征量输出到面部检测器63。面部检测器63从输入特征量中检测用户的面部，并且将检测的结果输出到距离查找器64。距离查找器64在测量用户的面部看去的方向的同时，使用面部检测器63的输出测量到用户的距离。测量结果被输出到行为决定单元33。

到用户的距离可以从面部大小的变化来测量。例如，距离测量可以使用Henrv A.Rowley,Shumeet Baluja和Takeo Kanade在论文“Neural Nerwork-Based Frace Detection(基于面部检测的神经网络)”IEEE模式分析和机器智能化中描述的方法。

在该实施例中，面部的大小使用单条图像信号线测量。或者，为了匹配可以比较在两条信号线上的两个图像信号(立体图像)以测量到用户的距离。例如，从立体图像提取三维信息的方法公开于论文“Section 3.3.1 Point PatternMatching,Image Analysis Handbook(节3.3.1点模式匹配，图像分析手册)”中，该论文由Takagi,Shimoda编辑，东京大学出版。

特征提取器62提取的特征量输出到面部检测器63和匹配单元65。匹配单元65将输入特征量与存储在标准模式数据库66中的模式信息比较，并且将比较结果送给行为决定单元33。存储在标准模式数据库66中的数据包含示意动作图像数据和指示行为模式的特征的数据。对于示意动作识别，参考日本机器人装置技术杂志，Vol.17,No.7,pp.933-936,1999由SeijiINOKUCHI所著的、题为“Gesture Recognition for Kansei Expression(用于Kansei表达的示意动作识别)”的论文。

语音识别器31A提供的识别结果和图像识别器31B提供的识别结果(测量结果)输入到行为决定单元33。图7示出了行为决定单元33的内部结构。语音识别器31A提供的语音识别结果输入到行为决定单元33中的文本解析器71。文本解析器71基于存储在字典数据库72和语法数据库73中的数据，对输入语音识别结果进行词素分析和语法分析。文本解析器71基于在字典数据库72中字典的内容，提取输入语音的意义和意图。

具体地说，字典数据库72存储应用词语和语法需要的讲话信息的部件和各词语的含义信息。语法数据库73根据存储在字典数据库72中的各词语信息存储描述链接词语中的约束。使用这些数据段，文本解析器71分析输入语音识别结果。

语法数据库73存储文本解析所需的数据，诸如正规语法，上下文无关语法，词语链的统计建立，和包括用于语义解析的诸如HPSG(Head-driven PhraseStructure Grammar，驱动头短语结构语法)的语义学。

文本解析器71提供的分析结果输出到关键词提取器74。响应于输入分析结果，关键词提取器74参考存储在关键词数据库75中的数据，并且提取发出语音的用户的意图。提取结果送给行为表参考单元76。关键词数据库75存储指示用户意图诸如叫喊和命令、并且在查找关键词中用作关键词的数据。更具体地说，用作后续阶段行为表参考单元76中语音信息索引的表达和对应于该表达的词语被存储为关键词数据。

行为表参考单元76按照关键词提取器74提供的提取结果和图像识别器31B提供的识别结果，参照分别存储在行为表存储单元77和行为分类表存储单元78中的表，决定机器人装置1的行为。现在讨论存储在行为表存储单元77中的表。图8示出了存储在行为表存储单元77中的行为表。

此处，图像识别结果分成“召唤”、“用手指指着”、“握手”、“招手”和“没有结果”。根据每种图像识别结果，可能需要或可以不需要增补信息。此外，也参照语音识别结果。

例如，发现图像识别结果是“召唤”，需要现在用户在何处及用户多远的信息，换言之，需要测量结果。当用户召唤时，如果语音识别结果表示“过来”的命令，决定“走近用户”的动作。当语音识别结果表示“离开”的命令时，泱定“离开”的动作。即使当用户说“过来”时，不总是决定走近用户的动作，后面将对此描述。

于是行为表描述了单个行为，该行为根据机器人装置对于用户的状态，由用户的示意动作(图像识别结果)、用户的语音(语音识别结果)和到用户的距离(测量结果)的三部分信息确定。

图9表示存储在行为分类表存储单元78中的行为分类表。行为分类表列出在图8中所示行为表中所列行为的分类。表中的行为被分成图9中所列出的四类：“相对于机器人装置位置的行为”、“相对于用户位置的行为”、“绝对行为”和“其它行为”。

相对于机器人装置位置的行为包括根据到机器人装置当前位置的距离和方位确定的行为。例如，当用户说“向右去”时，如果用户处在其右侧与机器人装置的左手侧对齐的面对面位置，面对机器人装置1，机器人装置1从它自己的位置向左移动。

相对于用户位置的行为包括根据到用户当前位置的距离和方位确定的行为。例如，当用户说“过来”时，机器人装置1确定在用户的80cm范围内移动多远，例如按照确定结果实际移动。

绝对行为包括在不管机器人装置1和用户的当前位置的情况下确定的行为。例如，当用户说“向西去”时，机器人装置1仅向西移动，因为不管当前机器人装置自己的位置和当前用户的位置来确定向西方向。

其它行为是既不需要方位信息也不需要距离信息的行为，例如包括机器人装置1产生的语音。

现在讨论机器人装置1的行为的决定。机器人装置1的行为由用户的语音和动作来决定。现在参照图10所示的流程图讨论用户语音的识别。在步骤S1中，由麦克风15拾取的用户语音接着在语音识别器31A的语音识别过程中被处理。

在步骤S2中，由语音识别器31A提供的语音识别结果输入到行为决定单元33中的文本解析器71用于文本分析。在步骤S3中，关键词提取器74使用分析结果执行关键词匹配。在步骤S4中，确定是否已经提取了一个关键词。当在步骤S4中确定已经提取了一个关键词时，处理进行到步骤S5。

在步骤S5中提取的关键词被当作语言信息。当在步骤S4中确定没有提取到关键词，处理转到步骤S6，并且没有关键词的信息被当成语言信息。当步骤S5或步骤S6被完成时，在步骤S7中，语言信息被输出到行为表参考单元76。该处理在机器人装置1的操作期间被重复。

在上述语音识别处理进行的同时，也处理用户的图像。现在参照图11所示的流程图讨论机器人装置1的图像处理。在步骤S11中，在图像识别器31B中的特征提取器62从CCD摄像机16拾取的图像中提取特征量。在步骤S12中，根据识别结果确定是否有被登记的示意动作。具体地说，使用从特征提取器62输出的特征量，匹配单元65确定识别结果是否与存储在标准模式数据库66中的任何一个示意动作模式信息匹配。当发现该示意动作与一种示意动作模式信息匹配时，处理转到步骤S13。

然后在步骤S13中判定所确定的与登记的示意动作匹配的示意动作是否有增补信息。例如，具有增补信息的示意动作可以是用户用他自己的手指指向一个方向，并且在此情况下，出现在用户手指所指的方向的物体的信息是增补信息。当在步骤S13中确定示意动作具有它自己的增补信息时，在步骤S14中检测该增补信息。当在步骤S14中完成增补信息的检测时，处理转到步骤S15。

当在步骤S12中确定没有登记示意动作时，或当在步骤S13中确定该示意动作没有关联增补信息时，处理转到步骤S15。在步骤S15中，行为信息输出到行为表参考单元76。

当处理从步骤S12进行到步骤S15时，行为信息是没有示意动作的信息，换言之，图像识别结果指示没有决定机器人装置1采取行为的信息。当处理从步骤S13进行到步骤S15时，行为信息只含有关于示意动作的信息。当过程从步骤S14到步骤S15时，行为信息含有关于示意动作的信息和增补信息。

在机器人装置1的操作期间重复该图像识别处理。在步骤S13的增补信息可以根据需要包括面部检测器63和距离查找器64提供的测量结果。

在行为决定单元33中的行为表参考单元76使用语音识别结果的语言信息和图像识别结果的行为信息决定机器人装置1的行为。现在参照图12讨论行为表参考单元76的操作。在步骤S21中，行为表参考单元76接收来自关键词提取器74的语言信息和来自图像识别器31B的行为信息。在步骤S22中，根据输入的语言信息和行为信息，行为表参考单元76参照存储在行为表存储单元77中的行为表和存储在行为分类表存储单元78中的行为表分类表，唯一决定机器人装置1的行为。

现在讨论行为表参考单元76的决定操作。基于图8所示的表，进行决定操作。例如，当图像识别结果(行为信息)是“召唤”并且语音识别结果(语言信息)表示“过来”的命令时，设定走近用户、离开用户和不理用户的三种行为。当用户“召唤”并且告诉机器人装置1“来”时，机器人装置1通常选择走近用户的动作。然而，如果机器人装置1总是响应相同的方式，用户可能厌倦了机器人装置1的这种响应。

即使当用户作相同的示意动作和说相同的话时，可以设计机器人装置1有不同的响应。采取三种行为中哪一种可以按顺序决定、可以以随机方式决定、可以用概率值决定、可以由关键词决定或可以根据当时的情感决定。

当用概率值进行行为决定时，走近用户的行为能有50％的概率，离开用户的行为能有30％的概率，而不理用户的行为能有20％的概率。

当按照关键词进行行为决定时，可有采用当前动作、当前话、先前动作和先前话的组合。例如，当在先前动作中用户拍他的手时，并且在当前动作中召唤接着说“过来”命令时，将机器人装置1设计成总是选择走近用户的行为。当用户在先前动作中敲打机器人装置1时，并且在当前动作中召唤接着说“过来”的命令时，将机器人装置1设计成选择离开用户的行为。

用此方法，在决定行为中可以采用当前动作、当前话、先前动作和先前话的组合。

当根据机器人装置1的情感进行行为决定时，机器人装置1参照在情感/本能模型单元32中的信息。例如，当用户召唤并且告诉正在害怕的机器人装置1到用户这边来时，机器人装置可以走近用户。当用户召唤并且告诉正在生气的机器人装置1时，机器人装置1可以不理用户。

用此方法，根据语言信息和行为信息，行为表参考单元76决定参照行为表的行为。在步骤S23中，行为表参照单元76将决定的行为告诉姿态转换单元34(参见图12)。机器人装置1按照后续的过程执行预定操作。

在上述实施例中，检测用户手指所指的方向，并且检测在那个方向上出现的物体作为增补信息。或者，可通过检测用户面部的朝向、用户眼睛所看的方向、和用户下领所指的方向检测增补信息。

除了上述示意动作，标准模式数据库66可以存储各种其它示意动作，以传递意图和感情，诸如上下摇某人的头表达“是”，横向摇某人的“头”表达“不是”，胜利或和平的标志，祈祷，欢呼，或其它各种示意动作。

当机器人装置1识别用户的语音时，声音本身可能是不清楚的(不清楚地发音)，引起错误的识别。例如，用户可能用不清楚的语音说“请取一本书(book)”，传感器信号处理器31可能用错误的讲话“请取一个钩子(hook)”识别那句话。图13是通过图像数据的帮助避免这种错误识别的处理流程图。

当用户说话时，然后他的声音由麦克风15拾进机器人装置1，并且在步骤S31输入至语音识别器31A。在步骤S32，语音识别器31A识别输入的语音，由此，产生可能是用户说的多个词语候选者。在步骤S33，对于最可能第一候选者和第二候选者执行处理步骤。

在步骤S33，确定第一候选者和第二候选者之间的分数差是否落在预定阈值之内。当确定分数差在预定阈值之外时，换言之，当由于第一候选者远离第二候选者，候选者被当成一个候选结果而没有任何问题时，处理转到步骤S37。第一候选者现在被确认为正确结果。

当在步骤S33中确定第一候选者和第二候选者之间的分数差落在阈值之内时，换言之，当确定第一候选者可能是一个错误结果时，过程进行到步骤S34。然后处理具有高分数的多个候选者。在步骤S36中，执行图像识别。在步骤S35中，对用户说话时拾取的图像、或在用户说话之前已经拾取的图像、或用户说话之后拾取的图像进行图像识别处理。

然后使用在步骤S35中获得的图像识别结果，补充语音识别处理结果。

如上所述，当用户说“请取一本书”时，第一候选者是“请取一本书”，而第二候选者是“请取一个钩子”。如果第一候选者和第二候选者之间的分数差落在预定阈值内，则难以确定哪个是正确的。当图像识别结果表明在图像中书是被取的画面，“请取一本书”的第一候选者被确定是正确的。当图像识别结果表明在图像中钩子是被取的画面，“请取一个钩子”的第二候选者被确定是正确的。

于是在步骤S37，补充语音识别结果，并且确认为正确的结果。当这样语音识别结果是不确定的时，使用图像识别结果帮助确定语音识别结果。

在上述讨论中，只比较第一候选者和第二候选者。可选的是，可以比较第一到第十候选者，以确定它们之间的差。

例如，用户A和用户B现在谈话。用户A说“看这个”。用户B说“那是什么”。日常生活中这样的谈话经常交流。用户A使用“这个”指示一个物体，而用户B使用“那个”指示同一物体。这样，指示代词根据情况变化。

当用户与机器人装置1谈话时，可能发生同样的事情。于是机器人装置1需要识别用户用指示代词指示什么。图14是机器人装置1确定指示代词的物体的处理流程图。在步骤S41中，用户说话，并且在步骤S42中，执行语音识别，以识别用户的语音。

在步骤S43中，根据语音识别结果，确定用户的讲话中是否包含指示代词。当确定不包含指示代词时，在步骤S46中，确认语音识别结果是正确结果。

当在步骤S43中确定用户的讲话中包含指示代词时，处理转到步骤S44，进行图像识别。对当用户说话时拾取的图像、或在用户手指所指的方向上拾取的图像进行图像识别。

在步骤S44中，对图像进行图像识别，从而在步骤S45中，使用图像识别结果确定指示代词的物体。例如，现在用户对机器人装置1说“取那个”，然后用户通过示意动作例如通过将他的手指指着那个物体指示对应于“那个”的物体。

在步骤S42中，响应于用户的讲话，机器人装置1进行语音识别，然后确定该讲话包含指示代词“那个”。机器人装置1还从用户说话的时刻拾取的图像，确定用户已经执行将他的手指指向一个方向的示意动作。

在步骤S44中，机器人装置1确定指示代词“那个”所指的用户指示的方向，拾取在那个方向上的图像，并且对所取的图像进行图像识别。例如，当图像识别结果表明该物体是“纸”时，由指示代词“那个”指示的物体被发现是“纸”。当在步骤S45中用该方法确定指示代词的物体时，处理转到步骤S46。于是在步骤S46确认语音识别结果为正确的结果。

于是，通过使用图像信息可靠识别指示代词的物体。

当机器人装置1拾取图像时，多个物体可能出现在那个图像中。图15是确定多个物体中哪一个是用户在他的讲话中指示的物体的处理流程图。在步骤S51中，由用户执行然后由CCD摄像机16识别的示意动作送给机器人装置1。

当该示意动作指示特定的方向时，机器人装置1需要识别用户所指的方向上场景的图像，以得到增补信息。于是，拾取用户所指的方向上场景的图像，并且在步骤S52图像识别器31B对图像进行图像识别处理。在步骤S53，图像识别结果用来确定是否有多个物体包含在该图像内。当在步骤S53中确定没有出现多个物体，即一个物体时，处理转到步骤S56。于是输出该物体的图像识别结果。

当在步骤S53确定在该图像内包含多个物体时，处理转到步骤S54，并且进行语音识别。对当用户作示意动作时拾取的语音进行语音识别。在步骤S55，步骤S54的语音识别结果(语音信息)用来补充图像识别结果。下面更具体地讨论这种处理。

例如，用户在作指一个预定方向的示意动作的同时，用户说“取一个球”。机器人装置1响应用户的示意动作，并且识别用户在其示意动作中指向特定方向。机器人装置1拾取在用户指示的方向上的图像，并且对图像进行图像识别。当机器人装置1确定多个物体出现在该图像内时，机器人装置1对用户在作示意动作的同时所说的话进行语音识别。

当语音识别结果表明请求“取一个球”时，确定该球是图像内多个物体中用户最想要的物体。于是图像识别结果由语音信息得到补充。当由语音信息补充图像识别结果时，处理转到步骤S56。于是输出补充图像识别结果。

这样，借助于语音信息通过补偿图像信息的不清楚部分可以得到正确的图像信息。

根据语音信息动作的机器人装置只在用户语音过来的方向上移动，而根据图像信息动作的机器人装置在用户所处的场景中的方向上移动。本发明的机器人装置参照语音信息和图像信息的组合，决定用户希望的行为，并且相应地具体移动。将机器人装置1的行为分类如图9中所列出的，对此也一进行了描述。

通过识别用户的语音，并且检测用户和机器人装置1本身的当前位置，来泱定采取的行为。具体地说，当用户说“过来”，机器人装置1识别该话语，然后从图像信息检测用户的位置。当决定走近用户的行为时，然后确定到目标位置的距离和方位。

参照图16，目标位置设定为在用户前方距用户80cm。面部检测器63使用在图像识别器31B(图6)中的特征提取器62提取的特征量，识别用户的面部，而距离查找器64参照用户的面部大小，测量机器人装置1和用户之间的距离。使用被测的距离，机器人装置1于是确定走多远到达距用户前方80cm的目标位置。

响应于用户的示意动作的机器人装置1的行为通过测量用户的位置并且在行为中说明测量的位置，变得更精确。

在上述实施例中使用用户实际说的词语。机器人装置1的行为可以响应于用户的拍手声(旋律)或用户的脚步声来决定。

当用户产生的语音包括旋律和声音时，语音识别器31A可以配置为如图17所示。麦克风15拾取的语音输入到AD转换器51被进行模拟数字转换。然后数字数据被输入到旋律/声音识别器81。旋律/声音识别器81获得旋律和声音信息。

旋律/声音识别器81提供的识别结果送给行为决定单元33。图17省去了识别用户语音的部分，即图5所示的部分。从A/D转换器51输出的数字语音信号送给特征提取器52(见图5)，并且送给旋律/声音识别器81(见图17)。

旋律/声音识别器81提供的识别结果送给行为决定单元33，但是在此情况下，直接送给行为决定单元33中的行为表参考单元76，而不是给文本解析器(见图7)。

现在讨论语音识别旋律的旋律/声音识别器81的识别方法。旋律/声音识别器81通过检测打击乐器的拍子(包括用户的拍手声)或经和弦变化检测拍子，检测旋律。输出表示何时检测到拍子、什么小节、多少拍等的检测结果。

在下列论文中著有旋律的检测方法：日本电子学、信息和通信工程师协会学报，J77-DⅡ,No.5 pp.901-991,1994年Masataka GOTO和YoichiMURAOKA所著的题为“A Sound Source Separation System for PercussionInstruments(用于打击乐器的声源分离系统)”的论文；日本电子学、信息和通信工程师协会学报，J81-D11,No.2 pp.227-237,1998年Masataka GOTO和Yoichi MURAOKA所著的题为“A Real-Time Beat Tracking System for AudioSignals(音频信号的实时节拍跟踪系统)”的论文。此处公开的方法也用于本发明中。

下面讨论的是机器人装置1跳舞作为行为决定单元33(行为表参考单元76)使用旋律/声音识别器81提供的旋律识别结果决定的行为的情况。行为表存储单元77存储行为表，如图18所示。例如，当旋律识别结果表明用落在一分钟0到60拍范围的拍子速率选择一二重小节时，机器人装置1选择跳舞A。当旋律识别结果表明用落在一分钟0到60拍范围的拍子速率即没有选择二重小节、也没有选择三重小节、也没有四重小节时，机器人装置1选择跳舞A。这样，跳舞的类型是由小节和拍子速率信息唯一确定的。

在行为决定单元33之后的阶段中，根据参照存储在行为决定单元33中的行为表存储单元77中的行为所决定的行为表参照单元76的行为，相应地控制机器人装置1。

在上述讨论中，从语音中获得旋律信息。或者，可以从用户的示意动作中获得旋律信息。为了从示意动作获得旋律，图6所示的图像识别器31B工作。可以使用在Seiji INOKUCHI所著论文中的从示意动作获得旋律信息的方法，该论文题为“Gesture Recognition for Kansei Expression(用于Kansei表达的示意动作识别)”日本机器人装置学会杂志，Vol.17,No.7。

可选的是，可以从语音和示意动作获得旋律。

下面讨论的是通过声音决定机器人装置1的行为。旋律/声音识别器81提供的声音识别结果可以指示诸如脚步声或尖叫类的声音，以及谁或什么发出声音的声源。例如，可以根据是不喜欢的人还是喜欢的人发出声音或根据什么发出声音，期望不同的行为。

旋律/声音识别器81提供的识别结果输出到行为表参考单元76。行为表参考单元76参照存储在行为表存储单元76中的行为表，从而决定匹配输入声音的识别结果的行为。图19列出了存储在行为表存储单元77中的响应于声音的行为。

参照图19所示的行为列表，行为由声音识别结果唯一决定。例如，当声音识别表明机器人装置1听到机器人装置1喜欢的一个人的脚步声时，机器人装置1高兴地走近他。喜欢的人和不喜欢的人的信息由机器人装置1本身根据机器人装置1和用户之间的交谈、和用户的态度确定。

图像信息可以与声音一起使用。例如，当机器人装置1听到脚步声时，机器人装置1可以从脚步声确定谁正在走来。如果图像被拾取和识别，识别出走近的人。于是，机器人装置1确定走近的人是机器人装置1喜欢的人还是不喜欢的人，然后决定采取什么动作。

通过比较语音信息和图像信息，机器人装置1能够进行不同的动作。在行为决定处理的语音和图像识别阶段，机器人装置1通过组合这些信息来进行更精确的识别处理。

上述一系列处理步骤以硬件实现，或者，上述一系列处理步骤可使用软件实现。当通过软件实现所述一系列处理步骤时，构成软件的程序代码从存储介质安装到具有其自己专用硬件的计算机或执行多种用途的通用个人计算机。

参照图20，存储介质不仅包括封装介质，而且包括ROM 112或包括存储单元118的硬盘，封装介质可以与计算机分开提供给用户以提供软件程序，诸如磁盘131(诸如软盘)、光盘132(诸如CD-ROM(光盘只读存储器))、磁光盘133(诸如MD(小型盘))或半导体存储器134,ROM 112或硬盘提供有在计算机中预装其上的软件程序。

描述存储介质中提供的软件程序的处理步骤不需要按每个流程图中描述的顺序执行。几个处理步骤可以并行或分开执行。

在本说明书中，系统指由多个设备构成的单个实体。

按照本发明，识别语音，识别图像，以及语音识别结果或图像识别结果中的至少一种结果用来决定机器人装置1采取的行为。从而进行更精确的语音和图像识别。

Claims

1、一种机器人装置中使用的信息处理设备，包括：

语音识别器装置，用于识别语音；

图像识别器装置，用于识别图像；和

决定装置，根据由语音识别器装置提供的语音识别结果和由图像识别器装置提供的图像识别结果中的至少一种结果，决定机器人装置的行为。

2、如权利要求1所述的信息处理设备，还包括：存储装置，存储描述语音识别器装置提供的语音识别结果和图像识别器装置提供的图像识别结果的关系、和根据语音识别结果和图像识别结果唯一确定的机器人装置的行为的表。

3、如权利要求1所述的信息处理设备，其中，当语音识别不由语音识别器唯一确定时，决定装置可以按照由图像识别器装置唯一确定的图像识别结果，决定机器人装置的行为。

4、如权利要求1所述的信息处理设备，其中，当多个物体出现在图像识别器装置识别的图像区域内时，决定装置可以按照由语音识别器装置唯一确定的语音识别结果，决定机器人装置的行为。

5、如权利要求1所述的信息处理设备，其中，图像识别器装置可以识别在用户的手指、面部、眼睛和下领中的用户的预定部分之一所指的方向上出现的场景的图像。

6、如权利要求1所述的信息处理设备，还包括：存储装置，用于存储由用户施行的示意动作的数据，

其中图像识别器装置识别用户的图像，以检测与存储在存储装置中的示意动作数据匹配的示意动作，并且将所检测的示意动作当作图像识别结果。

7、如权利要求1所述的信息处理设备，还包括：检测器装置，用于检测用户的面部；和

距离查找器，用于根据检测器装置检测的用户面部的大小，测量用户和机器人装置之间的距离，

其中决定装置使用测量的距离决定机器人装置的行为。

8、如权利要求1所述的信息处理设备，其中，语音识别器装置检测包含在背景声音中的旋律，并且将检测的旋律当成语音识别结果。

9、如权利要求1所述的信息处理设备，其中，语音识别装置从背景声音中检测声学现象，并且将所检测的声学现象当成语音识别结果来处理。

10、一种机器人装置中使用的信息处理设备的信息处理方法，包括：

语音识别步骤，识别语音；

图像识别步骤，识别图像；和

决定步骤，根据在语音识别步骤中提供的语音识别结果和在图像识别步骤中提供的图像识别结果中的至少一个结果，决定机器人装置的行为。

11、一种在机器人装置中使用的信息处理设备的软件程序，包括用于执行下列步骤的程序代码：

语音识别步骤，用于识别语音；

图像识别步骤，用于识别图像；和

决定步骤，根据在语音识别步骤中提供的语音识别结果和在图像识别步骤中提供的图像识别结果中的至少一种结果决定机器人装置的行为。

12、一种存储介质，存储机器人装置中使用的信息处理设备的软件程序，包括执行下列步骤的程序代码：

语音识别步骤，用于识别语音；

图像识别步骤，用于识别图像；