CN1132149C

CN1132149C - 游戏装置，声音选择装置和声音反应装置

Info

Publication number: CN1132149C
Application number: CN95107149A
Authority: CN
Inventors: 前川英嗣; 渡边辰巳; 小原和昭; 萱嶋一弘; 松井谦二; 松川善彦
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-05-13
Filing date: 1995-05-12
Publication date: 2003-12-24
Anticipated expiration: 2015-05-12
Also published as: DE69527745D1; CN1120965A; DE69527745T2; KR100215946B1; EP0683481B1; EP0683481A3; US5884257A; KR950034051A; EP0683481A2; US6471420B1; ES2181732T3

Abstract

一种声音选择装置，包括：用于存储多个表的第一存储装置，而每个表包括能根据一个输入而输出的多个词语作为各个以对话为基础的声音选择；用于储存多个表中的一个表的第二存储装置；用于根据从外部输入的一个输入值，从包括在一个储存在第二存储装置的表内的多个词语中选择一个词语，并将所选择的一个词语作为一个声音选择输出的选择装置；以及用于将储存在第二存储装置内的一个表转换成储存在第一存储装置内的多个表中的另一个表，并根据所选择的一个词语检测该表的转换装置。

Description

游戏装置，声音选择装置和声音反应装置

本发明涉及一种可利用声音操作的游戏装置，一个用于输入嘴或唇的图象和/或声音的输入装置和一个声音反应装置。

图34表示一个传统游戏装置的实施例。按照这种游戏装置，操作者使用一种包括一个手持式无线传输器的遥控器，以便操作一个具有无线接收器的飞艇7。如图34所示，这种传统游戏装置通常使用与遥控器相连的控制手柄161，操作者靠手柄控制预定目标(飞艇)7。当操作者推动控制手柄161时，利用角度检测器162和163检测该手柄的各个角度，并并将各角度转换成电信号，以便输入到控制器164。控制器164根据控制手柄的角度输出用于控制飞艇7运动的无线控制信号。

但是，在按照传统游戏装置的需要使用这种控制手柄161时，人(操作者)不能进行预期操作。这样就造成了一些问题：操作者就需要花费时间来提高操作的熟练程度，并且总是不能根据需要快速反应。在操作者操纵另一种游戏装置，即一种装有驱动装置的气球而不是飞艇时，气球的运动也按上述方式进行控制，这样就会带来这样的问题，即运动变得毫无生气，从而破坏气球所固有的″人″的感觉。

另一方面，有人建议采用通过输入操作者嘴或唇的图象来识别操作者的声音的装置。但这种装置需要复杂的光学透镜，从而增大了整个装置的尺寸和规模，并使价格十分昂贵。

本发明的游戏装置包括用于输入至少一组由操作者发出的声音、将该组声音转换成第一电信号以及输出该第一电信号的声音输入装置；用于根据从该声音输入装置中输出的第一电信号识别声音组的声音识别装置；用于通过光学方法检测操作者嘴唇动作、将检测的嘴唇动作转换成第二电信号并输出该第二电信号的图象输入装置；用于接收第二电信号，并根据接收的第二电信号求出操作者发出的声音周期的言语周期检测装置；用于根据声音识别装置识别的声音组和言语周期检测装置求出的周期，从输入的声音组中抽取操作者发出的声音的总判定装置；以及用于根据总判定装置抽取的声音控制对象的控制装置。

在本发明的一个实施例中，言语周期检测装置包括：用于检测从图象输入装置中输出的第二电信号中的变化程度的微分装置；以及用于在微分装置检测出的变化程度超过预定值时确定相应的声音是否由操作者发出的装置；

在本发明的另一个实施例中，该总判定装置包括：用于通过将预定时间的周期增加到言语周期检测装置求出的周期来产生一个估计周期的装置；用于在将由声音识别装置识别的声音组从声音识别装置输出时检测识别结果输出时间的装置；以及用于在识别结果输出时间与估计周期之间进行比较，并确定其识别结果输出时间落在声音组估计周期范围内的声音是否是由操作者发出的装置。

本发明的另一种游戏装置包括：用于通过光学方法输入操作者嘴唇动作、将检测的嘴唇动作转换成电信号并输出该信号的图象输入装置；用于根据该电信号获取嘴唇动作、识别与所获取的嘴唇动作相对应的词语以及输出该识别结果的唇读装置；以及用于根据由识别结果得到的控制信号来控制对象的控制装置。

在本发明的另一个实施例中，该唇读装置包括：用于储存一个预定词语数的存储装置；以及用于根据获取的嘴唇动作从预定的词语数中选择一个词语并确定所选择的词语是否与嘴唇的动作相一致的匹配装置。

在本发明的另一个实施例中，该存储装置存储与预定词语数相对应的作为基准图形的嘴唇动作；该匹配装置计算从所获取的所有基准图形的嘴唇动作起始的距离，并选择一个与基准图形的最小计算距离相对应的词语。

在本发明的又一个实施例中，该游戏装置还包括：用于输入声音、将该声音转换成另外一个电信号并输出该另外一个电信号的声音输入装置；用于根据从该声音输入装置中输出的该另外一个电信号识别声音的声音识别装置；以及用于根据该声音识别装置的识别结果和该唇读装置的识别结果输出传送到控制装置上的控制信号的总判定装置。

在本发明的再一个实施例中，该游戏装置还包括：用于获取由声音识别装置得到的识别结果的声音识别可靠度的装置；以及用于获取由唇读装置得到的识别结果的唇读可靠度的装置，其中总判定装置根据声音识别可靠度和唇读可靠度选择声音识别装置的识别结果和唇读装置的识别结果中的一个结果并输出所选择的作为控制信号的识别结果。

在本发明的还一个实施例中，该图象输入装置包括用于发射光的光发射装置和一个用于接收从操作者唇部反射的光并将接收的光转换成第二电信号的的光检测装置。

在本发明的另一个实施例中，光从嘴唇的侧部方向照射到唇部。

在本发明的另一个实施例中，光从嘴唇的正面方向照射到唇部。

在本发明的另一个实施例中，声音输入装置至少包括一个麦克风。

在本发明的另一个实施例中，声音输入装置包括至少一个麦克风，并且该麦克风与图象输入装置的光发射装置和光检测装置都设置在一个电子部件中。

本发明的输入装置包括：一个耳机式头戴受话器；一个其一端连接在该头戴受话器上的支撑杆；一个连接在支撑杆另一端的电子部件，该电子部件包括至少一个用于产生照射操作操作者嘴唇的光发射装置和至少一个用于接收从操作者嘴唇反射到它上面的光的光检测元件。

在本发明的另一个实施例中，该电子部件还包括用于输入传送给它的声音的声音输入装置。

本发明的声音选择装置包括：用于存储一些表的第一存储装置，而每个表包括能将一个输入输出的多个词语；用于储存多个表中的一个表的第二存储装置；用于根据从外部输入的一个输入值，从包括在一个储存在第二存储装置的表内的多个词语中选择一个词语，并将所选择的一个词语作为声音输出的选择装置；以及用于将储存在第二存储装置内的一个表转换成储存在第一存储装置内的多个表中的另一个表，并根据所选择的一个词语检测该表的转换装置。

在本发明的一个实施例中，声音选择装置还包括用于产生一个随机数的装置，其中选择装置利用该随机数从多个词语中选择一个词语。

另一种声音选择装置包括：用于存储表的存储装置，表包括能根据一个输入输出的多个词语；用于接收从外部输入的一个输入值、利用随机数从储存在存储装置的表内的多个词语中选择一个词语并选择一个词语作为声音输出的选择装置；以及用于产生随机数的装置。

本发明的声音反应装置包括：上述声音选择装置；以及用于接收声音、识别声音和将识别结果输出给声音选择装置的声音识别装置。

本发明的另一种游戏装置包括上述声音反应装置。

本发明的另一种游戏装置包括上述多个声音反应装置，从而使多个声音反应装置可相互进行对话。

本发明的另一种游戏装置包括：用于将输入声音转换成电信号的多个声音输入器，该多个声音输入器分别对应不同的方向；以及用于给多个声音输入器中的每一个声音输入器获取电信号能量、确定其中的一个具有最大能量的声音输入器，并确定与声音起源方向的一个确定的声音输入器相对应方向的方向选择装置。

在本发明的一个实施例中，该游戏装置还包括：用于操纵对象的操作装置；以及用于控制该操作装置，以便使操作对象的方向改变到确定的方向的控制装置。

在本发明的另一个实施例中，该游戏装置还包括方向选择装置和用于操作对象的操作装置，该方向选择装置具有用于测量对象的当前操作方向的测量装置和用于输入确定的方向、根据当前方向和确定的方向获取目标方向并储存该目标方向的装置，其中方向选择装置控制该操作装置，以便利用目标方向与当前方向之间的差使对象的当前操作方向大体上与目标方向相一致。

本发明的另一种游戏装置包括方向选择装置，该方向选择装置具有用于利用声音输入一个相对方向的输入装置；用于测量对象当前方向的测量装置；以及用于根据当前方向和输入的相对方向获取目标方向并储存该目标方向的装置，其中方向选择装置控制该对象，以便利用目标方向与当前方向之间的差使对象的当前方向大体上与目标方向相一致。

在本发明的一个实施例中，输入装置包括一个用于输入声音的输入器，以及一个用于根据输入的声音识别绝对方向的识别器。

本发明的另一种游戏装置包括方向选择装置，该方向选择装置包括：用于利用声音输入绝对方向的输入器；用于根据该绝对方向确定目标方向、并储存该目标方向的装置；以及测量对象当前方向的测量装置，其中方向选择装置控制该对象，以便利用目标方向与当前方向之间的差使对象的当前方向大体上与目标方向相一致。

在本发明的一个实施例中，输入装置包括一个用于输入声音的输入器，以及一个用于根据输入的声音识别相对方向的识别器。

本发明的声音识别装置包括：用于接收与声音相对应的电信号，并根据该电信号，检测表示声音输入终止的时间的声音终止点的第一检测装置；用于根据该电信号确定言语周期的第二检测装置，该言语周期是在输入声音的整个周期内发出的声音的周期；用于根据与言语周期相对应的部分电信号形成一个特征量矢量的特征量抽取装置；用于储存先前产生的多个待选声音的特征量矢量的存储装置；以及用于通过将特征量抽取装置中的特征量与储存在该存储装置内的多个待选声音的各特征量矢量相比较来识别输入声音的装置。

在本发明的一个实施例中，第一检测装置包括：用于将电信号分成多个帧，每帧具有预定长度的装置；用于获取多帧的每帧的电信号能量的计算装置；以及用于根据能量的变化确定声音终点的确定装置。

在本发明的另一个实施例中，该确定装置通过将预定阈值与能量变化相比较来确定声音终点，并且该声音终点对应的时间处能量变化与阈值相一致，同时能量从大于阈值变化到小于阈值。

在本发明的另一个实施例中，该确定装置利用多帧能量中预定帧数的能量变化。

在本发明的另一个实施例中，第二检测装置包括：用于平滑电信号能量的装置；用于在平滑之前顺序储存各帧的电信号能量的第一循环存储装置；用于顺序储存各帧平滑后的能量的第二循环储存装置；用于利用在声音终点检测时储存在第一循环存储装置内平滑前的能量和在声音终点检测时储存在第二循环存储装置内平滑后的能量，计算检测阈值的言语周期的阈值计算装置；以及用于通过比较平滑前的能量与检测阈值的言语周期确定言语周期的言语周期确定装置。

在本发明的另一个实施例中，该阈值计算装置利用在声音终点检测时储存在第一循环存储装置内平滑前的能量最大值和在声音终点尚未检测时储存在第二循环存储装置内平滑后的能量最小值，计算检测阈值的言语周期。

在本发明的另一个实施例中，特征量检测装置根据电信号的言语周期计算电信号各帧的零交叉数、对电信号求微分得到的信号各帧的零交叉数以及电信号的能量，其中，所求得的值用作特征量矢量的单元。

本发明的另一种声音反应装置包括：至少一个上述的声音识别装置；至少一个用于根据至少一个声音识别装置的识别结果控制一个对象的控制装置。

在本发明的一个实施例中，该声音反应装置还包括连接到至少一个声音识别装置、用于传送该至少一个声音识别装置的识别结果的传输装置；连接到至少一个控制装置、用于接收传送的识别结果并将该识别结果应用于该至少一个控制装置的接收装置，其中至少一个控制装置和至少一个接收装置装在对象上，从而可对对象进行遥控。

因此，上文描述的本发明可以有如下优点：(1)提供一种具有简单结构、可由人的声音进行操作并且不需要熟练的技巧的低成本游戏装置，该装置可在噪声环境或在说话人不便发声的情况下使用，并且有语言障碍的人也可使用；(2)提供一种能对游戏装置或玩具进行预期操作的声音识别装置；以及(3)提供一个能根据输入给它的声音改变操作的声音反应装置。

本领域的专业技术人员在阅读和理解了下面参照附图进行的详细描述后，将会更清楚地了解本发明的上述及其它优点。

图1是表示本发明第一实施例的游戏装置结构的方框图；

图2是表示本发明第一至第三实施例的图象输入装置的细部结构图；

图3是表示本发明第一实施例的言语周期检测装置的细部结构图；

图4是表示本发明第一实施例的总判定装置的细部结构的方框图；

图5A是表示本发明第一至第三实施例的输出微分信号一个实例的曲线图；

图5B是表示本发明第一至第三实施例的输出微分信号另一个实例的曲线图；

图6是表示本发明第一实施例的总判定装置的工作过程曲线图；

图7是表示本发明第一实施例的总判定装置的工作状态的曲线图；

图8是表示本发明第二实施例的游戏装置结构的方框图；

图9是表示本发明第二实施例的嘴唇读出装置和本发明第三实施例的嘴唇处理装置的细部结构方框图；

图10是表示本发明一条微分电路的工作状态的曲线图；

图11是表示本发明第二和三实施例的模式匹配装置的工作状态的曲线图；

图12是表示本发明第三实施例的游戏装置结构的方框图；

图13是表示本发明第三实施例的总判定装置的工作状态的图表；

图14A是表示本发明第三实施例的总判定装置的工作状态的图表；

图14B是表示本发明第三实施例的另一种总判定装置工作状态的的图表；

图15A是表示本发明输入装置的一种典型结构的示意图；

图15B是表示本发明输入装置的一种典型结构的示意图；

图16是表示本发明第四实施例的声音选择装置结构的示意图；

图17A是表示图16所示声音选择装置的输入输出状态的示意图；

图17B是表示图16所示声音选择装置的输入输出状态的示意图；

图18是表示本发明第四实施例的另一种声音选择装置结构的示意图；

图19是表示本发明第五实施例的方向检测装置结构的示意图；

图20是表示输入声波波形和frame的示意图；

图21是表示本发明第五实施例的方向检测装置结构的示意图；

图22是表示本发明第五实施例的另一种方向检测装置结构的示意图；

图23是表示声音波形、能量和循环存储的示意图；

图24是表示本发明第六实施例的检测声音终点的方法的示意图；

图25是表示本发明第六实施例的检测声音的方法的示意图；

图26是表示本发明第六实施例的声音识别装置结构的方框图；

图27是表示将本发明的一个声音识别装置和一个声音选择装置组合成一个声音反应装置的结构示意图；

图28是表示本发明的一个方向检测装置和一个操作装置组合成一个声音反应装置的结构示意图；

图29是表示本发明的由声音识别装置、方向检测装置和操纵装置组成的声音反应装置的结构示意图；

图30是表示本发明的由方向选择装置、方向检测装置和操纵装置组成的声音反应装置的结构示意图；

图31是表示本发明的由声音识别装置和操纵装置组成的声音反应装置的结构示意图；

图32是表示可进行遥控的声音反应装置的结构示意图；

图33是表示本发明的一个具有声音反应装置的玩具实例的示意图；

图34是表示一种传统的游戏装置的结构示意图。

实施例一

下面将参照附图描述本发明的第一实施例。按照本实施例的游戏装置，飞艇是通过与飞艇的各种运动相对应的声音指令对它进行操纵的。声音指令包括6个指令，即″mae″(向前)、″ushiro″(向后)、″migi″(向右)、″hisri″(向左)、″ue″(向上)和″shita″(向下)。在本实施例中，不仅将由说话者发出的声音信号，而且还将表示说话者嘴唇动作的信号(下文称之为″唇动信号″)输入到该游戏装置。根据声音信号和唇动信号来进行确定说话者，即游戏操纵者是否正在说话的处理。这样就可避免由于外界噪声，特别是由另外的一个人发出的声音而使游戏装置作出错误的动作。

图1示出本实施例游戏装置的一种结构。如图1所示，游戏装置包括一个用于处理输入信号的声音输入装置1、一个声音识别装置2、一个图象输入装置3和一个言语周期检测装置4。图象输入装置3处理代表说话人嘴唇动作的唇动信号。声音识别装置2和言语周期检测装置4都连接在总判定装置5上。总判定装置5在输入声音和说话人嘴唇运动的基础上确定由说话人发出的指令。将总判定装置5的判定结果输给控制装置6。控制装置6根据判定的结果控制飞艇7。

首先将包括由说话人发出的指令的声音输入到声音输入装置1。可以采用普通麦克风或类似装置输入声音。声音输入装置1将输入的声音转换成电信号，该电信号作为声音信号11输出给声音识别装置2。声音识别装置2分析声音信号11，以便将分析的结果作为声音识别结果12输出。对声音信号11的分析可以利用已知的传统方法，例如DP匹配方法进行。

在上述输入声音的处理过程进行的同时，进行唇动信号的处理。当说话人发出一个指令时，说话人的嘴唇动作被输入到图象输入装置3。图2示出一种图象输入装置3的典型结构。按照本实施例的图象输入装置3，从LED(发光二极管)21发出的光照射到包括说话人的嘴唇(下文称为″唇区″)等的总面积上。由唇区反射出的光由光电二极管22进行检测。这样，图象输入装置3输出一个与说话人的嘴唇动作相对应的唇动信号13。当说话人嘴唇动作时，唇动信号13的电平根据说话人嘴唇附近的阴影的变化而改变。LED21发出的光可垂直照射，即从说话人的正面或侧面，也就是说话人的一侧照射。图象输入装置3发出的唇动信号13输给言语周期检测装置4。图3示出本实施例的言语周期检测装置4的一种结构。如图4所示，声音识别装置4包括一条微分电路31和一个周期检测装置32。微分电路31输出代表输入的唇动信号13的变化程度的微分信号33。图5A和5B各示出一种当LED21的光从侧面(即横向地)照射到说话人的嘴唇上时获得的微分信号33的一种典型波形。图5A中所示的微分信号33是当说话人发出″mae″(向前)时得到的。图5B中所示的微分信号33是当说话人发出″ushiro″(向后)时得到的。从图5A和5B中可以看出，当微分信号33具有较大振幅时，表明说话人正在说话。然而，由于来自LED21的光是从说话人的一侧(即横向地)照射到说话人的嘴唇上，所以当发出的指令″ushiro″中的″u″音时，嘴唇撅起的动作就会反映在微分信号33的波形上。如果来自LED21的光从正面照射到说话人的嘴唇上，则光只照射在说话人的脸上，所以唇动信号13和微分信号33就不受任何背景动作噪声的影响。

周期检测装置32接收微分信号33并确定微分信号33的振幅，以便检测说话人的言语周期。用于检测言语周期的专门方法将参照图6进行描述。

当微分信号33的电平(振幅)超过阈振幅值51时，周期检测装置32确定微分信号33是否因说话人发出指令而已经发射出去，并且定义微分信号33的电平超过阈振幅值51时，的周期为言语周期。在图6所示的该实施例中，周期1和2是言语周期。周期检测装置32将相邻言语周期之间的间隔与预定的阈时间长度52相比较。预定的阈时间长度52用于确定是否有多个言语周期对应于说话人的相同发音，也就是说，这些言语周期是否是连续发出的。如果两个言语周期之间的间隔等于或小于阈时间长度52，则可确定该言语周期是一个包括该间隔在内的一个连续的言语周期。言语同期检测装置4输出一个指明是连续言语周期的言语周期检测信号14。阈时间长度52和阈振幅值51在规定的适当值范围内。

如上所述，在说话人发出一个指令(即″言语周期″)期间，言语周期检测装置4根据微分信号33，通过检测说话人嘴唇动作的强度和持续时间来获得一个周期。

下面将描述总判定装置5的操作过程。如图4所示，总判定装置5包括一个声音识别时间判定装置41、一个输出判定装置42和一个输出门43。声音识别时间判定装置41接收声音识别结果12并传送持续时间，在该持续时间内，识别结果从声音识别装置2被输出到输出判定装置42。输出判定装置42接收来自言语周期检测装置4的言语周期检测信号14以及来自声音识别时间判定装置41的输出值。现在将参照图7描述输出判定装置42的操作过程。

输出判定装置42根据接收到的言语周期检测信号14，通过在言语周期之前和之后加入一个用于评价目的(下文称为″评价目的言语周期72″)的阈时间长度71而产生一个用于评价目的(下文称为″评价目的阈时间长度71″)的言语周期72。输出判定装置42确定声音识别结果12从声音识别装置2输出的持续时间是否在评价目的言语周期72的范围内。如果这一持续时间在评价目的言语周期72的范围内，则确定输入到声音输入装置1中并由声音识别装置2识别的声音是由说话人发出的。输出判定装置42作出的判定结果作为信号15输出给控制装置6。

在将时间考虑在内的声音识别装置2需要进行识别处理的同时，需对用于产生评价目的言语周期72的评价目的阈时间长度71进行规定。这是因为在声音识结果12输出的持续时间被用作确定识别的声音是否发自于说话人。

当莸得对应于说话人发出的指令获得信号15时，控制装置6按照输入的指令，通过输出的无线电控制信号控制飞艇7。

因此，按照第一实施例，在说话人发出指令期间，根据他/她发指令时的嘴唇动作检测言语周期。根据检测的言语周期确定被识别的声音是操作者还是其他人(例如另外一个人)发出的。因此可避免由另外的一个人发音的错误识别，这样就可防止受控对象(例如飞艇)作出不正确的动作。

因此可以理解到，可利用说话人(操作者)的声音对游戏装置进行操纵，这样就可使说话人(操作者)完成预期的操作。但是按照本实施例，在将LED和光控二极管组合使用的基础上，利用一种简单的结构和方法检测说话人的嘴唇动作。因此，与传统和的利用摄像机或类似装置捕获说话人嘴唇动作的图象的游戏装置相比较，该游戏装置的成本非常低。可以理解到，光控二极管也可用光电三极管代替。

图2和图3所示的电路图只是用于举例说明。本发明不局限于这种特定的电路。另外也可利用计算机软件。

实施例二

按照第二实施例的游戏装置，只根据说话人(游戏装置的操作者)的嘴唇动作，而不是说话人发出的声音输入指令，以便根据该输入指令控制飞艇。所以本实施例的游戏装置可用在噪声环境或不允许说话人随便发声的情况(例如在午夜，并且也可以由有语言障碍的人使用。

图8示意地表示出本实施例的游戏装置的结构。如图8所示，本实施例的游戏装置包括与第一实施例的游戏装置相同的一个图象输入器3、一个控制器6和一个飞艇7。该游戏装置还包括一个用于识别由说话人(操作者)发出的词语的唇读器81。

图9表示唇读器81的一种典型结构。在本实施例中，唇读器81包括一个微分电路31、一个差分计算器91、一个数据库92和一个图形匹配器93。该微分电路31与第一实施例中语音周期检测器4内所包含的微分电路31相同。

差分计算器91在预定的时间间隔内选取从微分电路31中输出的微分信号33，以获得包含许多数据抽样的一组抽样数据，然后计算数据抽样之间的差。将相减后的结果(下文称为″一组差分数据″)从差分计算器91送到数据库92和图形匹配器93。数据库92将基准图形(样图)的一组差分数据储存起来以供识别时使用。图形匹配器93从储存在数据库92中的各基准图形的一组差分数据和打算进行识别的输入图形差分数据组之间导出距离差值。当说话人嘴唇动作时，图形匹配器93识别根据它导出的差值已输入的词语。很明显，当上述差值减小时，识别的可靠性则会增大。

下面将详细描述本实施例的游戏装置的操作方法。在该实施例中，唇读器81通过比较基准图形与输入图形来识别输入的词语(如上所述)。因此，在进行识别操作之前，必须预先将基准图形记录在唇读器81内。

(记录操作)

首先，图象输入器3接收从发光二极管(LED)发出，然后从一个说话人(操作者)的唇部反射出来的光，并且根据嘴唇的动作将电信号13输出给唇读器81。电信号13被输入到唇读器81的微分电路31中。微分电路31将代表电信号13变化程度的微分信号33送到差分计算器91。该操作过程进行到此与第一实施例相同。

下面将参照图10描述差分计算器91的操作过程。首先，差分计算器91在时间间隔(△t)内选择微分信号33。然后，差分计算器91在获取的抽样数据组中计算相邻数据抽样之间的差值。将计算出的各数据抽样之间的差值，即一组差分数据输出给数据库92。数据库92将这组差分数据储存起来。这种操作过程重复进行预定的次数。重复的次数等于待识别的词语数量(种类)。因此，应储存所有种类的差分数据组。储存的这些差分数据组就作为用于识别的基准图形。在本实施例中，用于控制对象的指令是″Mae″(向前)、″Ushiro″(向后)、″Migi″(向右)、″Hidari″(向左)、″Ue″(向上)和″Shita″(向下)。也就是说，使用6个指令。因此，储存差分数据组的过程要重复6次。最后，在数据库92中存有6个基准图形。

当以这种方式将所有基准图形记录在数据库92中后，数据库92就检查各差分数据组并选取周期长度。在该周期长度上，与嘴唇动作部分相对应的数据相对于各差分数据组是连续的。特别是在确定的时间内差分数据组内接近于零的数值是连续的时候，数据库92确定与嘴唇不动的周期相对应的那些数据。当将与嘴唇动作部分对应的周期长度完全提取出来作为全部基准图形时，选择具有最大长度的基准图形，并且确定该最大长度作为基准图形的差分数据组长度(N)。这样便完成了记录，并且将基准图形的差分数据保存在数据库92中。

(识别操作)

从输入唇部动作的步骤到获取微分信号33的步骤的操作与记录操作相同。下面将参照图11描述将差分信号33之后的操作输入差分计算器91中的过程。

输入在差分计算器91内的微分信号33是按与记录时相同的方式在一个时间间隔内(△t)选取的。然后，对于长度等于基准图形差分数据组长度(N)的周期内的数据抽样，则计算出相邻数据抽样之间的差。将获取的差分数据组作为该周期的差分数据组处理。计算出的差值周期沿时间轴向前移动△t。图11只示出在周期111和112获取的差分数据组。周期111起始于第一数据抽样并具有长度N，而周期112从周期111沿时间轴向前移动N/2。

当获取长度各为N的多个周期的差分数据组(下文将它们称为识别差分数据组)后，将这些识别差分数据组送到图形匹配器93。图形匹配器93从数据库92读取基准图形，并求出基准图形与多个识别差分数据组中的相应的一个数据组之间的距离。在本实施例中，由于预先在数据库92中记录了六个基准图形(如上所述)，所以图形匹配器93计根据基准图形计算出每个识别差分数据的距离。

利用下列公式计算一个识别差分数据组与一个基准图形之间的距离：

d_{j} = {Σ {(r_{i} - p_{ij})}^{2}}_{i = 1}^{N}

在该公式中，r_i代表第i个识别差分数据组，p_ij代表第j个基准图形(对应于第j个种类)，d_j代表识别差分数据组与第j个基准图形之间的距离。当距离d_j是一个预定值或小于预定值时，则图形匹配器93判定该识别差分数据组是与第j个基准图形相匹配的。然后将与第j种类(词语)相对应的信号82作为判定结果输出。

将判定结果输入到控制器6内。控制器6再输出一个与第j种类相对应的无线电控制信号，以便控制飞艇7。

如上所述，在本实施例中，只根据嘴唇的动作识别输入词语(指令)，并按识别的词语控制该飞艇。因此，本发明可用在噪声环境或说话人不便说话的情况，并且具有语言障碍的人也可使用。

与第一实施例相似，输入嘴唇动作的图象输入器3是由一个LED21和一个光控二极管22组合而成的，所以与使用摄像机或类似设备来捕获嘴唇动作图象的传统方法相比，这种游戏装置的成本非常低。

在本实施例中，游戏装置的使用者在输入指令之前，应预先记录用于识别指令的基准图形。例如，在游戏装置的生产工艺、包装工艺或类似工艺中，预先将能适应任何非特定使用者嘴唇动作的基准图形记录在数据库92中，这样就可省略使用者的记录操作。

实施例三

下面将描述本发明第三实施例的游戏装置。在这个实施例中，指令是通过声音和说话人(操作者)的嘴唇动作输入的，而判定是在将识别的结果组合的基础上进行的。这样就可操纵一个飞艇。因此，即使是在噪声环境中也完全可以识别由说话人发出的指令。

图12示意地示出本实施例游戏装置的一种结构。该实施例游戏装置与第一实施例的游戏装置类似，包括一个声音输入装置1、一个图象输入装置3、一个控制装置6和一个的飞艇7。第三实施例的游戏装置还另外包括一个声音处理装置121和一个唇部处理装置122。声音处理装置121按与第一实施例的声音识别装置2相同的方式识别输入的声音，然后计算识别结果的可靠度。唇部处理装置122按与第二实施例的唇读装置81相同方式识别输入的词语，然后也计算识别结果的可靠度。将来自声音处理装置121和唇部处理装置122的输出信号都输入总判定装置123。总判定装置123根据各处理装置121和122的识别结果和该识别结果的可靠度确定由说话人输入的指令。然后总判定装置123输出总判定结果。

下文将详细描述本实施例游戏装置的操作过程。

输入由说话人(游戏装置的操作者)发出的声音，并将与输入的声音相对应的电信号11送到声音处理装置121的步骤与第一实施例的步骤相同。声音处理装置121接收电信号11并根据该信号识别输入的声音。可采用任何一种传统的已知方法作为声音识别方法。例如，在发出可能被输入的各指令时，可采用与上述实施例的嘴唇识别装置所用相同的方式获取电信号11，并处理该电信号11，以便获取一组数据。将该数据组作为基准图形预先记录下来。当游戏装置的操纵者实际发出一个指令时，计算在处理电信号11时获取的待识别的数据组和所有预先记录的基准图形之间的距离，利用这种方法可识别通过声音输入装置输入的指令内容。在按照上述方式识别声音之后，声音处理装置121可得到一个表明识别结果可靠性如何的可靠度。然后将声音识别结果和可靠度作为输出124提供给总判定装置123。下面将描述可靠度是如何获得的。

在处理输入的声音的同时还对表示嘴唇动作的信号进行处理。首先，图象输入装置3以第一实施例相同的方式输入嘴唇的动作，并输出其电平随嘴唇的动作改变的电信号13。嘴唇处理装置122接收电信号13，并按第二实施例相同的方式进行处理。在本实施例中，作为识别差分数据组与基准图形之间图形匹配的结果，当识别差分数据组被判定与第j个基准图形相匹配时，嘴唇处理装置122根据识别差分数据组和第j个基准图形之间的距离d_j计算该识别结果的可靠度。将如此获得的识别结果和可靠度都输送到总判定装置123。

下面将简略地描述计算可靠度的方法。在本实施例中，声音识别结果的可靠度和唇读结果的可靠度是利用具有相同结构的处理器(未示出)采用相同的处理方法计算出来的。下面将解释声音识别结果可靠度的计算过程。这里采用三个等级″大″、″中″和″小″来评价声音识别结果的可靠度。请注意，″小″等级表明识别结果的可靠度最高，而″大″等级表明识别结果的可靠度最低。在这种情况下，″小″和″中″等级之间使用阈值α_L，在″中″和″大″之间使用阈值α_H(α_L＜α_H)。将经判定的与待识别对象相匹配的基准图形和该待识别对象之间的距离d与阈值进行比较。如果比较结果是d＜α_L，则判定可靠度为等级″小″。如果比较结果是α_L≤d＜α_H，则判定可靠度为等级″中″。如果比较结果是d≥α_H，则可靠度判定为等级″大″。类似地，对于根据嘴唇运动作出的识别结果，需通过与阈值进行比较来确定可靠度的等级。计算可靠度的方法不限于上述方法，也可根据需要应用任何已知的其它方法。

下面将参照图13描述总判定装置123的操作过程。

图13是表示总判定方法的基本原理。首先，总判定装置123检测声音识别结果从声音处理装置121输出的时间(即产生输出124的时间)，以及唇读结果从嘴唇处理装置122输出的时间(即产生输出125的时间)。在分别检测出的输出时间之前和之后，通过增加一个与预定阈值131相对应的周期来产生评价目的周期132a和132b。然后确定唇读结果的评价目的周期132a和声音识别结果的评价目的周期132b是否重叠，如果周期132a和132b重叠，总判定装置123确定所输入和识别的声音是由输入嘴唇动作的操作者发出的声音。如果周期132a和132b不重叠，则判定识别的声音是环境噪声或由任何其他人而不是操作者发出的声音。这样就可以防止作出由其他人而不是由操作者发出的声音的错误识别。

总判定装置123确定唇读结果是否与声音识别结果相匹配。如果它们匹配，就可将识别结果作为总判定结果(图13中的总判定结果″Mae″(即″向前″))处理。如果它们不匹配，则根据用于各识别结果而得到的可靠度确定总判定结果。图14A和14B示出识别结果的综合作用与由该综合作用所决定的总判定结果之间的一种典型关系。如上所述，在该实施例中，评价是利用表示最低可靠度的″大″、表示最高可靠度的″小″和表示介于它们之间的中等程度可靠度的″中″等三个等级进行的。图14A示出在可靠度之间彼此相等情况下的关系，以及对声音识别结果给予优先的情况；图14B示出在可靠度之间彼此相等情况下的关系，以及对唇读结果给予优先的情况。决定选用哪种识别结果要取决于操纵游戏装置的环境状态等因素。在某些情况下，可在游戏装置中预先确定选用哪种识别结果。在某些情况下，游戏装置做成可以由操作者来确定选用哪种识别结果的结构。例如，当操作者没有言语障碍并且游戏装置用在较低的噪声条件下，应按图14A的情况给声音识别结果优先。当操作者有言语障碍或游戏装置用在噪声很高的环境时，适用图14B的情况。总判定装置123输出按上述方式已确定的、作为信号15的总判定结果。在最后一个步骤，控制装置6根据总判结果输出无线控制信号，以便控制飞艇7。

如上所述，按照本实施例，不但对声音进行识别，还对嘴唇的动作进行识别，并且这种识别是在同时利用两种识别结果的综合性识别，这样就可能识别说话人在噪声环境下发出的言语(指令)。同时，该实施例还具有使有言语障碍的人可利用声音控制功能使用该游戏装置的作用。此外，与第一和第二实施例类似，嘴唇的动作是利用LED21和光控二极管22共同检测的，所以可以理解到，与利用摄像机或其它用于捕获嘴唇动作图象的类似装置传统方法相比，该游戏装置的成本非常低。尽管没有对该实施例进行详细的描述，但游戏装置的使用者可按第二实施例相同的方法记录唇读的基准图形。另外，制备可适用于任何非特定人的基准图形，可省略由使用者作的记录。

在第一至第三实施例中，对由无线电控制信号控制飞艇7的游戏装置作了典型描述。可以理解，本发明所应用的游戏装置不局限于该特定的形式。例如，如果给各操纵者提供上述任何一种实施例中描述的结构，则可由多个操作者同时对游戏装置进行操纵。

下面将描述本发明的输入装置。图15是表示本发明输入装置的结构示意图。本发明的输入装置包括一个头戴受话器154，一个连接在头戴受话器154上的支撑杆155和一个装有光控二极管151和LED152的电子部件153。电子部件153以预定的角度连接在支撑杆155上(见图15A)。通过适当地调节电子部件153和支撑杆155之间的角度，可改变照射操作者唇区的从LED152发射的光的方向。输入装置利用从LED152发出的光照射操作者的唇区，并检测光控二极管151反射的光，以便输入嘴唇的动作。这种输入装置可用作上述第一至第三实施例的图象输入装置。如果再将一个麦克风156设置在电子部件153上(见图15B)，则输入装置可用作声音输入装置。

图15A所示的其内未装麦克风的输入装置可用作第二实施例的图象输入装置。如图15B所示的其内装有麦克风的输入装置可用作第一和第三实施例中的起声音输入装置和图象输入装置功能的装置。如上所述，本发明的输入装置采用了光控二极管151、LED152和尺寸很小、重量很轻的麦克风，所以整个输入装置尺寸也很小、重量也很轻。此外，所使用的元件都是廉价的，所以整个输入装置能以低成本生产。此外，本发明的输入装置是利用头戴受话器154固定在操作者的头上的。这样，操作者与光控二极管151和LED152之间的相对位置关系是基本固定的，因此可稳定地输入嘴唇的动作。但是，在本发明的输入装置中，光被用于输入嘴唇动作，而反射光被转变成了电信号并输出该电信号。与传统的输入装置相比，该输入装置的结构更加简单，而传统的输入装置，例如一种用输入图象代替嘴唇动作的装置或一种利用超声波的装置都不可避免地具有体积大和结构复杂的缺陷。

本发明的输入装置设有单个光电二级管和单个LED。另外，也可设置多个光电二极管和多个LED。例如，如果配备两套LED和光控二极管，并且将它们十字形排列，则可检测在一个平面上的运动方向。

如上所述，按照本发明，利用人的声音可进行预期的操作，并且操作该游戏装置不需要熟练的技巧。此外，输入的词语(指令)不仅通过声音识别，还通过嘴唇的动作识别，所以即使在噪声环境中也能实现稳定的操作。而且，嘴唇的动作是利用LED和光电二极管(一种光电晶体管)的组合体检测的，所以与使用摄像机、超声波或类似情况相比，其整个装置的生产成本低廉。

此外，如第一实施例所述，操作者的言语周期是利用嘴唇的动作检测的，并且该周期用于声音识别，所以避免错误地识别由其他人而不是由操作者发出的声音。如在第二和第三实施例所述，如果根据嘴唇的运动识别输入的词语(指令)，并利用该识别结果控制飞艇，那么本发明可应用在噪声环境内，或用在操作者不便发声的情况下，而且有语言障碍的那些人也可使用。

在本发明的输入装置中，将廉价的发光二极管(LED或类似部件)和廉价的光电检测装置(光控二极管或类似部件)连接在轻型头戴受话器、支撑杆和电子部件上。因此，这种输入装置可达到重量轻和成本低的目的。

在第一至第三实施例中，描述了根据识别的声音或嘴唇的动作控制对象的运动的典型实施例。然而，通过声音或嘴唇动作控制对象的操作不只限于在运动方面，它还可控制其它操作，例如返回某些指令等。下面将描述各种类型的根据识别的声音使控制对象进行各种操作(包括运动操作)的装置。

下面将描述根据识别的声音使控制对象进行各种操作(包括运动操作)的装置的实施例。

第四实施例

下文将描述本实施例中的根据识别的声音从为识别声音作准备的一系列输出声音中选择一组输出声音指令，并输出所选择声音的装置。

图16示意地示出本实施例的声音选择装置100的结构。该声音选择装置100包括一个随机数发生器101、一个选择器102、一个输入/输出状态存储器103、一个状态改变器104和一个输入/输出状态数据库105。输入/输出状态数据库105预先存储许多输入/输出状态表。每一输入/输出状态表都包括一个在状态s下的输入x(x是一个非负整数)，以及一个输入x(0≤i＜n(s))的n个输出词语的组sp(x，i)。图17A和17B示出了典型的输入/输出表。开始时将图17A中所示的初始状态表201储存在输入/输出状态存储器103中。随机数发生器101确定用于选择从输出的词语组中作为声音输出的一个词的值i。

下面将描述声音选择装置100的操作过程。当将x从外部输入到选择器102时，该选择器102参照储存在输入/输出状态存储器103内的输入/输出状态表，并选择与输入x相对应的输出词组sp(x，i)。然后，选择器102使随机数发生器101产生一个随机数r(n(s))(这里0≤r(n(s))＜n(s))，并确定i＝r(n))，以便从输出的词组sp(x，i)中选择一个词语。因此，所选择的输出词语是作为声音从外部输出的。

来自选择器102的输出词语不仅是外部输出的，而且还输出到状态改变器104中。当状态改变器104接收来自选择器102的输出时，它参照输入/输出状态数据库105，并将输入/输出状态存储器103的内容变成与选择器102中的输出词语相对应的输入/输出状态表。例如，当词语″Genki？″(即″你好吗？″)作为初始状态201的声音输出时，状态改变器104参照输入/输出数据库105，并抽取与输出″Genki？″相对应的输入/输出状态202的表。将取出状态202的表存储在输入/输出状态存储器103内。

按这种方法，本实施例的声音选择装置100根据输入的数据输出与利用随机数选择的词语相对应的声音。因此，利用声音选择装置100可构成一个简单的交互式系统。此外，如果使用一种具有简化结构的声音选择装置100a，并且其中如图18所示省略了状态改变器104和输入/输出状态数据库105，则对输入的响应只进行一次。

声音选择装置100和100a可用作图27所示的声音反应装置的声音选择装置1202，并可与声音识别装置1201相连。更具体地说，当声音识别装置1201首次识别出声音时，将识别结果随加到声音中的识别数一起输入到声音选择装置1202。声音选择装置1202将输入的识别数认作输入x，并且从输出词语组中任意选择一个词语。然后发出一个与所选词语相对应的声音。以此可构成声音反应装置1203。在声音反应装置1203中，当输入某一声音后，再响应该声音输出声音。但在这种声音反应装置1203中，对于相同的输入声音可作出各种不同的反应。例如当在声音选择装置1202处在初始状态而声音识别装置1201输出作为识别结果的声音″Ohayo″(即″早上好″)时，将用来表示声音″Ohayo″的识别数1作为输入x(见图17A)输入给声音选择装置1202。声音选择装置1202根据输入x从包括两个输出词语″Ohayo″和″Genki？″的组sp(1，i)中任意选择一句词语，并发出对应于选择词语的声音。

在声音反应装置1203中，在实际操作之前，必须记录可由声音选择装置1202作为输入接收的声音。如果将与不包括在输入的记录组中的词语相对应的声音输入到声音选择装置1202，则可从声音选择装置1202中输出例如″Nani″(即″什么″)等词语。在将第三实施例中的装置用作声音识别装置1201的情况下，如果识别的声音的可靠性较低，则可从声音选择装置1202中输出用于请求操作者再次输入声音的声音。

如上所述，在本发明的声音选择装置中，需准备一些代表输入/输出状态的表，并根据预先输入和输出的规律改变输入/输出状态。因此，如果使用本发明的声音选择装置，则可实现一种能进行简单交互的装置。此外，在该声音选择装置中，需给一个输入声音准备一些输出候选词语，并可从这些候选词语中任意选择一个词语。然后，发出与所选词语相对应的声音。从而可提供对一个输入不作出相同反应，而是能作出不同反应的声音反应装置。

第五实施例

下面将描述本发明的方向检测装置和方向选择装置。

首先参照图19描述方向检测装置400。该方向检测装置400包括一个方向检测器401和一些与该方向检测器相连的麦克风402。麦克风402连接在受控的对象上。下面在假定设有四个麦克风的情况下描述方向检测装置400的操作过程。当通过这四个麦克风m(i)(i＝0，1，2，3)输入声音时，方向检测器401将输入声音sp(m(i)，t)分成帧f(m(i)，j)501(0≤j)，如图20所示。例如可将一帧的长度定为16ms。接着，方向检测器401在每一帧都获得一份声能e(m(n)，j)，并将获得的声能e(m(n)，j)顺序存储在具有长度l(例如长度为100)的循环存储器(未示出)内。这时，当方向检测器401每存储一帧的能量时就获得供给各麦克风的前一帧的总能量，并检测哪个麦克风具有最大总能量。然后，方向检测器401将该最大总能量与预先通过实验确定的阈值The相比较。如果最大总能量大于阈值The，则确定从方向检测器401到麦克风的方向等于声音发源的方向。从方向检测器401输出作为声音输入方向的确定的麦克风数i。

如果按上述方式操作的方向检测装置400与操作装置1302连接在一起使用(如图28所示)，则可构成一个根据声音发源的方向进行预定操作的声音反应装置1303。特别是当一个对象(例如一个气球或一个填充玩具)连接在操作装置1302上以便操作该对象和方向检测装置1301(图19中的400)时，则该对象沿声音发源方向运动或面对着该方向。这样便构成了一个根据声音进行对准发声方向的预定操作的装置。

上述操作装置1302的一个实施例包括三个带有连接在对象上的螺旋桨的电动机和一个这些电动机的驱动装置。如果输入对象将要运动的方向，该装置控制三个电动机，以便使对象沿该方向运动。

下面将参照图21描述方向选择装置。方向选择装置600包括一个偏移计算器601、一个方位罗盘602和一个目标方向存储器603。方向选择装置600可用作一个用于控制对象运动方向和/或对象面对的方向的装置。当输入一个表示对象运动方向或对象面对的方向的输入值x(x是一个非负整数)时，偏移计算器601根据该输入值kx和预先储存在偏移计算器601中的表输出一个偏移值。将该输出偏移值加到此时由方位罗盘602测出的对象实际方向中去，然后再送到目标方向存储器603。目标方向存储器603将补充的结果作为对象运动的方向或对象面对的方向储存起来。

如上所述，图21中的方向检测装置用于根据对象当前运动的方向或对象当前面对的方向改变该对象的方向。

如果用图22所示的方向选择装置700取代图21所示的方向选择装置600，那么对象相对于当前方向的相对方向不变，但绝对方向可以改变。在图22的方向选择装置700中，方向计算器701从外部接收表示绝对方向(例如北)的输入值x(x是非负的整数)，然后输出与该输入值x相对应的一个值。该输出值作为目标方向直接储存在目标方向存储器603内。与偏移计算器601相类似，方向计算器701可保存代表输入值x的绝对值的一些值，该输入值x是以表的形式出现的。在目标方向储存在存储器603内之后，方向选择装置700在对象运动或转向期间利用方位罗盘602顺序测量当前的方向。再将测量的方向与储存在目标方向存储器603中的方向之间的差输出。如果在该输出值的基础上对该对象进行反馈控制，则可按目标绝对方向使对象运动或按目标方向使对象转向。

如果上述方向选择装置与声音识别装置和操作装置连接在一起使用(如图29所示)，则可构成一个声音反应装置1402。任何类型的声音识别装置，例如传统的声音识别装置和与第一至第三实施例的游戏装置相配合的声音识别装置，都可用在声音反应装置1402上。在声音反应装置1402中，当通过声音输入对象的正方向或运动方向时，对象的正方向或运动方向按照输入的声音而改变。在声音反应装置1402中，将声音识别装置1201的识别结果用作方向选择装置1401的输入，而方向选择装置1401的输出用作操作装置1302的输入。因此，在将对象当前的正方向或运动方向与目标方向相比较的同时，可控制对象的操作。

例如，朝北的方向规定为零度，而朝东的方向规定为正方向。

现在考虑对象面对零度方向的情况。在本实施例中，将方向选择装置600(见图21)用作方向选择装置1401。将词语″Migi″(即″向右″)与+90度相关联的表储存在方向选择装置600的偏移计算器601中，在这种情况下，当利用声音识别装置1201将确定目标方向的声音作为词语″Migi″进行识别时，方向选择装置600将一个输出送到操作装置1302。该输出指示操作装置1302使对象从当前的正方向或运动方向朝东转90度。此时，方向选择装置600在方向改变期间总是将当前的正方向或运动方向与目标方向相比较。控制操作装置1302，并利用方向选择装置600的输出使对象的正方向或运动方向改变到目标方向。

另外，如果将图22所示的方向选择装置700用作方向选择装置1401，将表示绝对方向的词语″Kita″(向″北″)或″Nansei″(即向″西南″)代替词语″Migi″或″Hidari″作为表示目标方向的词语输入。此时，方向选择装置700将输入词语″Kita″的0度，或输入词语″Nansei″的-135度作为绝对目标方向储存在目标方向存储器内，并进行上述操作。这里的目标方向在-180度至+180度范围内。本实施例的方向检测装置和方向选择装置可与操作装置结合在一起。在这种情况下，如图30所示，方向检测装置1301的检测结果被用作方向选择装置1401的输入，而方向选择装置1401的输出被用作操作装置1302的输入。这样便可构成一个声音反应装置1501，其中在对象的当前正方向和运动方向与目标方向进行比较的同时，将对象的正方向或运动方向改变成发声的方向。

第六实施例

现在描述本实施例中的与声音识别相关的装置。如图26所示，该装置包括一个声音终点检测装置1101、一个声音检测装置1102、一个特征量抽取装置1103、一个距离计算装置1104和一个词典1105。

首先将描述声音终点检测装置1101。声音终点检测装置1101接收与输入声音相对应的信号，并根据该信号检测声音终点。在本说明书中，术语″声音终点″指的是声音输入结束的时间。

本实施例的声音终点检测装置1101连接在麦克风等声音输入装置上。当声音s(t)是通过声音输入装置输入时，声音终点检测装置1101将输入声音s(t)分成帧f(i)(i是一个非负整数)(如图23所示)。然后便获取各帧的能量e(i)。在图23中，曲线801表示声音s(t)，曲线802表示能量e(i)。然后每当输入一帧的声音时，声音终点检测装置1101就利用预定的帧数获取从当前帧到当前帧的前一帧的能量变化，并将该能量变化与预先通过实验确定的阈Thv相比较。经比较后，如果能量从较大部分变化到较小部分时与阈值相交，该交叉时间点就确定为声音终点。

下面将描述为预先确定时间周期而从各帧能量中获得能量变化的方法。首先描述使用循环存储器的方法。将在各帧中获取的能量顺序储存在具有长度l的循环存储器803中。每当获取一帧的能量时，利用预定时间周期参照循环存储器803中当前帧前一帧的能量，以便获取能量变化。还有另一种不使用循环存储器获取能量变化的方法。在该方法中，声音终点检测装置1101储存前面各帧的预定帧数的平均值m(i-1)和变化量v(i-1)。每当获取一个新帧的能量时，新能量e(i)与先前能量平均值m(i-1)的加权和(i)就为新的能量平均值m(i)所取代。类似地，先前变化量v(i-1)与|e(i)-m(i)|的加权和为新的变化量v(i)所取代。以这种方式可能得到虚假的变化。这里，将衰减常量α用作加权，并在下列等式的基础上获取新的平均值和新的变化量，其中α是1.02：

m (i) = \frac{m (i - 1)}{α} + \frac{α - 1}{α} (i)

v (i) = \frac{v (i - 1)}{α} + \frac{α - 1}{α} | e (i) - m (i) |

采用这种方法不需要循环存储器，这样就节省了存储器。另外，每当获取新能量时，可省略在预定时间周期内为得到能量总和所进行的操作，因此可缩短处理时间周期。

下面将描述用于获取声音实际发出的周期的声音检测装置1102。为了获取该周期，除了提供用于贮存能量的循环存储器803外，还提供一个用于贮存平滑能量的循环存储器902。如图24所示，每当获得一帧的能量时，能量802就贮存在存储器803内，而平滑能量901就贮存在存储器902内。在按上述方法获取声音终点903时，能量和平滑能量的变化规律就保存在这些循环存储器803和902内。因此，如果各循环存储器的长度定为足够长(例如与两秒钟对应的长度，则可保存下一个词的能量。声音检测装置1102利用储存在这些存储器内的能量和平滑能量抽取实际发声周期。周期的抽取是按下述程序进行的。首先应确定阈值Th(如下文所述)。再将该阈值从旧到新顺序地与储存在循环存储器803内的能量相比较。将最先超过该阈值的能量点确定为发声周期起始点。按相反的方式从新到旧地进行比较。将最先与该阈值交叉的点确定为发声周期终点。按这种方式就可抽取发声周期。

下面描述确定阈值Th的方法。首先在检测声音终点时求出存储器803中的最大能量max1001和存储器902中的最小平滑能量min1002。利用这些值并根据下列公式可得到阈值Th，这里β的值约为0.07：

Th＝min+β(max-min)

这里采用了取固定窗内中值的方法作为计算平滑能量的方法。然而，平滑方法不限于这种方法，还可采用例如一种求平均值的方法。在本实施例中，不使用最大平滑能量，而使用最大能量，以便求出阈值Th。其原因是：如果利用最大平滑能量求阈值Th，则当词语长度变化时，最大值的变化非常大，所以阈值Th也发生变化。结果不能获得良好的声音检测效果。此外，利用最小平滑能量计算阈值Th可避免检测并非由操作者发出的声音的噪声。

如上所述，声音检测装置1102抽取发声周期，即抽取与输入信号中的声音相对应的部分。

然后，特征量抽取装置1103从检测的声音中抽取用于识别的特征量。在利用能量计算的情况下，求得各帧的特征量并储存在循环存储器内。这里，″特征量″是一个包括三个分量的特征矢量，这三个分量即原声音信号s(t)的零交叉数、原声音信号s(t)的差分信号的零交叉数和在两帧之间的原声音信号s(t)能量e(i)的对数差。

将通过声音终点检测装置1101、声音检测装置1102和特征量抽取装置1103求出的特征量矢量输入到距离计算装置1104中。该距离计算装置1104对照特征量矢量先前记录在字典1105中的每个声音特征量矢量并将校正结果与作为识别结果的最高记录一起输出。用这种检查方法可简单地求出矢量之间的欧几里得距离，或者可采用DP匹配的方法。

在上述方法中，本发明的装置是用于进行声音识别的。声音识别装置可与图27所示第四实施例中的声音选择装置1202连接在一起使用，或者也可与图29所示的第五实施例的方向选择装置1401和操作装置1302连接在一起使用。另外，如果声音识别装置得简单地与操作装置1302结合(如图31所示)，则可构成一个声音反应装置1601，其中将声音识别装置1201的结果用作操作装置1302的输入，从而使整个装置沿目标方向运动。本实施例的声音识别装置可与第一至第三实施例的游戏装置配合使用。这样就可利用操作者的声音操作游戏装置。此外，如果在第四至第六实施例所述的包括声音识别装置1201的声音反应装置中将、信号传输装置1701增设到声音识别装置上，并将信号接收装置1702增设到声音选择装置1202、方向选择装置1401或在各配置中连接在声音识别装置之后的操作装置1302上(如图32所示)，则只需将声音识别装置用作操作者的手持遥控器就可对目标进行遥控，可以用红外线或无线电传送作信号传送。

通过将上述声音反应装置固定在一个气球上，就可与该气球相互联系或控制该气球，这样便可制成能有效利用气球所固有的中心加热特性的玩具。

如图33所示，制备两个气球，将装有上述声音识别装置和声音选择装置的声音反应装置固定到这两个气球上，并且这两个声音反应装置是不与人相互联系的，而是在它们之间相互联系。这样制成的玩具，其内部的元件可相互自动进行联系。此外，制备一些装有反应装置的气球1801，并使它们能相互联系。这时，如果装有声音反应装置的各气球在声音识别过程中具有剔除功能，则可使气球响应特定的词语。按这种方式制成的多个气球中的其中一个气球可响应某些特定的词语。例如，可分别给气球1801起名字，各气球1801就能对表示各自相应名字的声音起反应。至于剔除方法，可计算出用于声音识别的内部词典的距离。并通过实验确定阈值，以便剔除那些超过该阈值的距离。此外，可在声音反应装置内装一个计时器。当经过一个预定的时间周期时，从记录的成组的输出声音中任意选择一个声音组，并输出所选择的声音组，这样就制成了可利用声音反应装置起动相互联系功能的玩具。控制的对象不限于气球，还可控制填充式玩具、洋娃娃、照片或图画。另外，控制对象也可以是橱窗里正在移动的图画。也可用一个反重力装置，而不是气球作为控制对象(例如一个靠螺旋桨悬浮的直升飞机或一个磁力悬浮直线电机汽车)。

如上所述，按照本发明，可利用人的声音进行自然操作，并且该游戏装置不需要操作者有熟练的技巧。此外，输入的词语(指令)不但通过声音来识别，而且还通过嘴唇的动作识别。这样，即使是处在吵闹环境内也可实现稳定操作。此外，嘴唇的动作是通过LED和光控二极管(一种光电晶体管)的综合作用进行检测的，所以与使用摄像机、超声波或类似装置的情况相比，整个装置可用很低成本的生产。

此外，在本发明的声音识别装置中，说话人的言语周期是通过嘴唇的动作检测的，并将该周期用作声音的识别，所以可防止出现由其他人而不是该说话人发声而作出的错误识别。在本发明的另一个识别装置中，根据嘴唇的动作识别输入的词语(指令)，并利用识别结果控制飞艇，所以本发明可用在噪声环境或说话人不便发声的环境下，并且那些有语言障碍的人也可使用。

在本发明的输入装置中，将一个成本低廉的光发射元件(例如LED)和一个成本低廉的光检测元件(例如光控二极管)连接在轻型头戴受话器、支撑杆和电子部件上，所以可构成重量很轻，成本低廉的输入装置。

如上所述，本发明的声音选择装置可预先提供一些输入/输出状态，并按先前的输入和输出的规律改变输入/输出状态。这样就提供了一个种可利用声音选择装置进行简单对话的装置。本发明的声音选择装置预先为一个输入提供一些输出，并从这些输出中任意选择一个输出，因此对一种输入就可作出各种不同的反应。

本发明的方向检测装置利用多个麦克风输入声音并检测能提供最大能量的麦克风。这样就可检测出声音发源的方向。利用本发明的方向检测装置，可使对象精确地按规定的方向运动或精确地按规定的方向转向，同时利用一个方位罗盘检测当前位置。

在本发明的声音识别装置中，声音终点检测装置首先粗略地求出声音的终点，然后声音检测装置自动地得到阈值。这时，利用输入声音的最大能量和最小的平滑能量确定阈值，所以不管言语周期的长度是多少，都可抽取出有用的声音周期。当声音检测装置利用阈值检测声音时，可从声音中获取特征量，并根据该特征量对声音进行识别。

通过将上述各装置进行适当组合可得到各种声音反应装置。例如，当将声音识别装置与声音选择装置组合时，可得到能响应人的声音的声音反应装置，这样就可实现人机对话。当方向检测装置与操作装置组合时，可根据声音操纵对象。当将声音识别装置、方向选择装置和操作装置组合在一起时，可使对象精确地按声音所指的方向运动，或使对象的运动改变到声音所指的方向。此外，如果将信号传输装置连接到声音反应装置内的声音识别装置上，并将信号接收装置连接到声音识别装置的后部，同时固定在对象上的装置上时，则可构成能进行遥控的声音反应装置。

如果提供多个上述声音反应装置，则所作的玩具内的声音反应装置之间可自动进行对话。如果将声音反应装置固定在各个气球上，则可使气球成为具有中心加热固有特性的玩具。如果再装一个定时器，并使该装置的结构能在经过某一时间周期之后输出适当的声音，则可构成能开始对话而不是响应人的声音的声音反应装置。

在不脱离本发明的保护范围和精神的情况下，本领域的专业技术人员可很容易地进行各种改进行。因此，权利要求书的保护范围不受上述说明书的限制，而是可对权利要求进行更广义的解释。

Claims

1.一种声音选择装置，包括：

用于存储多个表的第一存储装置，而每个表包括能根据一个输入而输出的多个词语作为各个以对话为基础的声音选择；

用于储存多个表中的一个表的第二存储装置；

用于根据从外部输入的一个输入值，从包括在一个储存在第二存储装置的表内的多个词语中选择一个词语，并将所选择的一个词语作为一个声音选择输出的选择装置；以及

用于将储存在第二存储装置内的一个表转换成储存在第一存储装置内的多个表中的另一个表，并根据所选择的一个词语检测该表的转换装置。

2.按照权利要求1的声音选择装置，其特征是还包括用于产生一个随机数的装置，其中选择装置利用该随机数从多个词语中选择一个词语。

3.一种声音选择装置，包括：

用于存储表的存储装置，表包括能根据一个输入而输出的多个词作为各个以对话为基础的声音选择；

用于接收从外部输入的一个输入值、利用随机数从储存在存储装置的表内的多个词语中选择一个词语并选择一个词语作为一个声音选择输出的选择装置；以及

用于产生随机数的装置。

4.一种声音反应装置，包括：

按照权利要求1的声音选择装置；以及

用于接收声音、识别声音和将识别结果输出给声音选择装置的声音识别装置。

5.一种声音反应装置，包括：

按照权利要求3的声音选择装置；以及

6.一种游戏装置，包括一个按照权利要求4的声音反应装置，和用于产生操作中与上述选择装置的输出相结合的可视图形的装置。

7.一种游戏装置，包括一个按照权利要求5的声音反应装置，和用于产生操作中与上述选择装置的输出相结合的可视图形的装置。

8.一种包括多个按照权利要求4的声音反应装置的游戏装置，从而将多个声音反应装置配置成彼此交互以进行对话，每个声音反应装置用来根据从所述多个声音反应装置中另一个声音反应装置来的识别了的接收声音而输出声音选择。