CN100508029C

CN100508029C - 语音控制单元、方法及其控制的设备和消费类电子系统

Info

Publication number: CN100508029C
Application number: CNB038245434A
Authority: CN
Inventors: F·维格诺里
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Inc
Priority date: 2002-10-23
Filing date: 2003-09-22
Publication date: 2009-07-01
Anticipated expiration: 2023-09-22
Also published as: CN1689073A; KR101034524B1; KR20050055776A; EP2587481B1; EP1556857B1; WO2004038697A1; JP4837917B2; US7885818B2; JP2006504130A; EP2587481A3; AU2003260926A1; EP1556857A1; US20060074686A1; EP2587481A2

Abstract

语音控制单元(100)包括：麦克风阵列，该阵列包含多个麦克风(102、104、106、108和110)，用于接收相应的音频信号(103、105、107、109和111)；波束成形模块(116)，用于从该音频信号中提取用户(U1)的清洁信号，即用户(U1)的语音信号(117)；关键字识别系统(120)，用于识别用户(U1)说出并用特定音频信号(111)表示的预定关键字，此外，该系统还被安排用来基于所述识别来控制波束成形模块；以及语音识别单元(118)，用于根据语音信号(117)中的已识别语音项来为设备(200)创建指令。这样一来，语音控制单元(200)对那些涉及语音识别的音频信号部分更有选择性，其中所述音频信号部分对应于用户(U1)所讲述的语音项。

Description

语音控制单元、方法及其控制的设备和消费类电子系统

本发明涉及一种基于语音来控制设备的语音控制单元，包括：

麦克风阵列，包含用于接收各个音频信号的多个麦克风；

波束成形模块，通过增强音频信号的第一分量而从麦克风接收的音频信号中提取用户语音信号，其中第一分量表示的是来自相对于麦克风阵列的第一方位的用户的发言；以及

语音识别单元，用于根据语音信号中的已识别语音项来为设备创建指令。

本发明还涉及一种设备，其中包括：

此类基于语音来控制设备的语音控制单元；以及

处理装置，用于执行语音控制单元所创建的指令。

本发明还涉及一种基于语音来控制设备的方法，包括：

借助包含多个麦克风的麦克风阵列来接收各个音频信号；

通过增强音频信号的第一分量而从麦克风接收的音频信号中提取用户语音信号，其中第一分量表示的是来自相对于麦克风阵列的第一方位的用户的发言；以及

根据语音信号中的已识别语音项来为设备创建指令。

对人和人之间的通信来说，自然口语是一种非常优选的手段。由于自动语音识别技术的最新发展，自然口语正作为一种人机通信的有效手段显现出来。而用户也在从需要极大的手/眼配合的键盘和鼠标操作中脱离出来。借助语音识别所进行的人机通信具有不用手的优点，在用户必须自由使用其手、眼并且在交谈中无妨碍地移动的情况中尤其希望有这个优点。然而在当前系统中，用户仍旧会受到获取音频信号并向语音识别单元提供输入的手持式、体戴式或系绳式麦克风设备的阻碍，例如头戴式麦克风。而这则是因为大多数语音识别单元与近讲(close-talkinB)麦克风输入一起进行最佳合作，例如用户和非常接近的麦克风。在将已知的语音识别单元部署在“真实世界”环境中的时候，其性能通常将会降低。这种性能降低在用户远离麦克风的时候尤为严重。此外，室内混响和干扰噪声也会促使性能降低。

一般来说，在头部长期佩戴头戴式麦克风是很不舒服的，手持麦克风则因为占用用户的手而限制了用户的自由，由此需要一种允许用户更加自由的语音输入方案。与波束成形模块组合的麦克风阵列看起来是一种很好的方法，它可以解决常规情况下可能遇到的上述麻烦。麦克风阵列是一组安装在不同位置的麦克风。该阵列中的各个麦克风所接收的多个音频信号将会提供到波束成形模块。而波束成形模块则必须进行校准，也就是说，在这里必须估计某个特定声源相对于麦克风阵列的方向或位置。所述特定声源可以是麦克风阵列环境中的声源，它产生的是具有与预定参数相对应的参数的声音，例如包含了与人的话音相匹配的预定频率的声音。然而，校准通常是以最大的声音为基础的，也就是产生最大的声音的特定声源。例如，波束成形模块可以基于与相同环境中的其他用户相比说话声音更大的用户而被校准。声源的方向或位置可以用延迟求和阵列方法或基于互相关函数的方法而从来自不同麦克风的信号之间的时间差中估计出来，其中在U.Bub等人于1995年发表于ICASSP′95第848-851页的“Knowing Whoto Listen to in Speech Recognition：Visually GuidedBeamforming”中公开了这种基于互相关函数的方法。此外，在S.V.Pillai：“Array Signal Processing”，Springer-Verlag，NewYork，1989中公开了一种用于估计声源位置的参数法。

在经过校准、即估算了当前方位之后，这时将会安排波束成形模块通过综合处理这些麦克风的输入来增强那些源自与当前方向相对应的方向的声音并且降低噪声。假设波束成形模块的输出是一个适于提供给语音识别单元并且导致产生顽健语音识别的清洁信号。这意味着将会对音频信号分量进行处理，以便能够提取用户语音项。

从欧洲专利申请EP 0795851 A2中可以了解到包含了麦克风阵列、波束成形模块和语音识别单元的系统的一个实施例。该申请公开了如下内容：声源位置或方向估算以及语音识别可以用该系统实现。该系统的缺陷在于它不能在多用户环境中正常工作。假设已经就用户的第一位置而对系统进行了校准。然后，用户开始移动。系统则首先应该重新校准，以便能够正确识别语音。此外，该系统还需要作为校准输入的音频信号，也就是说，用户必须说话。然而，如果此间有另一个用户开始说话，那么重新校准将无法提供正确结果；并且系统将会调谐到另一个用户。

本发明的一个目的是提供一种在起始段落中描述的语音控制单元，该单元被安排用来识别在其他用户也可能说话的环境中移动的用户的语音。

本发明的这个目的是如下实现的，其中语音控制单元包括一个用于识别用户说出并用特定音频信号表示的预定关键字的关键字识别系统，以及一个语音控制单元，它被安排用来基于预定关键字的识别结果来控制波束成形模块，以便增强音频信号第二分量，该分量表示的是来自用户相对于麦克风阵列的第二方位的后续发言。此外还安排关键字识别系统用来区分那些与表示预定关键字的发言有关的音频信号以及与其他不表示预定关键字的发言有关的音频信号。语音控制单元则被安排用来在从不同方位接收到与预定关键字相对应的声音的情况下重新进行校准。优选地，这个声音是由发起了所要控制的设备的注意广度(参见图3)的用户产生的。如果没有识别出预定关键字，则不会进行重新校准。因此，从另一个方位讲出并且不在预定关键字之后的语音项将被丢弃。

在依照本发明的语音控制单元的一个实施例中，其中将关键字识别系统安排用来识别另一个用户讲出的预定关键字，并且语音控制单元被安排用来基于该识别来控制波束成形模块，从而增强音频信号的第三分量，其中所述第三分量表示的是来源于其它用户相对于麦克风阵列的第三方位的另一个发言。语音控制单元的这个实施例被安排用来根据另一个用户说出的预定关键字的识别结果来进行重新校准。此外，在追随某个特定用户的情况下，这个实施例将被安排用来基于来自多个用户的声音进行校准。这意味着在这里仅仅这样识别那些被授权的用户、也就是因为说出预定关键字而获得授权控制设备的用户，因此，在这里只接受来自这些用户的语音项，为设备创建指令。

在依照本发明的语音控制单元的一个实施例中，麦克风阵列中的第一个麦克风被安排用来向关键字识别系统提供特定音频信号。换言之，用于关键字识别的特定音频信号与麦克风阵列中的麦克风接收的音频信号之一是对应的。其优点在于不需要额外的麦克风。

在依照本发明的语音控制单元的一个实施例中，波束成形模块被安排用来确定用户相对于麦克风阵列的第一位置。除了方位之外，这其中还要确定用户与麦克风阵列之间的距离。所述位置则是基于方位和距离计算的。依照本发明的这个实施例的优势在于：语音控制单元被安排用来对来源于彼此位于对方前方的用户的声音加以区分。

本发明的另一个目的在于提供一种起始段落中所描述的设备，其中该设备被安排为由一个在其他用户也可说话的环境中移动的用户来控制。

本发明的这个目的是如下实现的，其中该设备包含了权利要求1中要求保护的语音控制单元。

依照本发明的设备实施例被安排用来显示已经识别了预定关键字。根据本发明的这个实施例的优点在于用户获得关于该识别的信息。

依照本发明的设备实施例，其中该设备被安排用来显示已经识别了预定关键字，所述设备包括用于产生音频信号的音频生成装置。通过产生“Hello”之类的音频信号，用户可以清楚了解该设备已经准备好接收来自用户的语音项。这个概念即为通常所说的听觉问候。

本发明的另一个目的是提供一种起始段落中描述的方法，该方法使得能够识别在其他用户也可以说话的环境中移动的用户的语音。

本发明的这个目的是如下实现的，其中该方法的特征在于包括根据特定音频信号来识别用户说出的预定关键字，并且根据该识别来控制用户语音信号的提取，从而增强音频信号的第二分量，其中所述第二分量表示的是来源于用户相对于麦克风阵列的第二方位的后续发言。

语音控制单元的修改及其变化与所述设备以及所述方法的修改和变化是对应的。

通过参考附图，可以从依照下文中所描述的实施方式和实施例中清楚了解依照本发明的语音控制单元、方法和设备的这些和其他方面，并且将会从中对其加以阐述，其中

图1示意性显示了依照本发明的语音控制单元的一个实施例；

图2示意性显示了依照本发明的设备的一个实施例；以及

图3示意性显示了基于多个音频信号的指令创建处理。

在所有附图中，相同的参考数字都被用于表示相似的部分。

图1示意性显示了依照本发明的语音控制单元100的一个实施例。语音控制单元100被安排用来向设备200的处理单元202提供指令。这些指令是在语音控制单元100的输出接头122提供的，其中该单元包括：

一个麦克风阵列，该阵列包含了多个麦克风102、104、106、108和110，用于接收相应的音频信号103、105、107、109和111；

一个波束成形模块116，用于从麦克风102、104、106、108和110接收的音频信号103、105、107、109和111中提取用户U1的清洁信号117，即语音信号；

一个关键字识别系统120，用于识别用户说出并用特定音频信号111表示的预定关键字，此外，该系统还被安排用来基于所述识别来控制波束成形模块；以及

一个语音识别单元118，用于根据语音信号117中的已识别语音项来为设备200创建指令。

语音控制单元100是如下工作的。假设语音控制单元100在一开始是基于用户U1在位置P1的发言而被校准的。其结果是将语音控制单元100的波束成形单元116“调谐”到从与方向α基本上匹配的方向发出的声音。对语音识别而言，那些来自与方向α不同的方向并且超出预定阈值的声音将被忽视。举例来说，在这里将会忽略处于位置P2的用户U2的具有相对于麦克风阵列的方向

的语音。优选地，语音控制单元100对具有话音特征的声音敏感，也就是对语音敏感，而对其它声音不敏感。例如，波束成形模块116将会滤除用户U1附近的扬声器S1所产生的乐音。

假设用户U1移动到位置P1，其中该位置与相对于麦克风阵列的方位β是对应的。在没有重新校准语音控制单元100或者更具体地没有重新校准波束成形模块116的情况下，语音项的识别很可能失败。然而，当用户U1开始用预定关键字说话的时候，语音控制单元100将会再次校准。用户U1说出的预定关键字将会得到识别并被用于重新校准。可选地，继关键字之后由第一用户U1说出的其他字词同样用于重新校准。如果诸如用户U2这样的另一个用户开始发言而没有先说出预定关键字，那么其发言将视为是不相关的，并且对重新校准而言，所述发言将被略过。这样一来，当用户U1在移动时，语音控制单元100也会安排为持续“调谐”到用户U1。这个用户U1的语音信号则是从音频信号103，105，107，109和111中提取并且作为语音识别的基础。对设备控制而言，其中并未考虑其他声音。

在上文中说明将语音控制单元100安排为“追随”某个特定用户U1。该用户可以是发起语音控制单元的注意广度的用户。可选地，在这里也可以安排语音控制单元100随后被调谐到多个用户。

图1描述的是将麦克风110连接到关键字识别系统120以及波束成形模块116。这种处理是可选的，这意味着也可以使用一个附加麦克风。关键字识别系统120可以由语音识别单元118组成。语音控制单元100的组件116～120以及设备200的处理单元202可以用一个处理器实现。通常，这两种功能都是在软件程序产品的控制下实施的。一般来说，在执行过程中，软件程序产品将会加载到类似RAM的存储器中并且是从那里执行的。此外，该程序既可以从类似ROM、硬盘或是磁和/或光存储器的后台存储器中加载，也可以经由类似因特网的网络加载。可选地，由专用集成电路提供所公开的功能。

图2示意性显示了依照本发明的设备200的一个实施例。可选地，设备200包含了一个用于产生音频信号的生成装置206。通过产生“Hello”之类的音频信号，用户可以清楚了解到设备已经准备好接收来自用户的语音项。可选地，生成装置206还被安排用来产生多个声音，例如指示设备正处于校准状态的第一声音，以及指示设备处于已校准状态并且由此处于识别语音项的有效状态的第二声音。生成装置206还包括一个用于存储采样音频信号的存储设备以及声音生成器和扬声器。可选地，该设备还包括一个用于显示设备状态的可视表示的显示设备204。

优选地，依照本发明的语音控制单元100是在多功能消费类电子系统中使用的，例如TV、机顶盒、VCR或DVD播放机、游戏机或类似设备。但是，该设备也可以是民用的消费类电子产品，例如洗衣机或厨房设备，诸如复印机、打印机之类的不同类型的办公设备，不同形式的计算机工作站等等，在医疗部门使用的电子产品或是任何其它类型的专业用具以及更复杂的电子信息系统。此外，该设备还可以是一个专门为在车辆或其他运输工具中使用而设计的产品，例如汽车导航系统。然而，在本发明的上下文中使用的单词“多功能电子系统”可以包括多种民用或专用电子产品以及更复杂的信息系统，受该方法控制的单独功能数量通常局限于某个恰当的程度，该程度通常处于2～100种不同功能的范围中。对TV或音频系统之类的典型消费类电子产品而言，其中只有数量更有限的功能是需要控制的，例如5～20种功能，这些功能的实例可以包括包含静音的音量控制、音调控制、频道选择以及从无效或待机状态到有效状态的切换，反之亦然，其中所述功能可以由控制命令发起，例如“louder(更大声)”、“Softer(更柔和)”、“mute(静音)”、“bass(重音)”、“treble(高音)”、“change channel(改变频道)”、“on(开启)”、“off(关闭)”、“stand-by(待机)”等等。

在说明书中，假设语音控制单元100处于受控设备200内部。应该了解的是，这种处理并不是必需的，在若干设备或仪器经由网络(局域或广域)连接并且语音控制单元100位于不同于受控设备或仪器的设备之中的情况下，依照本发明的控制方法也是可行的。

图3示意性显示了基于由多个麦克风102、104、106、108和110接收的多个音频信号103、105、107、109和111来创建指令318的过程。语音项304～308是从该音频信号中提取的。在这里将会识别语音项304～308并且会将话音命令312～316分配给这些语音项304～308。话音命令312～316分别是“Bello”、“Channel(频道)”以及“Next(下一个)”。而处理单元202可以解译的指令“增加频段(Increase_Frequency_Band)”则是基于这些话音命令312～316创建的。

可选地，为了避免识别和执行那些并非旨在控制设备的谈话或发言，语音控制单元100需要用户激活语音控制单元100，以便产生一个时间跨度，该时间跨度又名注意广度，在所述时间跨度中，语音控制单元100是有效的。这种激活可以借助话音执行，例如通过用户说出“TV”或“Device-Wake-up”这样的关键字执行。优选地，用于发起注意广度的关键字与用于重新校准语音控制单元的关键字是相同的。

通过使用一个拟人角色，可以消除交互障碍：举例来说，通过向类似于狗的角色说“Bello”，与所述角色而不是产品所进行的交谈将会更为自然。此外，产品可以有效使用一个具有作为若干种状态元素的结果而被选择的若干种外形的对象。例如，像睡眠动物这样的基本外形可被用于显示语音控制单元100尚未生效。在语音控制单元100有效的时候则可以使用第二组外形，例如被唤醒的动物的外形。然后，举例来说，注意广度的进度可以用耳朵的角度表示：在注意广度开始的时候完全抬起，在结尾的时候完全落下。相似的外形还可以用于表示是否理解发言：“理解的样子”相对于“迷惑的样子”。此外，如果识别了语音项，则可以组合出类似于“高兴的”吠声的听觉反馈。用户可以查看一个表示所有这些元素的外形，以便快速掌握关于所有此类系统部件的反馈，例如抬起的耳朵和“理解的神情”或是“落下的耳朵”和“迷惑的神情”。角色眼睛的位置也可被用于将系统期望的用户位置反馈给用户。

一旦用户发起注意广度，那么该设备，也就是语音控制单元100将处于一种接受其他语音项的状态。这些语音项304～308将会得到识别并与话音命令312～316相关联。很多话音命令312～316一起将会组合在一起，以便构成一个设备指令318，举例来说，第一语音项与“Bello”是关联的，由此将会导致唤醒电视。第二语音项与单词“channel”是关联的，并且第三语音项与单词“Next”是关联的。其结果是对电视进行切换，也就是将其调谐到下一个广播频道。如果另一个用户在第一用户发起的电视注意广度中开始说话，那么其话语将被忽略。

应该指出的是，上述实施例仅仅是对本发明进行描述而不是对其加以限制，本领域技术人员能在不脱离附加权利要求范围的情况下设计出替换实施例，在权利要求中，括号中的任何参考符号不应解释成是对权利要求进行限制。单词“包括”并不排除还存在权利要求中未曾列举的部件或步骤。部件之前的字词“一个”并没有排除存在多个此类部件。本发明可以借助包含了若干不同部件的硬件来实现，也可以用经过适当编程的计算机来实现。在列举了若干装置的设备权利要求中，这些装置中的若干装置可以借助同一个硬件项来实现。

Claims

1.一种基于语音来控制设备的语音控制单元，包括：

麦克风阵列，包含用于接收各自音频信号的多个麦克风；

语音识别单元，用于根据语音信号中的已识别语音项来为所述设备创建一个指令，其特征在于，包括一个用于识别用户说出并用特定音频信号表示的预定关键字的关键字识别系统，并且该语音控制单元被安排用来基于对该预定关键字的识别来控制波束成形模块，以便增强音频信号的第二分量，该第二分量表示的是来自用户相对于麦克风阵列的第二方位的后续发言。

2.如权利要求1所述的语音控制单元，其特征在于：所述关键字识别系统被安排用来识别另一个用户讲出的预定关键字，并且语音控制单元被安排用来基于该识别来控制波束成形模块，从而增强音频信号的第三分量，其中所述第三分量表示的是来源于另一个用户相对于麦克风阵列的第三方位的另一个发言。

3.如权利要求1所述的语音控制单元，其特征在于：所述麦克风阵列中的第一个麦克风被安排用来向关键字识别系统提供特定音频信号。

4.如权利要求1所述的语音控制单元，其特征在于：所述波束成形模块被安排用来确定用户相对于麦克风阵列的第一位置。

5.一种被基于语音来控制的设备，包括：

如权利要求1所述的基于语音来控制该设备的语音控制单元；以及

处理装置，用于执行该语音控制单元所创建的指令。

6.如权利要求5所述的设备，其特征在于：该设备被安排用来显示已经识别了预定关键字。

7.如权利要求6所述的设备，其特征在于：包含用于产生音频信号以便显示已经识别了预定关键字的音频生成装置。

8.一种消费类电子系统，包含如权利要求5所述的设备。

9.一种基于语音来控制设备的方法，包括：

借助包含多个麦克风的麦克风阵列来接收各自的音频信号；

通过增强麦克风接收的音频信号的第一分量而从该音频信号中提取用户语音信号，其中第一分量表示的是来自相对于麦克风阵列的第一方位的用户的发言；以及

根据该语音信号中的已识别语音项来为所述设备创建一个指令，其特征在于，包括根据特定音频信号来识别用户说出的预定关键字，并且根据该识别来控制用户语音信号的提取，从而增强该音频信号的第二分量，其中所述第二分量表示的是来源于用户相对于麦克风阵列的第二方位的后续发言。