CN1134767C

CN1134767C - 消音模块和语音识别设备以及消费者电子系统

Info

Publication number: CN1134767C
Application number: CNB008020329A
Authority: CN
Inventors: P·A·P·考夫霍茨
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-09-23
Filing date: 2000-09-14
Publication date: 2004-01-14
Anticipated expiration: 2020-09-14
Also published as: JP2003510645A; WO2001022404A1; JP4897169B2; KR20010080522A; US7050971B1; DE60042313D1; EP1133768B1; CN1322348A; EP1133768A1

Abstract

一语音识别设备包括一消音模块(100)。该模块包括一音频输入(110)，它用于接收来自话筒的音频信号。所述模块包括至少两个音频输入(120、130)，它们用于接收来自相应独立声源的音频信号。所述消音模块能通过消除来自话筒信号的独立声源信号中的至少两个而产生一语音信号。所述语音识别器用于识别上述语音信号的至少一部分。

Description

消音模块和语音识别设备以及消费者电子系统

本发明涉及音频领域。尤其是涉及消音模块和语音识别设备。

本发明还涉及一种包括至少两个声源设备、上述消音模块以及上述语音识别器的消费者电子系统。

US5255326公开了一种消费者电子系统，该系统带有多个音频/视频设备，这些设备与用于再现声音的环绕声放大器相连。所述放大器具有音频输入，它们用于诸如TV、磁带播放机、光盘播放机和无线电之类的各个可能的独立音频/视频源。一般地说，音频输入能接收立体声音频信号。用户选择再现哪个声源的音频信号。放大器中的环绕声处理器对选定的信号进行处理。通过与放大器相连的扬声器来放大和再现经处理的信号。还将经处理的信号传给微处理器或个人计算机。用话筒从用户获得语音。话筒信号除语音之外还包含被再现的音频。计算机从话筒信号中减去经处理的音频信号，以便获得语音信号。语音信号由语音识别器来加以识别。用识别的输出对系统进行控制。

最近，只要满足某些条件，语音识别就具有合理的精确度。例如，在通过话筒接收的信号中存在有高度音频/噪音的情况下，识别精度会显著下降。周知的系统消除了放大器所产生的音频成分。但是，实际上，大多数用户具有一个以上的能产生声音或噪音的设备。例如，如果在周知的系统中用户总是观看TV并用TV的放大器来再现声音而不是用外部环绕声放大器，那么，TV的声音就不会被计算机所消除，从而导致严重劣化的识别。

本发明的目的是提供一种语音识别设备、一种消费者电子系统以及一种如前所述类型的能更加灵活地消除对语音识别有影响的音频的的消音模块。

为了满足本发明的上述目的，所述消音模块包括至少两个音频输入，它们用于接收来自相应独立声源的音频信号，所述消音模块可进行操作以便通过消除来自话筒信号的独立声源信号中的至少两个信号而生成语音信号。

通过这种方式，所述语音识别设备不再严格地与一个类似于环绕声放大器的声音(音频/噪音)生成设备相连，而是可与任何预定数量的声音生成设备一道工作。例如，所述识别设备可为独立的音频放大器(例如为再现来自无线电或CD的音频信号)、TV放大器、免提电话中的放大器等工作。此外，可用独立的话筒来获得由诸如通风器(例如起居室内或PC内的)、真空吸尘器、往来车辆等装置产生的干扰声(例如噪音)信号。这种方法最好还用在开放的办公室中，在那里，多个用户可能会同时讲话(例如在PC上口述或有电话交谈)。这些“干扰”声的话筒信号会被馈送进语音识别设备并被消除。除其它用户的声音以外，这种话筒还能记录其它声音例如PC产生的类似于Windows声音信号的声音或诸如游戏之类程序产生的声音。最佳的是，这种话筒放置在干扰源附近，从而获得了尽可能“干净的”干扰。另外，可使用话筒阵列。话筒信号可按任何适当的方式传给语音识别设备。例如，用独立的导线、用无线传输(例如RF)或者通过总连线。

可用语音识别设备来进行语音-文本转换(听写)。这就能使得用户在听写文本的同时听音乐。还能消除噪音，例如由用于进行识别的PC中的风扇或盘所产生的噪音。

在附属权利要求2所述的最佳实施例中，所述语音识别设备用于对包括该识别设备置本身以外的设备的设备进行声音控制。这些设备最好包括音频/视频设备(例如TV、盘播放器/记录器、磁带播放器/记录器、音频调谐器、机顶盒等)以及诸如与计算机相关产品之类的可在家庭网络中找到的其它设备(例如打印机、扫描仪等)、保安产品、家用电器和温度控制装置。用于将控制信息传给这类设备的适当装置是周知的。

依照附属权利要求3的措施，用遥控信息来控制所述设备。通过这种方式，可在不需要在所有受控设备中引入语音识别的情况下，按简单和成本-效益高的方式对设备进行声控。还可以对现有不具有声控能力的设备进行控制。最佳的是，所述语音识别设备能按从通用预编程或学习遥控中所周知的方式来控制多种不同的设备，其中，通过语音而不是击键来启动命令。这就能控制多种不同类型和结构的设备。

如附属权利要求4的措施所限定的那样，用音频通讯网络接收来自外部声源的声音。所述网络可以是有线的，也可以是无线的。可以是基于点对点的连接。最佳的是使用串行总线，以便使得多个源以成本效益好的方式连接于语音识别设备。就主流PC环境中的听写而言，最好使用USB或类似的网络。就主流音频/视频环境中的语音控制而言，最好使用IEEE1394。

如附属权利要求5的措施所限定的那样，在将命令信息从语音识别设备传给系统中其它设备时，用同样的通讯网络将音频传给语音识别设备。最佳的是，使用了基于IEEE1394的网络。IEEE1394支持多种独立的可用于传递音频的同步数据流。所述音频可通过网络进行广播或直接发送给语音识别设备。此外，IEEE1394可传递符合HAVi协议的命令信息

如附属权利要求6的措施所限定的那样，所述语音设备不需要能再现提供给它的音频信号。这样，可获得更大的灵活性。例如，所述语音识别设备可以是用于控制系统中其它设备的独立的控制装置。在这种结构中，除就设备或系统的控制对用户的可听反馈以外，所述设备不能产生任何音频输出。同样，用于接收外部源的音频的音频输入以排它的方式用于消除的目的。例如，所述语音识别设备可最佳地用于将诸如TV、DVD播放器和音频系统之类的独立装置合并成家庭影院系统。在这种集成系统中，语音识别设备可包括额外的控制智能，以便将各个装置的功能合并成系统行为。例如，类似“DVD播放”这样的声音命令可导致语音识别设备不仅启动DVD播放器而且启动TV和放大器并形成预定的信号连接。

所述设备还可被合并进TV，其中，在许多系统中，TV具有一个额外的输入以接收音频输出信号是足够用的了，所述音频输出信号能提供音频系统产生的音频。TV通常不用于再现来自音频系统的任何源信号。因此，接收这种信号的主要功能能消除来自话筒信号的信号。甚至不可能再现这种音频信号。通过能消除来自外部源的音频，例如用户能在TV上观看到图文电视或WebTV功能并通过语音来控制这种功能，同时听CD(外部源，音频系统的一部分)。与此相似，用户可通过TV中的语音控制器来控制CD。

为了满足上述目的，消费者电子系统包括：

至少两个声源设备：

一消音模块，该模块包括：

一音频输入，它用于接收来自话筒的音频信号；以及

至少两音频输入，它们用于接收来自声源设备的相应一个的独立音频信号；

所述消音模块能进行操作以便通过消除来自话筒信号的独立声源信号中的至少两个而产生一语音信号；以及

-语音识别器，它识别上述语音信号的至少一部分。

为了满足本发明的上述目的，消音模块包括：

一音频输入，它用于接收来自话筒的音频信号；

至少两个音频输入，它们用于接收来自相应独立声源的音频信号；

所述消音模块能进行操作以便通过消除来自话筒信号的独立声源信号中的至少两个而产生一语音信号。

参照附图中所示的实施例可以看出本发明的上述和其它方面，附图中：

图1示出了本发明消音模块100的框图；

图2说明了使用了多个话筒；

图3示出了包括语音识别器的实施例；以及

图4示出了本发明的系统。

图1示出了本发明的消音模块100的框图。模块100包括一音频输入110，它用于接收来自话筒的信号110。适用于语音识别目的的话筒是周知的。话筒通常提供单声道音频信号。就听写而言，最好使用头戴式话筒。或者使用放置在较靠近用户(例如半米的距离)的话筒。就语音控制而言，话筒可放置得更远一些(例如几米的距离)。模块100包括若干个音频输入，它们用于接收来自相应独立声源的音频信号。示出了两个音频输入120和130。一个音频输入用于接收一个声源的所有相关音频信号。一个音频信号通常是立体声信号，在这种情况下，所述输入可以具有两个独立的输入接头，它们用于接收立体声信号。环绕声编码信号甚至可具有5或6个独立的接头(例如前左、前右、后左、后右、中心、辅助低音)。就本发明而言，可将这种信号看作是一个信号。消音模块100可进行操作以便通过消除来自话筒信号的独立声源信号中的至少两个而产生语音信号。其中，消除一种音频信号是周知的并且通常认为是音频回音消除。例如，这可包括从话筒信号中减去所述音频信号。可就通过音频输入之一接收到的音频信号来估算出话筒信号中出现的音频信号的时间延迟和振幅。例如用周知的统计相关技术来进行这种估算。本发明的消音模块可通过依次顺序地消除各个信号来消除多个音频信号。因此，模块100可按顺序包括多个消音单元，其中，第一个单元消除来自话筒信号的第一音频信号，第二个单元消除来自第一单元的输出的第二音频信号，等等。具体地说，由于所有的消音单元均位于同一模块内，故能易于补偿各消音模块内所引入的延时。例如，序列中号码为N的消音单元的话筒输入(通过缓存)延时该消音单元中的延时的(N-1)倍。最佳的是，模块100在一个合成过程中消除多个信号。非预公开的专利申请书EP8920206.3(PHN17514)中说明了消除多个信号的最佳方式，这种算法的细节在此作为参考。

在图2所示的实施例中，不使用一个话筒也能获得来自独立话筒的输入。所述话筒可位于通常的话筒阵列内，其中，每个话筒均覆盖一不同的方向。最佳的是，消音模块100用于消费者电子系统，其中，所述系统中的多个设备带有一话筒。图2示出了这种系统。在这种系统中，音频装置200具有内置式话筒202(或话筒输入)以及话筒信号输出204。与此相类似，TV210带有内置式话筒212(或话筒输入)以及话筒信号输出214。消音模块100位于系统的另一个设备220内。在本例中，设备220也带有内置式话筒222(或话筒输入)。设备220具有两个话筒输入224和226，它们用于接收来自相应输出204和214的话筒信号。将所有的话筒信号(在本例中为两个外部话筒信号和一个内部话筒信号)提供给射束形成器240。该射束形成器将话筒信号组合起来，从而导致合成的话筒信号的更高的效率和分辨率。所述射束形成器选择甚至还“跟踪”声源。一般地说，可识别较大声的声源信号(通常是人讲话声)，并且，在多个话筒输入信号中跟踪这种声源信号。将射束形成器的输出信号提供给消声器100的话筒输入110。还示出了设备220的用于接收来自相应外部设备的音频信号的两个音频输入228和230。在所示的系统中，外部音频输入228和230连接于音频装置200和TV210的相应的音频线性输出206和216。在所述设备220中，外部音频输入228和230连接于消音模块100的相应音频输入120和130。

图3示出了另一个实施例，其中，将消音模块100产生的语音信号140提供给语音识别器300。语音识别器最好位于与模块100相同的设备内。如果需要的话，识别器300也位于一独立的设备内。例如，独立的消音模块可位于若干个房间内，其中，仅使用一个中心识别器，它可识别接收自任一模块内的语音。识别的结果可用于诸如听写(语音至文本)、控制或信息检索之类的多种应用。示出了控制器310，它响应被识别出的命令而执行控制活动。控制活动可限于控制器310位于其中的设备的操作。具体地说，如果控制单元位于构成较大系统的一部分的设备内，如图3所示，那么，控制单元还最好控制其它设备的操作。为此，控制器可通过控制通讯网络如虚线所示将命令信息发给系统内的其它设备。可用多种方式来形成所述网络。例如，可用专用控制链路将具有控制器310的设备220连接于其它设备200和210。这种链路可通过一个或多个控制信号线起作用。为了获得简单的控制链路，最好发送呈遥控信息形式的控制信息，该信息一般通过红外信号来传递。一般地说，可使用能将信息从控制设备220传给其它设备的单向遥控系统。就更复杂的控制而言，还可以使用双向遥控系统。遥控系统本身是周知的，因而不作详细说明。最佳的是，控制器310可由用户来加以“编程”，因此，控制器310能依照特定的控制系统和这些设备的信息来控制系统中的设备。为此，控制器包括与通用预先编程或学习遥控的逻辑相类似的逻辑。最佳的是，用户可为要由控制器310发出的特定命令信息指定语音命令。这例如可通过让用户对来自预定语音命令列表(例如“播放”或“开始”)中的给定控制信息(例如用于播放磁带的VCR指令)进行选择来加以实现。可用与扬声器无关的识别来识别这种预定的语音命令。另外，用于可指定他自己的语音命令，在这种情况下，最好使用与扬声器有关的识别。语音识别和指定语音命令本身是周知的。

在图4所示的实施例中，设备200、210和220通过通讯网络400相连。这种网络可用于传递多种类型的数据，诸如：

-音频信号(一般呈数字形式，作为同步数据流来传递)，-话筒信号(一般当作用于传递的音频信号来加以处理)，

-控制指令/信息。

最佳的是，同一网络能提供多种或甚至是所有这些传递形式。在图4所示的实例中，通过所述网络来传递音频信号和控制信号。为此，语音识别设备220包括本身是周知的通讯接口410，以便从通过网络传递的数据中检索出音频信号并将音频信号提供给消音模块。通过同一通讯接口410来传送控制器310生成的命令信息。

通常难以进行类似于音频/视频设备或家用电器的CE设备的语音控制，因为，对用户来说经常会不清楚可以使用哪些语音命令。具体地说，在大型或先进系统中，可控功能的数量是很大的并且可以有变化。尽管对PC进行语音控制的用户可使用帮助工具，以获得所有可能语音命令的概观，但是，CE设备的用户接口的可能性有更多的限制。为了克服这些问题，控制器最好能进行操作以便向用户提供在当时可以根据其说出命令的信息。在这种所谓的前馈中，命令列表限于那些可加以执行的由所涉及的系统或设备的状态或给定控制层次/顺序或上下文所确定的命令。作为一个实例，如果用集中控制器来控制系统中的某些或所有设备，那么，初始的前馈列表可仅包含设备选择命令(例如“TV”、“VCR”、“CD”)，这些命令通知控制器用户要控制那个设备。其次，就控制层次/序列或选定设备的状态而言，前馈列表仅包含那些被选定设备的命令，这些命令可由选定的设备来加以执行。

就控制层次/序列而言，目前某些设备不能直接访问当时可加以控制的所有功能。一般地说，仅可通过层次菜单来对TV中音频、视频和调谐进行高级设置。在顶层菜单，用户选定要加以控制的功能组。在第二层次，用户通常控制选定功能组中的特定功能。有时甚至使用更多的菜单层。就受语音控制的设备而言，最好在合理的情况下直接访问尽可能多的功能。依照本发明，就有高度功能的设备而言，也可将层次方法用于语音控制。这就会限制可能的语音命令的数量(仅限于当前选定的语音命令组中的那些命令)，以便提高识别的可靠性，同时进行以后可说出的语音命令的有效前馈。

除使用语音命令的预定层次/序列以外或者代替使用语音命令的预定层次/序列，还通过仅允许可就所涉及的设备的状态或系统的状态加以执行的那些命令而限制可说出的命令的列表。例如，如果CD播放器不含有盘，则前馈列表可仅含有“弹出”和“待机”命令，而如果加载了盘，则可以有较多命令的列表。在本发明的另一个实施例中，前馈列表不仅取决于设备的固定状态行为，而且取决于可变的上下文信息。例如，如果TV显示出了例如从因特网或电子编程指南(EPG)中检索出的信息，那么，该信息本身可对那个语音命令是可能的产生影响。就因特网页而言，链接是可说出的，就EPG页而言，所述程序是可选的，以便进行观看或记录。浏览命令也是可以说出的。内容可确定前馈列表的另一个实例是这样的情形，其中，盘内容的功能是可变的。例如，如果来装载了仅有一个索引的盘，则所述反馈字列表不包括索引选择命令。如果盘包括八个轨道，则仅可通过语音选定头八个轨道。与此相似，如果在VCR中装载了拷贝保护的磁带，则“录制”命令不能使用因而不需要在前馈列表中。

可用与设备的控制层次有关的信息对控制器进行预先编程。具体地说，如果控制器是正在受控的设备的一部分，则该控制器可很容易地控制所述层次的哪一部分是活动的并按此装载或编译前馈列表。如果控制器不是正在受控的设备的一部分，则控制器最好获得来自正在受控的产品的相关信息。可通过通讯网络来获得这种信息。可用多种方式来获得上述信息。例如，控制器可从所涉及的设备获得整个控制层次。然后，控制器本身可例如根据用户(通过语音命令或遥控)的输入控制所述层次的哪一部分是活动的。控制器还可在接收到来自用户的输入时检查哪一部分是活动的。另外，正在受控的设备可将其当前状态通知给控制器。用于执行状态监视或自动状态更新的通讯协议是周知的。代替控制器获得整个的控制层次/序列，所述控制器还可仅检索出控制层次的以后活动部分所形成的或者所述设备的以后活动状态所允许的命令集部分。

可按任何的适当方式例如通过在视觉或听觉上提供可说出的命令来实际提供前馈列表。

Claims

1、一种语音识别设备，包括：

一消音模块，它包括：

用于接收来自话筒的音频信号的音频输入；

用于接收来自声源的音频信号的音频输入；

所述消音模块可进行操作以通过消除来自话筒信号的声源信号而产生语音信号；以及

一语音识别器，它用于识别上述语音信号的至少一部分；其特征在于，所述消音模块包括至少两个音频输入，它们用于接收来自相应独立声源的音频信号；所述消音模块可进行操作以便通过消除来自话筒信号的独立声源信号中的至少两个信号而生成语音信号。

2、如权利要求1的语音识别设备，其中，该语音识别设备包括-控制器，它用于响应该语音识别器识别出的用户口述指令而通过控制通讯网络将至少一个命令信息发送给其它设备。

3、如权利要求2的语音识别设备，其中，所述控制器根据与其它设备相关的遥控信息来发送前述至少一个命令信息。

4、如权利要求1的语音识别设备，其中，通过音频通讯网络从所述语音识别设备外部的声源接收上述音频信号中的至少一个。

5、如权利要求3或4的语音识别设备，其中，所述音频通讯网络与前述控制通讯网络相同。

6、如权利要求1的语音识别设备，其中，所述语音识别设备包括至少一个音频输入，它用于从该语音识别设备外部的声源接收一音频信号；为基本上消除这种来自话筒信号的音频信号而接收所述音频信号。

7、一种消费者电子系统，该系统包括：

至少两个声源设备：

一消音模块，该模块包括：

一音频输入，它用于接收来自话筒的音频信号；以及

至少两个音频输入，它们用于接收来自声源设备的相应任何一个的独立音频信号；

-语音识别器，它用于识别上述语音信号的至少一部分。

8、如权利要求7的系统，其中，该系统包括-控制单元，它用于响应该语音识别器识别出的用户口述指令而通过通讯网络将至少一个命令信息发送给系统中的设备。

9、如权利要求8的系统，其中，通过通讯网络从相关的声源设备接收上述音频信号中的至少一个。

10、如权利要求9的系统，其中，所述消音模块位于所述的系统的设备内，其中，所述设备包括至少一个音频输入，它用于从该设备外部的声源设备接收一音频信号，为基本上消除这种来自话筒信号的音频信号而接收所述音频信号。

11、一种消音模块，该模块包括：

一音频输入，它用于接收来自话筒的音频信号；