CN100508029C - 语音控制单元、方法及其控制的设备和消费类电子系统 - Google Patents

语音控制单元、方法及其控制的设备和消费类电子系统 Download PDF

Info

Publication number
CN100508029C
CN100508029C CNB038245434A CN03824543A CN100508029C CN 100508029 C CN100508029 C CN 100508029C CN B038245434 A CNB038245434 A CN B038245434A CN 03824543 A CN03824543 A CN 03824543A CN 100508029 C CN100508029 C CN 100508029C
Authority
CN
China
Prior art keywords
user
voice
control module
speech
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB038245434A
Other languages
English (en)
Other versions
CN1689073A (zh
Inventor
F·维格诺里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1689073A publication Critical patent/CN1689073A/zh
Application granted granted Critical
Publication of CN100508029C publication Critical patent/CN100508029C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

语音控制单元(100)包括:麦克风阵列,该阵列包含多个麦克风(102、104、106、108和110),用于接收相应的音频信号(103、105、107、109和111);波束成形模块(116),用于从该音频信号中提取用户(U1)的清洁信号,即用户(U1)的语音信号(117);关键字识别系统(120),用于识别用户(U1)说出并用特定音频信号(111)表示的预定关键字,此外,该系统还被安排用来基于所述识别来控制波束成形模块;以及语音识别单元(118),用于根据语音信号(117)中的已识别语音项来为设备(200)创建指令。这样一来,语音控制单元(200)对那些涉及语音识别的音频信号部分更有选择性,其中所述音频信号部分对应于用户(U1)所讲述的语音项。

Description

语音控制单元、方法及其控制的设备和消费类电子系统
本发明涉及一种基于语音来控制设备的语音控制单元,包括:
麦克风阵列,包含用于接收各个音频信号的多个麦克风;
波束成形模块,通过增强音频信号的第一分量而从麦克风接收的音频信号中提取用户语音信号,其中第一分量表示的是来自相对于麦克风阵列的第一方位的用户的发言;以及
语音识别单元,用于根据语音信号中的已识别语音项来为设备创建指令。
本发明还涉及一种设备,其中包括:
此类基于语音来控制设备的语音控制单元;以及
处理装置,用于执行语音控制单元所创建的指令。
本发明还涉及一种基于语音来控制设备的方法,包括:
借助包含多个麦克风的麦克风阵列来接收各个音频信号;
通过增强音频信号的第一分量而从麦克风接收的音频信号中提取用户语音信号,其中第一分量表示的是来自相对于麦克风阵列的第一方位的用户的发言;以及
根据语音信号中的已识别语音项来为设备创建指令。
对人和人之间的通信来说,自然口语是一种非常优选的手段。由于自动语音识别技术的最新发展,自然口语正作为一种人机通信的有效手段显现出来。而用户也在从需要极大的手/眼配合的键盘和鼠标操作中脱离出来。借助语音识别所进行的人机通信具有不用手的优点,在用户必须自由使用其手、眼并且在交谈中无妨碍地移动的情况中尤其希望有这个优点。然而在当前系统中,用户仍旧会受到获取音频信号并向语音识别单元提供输入的手持式、体戴式或系绳式麦克风设备的阻碍,例如头戴式麦克风。而这则是因为大多数语音识别单元与近讲(close-talkinB)麦克风输入一起进行最佳合作,例如用户和非常接近的麦克风。在将已知的语音识别单元部署在“真实世界”环境中的时候,其性能通常将会降低。这种性能降低在用户远离麦克风的时候尤为严重。此外,室内混响和干扰噪声也会促使性能降低。
一般来说,在头部长期佩戴头戴式麦克风是很不舒服的,手持麦克风则因为占用用户的手而限制了用户的自由,由此需要一种允许用户更加自由的语音输入方案。与波束成形模块组合的麦克风阵列看起来是一种很好的方法,它可以解决常规情况下可能遇到的上述麻烦。麦克风阵列是一组安装在不同位置的麦克风。该阵列中的各个麦克风所接收的多个音频信号将会提供到波束成形模块。而波束成形模块则必须进行校准,也就是说,在这里必须估计某个特定声源相对于麦克风阵列的方向或位置。所述特定声源可以是麦克风阵列环境中的声源,它产生的是具有与预定参数相对应的参数的声音,例如包含了与人的话音相匹配的预定频率的声音。然而,校准通常是以最大的声音为基础的,也就是产生最大的声音的特定声源。例如,波束成形模块可以基于与相同环境中的其他用户相比说话声音更大的用户而被校准。声源的方向或位置可以用延迟求和阵列方法或基于互相关函数的方法而从来自不同麦克风的信号之间的时间差中估计出来,其中在U.Bub等人于1995年发表于ICASSP′95第848-851页的“Knowing Whoto Listen to in Speech Recognition:Visually GuidedBeamforming”中公开了这种基于互相关函数的方法。此外,在S.V.Pillai:“Array Signal Processing”,Springer-Verlag,NewYork,1989中公开了一种用于估计声源位置的参数法。
在经过校准、即估算了当前方位之后,这时将会安排波束成形模块通过综合处理这些麦克风的输入来增强那些源自与当前方向相对应的方向的声音并且降低噪声。假设波束成形模块的输出是一个适于提供给语音识别单元并且导致产生顽健语音识别的清洁信号。这意味着将会对音频信号分量进行处理,以便能够提取用户语音项。
从欧洲专利申请EP 0795851 A2中可以了解到包含了麦克风阵列、波束成形模块和语音识别单元的系统的一个实施例。该申请公开了如下内容:声源位置或方向估算以及语音识别可以用该系统实现。该系统的缺陷在于它不能在多用户环境中正常工作。假设已经就用户的第一位置而对系统进行了校准。然后,用户开始移动。系统则首先应该重新校准,以便能够正确识别语音。此外,该系统还需要作为校准输入的音频信号,也就是说,用户必须说话。然而,如果此间有另一个用户开始说话,那么重新校准将无法提供正确结果;并且系统将会调谐到另一个用户。
本发明的一个目的是提供一种在起始段落中描述的语音控制单元,该单元被安排用来识别在其他用户也可能说话的环境中移动的用户的语音。
本发明的这个目的是如下实现的,其中语音控制单元包括一个用于识别用户说出并用特定音频信号表示的预定关键字的关键字识别系统,以及一个语音控制单元,它被安排用来基于预定关键字的识别结果来控制波束成形模块,以便增强音频信号第二分量,该分量表示的是来自用户相对于麦克风阵列的第二方位的后续发言。此外还安排关键字识别系统用来区分那些与表示预定关键字的发言有关的音频信号以及与其他不表示预定关键字的发言有关的音频信号。语音控制单元则被安排用来在从不同方位接收到与预定关键字相对应的声音的情况下重新进行校准。优选地,这个声音是由发起了所要控制的设备的注意广度(参见图3)的用户产生的。如果没有识别出预定关键字,则不会进行重新校准。因此,从另一个方位讲出并且不在预定关键字之后的语音项将被丢弃。
在依照本发明的语音控制单元的一个实施例中,其中将关键字识别系统安排用来识别另一个用户讲出的预定关键字,并且语音控制单元被安排用来基于该识别来控制波束成形模块,从而增强音频信号的第三分量,其中所述第三分量表示的是来源于其它用户相对于麦克风阵列的第三方位的另一个发言。语音控制单元的这个实施例被安排用来根据另一个用户说出的预定关键字的识别结果来进行重新校准。此外,在追随某个特定用户的情况下,这个实施例将被安排用来基于来自多个用户的声音进行校准。这意味着在这里仅仅这样识别那些被授权的用户、也就是因为说出预定关键字而获得授权控制设备的用户,因此,在这里只接受来自这些用户的语音项,为设备创建指令。
在依照本发明的语音控制单元的一个实施例中,麦克风阵列中的第一个麦克风被安排用来向关键字识别系统提供特定音频信号。换言之,用于关键字识别的特定音频信号与麦克风阵列中的麦克风接收的音频信号之一是对应的。其优点在于不需要额外的麦克风。
在依照本发明的语音控制单元的一个实施例中,波束成形模块被安排用来确定用户相对于麦克风阵列的第一位置。除了方位之外,这其中还要确定用户与麦克风阵列之间的距离。所述位置则是基于方位和距离计算的。依照本发明的这个实施例的优势在于:语音控制单元被安排用来对来源于彼此位于对方前方的用户的声音加以区分。
本发明的另一个目的在于提供一种起始段落中所描述的设备,其中该设备被安排为由一个在其他用户也可说话的环境中移动的用户来控制。
本发明的这个目的是如下实现的,其中该设备包含了权利要求1中要求保护的语音控制单元。
依照本发明的设备实施例被安排用来显示已经识别了预定关键字。根据本发明的这个实施例的优点在于用户获得关于该识别的信息。
依照本发明的设备实施例,其中该设备被安排用来显示已经识别了预定关键字,所述设备包括用于产生音频信号的音频生成装置。通过产生“Hello”之类的音频信号,用户可以清楚了解该设备已经准备好接收来自用户的语音项。这个概念即为通常所说的听觉问候。
本发明的另一个目的是提供一种起始段落中描述的方法,该方法使得能够识别在其他用户也可以说话的环境中移动的用户的语音。
本发明的这个目的是如下实现的,其中该方法的特征在于包括根据特定音频信号来识别用户说出的预定关键字,并且根据该识别来控制用户语音信号的提取,从而增强音频信号的第二分量,其中所述第二分量表示的是来源于用户相对于麦克风阵列的第二方位的后续发言。
语音控制单元的修改及其变化与所述设备以及所述方法的修改和变化是对应的。
通过参考附图,可以从依照下文中所描述的实施方式和实施例中清楚了解依照本发明的语音控制单元、方法和设备的这些和其他方面,并且将会从中对其加以阐述,其中
图1示意性显示了依照本发明的语音控制单元的一个实施例;
图2示意性显示了依照本发明的设备的一个实施例;以及
图3示意性显示了基于多个音频信号的指令创建处理。
在所有附图中,相同的参考数字都被用于表示相似的部分。
图1示意性显示了依照本发明的语音控制单元100的一个实施例。语音控制单元100被安排用来向设备200的处理单元202提供指令。这些指令是在语音控制单元100的输出接头122提供的,其中该单元包括:
一个麦克风阵列,该阵列包含了多个麦克风102、104、106、108和110,用于接收相应的音频信号103、105、107、109和111;
一个波束成形模块116,用于从麦克风102、104、106、108和110接收的音频信号103、105、107、109和111中提取用户U1的清洁信号117,即语音信号;
一个关键字识别系统120,用于识别用户说出并用特定音频信号111表示的预定关键字,此外,该系统还被安排用来基于所述识别来控制波束成形模块;以及
一个语音识别单元118,用于根据语音信号117中的已识别语音项来为设备200创建指令。
语音控制单元100是如下工作的。假设语音控制单元100在一开始是基于用户U1在位置P1的发言而被校准的。其结果是将语音控制单元100的波束成形单元116“调谐”到从与方向α基本上匹配的方向发出的声音。对语音识别而言,那些来自与方向α不同的方向并且超出预定阈值的声音将被忽视。举例来说,在这里将会忽略处于位置P2的用户U2的具有相对于麦克风阵列的方向
Figure C03824543D0008081822QIETU
的语音。优选地,语音控制单元100对具有话音特征的声音敏感,也就是对语音敏感,而对其它声音不敏感。例如,波束成形模块116将会滤除用户U1附近的扬声器S1所产生的乐音。
假设用户U1移动到位置P1,其中该位置与相对于麦克风阵列的方位β是对应的。在没有重新校准语音控制单元100或者更具体地没有重新校准波束成形模块116的情况下,语音项的识别很可能失败。然而,当用户U1开始用预定关键字说话的时候,语音控制单元100将会再次校准。用户U1说出的预定关键字将会得到识别并被用于重新校准。可选地,继关键字之后由第一用户U1说出的其他字词同样用于重新校准。如果诸如用户U2这样的另一个用户开始发言而没有先说出预定关键字,那么其发言将视为是不相关的,并且对重新校准而言,所述发言将被略过。这样一来,当用户U1在移动时,语音控制单元100也会安排为持续“调谐”到用户U1。这个用户U1的语音信号则是从音频信号103,105,107,109和111中提取并且作为语音识别的基础。对设备控制而言,其中并未考虑其他声音。
在上文中说明将语音控制单元100安排为“追随”某个特定用户U1。该用户可以是发起语音控制单元的注意广度的用户。可选地,在这里也可以安排语音控制单元100随后被调谐到多个用户。
图1描述的是将麦克风110连接到关键字识别系统120以及波束成形模块116。这种处理是可选的,这意味着也可以使用一个附加麦克风。关键字识别系统120可以由语音识别单元118组成。语音控制单元100的组件116~120以及设备200的处理单元202可以用一个处理器实现。通常,这两种功能都是在软件程序产品的控制下实施的。一般来说,在执行过程中,软件程序产品将会加载到类似RAM的存储器中并且是从那里执行的。此外,该程序既可以从类似ROM、硬盘或是磁和/或光存储器的后台存储器中加载,也可以经由类似因特网的网络加载。可选地,由专用集成电路提供所公开的功能。
图2示意性显示了依照本发明的设备200的一个实施例。可选地,设备200包含了一个用于产生音频信号的生成装置206。通过产生“Hello”之类的音频信号,用户可以清楚了解到设备已经准备好接收来自用户的语音项。可选地,生成装置206还被安排用来产生多个声音,例如指示设备正处于校准状态的第一声音,以及指示设备处于已校准状态并且由此处于识别语音项的有效状态的第二声音。生成装置206还包括一个用于存储采样音频信号的存储设备以及声音生成器和扬声器。可选地,该设备还包括一个用于显示设备状态的可视表示的显示设备204。
优选地,依照本发明的语音控制单元100是在多功能消费类电子系统中使用的,例如TV、机顶盒、VCR或DVD播放机、游戏机或类似设备。但是,该设备也可以是民用的消费类电子产品,例如洗衣机或厨房设备,诸如复印机、打印机之类的不同类型的办公设备,不同形式的计算机工作站等等,在医疗部门使用的电子产品或是任何其它类型的专业用具以及更复杂的电子信息系统。此外,该设备还可以是一个专门为在车辆或其他运输工具中使用而设计的产品,例如汽车导航系统。然而,在本发明的上下文中使用的单词“多功能电子系统”可以包括多种民用或专用电子产品以及更复杂的信息系统,受该方法控制的单独功能数量通常局限于某个恰当的程度,该程度通常处于2~100种不同功能的范围中。对TV或音频系统之类的典型消费类电子产品而言,其中只有数量更有限的功能是需要控制的,例如5~20种功能,这些功能的实例可以包括包含静音的音量控制、音调控制、频道选择以及从无效或待机状态到有效状态的切换,反之亦然,其中所述功能可以由控制命令发起,例如“louder(更大声)”、“Softer(更柔和)”、“mute(静音)”、“bass(重音)”、“treble(高音)”、“change channel(改变频道)”、“on(开启)”、“off(关闭)”、“stand-by(待机)”等等。
在说明书中,假设语音控制单元100处于受控设备200内部。应该了解的是,这种处理并不是必需的,在若干设备或仪器经由网络(局域或广域)连接并且语音控制单元100位于不同于受控设备或仪器的设备之中的情况下,依照本发明的控制方法也是可行的。
图3示意性显示了基于由多个麦克风102、104、106、108和110接收的多个音频信号103、105、107、109和111来创建指令318的过程。语音项304~308是从该音频信号中提取的。在这里将会识别语音项304~308并且会将话音命令312~316分配给这些语音项304~308。话音命令312~316分别是“Bello”、“Channel(频道)”以及“Next(下一个)”。而处理单元202可以解译的指令“增加频段(Increase_Frequency_Band)”则是基于这些话音命令312~316创建的。
可选地,为了避免识别和执行那些并非旨在控制设备的谈话或发言,语音控制单元100需要用户激活语音控制单元100,以便产生一个时间跨度,该时间跨度又名注意广度,在所述时间跨度中,语音控制单元100是有效的。这种激活可以借助话音执行,例如通过用户说出“TV”或“Device-Wake-up”这样的关键字执行。优选地,用于发起注意广度的关键字与用于重新校准语音控制单元的关键字是相同的。
通过使用一个拟人角色,可以消除交互障碍:举例来说,通过向类似于狗的角色说“Bello”,与所述角色而不是产品所进行的交谈将会更为自然。此外,产品可以有效使用一个具有作为若干种状态元素的结果而被选择的若干种外形的对象。例如,像睡眠动物这样的基本外形可被用于显示语音控制单元100尚未生效。在语音控制单元100有效的时候则可以使用第二组外形,例如被唤醒的动物的外形。然后,举例来说,注意广度的进度可以用耳朵的角度表示:在注意广度开始的时候完全抬起,在结尾的时候完全落下。相似的外形还可以用于表示是否理解发言:“理解的样子”相对于“迷惑的样子”。此外,如果识别了语音项,则可以组合出类似于“高兴的”吠声的听觉反馈。用户可以查看一个表示所有这些元素的外形,以便快速掌握关于所有此类系统部件的反馈,例如抬起的耳朵和“理解的神情”或是“落下的耳朵”和“迷惑的神情”。角色眼睛的位置也可被用于将系统期望的用户位置反馈给用户。
一旦用户发起注意广度,那么该设备,也就是语音控制单元100将处于一种接受其他语音项的状态。这些语音项304~308将会得到识别并与话音命令312~316相关联。很多话音命令312~316一起将会组合在一起,以便构成一个设备指令318,举例来说,第一语音项与“Bello”是关联的,由此将会导致唤醒电视。第二语音项与单词“channel”是关联的,并且第三语音项与单词“Next”是关联的。其结果是对电视进行切换,也就是将其调谐到下一个广播频道。如果另一个用户在第一用户发起的电视注意广度中开始说话,那么其话语将被忽略。
应该指出的是,上述实施例仅仅是对本发明进行描述而不是对其加以限制,本领域技术人员能在不脱离附加权利要求范围的情况下设计出替换实施例,在权利要求中,括号中的任何参考符号不应解释成是对权利要求进行限制。单词“包括”并不排除还存在权利要求中未曾列举的部件或步骤。部件之前的字词“一个”并没有排除存在多个此类部件。本发明可以借助包含了若干不同部件的硬件来实现,也可以用经过适当编程的计算机来实现。在列举了若干装置的设备权利要求中,这些装置中的若干装置可以借助同一个硬件项来实现。

Claims (9)

1.一种基于语音来控制设备的语音控制单元,包括:
麦克风阵列,包含用于接收各自音频信号的多个麦克风;
波束成形模块,通过增强音频信号的第一分量而从麦克风接收的音频信号中提取用户语音信号,其中第一分量表示的是来自相对于麦克风阵列的第一方位的用户的发言;以及
语音识别单元,用于根据语音信号中的已识别语音项来为所述设备创建一个指令,其特征在于,包括一个用于识别用户说出并用特定音频信号表示的预定关键字的关键字识别系统,并且该语音控制单元被安排用来基于对该预定关键字的识别来控制波束成形模块,以便增强音频信号的第二分量,该第二分量表示的是来自用户相对于麦克风阵列的第二方位的后续发言。
2.如权利要求1所述的语音控制单元,其特征在于:所述关键字识别系统被安排用来识别另一个用户讲出的预定关键字,并且语音控制单元被安排用来基于该识别来控制波束成形模块,从而增强音频信号的第三分量,其中所述第三分量表示的是来源于另一个用户相对于麦克风阵列的第三方位的另一个发言。
3.如权利要求1所述的语音控制单元,其特征在于:所述麦克风阵列中的第一个麦克风被安排用来向关键字识别系统提供特定音频信号。
4.如权利要求1所述的语音控制单元,其特征在于:所述波束成形模块被安排用来确定用户相对于麦克风阵列的第一位置。
5.一种被基于语音来控制的设备,包括:
如权利要求1所述的基于语音来控制该设备的语音控制单元;以及
处理装置,用于执行该语音控制单元所创建的指令。
6.如权利要求5所述的设备,其特征在于:该设备被安排用来显示已经识别了预定关键字。
7.如权利要求6所述的设备,其特征在于:包含用于产生音频信号以便显示已经识别了预定关键字的音频生成装置。
8.一种消费类电子系统,包含如权利要求5所述的设备。
9.一种基于语音来控制设备的方法,包括:
借助包含多个麦克风的麦克风阵列来接收各自的音频信号;
通过增强麦克风接收的音频信号的第一分量而从该音频信号中提取用户语音信号,其中第一分量表示的是来自相对于麦克风阵列的第一方位的用户的发言;以及
根据该语音信号中的已识别语音项来为所述设备创建一个指令,其特征在于,包括根据特定音频信号来识别用户说出的预定关键字,并且根据该识别来控制用户语音信号的提取,从而增强该音频信号的第二分量,其中所述第二分量表示的是来源于用户相对于麦克风阵列的第二方位的后续发言。
CNB038245434A 2002-10-23 2003-09-22 语音控制单元、方法及其控制的设备和消费类电子系统 Expired - Lifetime CN100508029C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02079421.0 2002-10-23
EP02079421 2002-10-23

Publications (2)

Publication Number Publication Date
CN1689073A CN1689073A (zh) 2005-10-26
CN100508029C true CN100508029C (zh) 2009-07-01

Family

ID=32116290

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038245434A Expired - Lifetime CN100508029C (zh) 2002-10-23 2003-09-22 语音控制单元、方法及其控制的设备和消费类电子系统

Country Status (7)

Country Link
US (1) US7885818B2 (zh)
EP (2) EP2587481B1 (zh)
JP (1) JP4837917B2 (zh)
KR (1) KR101034524B1 (zh)
CN (1) CN100508029C (zh)
AU (1) AU2003260926A1 (zh)
WO (1) WO2004038697A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106898348A (zh) * 2016-12-29 2017-06-27 北京第九实验室科技有限公司 一种出声设备的去混响控制方法和装置

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE400474T1 (de) * 2005-02-23 2008-07-15 Harman Becker Automotive Sys Spracherkennungssytem in einem kraftfahrzeug
WO2007013525A1 (ja) * 2005-07-26 2007-02-01 Honda Motor Co., Ltd. 音源特性推定装置
JP2009508560A (ja) * 2005-09-21 2009-03-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 遠隔に位置するマイクロフォンを使用して音声起動される制御を有する超音波イメージングシステム
KR100738414B1 (ko) * 2006-02-06 2007-07-11 삼성전자주식회사 텔레매틱스 환경에서 음성 인식의 성능을 향상시키기 위한방법 및 상기 방법을 수행하는 장치
WO2007138503A1 (en) * 2006-05-31 2007-12-06 Philips Intellectual Property & Standards Gmbh Method of driving a speech recognition system
US8214219B2 (en) 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
KR100776803B1 (ko) * 2006-09-26 2007-11-19 한국전자통신연구원 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법
DE102008024258A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung
CN101377797A (zh) * 2008-09-28 2009-03-04 腾讯科技(深圳)有限公司 一种应用语音控制游戏系统的方法和游戏系统
US8243952B2 (en) * 2008-12-22 2012-08-14 Conexant Systems, Inc. Microphone array calibration method and apparatus
JP5493611B2 (ja) * 2009-09-09 2014-05-14 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
TW201123823A (en) * 2009-12-18 2011-07-01 Kinpo Elect Inc System and method for communication with hands-free profile
CN102131015A (zh) * 2010-01-18 2011-07-20 金宝电子工业股份有限公司 整合照明系统的居家免持通话系统及居家免持通话方法
DE102010001935A1 (de) 2010-02-15 2012-01-26 Dietmar Ruwisch Verfahren und Vorrichtung zum phasenabhängigen Verarbeiten von Schallsignalen
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
KR101327112B1 (ko) * 2010-08-23 2013-11-07 주식회사 팬택 주변 소리 정보를 이용하여 다양한 사용자 인터페이스를 제공하는 단말기 및 그 제어방법
US9171551B2 (en) * 2011-01-14 2015-10-27 GM Global Technology Operations LLC Unified microphone pre-processing system and method
CN102595281B (zh) * 2011-01-14 2016-04-13 通用汽车环球科技运作有限责任公司 统一标准的麦克风预处理系统和方法
CN102671381A (zh) * 2011-03-08 2012-09-19 德信互动科技(北京)有限公司 基于声控的游戏实现装置和方法
CN102800312A (zh) * 2011-05-24 2012-11-28 鸿富锦精密工业(深圳)有限公司 语音控制系统及方法
TWI406266B (zh) 2011-06-03 2013-08-21 Univ Nat Chiao Tung 語音辨識裝置及其辨識方法
CN103127718A (zh) * 2011-11-30 2013-06-05 北京德信互动网络技术有限公司 基于声控的游戏实现装置和方法
US9563265B2 (en) * 2012-01-12 2017-02-07 Qualcomm Incorporated Augmented reality with sound and geometric analysis
CN104285452A (zh) 2012-03-14 2015-01-14 诺基亚公司 空间音频信号滤波
EP2817801B1 (en) 2012-03-16 2017-02-22 Nuance Communications, Inc. User dedicated automatic speech recognition
US9111542B1 (en) * 2012-03-26 2015-08-18 Amazon Technologies, Inc. Audio signal transmission techniques
EP2660813B1 (en) * 2012-04-30 2014-12-17 BlackBerry Limited Dual microphone voice authentication for mobile device
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
JP5972372B2 (ja) * 2012-06-25 2016-08-17 三菱電機株式会社 車載情報装置
KR102091236B1 (ko) * 2012-09-28 2020-03-18 삼성전자 주식회사 전자기기 및 그 제어방법
WO2014063099A1 (en) * 2012-10-19 2014-04-24 Audience, Inc. Microphone placement for noise cancellation in vehicles
WO2014064324A1 (en) * 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
US10102850B1 (en) * 2013-02-25 2018-10-16 Amazon Technologies, Inc. Direction based end-pointing for speech recognition
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
CN104053088A (zh) * 2013-03-11 2014-09-17 联想(北京)有限公司 一种麦克风阵列调整方法、麦克风阵列及电子设备
JP6114915B2 (ja) * 2013-03-25 2017-04-19 パナソニックIpマネジメント株式会社 音声入力選択装置及び音声入力選択方法
US9269350B2 (en) * 2013-05-24 2016-02-23 Google Technology Holdings LLC Voice controlled audio recording or transmission apparatus with keyword filtering
US9984675B2 (en) * 2013-05-24 2018-05-29 Google Technology Holdings LLC Voice controlled audio recording system with adjustable beamforming
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
CN103529726B (zh) * 2013-09-16 2016-06-01 四川虹微技术有限公司 一种具有语音识别功能的智能开关
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9245527B2 (en) 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
CN103873977B (zh) * 2014-03-19 2018-12-07 惠州Tcl移动通信有限公司 基于多麦克风阵列波束成形的录音系统及其实现方法
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
EP3154052A4 (en) * 2014-06-03 2018-01-10 Sony Corporation Information processing device, information processing method, and program
CN105637895B (zh) * 2014-07-10 2019-03-26 奥林巴斯株式会社 录音装置和录音装置的控制方法
US9432769B1 (en) 2014-07-30 2016-08-30 Amazon Technologies, Inc. Method and system for beam selection in microphone array beamformers
WO2016033269A1 (en) * 2014-08-28 2016-03-03 Analog Devices, Inc. Audio processing using an intelligent microphone
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection
US9973641B2 (en) * 2015-10-22 2018-05-15 Kabushiki Kaisha Toshiba Multi-function printer
CN105427860B (zh) * 2015-11-11 2019-09-03 百度在线网络技术(北京)有限公司 远场语音识别方法和装置
US10157629B2 (en) * 2016-02-05 2018-12-18 Brainchip Inc. Low power neuromorphic voice activation system and method
WO2017184149A1 (en) 2016-04-21 2017-10-26 Hewlett-Packard Development Company, L.P. Electronic device microphone listening modes
DE102016118007A1 (de) 2016-09-23 2018-03-29 Gira Giersiepen Gmbh & Co. Kg Verfahren für den Betrieb mindestens einer Gebäudegegensprechanlage und eine entsprechende Gebäudegegensprechanlage
US10510362B2 (en) * 2017-03-31 2019-12-17 Bose Corporation Directional capture of audio based on voice-activity detection
KR102304342B1 (ko) * 2017-08-14 2021-09-23 에스케이텔레콤 주식회사 음성 인식 방법 및 이에 사용되는 장치
JP6755843B2 (ja) 2017-09-14 2020-09-16 株式会社東芝 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム
WO2019093123A1 (ja) 2017-11-07 2019-05-16 ソニー株式会社 情報処理装置および電子機器
JP6991041B2 (ja) * 2017-11-21 2022-01-12 ヤフー株式会社 生成装置、生成方法、および生成プログラム
JP6853163B2 (ja) * 2017-11-27 2021-03-31 日本電信電話株式会社 話者方向推定装置、話者方向推定方法、およびプログラム
US20190172240A1 (en) * 2017-12-06 2019-06-06 Sony Interactive Entertainment Inc. Facial animation for social virtual reality (vr)
KR101972545B1 (ko) * 2018-02-12 2019-04-26 주식회사 럭스로보 음성 명령을 통한 위치 기반 음성 인식 시스템
CN110364166B (zh) * 2018-06-28 2022-10-28 腾讯科技(深圳)有限公司 实现语音信号识别的电子设备
JP6998289B2 (ja) * 2018-11-19 2022-01-18 ヤフー株式会社 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
CN110111805B (zh) * 2019-04-29 2021-10-29 北京声智科技有限公司 远场语音交互中的自动增益控制方法、装置及可读存储介质
GB2586783B (en) * 2019-08-29 2022-11-16 Singh Digva Kavalijeet Vehicle safety apparatus
EP4026118A4 (en) * 2019-09-02 2023-05-24 Cerence Operating Company VEHICLE AVATAR DEVICES FOR INTERACTIVE VIRTUAL ASSISTANT
TWI725668B (zh) * 2019-12-16 2021-04-21 陳筱涵 注意力集中輔助系統

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3437617B2 (ja) * 1993-06-03 2003-08-18 株式会社東芝 時系列データ記録再生装置
US5749072A (en) * 1994-06-03 1998-05-05 Motorola Inc. Communications device responsive to spoken commands and methods of using same
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
JP3332143B2 (ja) * 1997-06-23 2002-10-07 日本電信電話株式会社 収音方法およびその装置
US5906870A (en) * 1997-12-29 1999-05-25 Lo; Szu Wei Electric rotary decoration
DE19943875A1 (de) * 1999-09-14 2001-03-15 Thomson Brandt Gmbh System zur Sprachsteuerung mit einem Mikrofonarray
WO2001022404A1 (en) * 1999-09-23 2001-03-29 Koninklijke Philips Electronics N.V. Speech recognition apparatus and consumer electronics system
JP2002034092A (ja) * 2000-07-17 2002-01-31 Sharp Corp 収音装置
EP1189206B1 (en) * 2000-09-19 2006-05-31 Thomson Licensing Voice control of electronic devices
GB2375698A (en) * 2001-02-07 2002-11-20 Canon Kk Audio signal processing apparatus
JP3771812B2 (ja) * 2001-05-28 2006-04-26 インターナショナル・ビジネス・マシーンズ・コーポレーション ロボットおよびその制御方法
US7149691B2 (en) * 2001-07-27 2006-12-12 Siemens Corporate Research, Inc. System and method for remotely experiencing a virtual environment
GB0121206D0 (en) * 2001-08-31 2001-10-24 Mitel Knowledge Corp System and method of indicating and controlling sound pickup direction and location in a teleconferencing system
JP3910898B2 (ja) * 2002-09-17 2007-04-25 株式会社東芝 指向性設定装置、指向性設定方法及び指向性設定プログラム
NL1021485C2 (nl) * 2002-09-18 2004-03-22 Stichting Tech Wetenschapp Hoorbril-samenstel.

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Tracking multiple talkers using microphone-arraymeasurements. STURIM D E ET AL.ACOUSTICS, SPEECH, AND SIGNAL PROCESSING,. 1997
"Tracking multiple talkers using microphone-arraymeasurements. STURIM D E ET AL.ACOUSTICS, SPEECH, AND SIGNAL PROCESSING,. 1997 *
"Wearable phased arrays for sound localization andenhancement". BASU S ET AL.WEARABLE COMPUTERS, THE FOURTH INTERNATIONAL SYMPOSIUM ON ATLANTA,. 2000
"Wearable phased arrays for sound localization andenhancement". BASU S ET AL.WEARABLE COMPUTERS, THE FOURTH INTERNATIONAL SYMPOSIUM ON ATLANTA,. 2000 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106898348A (zh) * 2016-12-29 2017-06-27 北京第九实验室科技有限公司 一种出声设备的去混响控制方法和装置
US10410651B2 (en) 2016-12-29 2019-09-10 Beijing Xiaoniao Tingting Technology Co., LTD. De-reverberation control method and device of sound producing equipment
CN106898348B (zh) * 2016-12-29 2020-02-07 北京小鸟听听科技有限公司 一种出声设备的去混响控制方法和装置

Also Published As

Publication number Publication date
CN1689073A (zh) 2005-10-26
KR101034524B1 (ko) 2011-05-12
KR20050055776A (ko) 2005-06-13
EP2587481B1 (en) 2020-01-08
EP1556857B1 (en) 2013-07-31
WO2004038697A1 (en) 2004-05-06
JP4837917B2 (ja) 2011-12-14
US7885818B2 (en) 2011-02-08
JP2006504130A (ja) 2006-02-02
EP2587481A3 (en) 2013-07-03
AU2003260926A1 (en) 2004-05-13
EP1556857A1 (en) 2005-07-27
US20060074686A1 (en) 2006-04-06
EP2587481A2 (en) 2013-05-01

Similar Documents

Publication Publication Date Title
CN100508029C (zh) 语音控制单元、方法及其控制的设备和消费类电子系统
CN110503970B (zh) 一种音频数据处理方法、装置及存储介质
US5983186A (en) Voice-activated interactive speech recognition device and method
US7209880B1 (en) Systems and methods for dynamic re-configurable speech recognition
EP2947651B1 (en) Vacuum cleaner
WO2005015545A1 (en) System and method enabling acoustic barge-in
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
KR102374054B1 (ko) 음성 인식 방법 및 이에 사용되는 장치
CN110942779A (zh) 一种噪声处理方法、装置、系统
US20070198268A1 (en) Method for controlling a speech dialog system and speech dialog system
WO2003107327A1 (en) Controlling an apparatus based on speech
US20030163309A1 (en) Speech dialogue system
EP1185976B1 (en) Speech recognition device with reference transformation means
EP1316944A2 (en) Sound signal recognition system and method, and dialog control system and method using it
KR100587260B1 (ko) 음향 기기의 음성인식장치
KR20210054246A (ko) 전자장치 및 그 제어방법
JP2018022086A (ja) サーバ装置、制御システム、方法、情報処理端末、および制御プログラム
JP2005122194A (ja) 音声認識対話装置および音声認識対話処理方法
JP2001100786A (ja) 音声認識方法、装置及び記憶媒体
CN114531631A (zh) 音箱、终端设备、音箱插件、片上系统和相关方法
KR20120010076A (ko) 음성 활동 감지 방법 및 장치
KR20240040577A (ko) 화자 검증을 위한 민감도 조정 방법 및 이를 위한 전자 장치
JP2005148764A (ja) 音声認識対話処理方法および音声認識対話装置
CN107390888A (zh) 键盘输入装置和方法
JP2006163285A (ja) 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NUANCE COMMUNICATION INC.

Free format text: FORMER OWNER: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Effective date: 20130105

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130105

Address after: Massachusetts, USA

Patentee after: Nuance Communications, Inc.

Address before: Holland Ian Deho Finn

Patentee before: Koninklijke Philips Electronics N.V.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20090701