CN1142274A - 说话者辨认和确认系统 - Google Patents

说话者辨认和确认系统 Download PDF

Info

Publication number
CN1142274A
CN1142274A CN95191853.2A CN95191853A CN1142274A CN 1142274 A CN1142274 A CN 1142274A CN 95191853 A CN95191853 A CN 95191853A CN 1142274 A CN1142274 A CN 1142274A
Authority
CN
China
Prior art keywords
spectrum
speech
component
sigma
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN95191853.2A
Other languages
English (en)
Inventor
R·J·麦蒙
K·T·阿萨尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rutgers State University of New Jersey
Original Assignee
Rutgers State University of New Jersey
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rutgers State University of New Jersey filed Critical Rutgers State University of New Jersey
Publication of CN1142274A publication Critical patent/CN1142274A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明涉及语音识别方法及其系统,它将自适应分量权重施加到每幅语音帧以使非声道分量衰减而对语音分量进行归一化。采用线性预测全极点模型来构成包含移动平均分量的新的传递函数。从新的传递函数确定归一化谱。归一化谱改善了语音分量的特性,由此改善了信道上的语音识别。

Description

说话者辨认和确认系统
发明领域
本发明涉及说话者识别系统或者类似的装置,它将自适应权重加入每幅语音帧内的分量中以使语音谱归一化,从而减少了信道效应(channel effect)的影响。
背景技术
说话者辨认系统的目标是从发出的声音中辨认出语音是谁。而说话者确认系统的目标是从发出的声音中确认说话者声称的身份。说话者辨认和确认系统可以在一般的说话者识别类型中进行定义。
已知的典型电话交换系统在同一对始点和终点之间经常可以建立不同的信道路径。由于信道效应,每条信道上的语音谱可以具有不同的形状。此外,噪声环境下同一说话者产生的语音谱与安静环境下产生的语音谱相比,也可以具有不同的形状。由于非声道分量使语音谱发生了变化,所以对不同信道内或者噪声环境下的语音识别比较困难。
常规的方法是使语音谱归一化来校正谱的形状。美国专利No.5,001,761描述了一种对受到噪声影响的某一频率附近的语音进行归一化的装置。语音谱按照预先确定的频率分段。对分割的每段谱确定一条线性逼近线段并在预先确定的频率处将逼近线段连接起来以使谱归一化。该装置的缺点是只对受噪声影响的预先确定频率的语音帧进行归一化而没有采取归一化措施来减少整段频率范围内的非声道(non-vocal tract)的影响。
美国专利No.4,926,488描述了一种考虑为伴随语音信号的噪声以增强口语输入的方法对语音归一化。该方法生成语音的特征矢量。特征矢量由包含多个参数的算符函数归一化。对于归一化的矢量确定最接近的原型矢量并改变算符函数以将归一化矢量移动至最接近的原型。改变后的算符矢量叠加到转换为归一化矢量的下一特征矢量上。该方法的不足之处是没有考虑多个频率上的非声道效应。
一般的语音建模方式是模仿人类声道部分。利用可以变换为语音段谱包络内峰位(频率)和峰形(带宽)的参数,线性预测编码(LPC)已被用来描述较短的语音段。Cepstral系数代表信号功率谱对数的傅利叶逆变换。它可以从频率谱或者线性预测LP系数中导出。Cepstral系数可以用作说话者识别的主要特征。一般地,12个Cepstral系数形成一幅语音帧。
已经发现,在语音合成和识别中可以使用较少的Cepstral系数。美国专利No.5,165,008描述了一种使用5个Cepstral系数构成每一个说话者独立的数据段的语音合成方法。为了确定系数的权重因子,利用线性预测分析来确立5个一组的Cepstral系数。系数权重因子使声道资源空间内的每个矢量元素的非平方预测误差最小。在每幅语音帧上采用同一系数权重因子而不考虑非声道效应。
因此有必要提供一种语音识别系统,其中对语音谱进行归一化以在每幅语音帧上提供语音分量的自适应权重,从而在减少非声道效应的同时,改善信号的声道特征。
发明内容提要
本发明的方法基于这样一个事实,即语音分量谱形随时间的变化与非声道分量谱形随时间的变化是不同的。已经发现,非声道分量(例如信道和噪声分量)谱的带宽与语音分量的带宽比较起来要宽得多。通过使宽带分量衰减而增强与语音有关的窄带分量,改善了语音的提取。改善后的语音提取可以用于高性能说话者识别装置之类的产品中。
本方法涉及模拟语音信号的分析,它通过将模拟的语音信号转换为数字形式来产生数字语音的连续帧。利用线性预测分析来分别分析数字语音帧,从而提取出语音谱和称之为预测系数的一组语音参数。预测系数包含表征语音帧的分量的全极点(pole)滤波器的若干极点。谱分量可以进行归一化以根据其相关的带宽增强突出分量的贡献。自适应分量权重用于谱分量上以增强与语音相关的分量并使与非话音效应相关的分量衰减。Cepstral系数根据归一化谱确定从而提供语音信号的增强特征。基于增强特征,在说话者识别系统中对分类作了改进。
比较好的是,本发明的说话者识别系统可以用于确认在用于信用卡交易、电话付费卡交易和计算机网络访问的电话系统中的通话人身份。此外,说话者识别系统可以用于声控门锁、汽车声控引擎和声控计算机系统中。借助以下附图可以进一步理解本发明。
附图的简要说明
图1为系统训练期间本发明系统的流程图;
图2为评价期间本发明系统的流程图;
图3为用于特征提取和特征增强时本发明方法的流程图;
图4为未进行自适应分量权重滤波的已有技术语音谱的曲线图;
图5为带自适应分量权重滤波的图4所示语音谱的曲线图;
图6A为未进行自适应分量权重滤波的语音谱;
图6B为进行了自适应分量权重滤波的语音谱;
图7为进行和未进行自适应分量权重滤波的语音谱的比较;
图8为传递函数(1-0.9z-1)的移动平均(FIR)滤波器的响应。
实施发明的详细描述
在描述期间,各图中相似的部分用相同的标号表示。
图1表示系统训练期间语音识别系统10的流程图。语音训练输入信号被加载到模数转换器11上以提供连续的数字语音帧。特征提取模块12接收数字语音帧。特征提取模块12获取了数字语音帧的特性参数。对于说话者识别来说,特征提取模块12提取的特征对语音是唯一的,从而能够进行合适的说话者识别。
特征增强模块14对特征提取模块12中提取的特征起着增强的作用。特征增强模块14还将提取的特征数减少到说话者识别所需的数量。在块16中对增强特征进行了分类。比较好的是,可以借助普通的矢量量化技术进行分类,为每个说话者生成通用码本。也可以利用多层感知模型、神经网络模型、径向基函数网络模型和隐马尔柯夫模型进行分类。应当注意到的是,可以结合本发明的原理采用本领域内其它的分类方法进行分类。
在图2中,说话者识别系统用于说话者辨认或确认。语音评价输入信号在模数转换器11中进行数字化并加载到特征提取模块12中。语音输入信号的增强特征在模板匹配模块18处接收。模板匹配模块18确定出与通用码本或者典型分类系统中最接近的匹配,从而确定语音的身份或者确认语音是否为通用码本中相应的人。图3表示实现特征提取块12和特征增强块14的较佳实施例的流程图。语音帧s(k)可以用调制模型(MM)来表示。调制模型(MM)包括表示调幅(AM)和调频(FM)分量及其数量N的参数。语音帧可以用下式表示: s ( k ) = Σ i = 1 N A i ( k ) cos ( φ i ( k ) ) + η ( k ) - - ( 100 ) 其中Ai(k)为第i个分量的幅度调制,φI(k)是第i个分量的瞬时相位,而η(k)是建模误差。
幅度调制分量Ai(k)和瞬时相位分量φ(k)一般是窄带信号。可以利用线性预测分析来确定基音周期内的调制函数以获得:
         Ai(k)=|Gi|e-BiK    (102)
         φ(k)=ωiK+θi    (104)其中,Gi是分量增益,Bi是带宽,ωi是中心频率而θi是相对延迟。
语音信号s(k)加载到块110上以获取线性预测编码(LPC)系数。利用以下的方程可以定义用于语音信号的LP多项式A(z): A ( z ) = 1 + Σ i = 1 p a i z - i - - ( 106 ) 其中ai是线性预测系数而P是系数的阶数。
在线性预测编码分析中,声道的传递函数可以利用时变的全极点滤波器(timevaring all polefilter)建模,第P阶LP分析由下式给出: H ( z ) = 1 A ( z ) = 1 1 + Σ i = 1 p a j z - i - - ( 108 ) A(z)的根在块112中用LP多项式A(z)的根的因式分解确定: A ( z ) = Π i = 1 p ( 1 - z i z - 1 ) - - ( 110 ) 其中zi是多项式A(z)的根而P为LP多项式的阶数。LP多项式的根通常为位于复数z平面上离原点径向距离近似为1的复根。
在块114中确定一个新的变换函数H(z)以使对应非声道效应的宽带分量衰减而增强对应语音的窄带分量。
可以用部分分式展开式表示:(平行于方程108) H ^ ( z ) = 1 A ( z ) = Σ i = 1 p r i ( 1 - z i z - 1 ) - - ( 112 ) 其中残差ri代表分量(1-ziz-1)对函数 的贡献。残差ri表示分量i的相对增益和相位,可定义为合成谱的谱倾角(spectral tilt)。
已经发现,带宽较宽的谱分量对应于非声道分量并具有较大的残差值。
残差ri的归一化使谱中每个分量i的贡献与带宽呈比例关系。通过将ri设定为参数(例如单位量)完成残差的归一化。例如,如果ri设定为单位量,则i分量的贡献近似等于: 1 1 - | z i | - - ( 113 ) 等价于方程式: 1 B i - - ( 114 ) 由方程式114可以看到,每个分量i的贡献反比于它的带宽Bi并且如果分量i具有较大的带宽,则方程式114的数值较小。ri的归一化可以定义为根据带宽加于每幅语音帧的谱分量的自适应分量权重(ACW)。
基于以上发现,在ACW基础上的使非声道分量衰减而使语音分量增强的新的传递函数表示如下: H ^ ( z ) = Σ i = 1 p 1 ( 1 - z i z - 1 ) - - ( 115 )
方程式115表明, 不是一个全极点传递函数。 包含使信号语音分量贡献归一化的第P-1阶移动平均分量(MA)。
在现有技术中,如M.R.Schroeder在“cepstrals与预测器系数之间的直接(非递归)关系”(Proc.IEEE 29:297-301,1981.4)一文中所描述的那样,cepstral系数被用作谱信息。cepstral系数可以用相对cepstral指数归一化的极点幂之和的下列关系式来定义: ln ( 1 A ( z ) ) = Σ n = 1 c n z - n - - ( 116 ) 其中cn是cepstral系数。
cepstral系数cn可以借助方程式(106)定义的LP多项式A(z)的根来表示: c n = 1 n Σ i = 1 F z i - - ( 117 ) 已知预测系数ai为实数。方程式106定义的LP多项式A(z)的根为实数或者为共轭复数对。LP多项式A(z)的每个根与中心频率ω和带宽Bi存在如下关系: Z i = e - B i + jω i - - ( 118 ) 中心频率ωi和带宽Bi可以表示为: ω i = arctan Im ( z i ) Re ( z i ) - - ( 12 ) 其中Im(zi)是虚根而Re(zi)是实根并且
            Bi=-ln|zi|            (122)将方程式118代入方程式117得到语音信号s(k)的cepstral系数,它们可以表示如下: c n = 1 n Σ i = 1 P e - B j n cos ( ω i n ) - - ( 124 ) 其中第n个ceptral系数cn为MM参数的非线性变换。Quefrency指数n对应于方程式100中相对延迟φi设定为零而相对增益Gi设定为单位量时的时间变量k。
在块116中可以从新的传递函数H(z)确定出谱信道和倾角滤波器N(z)。N(z)为表示语音谱信道和谱倾角的LP多项式,可以定义如下: N ( z ) = 1 + Σ i = 1 P - 1 b i Z - 1 - - ( 126 ) 其中b表示线性预测系数而P为多项式的阶数。对信号的语音分量进行归一化的FIR滤波器可以定义如下: H ^ ( z ) = N ( z ) A ( z ) - - ( 128 )
将方程式126定义的LP多项式N(z)和由方程式110定义的A(z)因式分解得到如下定义的新的传递函数 H ^ ( z ) = N ( z ) A ( z ) = Π i - 1 P - 1 ( 1 - z ^ i z - 1 ) Π i - 1 P ( 1 - z i z - 1 ) - - ( 130 ) 其中
Figure A9519185300106
为方程式126定义的LP多项式的根。
通过归一化cepstrum, 可以用下式表示具有自适应分量权重(ACW)的谱: c ^ ( n ) = 1 n ( Σ i = 1 P z i n - Σ i = 1 P - 1 z i n ) - - ( 132 )
对于每幅语音帧,在块118中计算归一化的cepstrum 。归一化的cepstrum使非声道分量衰减而使普通cepstral谱的语音分量增强。从块118确定的归一化cepstral谱可以用于分类块16或者模板匹配块18。
图4表示了对于在由传递函数H(z)得到的信道上的用已有技术对说话者的语音谱所进行的分解。标号为1-4的分量表示声道的共振。共振峰位于标号为ωrω4的中心频率处。每个共振的带宽分别为B1-B4。标号为5和6的分量表示非声道效应。图4表示代表非声道效应的带宽B5、B6远大于语音分量的带宽B1-B4
图5表示图4所示语音谱在施行自适应分量权重传递函数 后的分解。在图5中,分量1-4的峰值得到了增强而分量5和6的峰值发生了衰减。
图6A表示已有技术中包含声道和非声道分量的语音信号谱。图6B表示经过自适应分量权重滤波器作用后的语音信号谱。图6B将峰位1-4归一化为近似30db左右的值,从而增强了信号的语音分量。
图7表示用于图6B中语音谱的由N(z)定义的移动平均滤波器的响应。
图8表示由传递函数H(z)确定的谱与新的传递函数 确定的谱的比较。传递函数H(z)包括信道效应,而传递函数
Figure A9519185300113
则施加自适应分量权重以使信道效应衰减。
完成的是与文本独立的说话者分辨认实例。采用了代表38个同一方言(新英格兰口音)语音的DARPA TIMIT数据库的子集。每个语音完成10个发音,每个发音的平均持续时间为3秒。在块16中采用5个发音来训练系统10并在块18中用5个发音来进行评估。从传递函数H(z)得到的第一组cepstral特征与从自适应分量权重传递函数 得到的第二组cepstral特征进行了比较。
进行训练和测试时的语音信号中没有信道效应。由H(z)得到第一组cepstral特征与由
Figure A9519185300115
得到的第二组cepstral特征具有相同的识别率,都为93%。
用包含信道效应的语音信号进行训练和测试,采用传递函数(1-0.9z-1)来模拟信道。由H(z)得到第一组cepstral特征的识别率为50.1%。而由
Figure A9519185300116
得到的第二组cepstral特征的识别率为74.7%。利用自适应分量权重确定的cepstral特征,识别率提高了24.6%。
本发明的优点在于通过改善语音信号的特征,提高了信道上的说话者识别率。语音信号的非声道分量衰减下来而声道分量得到了增强。本发明比较好的是用于电话系统或者噪声环境下的说话者识别。
虽然借助实施例对本发明作了阐述,但是这些描述并非是限制性的。对于本领域内的技术人员来说,可以在不偏离本发明的精神和范围的前提下对本发明作出各种改动。

Claims (19)

1.一种说话者识别的方法,其特征在于包含以下步骤:
将话音解析为第一谱信息;
将权重施加到根据所述第一谱信息得到的预先确定的分量上以产生归一化的第二谱;以及
通过计算所述第二谱与事先由多人语音生成的多个语音模式的相似程度来识别所述第二谱。
2.如权利要求1所述的方法,其特征在于,所述话音的解析是通过将所述话音分割为多幅帧来进行的,每帧具有预先确定的时间间隔并通过线性预测分析获得每个所述话音的LPC系数。
3.如权利要求2所述的方法,其特征在于,在第一预先确定的分量上施加第一权重而在第二预先确定的分量上施加第二权重。
4.如权利要求3所述的方法,其特征在于,所述第一权重使所述第一分量增加而所述第二权重使所述第二分量衰减。
5.如权利要求4所述的方法,其特征在于,对于每个所述帧都确定所述第一和第二权重。
6.如权利要求5所述的方法,其特征在于所述第二分量具有较宽的带宽。
7.如权利要求6所述的方法,其特征在于所述第一和第二权重的确定步骤如下:
确定所述LPC系数的根,每个所述的根包括一个残差分量;以及
对每个所述的根的所述残差分量进行归一化。
8.如权利要求7所述的方法,其特征在于所述第二谱由下来变换定义: H ^ ( z ) = Σ i = 1 p 1 ( 1 - z i z - 1 ) 其中P是解析的阶数,而zi是代表所述话音的带宽和频率的复数根。
9.如权利要求8所述的方法,其特征在于进一步包含以下步骤:对于所述第二语音谱确定归一化的cepstrum。
10.如权利要求9所述的方法,其特征在于所述cepstrum由下式定义: C ^ ( n ) = 1 n ( Σ i = 1 p z i n - Σ i = 1 p - 1 z ^ i n ) 其中P是系数的数量,而zi是所述第二谱的复数根。
11.如权利要求10所述的方法,其特征在于进一步包含以下步骤:
在系数装置中将所述第二谱存储为所述多个语音模式。
12.如权利要求11所述的方法,其特征在于进一步包含以下步骤:
通过将所述第二谱与分类装置中所述的存储第二谱进行匹配来确定所述第二谱与所述语音模式的相似程度。
13.一种说话者识别系统,其特征在于包含:
将语音信号转换为多个数字语音帧的装置;
将所述数字语音转换为一系列第一谱参数的语音参数提取装置;
将自适应权重施加到所述第一谱参数上以生成归一化的第二谱的语音参数增强装置;以及
确定所述第二谱与由说话人预先生成的多个语音样本的相似程度的评价装置。
14.如权利要求13所述的系统,其特征在于所述多个语音样本由所述第二谱生成。
15.如权利要求14所述的系统,其特征在于所述第一谱通过一个全极点LPC滤波器对所述语音信号进行滤波后生成。
16.如权利要求15所述的系统,其特征在于所述语音信号包括声道和非声道分量,其中所述语音参数增强装置包括使所述非声道分量衰减而增强所述声道分量的移动平均滤波装置。
17.如权利要求16所述的系统,其特征在于所述系统进一步包含:
对所述多个语音样本量化的矢量量化装置;以及
在码本中存储所述量化样本的装置。
18.如权利要求17所述的系统,其特征在于所述评价装置包含模板匹配装置,它通过将所述第二谱与所述码本中的所述样本匹配来确定所述第二谱与所述多个语音样本的相似程度。
19.如权利要求18所述的系统,其特征在于所述第二谱是如下定义的归一化cepstrum C ^ ( n ) = 1 n ( Σ i = 1 p z i n - Σ i = 1 p - 1 z ^ i n )
CN95191853.2A 1994-02-28 1995-02-28 说话者辨认和确认系统 Pending CN1142274A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/203,988 1994-02-28
US08/203,988 US5522012A (en) 1994-02-28 1994-02-28 Speaker identification and verification system

Publications (1)

Publication Number Publication Date
CN1142274A true CN1142274A (zh) 1997-02-05

Family

ID=22756137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN95191853.2A Pending CN1142274A (zh) 1994-02-28 1995-02-28 说话者辨认和确认系统

Country Status (9)

Country Link
US (1) US5522012A (zh)
EP (1) EP0748500B1 (zh)
JP (1) JPH10500781A (zh)
CN (1) CN1142274A (zh)
AT (1) ATE323933T1 (zh)
AU (1) AU683370B2 (zh)
CA (1) CA2184256A1 (zh)
DE (1) DE69534942T2 (zh)
WO (1) WO1995023408A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101303854B (zh) * 2007-05-10 2011-11-16 摩托罗拉移动公司 用于提供识别的语音输出的方法

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666466A (en) * 1994-12-27 1997-09-09 Rutgers, The State University Of New Jersey Method and apparatus for speaker recognition using selected spectral information
JPH08211897A (ja) * 1995-02-07 1996-08-20 Toyota Motor Corp 音声認識装置
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
JP3397568B2 (ja) * 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
FR2748343B1 (fr) * 1996-05-03 1998-07-24 Univ Paris Curie Procede de reconnaissance vocale d'un locuteur mettant en oeuvre un modele predictif, notamment pour des applications de controle d'acces
US6078664A (en) * 1996-12-20 2000-06-20 Moskowitz; Scott A. Z-transform implementation of digital watermarks
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
SE515447C2 (sv) * 1996-07-25 2001-08-06 Telia Ab Metod och anordning för talverifiering
US5946654A (en) * 1997-02-21 1999-08-31 Dragon Systems, Inc. Speaker identification using unsupervised speech models
SE511418C2 (sv) * 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US5995924A (en) * 1997-05-05 1999-11-30 U.S. West, Inc. Computer-based method and apparatus for classifying statement types based on intonation analysis
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US5940791A (en) * 1997-05-09 1999-08-17 Washington University Method and apparatus for speech analysis and synthesis using lattice ladder notch filters
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US6192353B1 (en) 1998-02-09 2001-02-20 Motorola, Inc. Multiresolutional classifier with training system and method
US6243695B1 (en) * 1998-03-18 2001-06-05 Motorola, Inc. Access control system and method therefor
US6317710B1 (en) * 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6400310B1 (en) * 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
CN1148720C (zh) * 1999-03-11 2004-05-05 英国电讯有限公司 说话者识别
US20030115047A1 (en) * 1999-06-04 2003-06-19 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for voice recognition in mobile communication systems
US6401063B1 (en) * 1999-11-09 2002-06-04 Nortel Networks Limited Method and apparatus for use in speaker verification
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
KR100366057B1 (ko) * 2000-06-26 2002-12-27 한국과학기술원 인간 청각 모델을 이용한 효율적인 음성인식 장치
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
JP2002306492A (ja) * 2001-04-16 2002-10-22 Electronic Navigation Research Institute カオス論的ヒューマンファクタ評価装置
CN1236423C (zh) * 2001-05-10 2006-01-11 皇家菲利浦电子有限公司 说话人声音的后台学习
US20040158462A1 (en) * 2001-06-11 2004-08-12 Rutledge Glen J. Pitch candidate selection method for multi-channel pitch detectors
US6898568B2 (en) * 2001-07-13 2005-05-24 Innomedia Pte Ltd Speaker verification utilizing compressed audio formants
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
KR100488121B1 (ko) * 2002-03-18 2005-05-06 정희석 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
JP3927559B2 (ja) * 2004-06-01 2007-06-13 東芝テック株式会社 話者認識装置、プログラム及び話者認識方法
CN1811911B (zh) * 2005-01-28 2010-06-23 北京捷通华声语音技术有限公司 自适应的语音变换处理方法
US7603275B2 (en) * 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
US7788101B2 (en) * 2005-10-31 2010-08-31 Hitachi, Ltd. Adaptation method for inter-person biometrics variability
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
DE102007011831A1 (de) * 2007-03-12 2008-09-18 Voice.Trust Ag Digitales Verfahren und Anordnung zur Authentifizierung einer Person
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
CN101339765B (zh) * 2007-07-04 2011-04-13 黎自奋 一种国语单音辨认方法
CN101281746A (zh) * 2008-03-17 2008-10-08 黎自奋 一个百分之百辨认率的国语单音与句子辨认方法
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
EP2897076B8 (en) * 2014-01-17 2018-02-07 Cirrus Logic International Semiconductor Ltd. Tamper-resistant element for use in speaker recognition
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
GB2552723A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
JP6791258B2 (ja) * 2016-11-07 2020-11-25 ヤマハ株式会社 音声合成方法、音声合成装置およびプログラム
WO2018163279A1 (ja) * 2017-03-07 2018-09-13 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム
GB201801875D0 (en) * 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Audio processing

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
JPS58129682A (ja) * 1982-01-29 1983-08-02 Toshiba Corp 個人照合装置
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
IT1160148B (it) * 1983-12-19 1987-03-04 Cselt Centro Studi Lab Telecom Dispositivo per la verifica del parlatore
CA1229681A (en) * 1984-03-06 1987-11-24 Kazunori Ozawa Method and apparatus for speech-band signal coding
US5146539A (en) * 1984-11-30 1992-09-08 Texas Instruments Incorporated Method for utilizing formant frequencies in speech recognition
US4773093A (en) * 1984-12-31 1988-09-20 Itt Defense Communications Text-independent speaker recognition system and method based on acoustic segment matching
US4922539A (en) * 1985-06-10 1990-05-01 Texas Instruments Incorporated Method of encoding speech signals involving the extraction of speech formant candidates in real time
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
US5001761A (en) * 1988-02-09 1991-03-19 Nec Corporation Device for normalizing a speech spectrum
US5048088A (en) * 1988-03-28 1991-09-10 Nec Corporation Linear predictive speech analysis-synthesis apparatus
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
US5007094A (en) * 1989-04-07 1991-04-09 Gte Products Corporation Multipulse excited pole-zero filtering approach for noise reduction
JPH02309820A (ja) * 1989-05-25 1990-12-25 Sony Corp デイジタル信号処理装置
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification
US5165008A (en) * 1991-09-18 1992-11-17 U S West Advanced Technologies, Inc. Speech synthesis using perceptual linear prediction parameters
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101303854B (zh) * 2007-05-10 2011-11-16 摩托罗拉移动公司 用于提供识别的语音输出的方法

Also Published As

Publication number Publication date
EP0748500B1 (en) 2006-04-19
JPH10500781A (ja) 1998-01-20
DE69534942T2 (de) 2006-12-07
WO1995023408A1 (en) 1995-08-31
AU683370B2 (en) 1997-11-06
AU2116495A (en) 1995-09-11
ATE323933T1 (de) 2006-05-15
US5522012A (en) 1996-05-28
CA2184256A1 (en) 1995-08-31
EP0748500A1 (en) 1996-12-18
MX9603686A (es) 1997-12-31
EP0748500A4 (en) 1998-09-23
DE69534942D1 (de) 2006-05-24

Similar Documents

Publication Publication Date Title
CN1142274A (zh) 说话者辨认和确认系统
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
Tiwari MFCC and its applications in speaker recognition
US6400310B1 (en) Method and apparatus for a tunable high-resolution spectral estimator
DE69831076T2 (de) Verfahren und vorrichtung zur sprachanalyse und -synthese mittels allpass-sieb-kettenfiltern
US20070208566A1 (en) Voice Signal Conversation Method And System
US6208958B1 (en) Pitch determination apparatus and method using spectro-temporal autocorrelation
JP2778567B2 (ja) 信号符号化装置及び方法
Siegel A procedure for using pattern classification techniques to obtain a voiced/unvoiced classifier
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
EP0475759B1 (en) Phoneme discrimination method
US20030187635A1 (en) Method for modeling speech harmonic magnitudes
US5696878A (en) Speaker normalization using constrained spectra shifts in auditory filter domain
McAulay Maximum likelihood spectral estimation and its application to narrow-band speech coding
Biem et al. A discriminative filter bank model for speech recognition.
Maged et al. Improving speaker identification system using discrete wavelet transform and AWGN
Prakash et al. Fourier-Bessel based Cepstral Coefficient Features for Text-Independent Speaker Identification.
Bora et al. Speaker identification for biometric access control using hybrid features
RU2047912C1 (ru) Способ распознавания изолированных слов речи с адаптацией к диктору
JPH07210197A (ja) 話者識別方法
CN115620731A (zh) 一种语音特征提取与检测方法
Chadha et al. A full band adaptive harmonic model based speaker identity transformation using radial basis function
Mashao Experiments on a parametric nonlinear spectral warping for an HMM-based speech recognizer
Suba et al. Analysing the performance of speaker identification task using different short term and long term features
Chang et al. Quality enhancement of sinusoidal transform vocoders

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned