CN1142274A

CN1142274A - 说话者辨认和确认系统

Info

Publication number: CN1142274A
Application number: CN95191853.2A
Authority: CN
Inventors: R·J·麦蒙; K·T·阿萨尔
Original assignee: Rutgers State University of New Jersey
Current assignee: Rutgers State University of New Jersey
Priority date: 1994-02-28
Filing date: 1995-02-28
Publication date: 1997-02-05
Also published as: EP0748500B1; JPH10500781A; DE69534942T2; WO1995023408A1; AU683370B2; AU2116495A; ATE323933T1; US5522012A; CA2184256A1; EP0748500A1; MX9603686A; EP0748500A4; DE69534942D1

Abstract

本发明涉及语音识别方法及其系统，它将自适应分量权重施加到每幅语音帧以使非声道分量衰减而对语音分量进行归一化。采用线性预测全极点模型来构成包含移动平均分量的新的传递函数。从新的传递函数确定归一化谱。归一化谱改善了语音分量的特性，由此改善了信道上的语音识别。

Description

说话者辨认和确认系统

发明领域

本发明涉及说话者识别系统或者类似的装置，它将自适应权重加入每幅语音帧内的分量中以使语音谱归一化，从而减少了信道效应(channel effect)的影响。

背景技术

说话者辨认系统的目标是从发出的声音中辨认出语音是谁。而说话者确认系统的目标是从发出的声音中确认说话者声称的身份。说话者辨认和确认系统可以在一般的说话者识别类型中进行定义。

已知的典型电话交换系统在同一对始点和终点之间经常可以建立不同的信道路径。由于信道效应，每条信道上的语音谱可以具有不同的形状。此外，噪声环境下同一说话者产生的语音谱与安静环境下产生的语音谱相比，也可以具有不同的形状。由于非声道分量使语音谱发生了变化，所以对不同信道内或者噪声环境下的语音识别比较困难。

常规的方法是使语音谱归一化来校正谱的形状。美国专利No.5,001,761描述了一种对受到噪声影响的某一频率附近的语音进行归一化的装置。语音谱按照预先确定的频率分段。对分割的每段谱确定一条线性逼近线段并在预先确定的频率处将逼近线段连接起来以使谱归一化。该装置的缺点是只对受噪声影响的预先确定频率的语音帧进行归一化而没有采取归一化措施来减少整段频率范围内的非声道(non-vocal tract)的影响。

美国专利No.4,926,488描述了一种考虑为伴随语音信号的噪声以增强口语输入的方法对语音归一化。该方法生成语音的特征矢量。特征矢量由包含多个参数的算符函数归一化。对于归一化的矢量确定最接近的原型矢量并改变算符函数以将归一化矢量移动至最接近的原型。改变后的算符矢量叠加到转换为归一化矢量的下一特征矢量上。该方法的不足之处是没有考虑多个频率上的非声道效应。

一般的语音建模方式是模仿人类声道部分。利用可以变换为语音段谱包络内峰位(频率)和峰形(带宽)的参数，线性预测编码(LPC)已被用来描述较短的语音段。Cepstral系数代表信号功率谱对数的傅利叶逆变换。它可以从频率谱或者线性预测LP系数中导出。Cepstral系数可以用作说话者识别的主要特征。一般地，12个Cepstral系数形成一幅语音帧。

已经发现，在语音合成和识别中可以使用较少的Cepstral系数。美国专利No.5,165,008描述了一种使用5个Cepstral系数构成每一个说话者独立的数据段的语音合成方法。为了确定系数的权重因子，利用线性预测分析来确立5个一组的Cepstral系数。系数权重因子使声道资源空间内的每个矢量元素的非平方预测误差最小。在每幅语音帧上采用同一系数权重因子而不考虑非声道效应。

因此有必要提供一种语音识别系统，其中对语音谱进行归一化以在每幅语音帧上提供语音分量的自适应权重，从而在减少非声道效应的同时，改善信号的声道特征。

发明内容提要

本发明的方法基于这样一个事实，即语音分量谱形随时间的变化与非声道分量谱形随时间的变化是不同的。已经发现，非声道分量(例如信道和噪声分量)谱的带宽与语音分量的带宽比较起来要宽得多。通过使宽带分量衰减而增强与语音有关的窄带分量，改善了语音的提取。改善后的语音提取可以用于高性能说话者识别装置之类的产品中。

本方法涉及模拟语音信号的分析，它通过将模拟的语音信号转换为数字形式来产生数字语音的连续帧。利用线性预测分析来分别分析数字语音帧，从而提取出语音谱和称之为预测系数的一组语音参数。预测系数包含表征语音帧的分量的全极点(pole)滤波器的若干极点。谱分量可以进行归一化以根据其相关的带宽增强突出分量的贡献。自适应分量权重用于谱分量上以增强与语音相关的分量并使与非话音效应相关的分量衰减。Cepstral系数根据归一化谱确定从而提供语音信号的增强特征。基于增强特征，在说话者识别系统中对分类作了改进。

比较好的是，本发明的说话者识别系统可以用于确认在用于信用卡交易、电话付费卡交易和计算机网络访问的电话系统中的通话人身份。此外，说话者识别系统可以用于声控门锁、汽车声控引擎和声控计算机系统中。借助以下附图可以进一步理解本发明。

附图的简要说明

图1为系统训练期间本发明系统的流程图；

图2为评价期间本发明系统的流程图；

图3为用于特征提取和特征增强时本发明方法的流程图；

图4为未进行自适应分量权重滤波的已有技术语音谱的曲线图；

图5为带自适应分量权重滤波的图4所示语音谱的曲线图；

图6A为未进行自适应分量权重滤波的语音谱；

图6B为进行了自适应分量权重滤波的语音谱；

图7为进行和未进行自适应分量权重滤波的语音谱的比较；

图8为传递函数(1-0.9z^-1)的移动平均(FIR)滤波器的响应。

实施发明的详细描述

在描述期间，各图中相似的部分用相同的标号表示。

图1表示系统训练期间语音识别系统10的流程图。语音训练输入信号被加载到模数转换器11上以提供连续的数字语音帧。特征提取模块12接收数字语音帧。特征提取模块12获取了数字语音帧的特性参数。对于说话者识别来说，特征提取模块12提取的特征对语音是唯一的，从而能够进行合适的说话者识别。

特征增强模块14对特征提取模块12中提取的特征起着增强的作用。特征增强模块14还将提取的特征数减少到说话者识别所需的数量。在块16中对增强特征进行了分类。比较好的是，可以借助普通的矢量量化技术进行分类，为每个说话者生成通用码本。也可以利用多层感知模型、神经网络模型、径向基函数网络模型和隐马尔柯夫模型进行分类。应当注意到的是，可以结合本发明的原理采用本领域内其它的分类方法进行分类。

在图2中，说话者识别系统用于说话者辨认或确认。语音评价输入信号在模数转换器11中进行数字化并加载到特征提取模块12中。语音输入信号的增强特征在模板匹配模块18处接收。模板匹配模块18确定出与通用码本或者典型分类系统中最接近的匹配，从而确定语音的身份或者确认语音是否为通用码本中相应的人。图3表示实现特征提取块12和特征增强块14的较佳实施例的流程图。语音帧s(k)可以用调制模型(MM)来表示。调制模型(MM)包括表示调幅(AM)和调频(FM)分量及其数量N的参数。语音帧可以用下式表示：

s (k) = Σ_{i = 1}^{N} A_{i} (k) \cos (φ_{i} (k)) + η (k) - - (100)

其中A_i(k)为第i个分量的幅度调制，φ_I(k)是第i个分量的瞬时相位，而η(k)是建模误差。

幅度调制分量A_i(k)和瞬时相位分量φ(k)一般是窄带信号。可以利用线性预测分析来确定基音周期内的调制函数以获得：

A_i(k)＝|G_i|e^-BiK (102)

和

φ(k)＝ω_iK＋θ_i (104)其中，G_i是分量增益，B_i是带宽，ω_i是中心频率而θ_i是相对延迟。

语音信号s(k)加载到块110上以获取线性预测编码(LPC)系数。利用以下的方程可以定义用于语音信号的LP多项式A(z)：

A (z) = 1 + Σ_{i = 1}^{p} a_{i} z^{- i} - - (106)

其中a_i是线性预测系数而P是系数的阶数。

在线性预测编码分析中，声道的传递函数可以利用时变的全极点滤波器(timevaring all polefilter)建模，第P阶LP分析由下式给出：

H (z) = \frac{1}{A (z)} = \frac{1}{1 + Σ_{i = 1}^{p} a_{j} z^{- i}} - - (108)

A(z)的根在块112中用LP多项式A(z)的根的因式分解确定：

A (z) = Π_{i = 1}^{p} (1 - z_{i} z^{- 1}) - - (110)

其中z_i是多项式A(z)的根而P为LP多项式的阶数。LP多项式的根通常为位于复数z平面上离原点径向距离近似为1的复根。

在块114中确定一个新的变换函数H(z)以使对应非声道效应的宽带分量衰减而增强对应语音的窄带分量。

可以用部分分式展开式表示：(平行于方程108)

\hat{H} (z) = \frac{1}{A (z)} = Σ_{i = 1}^{p} \frac{r_{i}}{(1 - z_{i} z^{- 1})} - - (112)

其中残差r_i代表分量(1－z_iz^-1)对函数的贡献。残差r_i表示分量i的相对增益和相位，可定义为合成谱的谱倾角(spectral tilt)。

已经发现，带宽较宽的谱分量对应于非声道分量并具有较大的残差值。

残差r_i的归一化使谱中每个分量i的贡献与带宽呈比例关系。通过将r_i设定为参数(例如单位量)完成残差的归一化。例如，如果r_i设定为单位量，则i分量的贡献近似等于：

\frac{1}{1 - | z_{i} |} - - (113)

等价于方程式：

\frac{1}{B_{i}} - - (114)

由方程式114可以看到，每个分量i的贡献反比于它的带宽Bi并且如果分量i具有较大的带宽，则方程式114的数值较小。r_i的归一化可以定义为根据带宽加于每幅语音帧的谱分量的自适应分量权重(ACW)。

基于以上发现，在ACW基础上的使非声道分量衰减而使语音分量增强的新的传递函数表示如下：

\hat{H} (z) = Σ_{i = 1}^{p} \frac{1}{(1 - z_{i} z^{- 1})} - - (115)

方程式115表明，不是一个全极点传递函数。包含使信号语音分量贡献归一化的第P-1阶移动平均分量(MA)。

在现有技术中，如M.R.Schroeder在“cepstrals与预测器系数之间的直接(非递归)关系”(Proc.IEEE 29：297-301，1981.4)一文中所描述的那样，cepstral系数被用作谱信息。cepstral系数可以用相对cepstral指数归一化的极点幂之和的下列关系式来定义：

\ln (\frac{1}{A (z)}) = \underset{n = 1}{Σ} c_{n} z^{- n} - - (116)

其中c_n是cepstral系数。

cepstral系数c_n可以借助方程式(106)定义的LP多项式A(z)的根来表示：

c_{n} = \frac{1}{n} Σ_{i = 1}^{F} z_{i} - - (117)

已知预测系数a_i为实数。方程式106定义的LP多项式A(z)的根为实数或者为共轭复数对。LP多项式A(z)的每个根与中心频率ω和带宽Bi存在如下关系：

Z_{i} = e^{- B_{i} + {jω}_{i}} - - (118)

中心频率ω_i和带宽Bi可以表示为：

ω_{i} = \arctan \frac{Im (z_{i})}{Re (z_{i})} - - (12)

其中Im(z_i)是虚根而Re(z_i)是实根并且

B_i＝-ln|z_i| (122)将方程式118代入方程式117得到语音信号s(k)的cepstral系数，它们可以表示如下：

c_{n} = \frac{1}{n} Σ_{i = 1}^{P} e^{- B_{j} n} \cos (ω_{i} n) - - (124)

其中第n个ceptral系数c_n为MM参数的非线性变换。Quefrency指数n对应于方程式100中相对延迟φ_i设定为零而相对增益Gi设定为单位量时的时间变量k。

在块116中可以从新的传递函数H(z)确定出谱信道和倾角滤波器N(z)。N(z)为表示语音谱信道和谱倾角的LP多项式，可以定义如下：

N (z) = 1 + Σ_{i = 1}^{P - 1} b_{i} Z^{- 1} - - (126)

其中b表示线性预测系数而P为多项式的阶数。对信号的语音分量进行归一化的FIR滤波器可以定义如下：

\hat{H} (z) = \frac{N (z)}{A (z)} - - (128)

将方程式126定义的LP多项式N(z)和由方程式110定义的A(z)因式分解得到如下定义的新的传递函数

\hat{H} (z) = \frac{N (z)}{A (z)} = \frac{Π_{i - 1}^{P - 1} (1 - {\hat{z}}_{i} z^{- 1})}{Π_{i - 1}^{P} (1 - z_{i} z^{- 1})} - - (130)

其中

为方程式126定义的LP多项式的根。

通过归一化cepstrum，可以用下式表示具有自适应分量权重(ACW)的谱：

\hat{c} (n) = \frac{1}{n} (Σ_{i = 1}^{P} {z_{i}}^{n} - Σ_{i = 1}^{P - 1} {z_{i}}^{n}) - - (132)

对于每幅语音帧，在块118中计算归一化的cepstrum 。归一化的cepstrum使非声道分量衰减而使普通cepstral谱的语音分量增强。从块118确定的归一化cepstral谱可以用于分类块16或者模板匹配块18。

图4表示了对于在由传递函数H(z)得到的信道上的用已有技术对说话者的语音谱所进行的分解。标号为1-4的分量表示声道的共振。共振峰位于标号为ω_rω₄的中心频率处。每个共振的带宽分别为B₁-B₄。标号为5和6的分量表示非声道效应。图4表示代表非声道效应的带宽B₅、B₆远大于语音分量的带宽B₁-B₄。

图5表示图4所示语音谱在施行自适应分量权重传递函数后的分解。在图5中，分量1-4的峰值得到了增强而分量5和6的峰值发生了衰减。

图6A表示已有技术中包含声道和非声道分量的语音信号谱。图6B表示经过自适应分量权重滤波器作用后的语音信号谱。图6B将峰位1-4归一化为近似30db左右的值，从而增强了信号的语音分量。

图7表示用于图6B中语音谱的由N(z)定义的移动平均滤波器的响应。

图8表示由传递函数H(z)确定的谱与新的传递函数确定的谱的比较。传递函数H(z)包括信道效应，而传递函数

则施加自适应分量权重以使信道效应衰减。

完成的是与文本独立的说话者分辨认实例。采用了代表38个同一方言(新英格兰口音)语音的DARPA TIMIT数据库的子集。每个语音完成10个发音，每个发音的平均持续时间为3秒。在块16中采用5个发音来训练系统10并在块18中用5个发音来进行评估。从传递函数H(z)得到的第一组cepstral特征与从自适应分量权重传递函数得到的第二组cepstral特征进行了比较。

进行训练和测试时的语音信号中没有信道效应。由H(z)得到第一组cepstral特征与由

得到的第二组cepstral特征具有相同的识别率，都为93％。

用包含信道效应的语音信号进行训练和测试，采用传递函数(1-0.9z^-1)来模拟信道。由H(z)得到第一组cepstral特征的识别率为50.1％。而由

得到的第二组cepstral特征的识别率为74.7％。利用自适应分量权重确定的cepstral特征，识别率提高了24.6％。

本发明的优点在于通过改善语音信号的特征，提高了信道上的说话者识别率。语音信号的非声道分量衰减下来而声道分量得到了增强。本发明比较好的是用于电话系统或者噪声环境下的说话者识别。

虽然借助实施例对本发明作了阐述，但是这些描述并非是限制性的。对于本领域内的技术人员来说，可以在不偏离本发明的精神和范围的前提下对本发明作出各种改动。

Claims

1.一种说话者识别的方法，其特征在于包含以下步骤：

将话音解析为第一谱信息；

将权重施加到根据所述第一谱信息得到的预先确定的分量上以产生归一化的第二谱；以及

通过计算所述第二谱与事先由多人语音生成的多个语音模式的相似程度来识别所述第二谱。

2.如权利要求1所述的方法，其特征在于，所述话音的解析是通过将所述话音分割为多幅帧来进行的，每帧具有预先确定的时间间隔并通过线性预测分析获得每个所述话音的LPC系数。

3.如权利要求2所述的方法，其特征在于，在第一预先确定的分量上施加第一权重而在第二预先确定的分量上施加第二权重。

4.如权利要求3所述的方法，其特征在于，所述第一权重使所述第一分量增加而所述第二权重使所述第二分量衰减。

5.如权利要求4所述的方法，其特征在于，对于每个所述帧都确定所述第一和第二权重。

6.如权利要求5所述的方法，其特征在于所述第二分量具有较宽的带宽。

7.如权利要求6所述的方法，其特征在于所述第一和第二权重的确定步骤如下：

确定所述LPC系数的根，每个所述的根包括一个残差分量；以及

对每个所述的根的所述残差分量进行归一化。

8.如权利要求7所述的方法，其特征在于所述第二谱由下来变换定义：

\hat{H} (z) = Σ_{i = 1}^{p} \frac{1}{(1 - z_{i} z^{- 1})}

其中P是解析的阶数，而z_i是代表所述话音的带宽和频率的复数根。

9.如权利要求8所述的方法，其特征在于进一步包含以下步骤：对于所述第二语音谱确定归一化的cepstrum。

10.如权利要求9所述的方法，其特征在于所述cepstrum由下式定义：

\hat{C} (n) = \frac{1}{n} (Σ_{i = 1}^{p} {z_{i}}^{n} - Σ_{i = 1}^{p - 1} {\hat{z}}_{i}^{n})

其中P是系数的数量，而z_i是所述第二谱的复数根。

11.如权利要求10所述的方法，其特征在于进一步包含以下步骤：

在系数装置中将所述第二谱存储为所述多个语音模式。

12.如权利要求11所述的方法，其特征在于进一步包含以下步骤：

通过将所述第二谱与分类装置中所述的存储第二谱进行匹配来确定所述第二谱与所述语音模式的相似程度。

13.一种说话者识别系统，其特征在于包含：

将语音信号转换为多个数字语音帧的装置；

将所述数字语音转换为一系列第一谱参数的语音参数提取装置；

将自适应权重施加到所述第一谱参数上以生成归一化的第二谱的语音参数增强装置；以及

确定所述第二谱与由说话人预先生成的多个语音样本的相似程度的评价装置。

14.如权利要求13所述的系统，其特征在于所述多个语音样本由所述第二谱生成。

15.如权利要求14所述的系统，其特征在于所述第一谱通过一个全极点LPC滤波器对所述语音信号进行滤波后生成。

16.如权利要求15所述的系统，其特征在于所述语音信号包括声道和非声道分量，其中所述语音参数增强装置包括使所述非声道分量衰减而增强所述声道分量的移动平均滤波装置。

17.如权利要求16所述的系统，其特征在于所述系统进一步包含：

对所述多个语音样本量化的矢量量化装置；以及

在码本中存储所述量化样本的装置。

18.如权利要求17所述的系统，其特征在于所述评价装置包含模板匹配装置，它通过将所述第二谱与所述码本中的所述样本匹配来确定所述第二谱与所述多个语音样本的相似程度。

19.如权利要求18所述的系统，其特征在于所述第二谱是如下定义的归一化cepstrum

\hat{C} (n) = \frac{1}{n} (Σ_{i = 1}^{p} {z_{i}}^{n} - Σ_{i = 1}^{p - 1} {\hat{z}}_{i}^{n})