CN1327405C

CN1327405C - 分布式语音识别系统中语音识别的方法和设备

Info

Publication number: CN1327405C
Application number: CNB028059964A
Authority: CN
Inventors: 威廉·M·库什纳; 杰弗里·默尼耶; 马克·A·雅修克; 坦卡西·V·拉马巴德朗
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2001-02-02
Filing date: 2002-01-18
Publication date: 2007-07-18
Anticipated expiration: 2022-01-18
Also published as: AU2002243594A1; EP1395978B1; EP1395978A4; WO2002062120A3; US6633839B2; EP2945154A1; BR0206910A; EP1395978A2; US20020147579A1; CN1552059A; WO2002062120A2

Abstract

在一种分布式语音识别系统(20)中，所述系统包括：第一通信设备(22)，它接收一个语音输入(34)，编码代表语音输入的数据(36，38)，并传输编码数据(42)；和第二远程通信设备(26)，它接收编码数据(44)并比较所述编码数据与一个已知的数据集，所述设备(26)包括一个安装有一程序的处理器(92)，所述程序控制处理器(92)根据一种重构语音输入的方法执行操作，所述方法包括接收包括编码频谱数据和编码能量数据的编码数据的步骤(44)。所述方法还包括解码编码频谱数据和编码能量数据以确定频谱数据和能量数据的步骤(46，48)。所述方法还包括组合所述频谱数据和能量数据以重构语音输入的步骤(50，52)。

Description

分布式语音识别系统中语音识别的方法和设备

发明领域

本发明涉及一种语音识别的方法和设备，尤其涉及一种分布式语音识别系统中语音识别的方法和设备。

背景技术

自动语音识别(ASR)是根据语音波形中所包括的信息自动识别语音指令类型的方法。根据话音而非物理的密钥，ASR已经引导了新一代的安全设备，并且已经可以实现完全的“免持”或“免提”特性，例如话音拨号和话音信息检索。

在最高级上，所有的ASR系统为特征提取(也称作信号处理前端)和特征匹配(也称作信号处理后端)而处理语音。特征提取是从一个语音输入中提取少量数据来表示所述语音输入的方法。特征匹配是通过比较所提取的数据与一个已知的数据集来识别出所述语音输入中所包含的指令类型的方法。在一个标准的ASR系统中，由一个处理单元执行这两个功能。

然而，与使用原始未修改的语音作为输入的ASR系统的性能相比，使用诸如在一条移动或无线信道上传输的语音作为输入的ASR系统的性能可能明显很低。这种系统性能上的恶化可能是因为在传输的语音中编码算法以及信道传输误码所引入的失真。

分布式语音识别(DSR)系统试图通过使特征提取和特征匹配分离和具有由安装在两个不同位置上的两个不同的处理单元执行的两种方法来校正因语音传输所导致的系统性能恶化。例如，在包括第一通信设备(例如一个移动单元)和第二通信设备(例如一台服务器)的DSR移动或无线通信系统或网络内，移动单元仅执行特征提取，即移动单元从语音输入中提取和编码识别特征。然后，移动单元在一条错误保护数据信道上将编码特征发送给服务器。服务器接收编码识别特征，并仅执行特征匹配，即服务器匹配编码特征与一个已知数据集中的特征。

使用所述方法，编码失真被最小化，并且传输信道错误对所述识别系统的性能仅产生很小的影响。而且，移动单元只需要执行计算量较少的特征提取，将计算量较多的特征匹配留给服务器。通过将计算量较多的活动保留给服务器的处理器，为移动单元的处理器保留了更大的设计灵活性，因为当前强调的是单元小型化，所以处理器的大小和速度一般非常重要。

欧洲电信标准协会(ETSI)最近公开了一个用于DSR特征提取和压缩算法的标准。欧洲电信标准协会标准ES 201 108，语音处理，传输和质量方面(STQ)；分布式语音识别；前端特征提取算法；压缩算法(Speech Processing，Transmission and Quality aspects(STQ)；Distributed speech recognition；Front-end feature extration algorithm；Compression algorithms)，2000年4月1.1.2版(在下文中称作“ETSI标准”)，在此全文引用作为参考。虽然存在多种编码语音输入数据的方法，例如线性预测(LP)，ETSI标准包括一个特征提取算法，它提取并编码语音输入作为一个对数能量(log-energy)值和一系列用于每个帧的Mel-频率倒谱系数(MFCC)。这些参数基本上捕获了语音输入的频谱包络信息，并且在大多数大词汇量语音识别器中广泛地使用。ETSI标准还包括用于(通过矢量量化)压缩和错误保护(循环冗余校验码)的算法。ETSI标准还描述了用于比特流解码和信道错误降低的合适的算法。在一个10毫秒的更新间隔上并添加了同步和首部信息，数据传输速率达到4800比特/秒。

总而言之，诸如根据ETSI标准所设计的一个DSR系统为移动通信网络的实现提供了很多优点。这样一种系统提供与ASR系统相同的识别性能，但具有可以合并在一个移动单元内的低复杂性的前端和用于传输编码识别特征的低带宽要求。

DSR系统的缺点在于为了存储和/或验证目的在后端不能获得原始语音输入。能够获得原始的话音输入对于下述情况将是有帮助的：(i)要求人力协助的后端应用，以便例如通过允许比较使用远程口授系统生成的文件与原始的语音输入来允许所述文件的手工校正，或者当识别工作从一个DSR系统切换倒一个操作员时允许平滑转换；(ii)预防性地存储法律上敏感的信息，例如在诸如发出证券订单的金融交易过程中记录确切的陈述；和(iii)在数据库收集过程中的最终验证，例如用于训练批处理方式(尤其是递增模式)和系统调谐中的识别器。

另一方面，如果使用一个标准的ASR系统，则原始语音在后端上是可用的。然而，如上所述，当在移动或无线应用中使用时，ASR具有显著的失真问题。也就是说，以在所希望的大约4800bps的比特率上编码的语音明显地降低了识别器的性能。另外，可以提供一个独立的高质量语音编码器，但是这将要求显著地增加带宽。

附图的简要描述

图1是根据本发明一种实施例的使用语音编码和语音重构方法的分布式语音识别系统的示意图；

图2是图示在图1所示的系统中使用的根据本发明一种实施例的语音编码方法的流程图；

图3是图示在图1所示的系统中使用的根据本发明一种实施例的语音重构方法的流程图；

图4是根据本发明一种实施例的语音编码和语音重构设备的示意图；

图5是图示由图4所示的语音编码设备使用的语音编码方法的流程图；

图6是图示由图4所示的语音重构设备使用的语音激发确定方法的流程图；和

图7也是图示由图4所示的语音重构设备使用的语音激发确定方法的流程图。

实施例的详细描述

根据本发明的实施例，提供了一种语音重构的方法和设备。具体而言，在一种分布式语音识别系统中，所述系统包括：第一通信设备，它接收一个语音输入，编码代表语音输入的数据，并传输编码数据；和第二远程通信设备，它接收编码数据并比较所述编码数据与一个已知的数据集，一种在第二通信设备上重构语音输入的方法，包括接收包括编码频谱数据和编码能量数据的编码数据的步骤。所述方法还包括解码编码频谱数据和编码能量数据以确定频谱数据和能量数据的步骤。所述方法还包括组合所述频谱数据和能量数据以重构语音输入的步骤。根据本发明一种实施例的设备包括：一个安装有一程序的处理器，所述程序控制所述处理器以接收和解码所述编码数据；和一个语音合成器，它组合解码数据以重构语音输入。

图1图示一个通信网络或系统20，具体而言，一个移动或无线电频率通信系统。尽管所图示的系统20是一个移动或无线电频率通信系统，所述系统20也可以是任意类型的通信系统，例如一个有线系统或者一个使用除了无线频率通信之外的其它通信方法的系统。

系统20包括一个移动通信设备22(如一个移动站)和一个固定通信设备24(如一个基站)，移动设备22通过使用无线电频率传输与固定设备24通信。固定设备24又在一条有线连接上与一台服务器26通信，服务器26与远程站28亦如此。使用这样一个系统20，一个用户30可以与远程站28通信，也可以与远程站28的相关用户32通信。

虽然在图1中仅图示了一个移动设备22、固定设备24、服务器26和远程站28，显然正如一般情况，所述系统20可以包括与多个固定设备24通信的多个移动设备22，固定设备24又与多台服务器26通信，后者又与多个远程站28通信。为了便于解释，图示了一个移动设备22、固定设备24、服务器26和远程站28，但是在此所描述的本发明并不受所图示系统20的大小的限制。

系统20是一个分布式语音设备系统，即移动设备22执行特征提取，服务器26执行特征匹配。系统20还使用本发明的一种实施例在服务器26上提供重构数据以存储和/或验证。在图2中具体图示了移动设备22用于提取识别特征从而编码一个语音输入的方法。类似地，在图3中图示了服务器26用于重构语音信号的方法。

如图2所示，移动设备22在步骤34接收一个语音输入。移动设备22在步骤36确定和编码代表语音输入能量的数据。在步骤38，移动设备22使用例如LP参数、MFCC或者某种其它方法来确定和编码代表语音输入频谱的数据。在步骤39，移动设备22可选择地确定和编码语音输入的其它相关数据，例如类型和音调周期数据。在步骤40组合在方框36、38和(可选地)39上确定的数据以便传输。在图2中的步骤42，将组合后的编码信号从移动设备22发送到固定设备24，并且随后，在图3中的步骤44，从固定设备24发送由服务器26接收。

同样如图3所示，服务器26在步骤46解码和确定能量数据。服务器26还在步骤48解码和确定频谱数据。服务器26还可选地在步骤49解码和确定传输来的语音输入的其它相关数据。服务器26在步骤50组合在步骤46和48确定的能量数据和频谱数据与在步骤49确定的附加语音数据以重构在步骤34接收到的语音输入。在步骤52输出重构的语音。

使用这一系统20，除了编码形式的语音输入之外，在服务器26上还可以获得重构形式的语音输入，并可以传送给远程站28。所述重构形式的语音输入例如可以由用户32检查远程口授系统所生成的一个文件。而且，通过主要将移动设备22生成的编码语音信号用于语音输入的重构，在未显著增加移动设备22和固定设备24之间传输信道带宽的情况下，可以在远程站28上获得重构的语音。

现在将参考图4至图7解释设备22和26的详细结构和语音编码和重构的具体方法。

移动设备22的详细结构在图4的左半部图示。移动设备22包括一个语音输入设备54(例如一个麦克风)，它连接到一个DSR信号生成器56和一个语音声码器56-分析器58。DSR信号生成器56提取通过语音输入设备54接收到的语音输入的相关频谱数据，并生成一个代表频谱数据的编码信号。声码器-分析器58提取可以在后端上用于重构语音的语音输入的相关附加数据。

组合器60将来自DSR信号生成器的编码信号和由声码器-分析器58提取的附加数据集合成一个统一信号，所述信号被发送给一个连接到组合器60的发送器62。在图1所示的系统20的实施例中，发送器62是一个无线电频率发送器或收发信机，尽管根据本发明的方法可以由其它类型的通信系统使用，在这种情况下，将选择发送器以与所选择的系统相互兼容。

现在参考图5解释DSR信号生成器56的操作方法。在步骤64，由DSR信号生成器56接收语音输入。在步骤66，例如在8000抽样/秒的抽样频率(F_s)和16比特/抽样上将语音输入从模拟转换成数字。数字化后的语音在步骤68通过一个直流偏置消除滤波器，并在步骤70分割成重叠帧。帧的大小取决于抽样频率。对于容纳三种不同抽样频率8、11和16 KHz的ETSI标准来说，帧的大小可以分别是200、256和400抽样。

然后，在步骤72，计算帧的能量等级，并确定其自然对数。所得到的数值也称作对数能量值。

然后，成帧数字化的语音信号在步骤74通过一个预加重滤波器以预加重高频分量。然后在步骤76给每个语音帧加窗口(例如使用一个汉明窗)，并在步骤78使用快速傅立叶变换(“FFT”)将其转换到频域。类似于帧大小，所使用的FFT的大小取决于抽样频率，例如256点FFT用于8和11kHz的抽样频率，而512点的FFT用于16kHz的抽样频率。

然后，通过一个称作Mel-滤波的处理将64Hz和Fs/2(例如8kHz抽样频率的4kHz)之间频率范围内的FFT幅值转换到Mel-频域。执行到Mel-频域的转换是因为心理学研究表明人类对语音信号的声频谱的感觉并不遵从线性量度。因此，对于具有一个以赫兹为单位测量的实际频率f的每个音频，可以在第二量度上表示一个主观音调(subjective pitch)，所述第二量度称作Mel-频率量度。

在步骤80上出现的Mel-滤波处理如下。首先使用下面的表达式将频率范围(例如64Hz到4000Hz)变形映射(warp into)成Mel-频率量度。

Mel (f) = 2595.0 * \log_{10} (1 + \frac{f}{700.0})

使用这个等式，例如对应于频率64Hz和40000Hz的Mel频率分别是98.6和2146.1。然后，将这个Mel-频率范围分割成23个大小相同、半重叠的频带(也称作信道或存储包(bin))，每个频带170.6宽，每个频带的中心间距85.3。第一频带的中心位于98.6+85.3＝183.9，最后一个频带的中心位于2146.1-85.3＝2060.8。这些在Mel-频域内大小相同的频带对应于线性频域内大小不同的频带，其中频带大小随着频率轴增加。然后，使用一个三角加权窗口(在中心的加权等于1.0，在两端的加权等于0.0)来平均(滤波)落入每个频带内的FFT幅值。滤波后的频带输出随后经过一个自然对数操作。

然后在步骤82，使用一个23点的DCT(离散余弦变换)将在步骤80生成的23个对数频谱值转换到对数频率倒谱域。仅计算前13个数值(C0至C12)，丢弃即不计算其余10个数值(C13至C22)。然后在步骤84压缩(量化)在步骤72计算出的帧对数能量和在步骤82计算出的13个对数频率倒谱值(也称作Mel-频率倒谱系数或MFCC)，并在步骤86发送给固定设备24。对于根据ETSI标准操作的系统20来说，每10毫秒更新一次MFCC和对数能量值。

如上所述，声码器-分析器58还接收语音输入。具体而言，声码器-分析器58分析所述输入以确定除了可以从DSR-编码语音获得的数据之外的、可以由服务器26使用的语音输入的其它相关数据以重构语音。由声码器-分析器58提取的具体数据取决于与服务器26相连的语音声码器的特性，所述服务器26将合成重构后的语音。例如，编码激励线性预测(CELP)声码器需要用于将准备的每个语音子帧的密码本目录。对于参数型声码器(例如正弦型声码器)来说，可能还需要其它激励数据，例如类型(话音、非话音、等等)、音调周期以及诸如子帧能量级的更高分辨率的能量数据。

人们将认识到当比特率低于大约4800bps时，CELP编码器所合成的语音质量将迅速下降。相反地，参数型声码器在较低的比特率上提供合理的语音质量。因为一个DSR系统的主要要求之一是低数据传输速率，所以一般将在服务器26内使用一个参数型声码器，尤其是一个正弦型声码器。因此，根据本发明的优选实施例，语音声码器-分析器58为每个语音帧确定类型、音调周期和子帧能量数据，但是也可以选择省略子帧能量数据，因为可以通过从对数能量值中内插来计算子帧能量。

声码器-分析器58最好在大约20毫秒的帧大小上执行操作，即每20毫秒传输一次参数。在每个帧内，将两个比特用于类型参数，即指示一帧是非语音、话音、非话音、混合话音、等等。最好使用一个基于能量的话音活动检测器(VAD)来进行语音/非语音分类，同时根据包括周期相关性(在等于一个音调周期的滞后上的标准化相关性)、非周期性能量比(解除相关和原始帧的能量比)和高频能量比的多个特征来确定合音合成等级。提供谐波频率相关信息的音调周期参数一般使用附加的7个比特来表示，所述7个比特用于大约55Hz到420Hz的典型音调频率范围。最好使用一个低通滤波后的语音的时域相关性分析来估计所述音调周期。如果将要发送较高分辨率的能量数据参数，例如子帧能量参数，这可以使用附加的8个比特来实现。通过一个四维VQ在对数域中量化子帧能量，在一个子帧(每帧4个子帧)上计算非语音帧和非话音帧的能量和在一个音调周期上计算话音帧的能量。也可以组合子帧能量和对数能量值以降低比特率。

假设每20毫秒传输一次类型、音调周期和子帧能量值，即如果使用一个ETSI标准系统每两个DSR帧传输一次，大约800至850bps将会添加给数据传输速率。如果不传输附加的能量数据，可以仅仅将450bps添加给数据传输速率。

现在将参考图4的右半部讨论服务器26的具体结构。根据本发明的一种实施例，接收机88连接到一个常规的DSR参数提取器90和一个DSR/语音处理器92。DSR参数提取器90连接到一个常规的DSR处理器94和一个常规的语音识别器96以比较编码数据与一个已知的数据集，而DSR/语音处理器92连接到一个语音声码器-合成器98(如前面指出的，最好是一个正弦语音声码器-合成器)和一个语音输出(例如扬声器)100。

参见图6，DSR/语音处理器92包括一个程序，它如下所述控制所述DSR/语音处理器92确定和解码DSR编码频谱数据，尤其是谐波幅值。在步骤104，将对应于预加重滤波器脉冲响应的MFCC值从所接收的MFCC值中减去以消除预加重的影响和Mel-滤波的影响。然后，在步骤106，转换MFCC值以为每个所想要的谐波频率计算对数频谱值。然后，在步骤108指数化所述对数频谱值以获得这些谐波的匹配幅值。典型地，每20毫秒执行一次这些步骤，当然也可以更频繁地执行计算，例如每10毫秒一次。

图7更详细地图示DSR/语音程序的操作。在步骤110，如上所述，将对应于预加重滤波器脉冲响应的MFCC值从所接收的MFCC值中大体上减去以消除预加重滤波器的影响。另外，作为最后一个步骤，通过将谐波频率的频谱幅值除以预加重滤波器在对应的谐波频率上的脉冲响应可以消除预加重滤波器的影响。然而，除了预加重滤波器之外，因为沿着线性的频率轴增加的频带带宽，Mel-滤波器加重较高的频率。Mel-滤波器在任一频带中心上的脉冲响应都可以被采用为对应的频带带宽，并且可以为任何其它的频率使用一个内插值。通过计算预加重滤波器和Mel-滤波器的组合脉冲响应，将谐波频率的频谱幅值除以在对应谐波频率上的组合脉冲响应，能够在单个步骤中消除两个滤波器的影响。步骤110实现相同的结果。

然后使用消除预加重滤波器和Mel-滤波器影响的已修改的MFCC值来根据下述步骤估计频谱幅值。在步骤112确定对应于谐波频率(可以根据音调周期获得)的Mel频率。然后，在步骤114，116，对在谐波的Mel频率上的已修改的MFCC值执行反离散余弦变换(IDCT)以将频率倒谱系数转换成对数频率倒谱值。

也就是说，除了频率倒谱序列的截断和量化导致的失真之外，MFCC值C0至C12(假设C13至C22为零)的23点IDCT将恢复原始的23个对数频谱值。然而，这些对数频谱值对应于23个频带的中心频率。需要其它频率上的对数频谱值以为谐波频率确定转换后的MFCC值。

为了提高抽样分辨率，可以以23的奇数倍增加IDCT的大小，即(2K+1)×23，其中K＞0。这在对应于这些频带中心的23个原始Mel-频率的两侧引入了K个附加的Mel-频率点。例如，如果K＝85，则在第一频带中心的左侧和最后一个(即第23个)频带中心的右侧存在85个附加的Mel-频率点，和在任意两个连续的频带中心之间存在170个附加的Mel-频率点。在这种情况下，Mel-频率点的总数是171×23＝3933。对于F_s＝8000Hz，频带中心在Mel-频率量度上相距85.3，K＝85的选择提高了分辨率，所以连续的Mel频率点仅相距85.3/171＝0.499。需注意的是，IDCT的最左和最右的Mel-频率点并不对应于线性频率量度上的0和F_s/2(例如4000Hz)。对于我们的这个例子来说，最左的Mel-频率点在183.9-85×0.499＝141.48上，最右的Mel-频率点在2060.8+85×0.499＝2103.2上。在我们的例子中，在线性频率量度上的对应点分别是93.6Hz和3824.6Hz。一种处理IDCT频率范围未覆盖的频率的方法是使用最近的频率点，即将低于93.6Hz的频率分配给在93.6Hz上的频率点，类似地，将高于3824.6Hz的频率分配给在3824.6Hz上的频率点。另一种方法是使用某种内插法。

使用DCT自身的基本函数作为插值函数，较高分辨率的IDCT基本上内插在Mel-频带的中心频率之间。然而，并不必须执行一个3933点的IDCT。相反，为了便于在选定的频率点上计算IDCT，在步骤118可以使用下式可选择地预先计算一个12×3933矩阵L的IDCT值。

L_{i, j} = (\frac{2}{23}) \cos (\frac{(2 j + 1) * i * π}{2 * 23 * 171})

其中i＝1，2，……，12和j＝0，1，……，3932。对应于C0的第零行是隐含的，不需要存储，因为其数值对于所有的列都是1/23的常数。对应于C13至C22的行不需要存储，因为这些系数是不可使用的，并假定为零。

给出这个矩阵L以获得在任意给定Mel-频率上的对数频谱值，定位已经计算出IDCT的最近Mel-频率点，选择矩阵L的相应列矢量，并形成相应列和已修改的MFCC矢量[C0，C1，…，C12]之间的内积。因此，为了给谐波频率确定对数频谱值，例如，在步骤114定位最近的Mel-频率点，并选择矩阵L的相应列矢量。而且，在步骤116，形成已修改的MFCC矢量和在步骤114选择的矩阵L的列矢量之间的内积。

然后，在步骤120指数化转换后的系数以计算频谱幅值。

正弦语音声码器-合成器98在上述程序的控制下使用这些频谱幅值、帧能量的相关数据和同样由DSR/语音处理器92提取的其它数据(例如类型、音调周期和子帧能量)，作为具有不同频率、幅值和相位的多个正弦信号之和来重构语音。具体地说，合成器使用一个语音乘积的正弦模型来重构语音。

s (j) = \underset{k}{Σ} A_{k, j} \cos (Φ_{k, j})

其中作为多个谐波相关的幅值为A和相位为Φ的正弦曲线之和来合成语音抽样s(j)，j是抽样标号，k是谐波标号。

典型地，合成处理开始于在每帧中点上的频率、幅值和相位的计算。所使用的频率是音调频率以及可以使用音调周期计算出的它的谐波。所使用的幅值可以是谐波幅值，这可以使用上面讨论的方法所确定频谱幅值和与帧的中点相对应的子帧能量(或者是它的使用对数能量值的一个插值)来估计。例如对于非话音语音来说，幅值可以对应于不必等于谐波频率的一组频率，在这种情况下，可以使用上述方法的一般形式和对应于帧中点的子帧能量(或者是它的使用对数能量值的一个插值)来估计这些幅值。所计算的相位取决于类型参数。对于话音语音来说，计算相干相位。对于非话音语音来说，计算随机的非相干相位。对于混合话音语音来说，话音模型用于低频，而非话音模型用于高频。从模型化的相位中消除任意线性的相位分量。

一旦获得中点频率、幅值和相位值，就可以计算其它点上的幅值和相位。例如，一旦获得当前和前一话音帧中点上的幅值，就可以使用线性内插调整在这些点上的能量来计算子帧边界上的幅值。也可以使用线性内插来计算子帧内的幅值。通过允许相位根据频率线性地演变，可以计算在不同抽样标号上的谐波相位。允许频率在子帧边界上以从前一数值到当前数值相等的间距变化。使用线性相位校正因子(即轻微的频移)来解决这种演变所导致的任何相位不连续性。如果前一帧和当前帧的种类不同(例如一个话音，另一个是非话音)，或者两者都是话音帧但是音调周期完全不同，例如加倍，则分别合成这两个帧并在时域上叠加。

实例1

使用一个语音数据库，在8kHz的频率上抽样，使用一个m-IRS滤波器预处理，并包括32个句子对(4男+4女，每人四个句子对)。通过首先估计音调周期以确定谐波频率，然后从256点FFT的汉明窗口化语音中提取在这些频率上的幅值，从而为每个话音帧(20毫秒长)获得原始的谐波幅值。然后，完成上述的DSR编码方法以计算MFCC矢量。然后使用上面也已经描述过的根据本发明的方法来为来自每个其它MFCC矢量的每20毫秒的帧估计谐波幅值。将N个话音帧上的平均失真D计算为：

D = \frac{1}{N} Σ_{n = 1}^{n = N} Dn

其中第n个帧的失真由下式给出：

Dn = \sqrt{\frac{1}{Ki} Σ_{k = 1}^{k = Ki} [20 * \log_{10} (M_{k, n}) - 20 * \log_{10} ({\tilde{M}}_{k, n})]}

其中K是谐波数量，M_k，n和分别是原始和所估计的谐波幅值。首先为每个帧标准化原始和所估计的幅值以便它们的对数平均值为零。

结果在表1中示出，其中也体现了量化和截断的影响。

表1

所使用的输入参数	失真dB(N＝4768)
所使用的输入参数	失真dB(N＝4768)	13个MFCC值(量化的)	4.64
13个MFCC值(未量化的)	4.33	13个MFCC值(量化的)	4.64
13个MFCC值(未量化的)	4.33	23个MFCC值(未量化的)	3.80

实例2

为了估计根据本发明的方法的质量，还执行一个主观平均意见分(MOS)测试。为此目的使用在实例1中使用的同一语音数据库。在测试中总共包括32种情况。包括了几种MNRU的情况和编码标准作为参考，以确保跨越质量等级的整个范围。由一组32个自然听众根据5点量度：极差(1)、差(2)、中等(3)、好(4)和极好(5)来评估语音质量。在隔音室内执行测试，并通过一个单声道耳机来播放语音抽样。

MOS数量(在256投票上平均)如下：原始的未编码语音得分4.32。G726(32Kbps ADPCM)和G729(8Kbps CS-ACELP)标准分别得分3.65和3.89。MELP声码器(2400bps联邦标准)得分2.93。一种常规的2400bps声码器(使用一个14阶全极点模型来模型化幅值，使用一个4分割VQ来量化所述14阶全极点模型的模型参数(线性频谱频率))及其在2700bps上的20毫秒变化分别得分3.11和3.15。通过比较，使用子帧能量级别相关数据重构语音的本发明的一种实施例得分2.43，而不使用子帧能量级别相关数据的一种实施例得分2.26。

除了质量之外，还评估了可懂度。为了评估可懂度，执行一个(有限)诊断韵律测试(DRT)。在所述测试中由2个演讲者(1男1女)和8个(未训练的)听众口述标准的DRT测试词。在一个隔音室内执行所述测试，并通过一个单声道耳机重构语音抽样。

发现20毫秒版的常规声码器(2700bps)的(平均)整体可懂度是88。通过比较，发现使用子帧能量级别的实施例得分是82.8。

由实例1和实例2得出的结果是重构语音具有合理的质量和相当的可懂度。

总而言之，根据本发明的系统、方法和设备与标准ASR和DSR相比提供了若干优点。与ASR不同，根据本发明的系统、方法和设备克服了传输语音所导致的失真级别。与DSR不同，根据本发明的系统、方法和设备使重构语音能够被存储和/或验证。而且，通过将数据传输速率增加不超过大约10％至20％，根据本发明的系统、方法和设备使得能够根据本发明的一种优选实施例获得所述重构的语音。也就是说，通过利用已经被编码为DSR处理一部分的数据，根据本发明的系统、方法和设备使必须传输以在后端上提供重构语音的附加数据最小化。

通过研读说明书、附图和权利要求书将获得本发明的其它方面、目的和优点。

Claims

1.一种在第二通信设备上重构语音输入的方法，所述第二通信设备远离于第一通信设备并且与第一通信设备通信耦合，所述在第二通信设备上重构语音输入的方法包括步骤：

在第二通信设备接收由第一通信设备发送的编码数据，所述编码数据包括编码频谱数据和编码能量数据；

在第二通信设备处解码所述编码频谱数据和编码能量数据以确定所述频谱数据和能量数据，并从所述编码数据中提取语音识别参数；和

组合所述频谱数据和能量数据以在第二通信设备处重构所述语音输入，并且将所述语音识别参数与语音识别数据集进行匹配。

2.根据权利要求1的重构语音输入的方法，其中接收步骤包含接收包括编码为一系列Mel-频率倒谱系数的频谱数据的编码数据的步骤。

3.根据权利要求2的重构语音输入的方法，其中所述语音输入包括一个音调周期，且所述解码步骤包括步骤：

确定对应于所述音调周期的谐波Mel-频率；

对在所述谐波Mel-频率上的Mel-频率倒谱系数执行一个反离散余弦变换以确定在所述谐波Mel-频率上的语音输入的对数频率倒谱幅值；和

指数化所述对数频率倒谱幅值以确定所述语音输入的频谱幅值。

4.根据权利要求3的重构语音输入的方法，其中执行反离散余弦变换的步骤包括步骤：

确定一个包括多个列矢量的矩阵，每个列矢量对应于多个Mel-频率之一；

从所述矩阵中选择一个列矢量，它对应于多个Mel-频率中在数值上最接近于多个谐波Mel-频率之一的一个Mel-频率；和

形成在从所述系列的Mel-频率倒谱系数形成的一个行矢量和所选择的列矢量之间的一个内积。

5.根据权利要求2的重构语音输入的方法，其中所述解码步骤包括步骤：

确定对应于一组谐波频率的Mel-频率；和

对在所述Mel-频率上的Mel-频率倒谱系数执行一个反离散余弦变换以确定在所述Mel-频率上的语音输入的对数频率倒谱幅值。

6.根据权利要求1的重构语音输入的方法，其中：

所述接收步骤包括接收编码数据的步骤，所述编码数据包括编码的附加激励数据；

所述解码步骤包括解码编码的附加激励数据以确定所述附加激励数据的步骤；和

所述组合步骤包括组合所述频谱、能量和附加激励数据以重构语音输入的步骤。

7.根据权利要求6的重构语音输入的方法，其中所述解码步骤包括解码所述编码的附加激励数据以确定一个音调周期和一个话音类型的步骤。