CN1739143A

CN1739143A - 用于分布式语音识别系统内语音重构的方法和设备

Info

Publication number: CN1739143A
Application number: CNA2004800021854A
Authority: CN
Inventors: 滕卡斯·拉马巴德兰
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2003-01-14
Filing date: 2004-01-13
Publication date: 2006-02-22
Anticipated expiration: 2024-01-13
Also published as: KR20050092112A; WO2004066269A3; WO2004066269A2; EP1588354A4; RU2366007C2; RU2005125737A; US20040138888A1; US7027979B2; BRPI0406765B1; KR101059640B1; EP1588354B1; EP1588354A2; CN100371988C; BRPI0406765A

Abstract

这里提供了一种用于分布式语音识别系统内语音重构的方法和设备。丢失的MFCC被重构并且用于生成语音。特别的是，丢失的MFCC的部分恢复是通过采用在传输的音调周期P以及传输的MFCC上所丢失的MFCC的关系曲线来实现的。然后根据所传输并重构的MFCC获得调和幅度，并且利用这些幅度来重构所述语音。

Description

用于分布式语音识别系统内语音重构的方法和设备

技术领域

本发明总体上涉及语音重构，并且特别涉及一种用于分布式语音识别系统内语音重构的方法和设备。

背景技术

自动语音识别(ASR)是根据包括在语音波中的信息来自动识别口头命令属性的方法。ASR带来根据口头而不是物理关键的新一代安全装置，并且可以具有“不用手”和“解放手”的特征，诸如话音拨号和借助语音的信息检索。

在最高级别，所有ASR系统处理语音以便进行特征提取(亦称信号处理前端)和特征匹配(亦称信号处理后端)。特征提取是借此可以从语音输入中提取少量数据以便表示所述语音输入的方法。特征匹配是这样一种方法，借此通过把所提取的数据与已知数据集相比较来识别包含在所述语音输入中指令的种类。在标准ASR系统中，单个处理单元实现这两个功能。

然而与使用原始未修改的语音作为输入的ASR系统的性能相比较，使用例如经由移动或无线信道传输的语音作为输入的ASR系统的性能可能被明显退化。系统性能中的退化可能是由编码算法在传输语音中所引入的失真以及信道传输错误所导致的。

分布式语音识别(DSR)系统试图通过把特征提取与特征匹配分离，并且由处置在两个不同位置的两个不同的处理单元执行这两种方法，来校正由所传输的语音导致的系统性能退化。例如，在包括第一通信装置(例如，移动单元)和第二通信装置(例如，服务器)的DSR移动或无线通信系统或网络中，所述移动单元只执行特征提取，即，所述移动单元提取并编码来自语音输入的识别特征。然后所述移动单元经由错误保护数据信道把所编码的特征传输到服务器。所述服务器接收所编码的识别特征，并且只执行特征匹配，即，所述服务器把所编码的特征与已知数据集中的那些特征相匹配。

采用此方法，使编码失真最小化，并且传输信道错误，对识别系统性能只有很小的影响。此外，移动单元必须只执行相对计算花费不多的特征提取，而把更复杂、花费昂贵的特征匹配留给服务器。通过为服务器处理器保留越多计算复杂的活动，使移动单元处理器保持了更大的设计灵活性，其中处理器大小和速度最近通常更着重于部件的小型化。

欧洲电信通信标准协会(ETSI)最近公布了一种用于DSR特征提取和压缩算法的标准。欧洲电信标准协会标准ES 201108，语音处理、传输和质量方面(STQ)；分布式语音识别；前端特征提取算法；压缩算法，Ver 1.1.2，2000年4月(以下为“ETSI前端标准”)，在此全部引用以供参考。虽然存在诸如线性预测(LP)之类的多种方法用于编码来自语音输入的数据，但是ETSI前端标准包括特征提取算法，用于对于每一帧把所述语音输入提取并编码为对数能量值(log-energy value)和Mel-频率倒谱系数(Mel-frequency cepstralcoefficients，MFCC)序列。这些参数主要获取语音输入的光谱包围信息，并且通用于大多数的词汇语音识别器。ETSI前端标准还包括用于压缩(借助向量量化)和误码保护(循环冗余检验码)的算法。ETSI前端标准还描述了用于位流解码和信道误码调节的适当算法。在10ms的更新间隔并且外加同步和首部信息，数据传输速率算出是4800位/秒。

近年来，欧洲电信标准协会(ETSI)公布了另一用于DSR特征提取和压缩算法的标准。欧洲电信标准协会标准ES 202 050，语音处理、传输和质量方面(STQ)；分布式语音识别；高极前端特征提取算法；压缩算法，Ver 1.1.1，2002年7月(以下为“ETSI高级前端标准”)，在此全部引用以供参考。就提取的特征、位速率等而言，ETSI高极前端标准与ETSI前端标准十分相似，但却更加耐噪声。也就是说，ETSI高级前端标准在有噪声背景条件下提供了更好的性能。

概括地说，诸如依照ETSI前端标准(或ETSI高级前端标准)而设计的DSR系统，对于移动通信网络的实现给出了许多优点。这种系统可以向ASR系统提供等效的识别性能，但是带来了并入移动单元的低复杂性的前端以及对编码识别特征的传输的低带宽要求。

DSR系统具有如下缺陷：无法在后端为存储和/或验证的目的来利用原始语音输入。它将有助于使原始语音输入得以利用：(i)需要人类帮助的后端应用例如允许通过允许比较文档和原始语音输入来使用远程听写系统手动修正所生成的文档，或者当识别任务从DSR系统被移交给操作员时允许平稳过渡；(ii)例如预防性的存储合法地感测信息，以便在诸如签订安全定购的金融交易期间记录正确的说明；以及(iii)例如在数据库集合期间验证发言，以便依照批处理方式(特别是增量方式)来训练识别器以及系统调节。

另一方面，如果使用标准的ASR系统，那么可以在后端利用原始语音。然而，如上所述，当用于移动或者无线应用时，ASR具有明显的失真问题。为了解决此问题，公开号为2002/0147579的美国专利申请(将其合并于此，以供参考)提供一种使用正弦语音编码器在后端进行语音重构的方法。依照‘579申请，13个传输的MFCC(C₀-C₁₂)被变换为谐波幅度，所述谐波幅度被用于语音重构。

用于把MFCC变换为谐波幅度的上述技术可以相当好的工作。由正弦编码器使用这些变换的幅度来重构的语音具有高度的可理解性以及合理的质量。然而，很明显，如果所有23个MFCC值(C₀-C₂₂)都是有效的，而不是只有13个传输的值即C₀-C₁₂有效，那么重构性能(按照语音可理解性和质量)将会更好。因此，需要一种用于分布式语音识别系统内语音重构的方法和设备，其利用丢失的MFCC值来改善语音重构。

附图说明

图1是依照本发明优选实施例的分布式语音识别系统的框图。

图2是依照本发明优选实施例的图1的分布式语音识别系统的更加详细的框图。

图3是示出了依照发明优选实施例的MFCC重构器的操作的流程图。

图4是示出了依照本发明优选实施例的DSR/语音处理器的操作的流程图。

具体实施方式

为了解决上述需要，这里提供了一种用于分布式语音识别系统内语音重构的方法和设备。依照本发明的优选实施例，重构丢失的MFCC——特别是，通过采用在传输的音调周期P以及传输的MFCC上所丢失的MFCC的关系曲线来实现部分恢复所述丢失的MFCC。然后根据所传输并重构的MFCC获得谐波幅度，并且利用这些变换的幅度来重构所述语音。

因为利用所有MFCC(传输和重构的)来获得谐波幅度，所以改善了变换的谐波幅度的准确性。变换的谐波幅度的准确性的任何改善都相应地改善了重构语音的可理解性/质量。

本发明包含一种用于语音重构的方法。所述方法包括以下步骤：接收第一组Mel-频率倒谱系数(MFCC)，计算第二组MFCC，并且把所接收的和所计算的MFCC用于重构语音。

本发明还包含一种用于语音重构的方法。所述方法包括以下步骤：接收Mel-频率倒谱系数C₀-C₁₂，计算Mel-频率倒谱系数C₁₃-C₂₂，并且把系数C₀-C₂₂用于重构语音。

最后，本发明包含一种设备，所述设备包括用于接收第一组Mel-频率倒谱系数(MFCC)的接收机，用于计算第二组MFCC的MFCC重构器，以及把所接收的和所计算的MFCC用于重构语音的语音处理器。

现在转向附图，其中同样的数字指定相同的部件，图1是依照本发明优选实施例的通信系统100的框图。优选的是，通信系统100包括标准蜂窝式通信系统，诸如码分多址(CDMA)通信系统。虽然所述系统100最好是移动或无线射频通信系统，但是所述系统100可以是任何类型的通信系统，例如有线或无线系统或者使用不同于射频通信的通信方法的系统。

通信系统100包括移动通信装置101(诸如移动站)以及固定通信装置103(诸如基站)，通过使用射频传输与固定装置103通信的移动装置101。基站103又经由有线连接与服务器107通信，服务器107与远程站点109也这样通信。使用系统100，用户可以与远程站点通信，并且作为选择可以与用户相关联的远程站点109通信。

虽然在图1中只示出了一个移动装置101、固定装置103、服务器107和远程站点109，但是将意识到的是，所述系统100可以并且通常是包括与多个固定装置103通信的多个移动装置101、又与多个服务器107通信的固定装置103，服务器107又与多个远程站点109通信。为了便于说明，示出了单个移动装置101、固定装置103、服务器107和远程站点109，但是此处所述的本发明不由所示系统100的大小来限制。

通信系统100是一种如US2002/0147579所描述的分布式语音识别系统，其中所述US2002/0147579描述了分布式语音识别系统中的语音重构方法和设备。如‘579申请所描述的那样，移动装置101执行特征提取，而服务器107执行特征匹配。通信系统100还在服务器107提供重构的语音以便存储和/或验证。如上所述，在‘579申请中描述的通信系统使用多个传输的MFCC来产生用于语音重构的谐波幅度。虽然用于把MFCC变换为谐波幅度的技术可以相当好的工作，但是如果所有23个MFCC值(C₀-C₂₂)都是有效的，而不是只有13个传输的值即C₀-C₁₂有效时，重构性能(按照语音可理解性和质量)往往更好。为了解决此问题，在本发明的优选的实施例中，未传输的MFCC被重构并且通过利用未传输的重构MFCC以及传输的MFCC两者来产生谐波幅度。

图2是依照本发明优选实施例的图1的分布式语音识别系统的更加详细的框图。显然，所述分布式语音识别系统与‘579申请的分布式语音识别系统相似，除了添加了MFCC重构器219。

如图所示，移动装置101包括语音输入装置209(诸如麦克风)，其被耦合至DSR信号发生器207和语音编码器-分析器205。DSR信号发生器207提取与经由语音输入装置209接收的语音输入有关的频谱数据，并且生成表示所述频谱数据的编码信号。语音编码器-分析器205提取与所述语音输入有关的附加数据，其可用来在后端重构所述语音。

加法器203把来自于DSR信号发生器207的编码信号和由语音编码器-分析器205提取的附加数据组合为统一的信号，其被传递到耦合至加法器203的发射机201。发射机201是射频变送器或者收发机，不过作为根据本发明的方法，可以使用其他类型的通信系统，在这种情况下，往往会选择与所选系统兼容的发射机。

DSR信号发生器在依照ETSI前端标准设计的系统中如下来操作：所述语音输入例如以8000样品/秒和16位/样品的采样频率(Fs)由模拟到数字转换而成。所述数字化话音是传递至DC偏移去除滤波器，并且被分为重叠的帧。帧大小取决于采样频率。对于适应三个不同采样频率8、11和16千赫兹的ETSI前端标准来说，可能的帧大小分别是200、256和400。

帧能级被计算并且其自然对数被确定。作为结果产生的还称为对数能量值。然后，通过预加强滤波器传递帧化、数字化的话音信号以便加强高频率分量。然后窗口化每个语音帧(例如，使用汉明窗口)，并且使用快速傅里叶变换(FFT)将其转换到频率域。与帧大小相似，所使用的FFT大小取决于采样频率，例如256点FFT用于8和11千赫兹采样频率，而512点FFT用于16千赫兹采样频率。

然后由被称为Mel-过滤的过程来把64赫兹和Fs/2(例如，对于8千赫兹的采样频率来说是4千赫兹)之间频率范围内的FFT幅度变换到Mel-频率域。因为心理物理学的研究已经表明：人们对语音信号的声音的频率成分的感知不按照线性比例，故而需要执行向Mel-频率域的变换。因此，当以赫兹来测量时，对于具有实际频率f的每个音调来说，主观的音调可以被基于第二比例来表示，将其称为Mel-频率比例。

所述Mel-过滤处理如下。首先，使用如下表达式把频率范围(例如，64赫兹至4000赫兹)变形为Mel-频率比例，所述表达式为：

Mel (f) = 2595.0 * lo g_{10} (1 + \frac{f}{700.0}) .

使用此公式，例如对应于64赫兹和4000赫兹的频率的Mel-频率分别是98.6和2146.1。此Mel-频率范围然后被分为23个大小相等的、半重叠频带(亦称信道或者bins)，每个频带170.6宽并且每个频带的中心85.3分开。第一频带的中心位于98.6+85.3＝183.9，而最后频带的中心位于2146.1-85.3＝2060.8。在Mel-频率域中大小相等的这些频带对应于线性频率域中大小不相等的频带，其中所述线性频率域中频带的大小沿频率轴增大。然后，使用三角形加权窗口(具有位于等于1.0的中心处以及位于等于0.0的二者结束处的权重)来平均(过滤)落入每个频带内部的FFT幅度。然后，过滤的频带输出经过自然对数运算。

然后，借助于23点DCT(Discrete Cosine Transform，离散余弦变换)把生成的23个对数频谱值变换为对数域。应该注意的是，只有最初的13个值(C₀至C₁₂)被计算，剩余十个值(C₁₃至C₂₂)被丢弃，即，不计算。然后，所述帧对数能量和13个倒谱值(也称为Mel-频率倒谱系数，或者MFCC)被压缩(量化)并且传输给固定装置107。对于根据ETSI前端标准操作的通信系统100来说，所述MFCC和对数能量值每10毫秒被更新。

如上所述，语音编码器-分析器205也接收所述语音输入。特别的是，语音编码器-分析器205分析所述输入以便确定与所述语音输入有关的其他数据，除从DSR编码语音推导出来的数据以外，所述这些数据可以由服务器107使用来重构所述语音。由语音编码器-分析器205提取的准确数据取决于与服务器107相关联的语音编码器的特性，其中所述服务器107将合成重构的语音。例如，代码触发线性预测(CELP)的语音编码器要求为语音的每个子帧预备代码本。对于参数化法的语音编码器(例如，正弦语音编码器)来说，可以要求附加的激励数据，诸如分类(发声、无声等等)，并且还可以要求音调周期以及高分辨率的能量数据，诸如子帧能级。

人们将意识到的是，当位速率被减小到大约4800bps以下时，由CELP编码员合成的语音质量快速地下降。另一方面，参数化法的语音编码器在低位速率时提供合理的语音质量。由于DSR系统的其中一个主要要求就是低数据传输速率，所以参数化法的语音编码器、特别是正弦语音编码器将被通常用于服务器107。因此，根据本发明的优选实施例，语音编码器-分析器205为每个语音帧确定分类、音调周期和子帧能量数据，不过作为选择，所述子帧能量数据可以被忽略，这是因为子帧能量可以通过根据对数能量值内插来加以计算。

语音编码器-分析器205最好对近似20毫秒的帧大小进行操作，即，每20毫秒传输参数一次。在每一帧中，2位用于所述分类参数，即，用于指明所述帧是无语音、发声、无声、混合发声等等。所述语音/无语音分类最好使用基于能量的发声活动检测器(VAD)来进行，同时，发声级别的确定基于包括周期性的相关性(在等于音调周期的滞后时规范化相关性)、周期性的能量比(不相关的能量和原始帧的比率)、以及高频能量比的多个特征。对于55赫兹至420赫兹左右的典型音调频率范围来说，用于提供与谐波频率有关的信息的音调周期参数通常可以使用额外的7位来表示。所述音调周期最好使用低通滤波语音的时域相关分析来进行估计。如果高分辨率的能量数据，例如子帧能量参数将要被传输，那么这可以使用额外的8位来实现。在对数域中通过4维VQ来量化子帧能量，无语音以及无声语音帧的能量经由子帧(每一帧4个子帧)来计算，并且发声帧的能量经由音调周期来计算。作为选择，可以把所述子帧能量与对数能量值结合以便减少位速率。

假定每20毫秒传输分类、音调周期以及子帧能量值，即，如果使用ETSI标准制式，那么每两个DSR帧一次，故而数据传输速率将会增加到近似800至850bps。如果额外的能量数据没有被传输，那么可以把仅仅450bps添加到数据传输速率。

现在参照图2的右半部来讨论服务器107的详细结构。接收机211(其是无线电频率(RF)接收机)被耦合至常规的DSR参数提取器213以及MFCC重构器219。所述DSR参数提取器213被耦合至常规的DSR处理器215以及常规的语音识别器217，以便把编码数据与已知数据集进行比较，而MFCC重构器219被耦合至DSR/语音处理器221，其又被耦合至语音编码器-合成器223(如预先表明的那样，最好是正弦语音编码器-合成器)以及语言输出(例如，扬声器)225。

在操作期间，接收机211接收音调周期P以及传输的MFCC，C₀-C₁₂。这些被传递至MFCC重构器219，在MFCC重构器219中，未传输的MFCC被重构。准确恢复丢失的系数是不可能的。然而，可以通过对传输的音调周期P以及对传输的MFCC、即C₀-C₁₂采用丢失的MFCC(在该情况下是C₁₃-C₂₂)的关系曲线来实现局部的恢复。在第一实施例中，使用查找表是生成丢失的MFCC。

为了采用丢失的MFCC以及音调周期之间的关系曲线，为数据库内的每个“发生”帧，使用语音信号的大型数据库来提取相关信息(音调周期以及丢失的MFCC)。然后，把音调周期范围[P_MIN，P_MAX]分为不同分组G₁、G₂、...、G_M，并且对应于每一分组的丢失的MFCC向量是独立的。然后计算并且存储对应于每一分组的丢失的MFCC向量的平均数。这些平均向量D₁、D₂、...、D_M(维数10)表示与音调周期有关的部分恢复的丢失的MFCC。在实际操作中，即，在后端进行语音重构期间，所述音调周期P用于识别适当的分组G_m，并且把对应(预存)的平均向量D_m用于丢失的MFCC值C₁₃-C₂₂。然后，把所有MFCC值(实际的并且生成的)传递至DSR/语音处理器221。

DSR/语音处理器221包括用于控制DSR/语音处理器221来确定并且解码DSR编码的频谱数据、尤其是谐波幅度的程序。首先，把对应于预加强滤波器的脉冲响应的MFCC值从所接收的MFCC值中减去，以便去除预加强滤波器的影响以及Mel-滤波器的影响。然后，所述MFCC值被反向以便为每个期望的谐波频率计算对数频谱值。然后所述对数-频谱值被指数化以便获得所述谐波的频谱幅度。通常，每20毫秒执行这些步骤，不过可以更加频繁地进行所述计算，例如每10毫秒一次。

图3是示出了依照本发明优选实施例的图2的MFCC重构器的操作的流程图。所述逻辑流程从步骤301开始，在该步骤中，接收第一组MFCC值。如上所述，只有最初的13个值(C₀至C₁₂)被传输给接收机211，剩余十个值(C₁₃至C₂₂)通过移动单元101被丢弃。在步骤303，MFCC重构器219计算丢失的MFCC值。最后，在步骤305，MFCC重构器219把接收到的MFCC值(C₀至C₁₂)与计算的MFCC值(C₁₃至C₂₂)相结合，以便生成全长的MFCC向量(C₀至C₂₂)并且将其反馈到DSR/语音处理器221。

图4是示出了依照本发明优选实施例的DSR/语音处理器221的操作的流程图。所述逻辑流程从步骤401开始，其中接收传输的MFCC值(C₀-C₁₂)和重构的MFCC值(C₁₃-C₂₂)。在步骤403，把对应于预加强滤波器的脉冲响应的MFCC值C₀-C₂₂从接收到的MFCC值中减去，以便主要去除预加强滤波器的影响。作为选择，可以通过把谐波频率的频谱幅度除处于该谐波频率的预加强滤波器的脉冲响应，由此作为最后步骤来去除预加强滤波器的影响。然而，除所述预加强滤波器以外，由于频带的宽度沿线性频率轴增大，所以Mel-滤波器加强了更高的频率。处于任何频带中心的Mel-滤波器脉冲响应可以适应相应频带的宽度，并且对于任意其他频率而言，都可以使用内插值。通过计算预加强滤波器和Mel-滤波器的组合脉冲响应，可以通过使谐波频率的频谱幅度除处于该相应谐波频率的组合脉冲响应来在单个步骤中去除两个滤波器的影响。所述步骤403实现了相同的结果。

然后，预加强滤波器和Mel-滤波器的影响被去除的修改后的MFCC值可用来根据如下步骤估计频谱幅度。在步骤405确定对应于所述谐波频率的Mel-频率(可由音调周期推导出来)。然后，对处于谐波Mel-频率的修改的MFCC值执行离散余弦反变换(IDCT)，以便把倒谱系数变换为对数-频谱值，步骤407、409。

也就是说，除了由MFCC值C0至C12中的量化误差引起的失真和MFCC值C13至C22的重构丢失的，MFCC值C0至C22的23点IDCT往往恢复原始的23个对数-频谱值。然而，这些对数-频谱值对应于23个频带的中心。需要处于其他频率的对数-频谱值来确定谐波频率的变换MFCC值。

为了增大采样分辨率，IDCT大小可以被增加23的奇数倍，也就是(2K+1)×23，其中K＞0。这在对应于频带中心的23个原始Mel-频率的两侧上都引入了K个额外的Mel-频率点。例如，如果K＝85，那么对于第一频带中心的左边和最后(即，第23个)频带中心的右边存在85个额外的Mel-频率点，并且在两个连续的频带中心之间存在170个额外的Mel-频率点。在该情况下，Mel-频率点的总数是171×23＝3933。对于F_s＝8000赫兹来说，依照Mel-频率比例把频带的中心以85.3分开，并且选择K＝85增加了分辩率，如此使得连续的Mel-频率点只以0.499分开。重要的是，应注意，依照线性频率比例，所述IDCT的最左边和最右边的Mel-频率点不对应于0和F_s/2(例如，4000赫兹)。对于我们的例子而言，最左边的Mel-频率点处于183.9-85×0.499＝141.48，而最右边Mel-频率点处于2060.8+85×0.499＝2103.2。依照线性频率比例的对应点分别是93.6赫兹和3824.6赫兹。处理没有由IDCT频率范围覆盖的频率的一种方式是使用最接近的频率点，即，为处于93.6赫兹的频率点分配93.6赫兹以下的频率，并且类似地，为处于3824.6赫兹的频率分配3824.6赫兹以上的频率。迭代法将使用某些类型的内插。

高分辨率IDCT主要在Mel-频率频带中心之间使用DCT基函数本身作为插值函数来进行内插。然而，不必执行3933点IDCT。相反，为了简化IDCT在所选频率点的计算，作为选择，IDCT值的12×3933矩阵L可以在步骤408使用如下公式被预先计算，所述公式为：

L_{i, j} = (\frac{2}{23}) \cos (\frac{(2 j + 1) * i * π}{2 * 23 * 171}),

其中i＝1，2，...，12并且j＝0，1，…，3932。对应于C₀的第0行是隐含的并且无须被存储，这是由于其值对于所有列来说在1/23是常量。考虑此矩阵L，为了获得处于任何给定Mel-频率的对数频谱价值，定位已经计算了IDCT的最接近Mel-频率点，选择矩阵L的相应的列向量，并且形成相应列和修改的MFCC向量[C₀，C₁，...，C₂₂]之间的内积。因此，为了确定谐波频率的对数-频谱值，例如，在步骤407，定位最接近的Mel-频率点并且选择矩阵L的相应列向量。此外，在步骤409，在修改的MFCC向量和在步骤407选择的矩阵L的列向量之间形成内积。然后，变换的系数被指数化以便在步骤411计算频谱幅度。

正弦语音编码器-合成器223使用这些频谱幅度，以及涉及帧能量的数据以及在先前提及的程序的控制下由DSR/语音处理器221提取的其他数据(诸如分类、音调周期和子帧能量)作为多个正弦信号与不同频率、幅度和相位的和，来重构所述语音。特别的是，所述合成器使用语音产生的正弦模型来重构语音：

s (j) = \underset{k}{Σ} Ak, j \cos (Φk, j)

其中所述语音采样s(j)被合成作为多个调谐涉及的正弦曲线的和，其中幅度为A_k，j并且相位为φ_k,j，j是采样索引并且k是谐波指数。

通常，合成过程从处于每一帧中点的频率、幅度和相位的计算开始。所使用的频率是音调频率及其谐波，其可以使用音调周期来被计算。所使用的幅度可以是谐波振幅，其可以使用频谱幅度和对应于帧中点的子帧能量(或者使用对数能力值的其内插)来被估计，其中所述幅度是使用上述方法来确定的。作为选择，例如对于无声语音来说，所述幅度可能对应于未必和谐波频率一致的一组频率，在这种情况下，这些幅度可以使用如上所述方法的一般形式和对应于帧中点的子帧能量(或者使用对数能量值的其内插)来被估计。所计算的相位取决于分类参数。对于发声语音来说，相关相位被计算。对于无声语音来说，随机、不相关的相位被计算。对于混合发声语音来说，把发声模型用于更低频率而把无声模型用于更高频率。任何线性相位分量被从建模的相位上去除。

只要中点频率、幅度和相位值是已知的，处于其他点的幅度和相位就可以被计算。例如，只要处于当前和先前发生帧的中点的幅度是已知的，那么就可以使用线性内插来计算处于子帧边界的幅度，同时调节处于这些点的能量。子帧中的幅度还可以使用线性内插被计算。处于不同采样指数的谐波相位可以通过允许相位根据频率线性地展开来计算。在同等步骤中，所述频率被允许在子帧边界处从先前值改变为当前值。使用线性相位校正因数(即，微小的频率移位)来解决高出此展开的任何相位间断。如果先前和当前帧属于不同的分类(例如，一个是发生的而另一个是无声的)，或者两个都是发生的，但是音调周期完全不同，例如，是两倍，那么在所述时域独立地并且交叠相加的合成两个帧。

虽然已经参照特定的实施例示出并且描述了本发明，但是本领域技术人员将理解的是，在不脱离本发明的精神和范围的情况下，可以对其做出形式上和细节上的各种改变。例如，虽然利用音调周期和查找表开推导未传输的MFCC，但是依照本发明的替代的实施例，可以依照多种方式来推导未传输的MFCC。例如，可以对丢失的MFCC使用单个、预存向量。特别的是，对应于大型语音数据库的“发声”帧的维数10(C₁₃至C₂₂)的丢失的MFCC向量的平均数可以在语音重构期间被离线计算、预存并且用于丢失的MFCC。

另外，丢失的MFCC可以根据传输的MFCC推导出。特别的是，传输的(C₀至C₁₂)MFCC值(其已经被量化)、以及来自于大型语音数据库的所有“发声”帧的丢失的(C₁₃至C₂₂)MFCC值(其没有量化)可以被收集，并且被划分为适当数目的分组H₁，H₂，...，H_K。此分组类似于矢量量化器中的“voronoi”区域，并且根据最初的13个MFCC值(C₀至C₁₂)来使用欧几里德(Euclidean)距离测量。也就是说，当且仅当13维子向量(C₀至C₁₂)比起任何其他分组的质心更加接近(根据欧几里德距离测量)所述分组的质心(通过获得属于所述分组的所有13维子向量的平均数来形成)时，MFCC向量(C₀至C₂₂)属于分组H_k。可以使用类似于矢量量化器的设计的技术来形成这些分组。由于第一MFCC值C₀近似表示所述帧的能量，并且也许不具有涉及丢失的MFCC的任何有用信息，所以考虑到分组的形成，可以将其省略——也就是说，我们可以使用12维子向量(C₁至C₁₂)而不是13维子向量(C₀至C₁₂)来形成分组。一旦已经形成分组，对应于每一分组中所有向量的DSR系统中的丢失的MFCC值的10维子向量(C₁₃至C₂₂)的平均数可以被计算并且预存为E₁，E₂，...，E_K。对于处于DSR系统后端的语音重构来说，为特定的帧给出传输的MFCC值(C₀至C₁₂)，我们首先找出它属于哪个特定分组(即Hk)，然后使用相应的均值向量Ek来代替丢失的MFCC值(C₁₃至C₂₂)。在选择丢失的MFCC值的过程中使用传输的MFCC值的此技术可以与基于音调周期的早先提及的选择技术结合。也就是说，我们首先使用音调周期范围来形成来自于大型语音数据库的所有“发声”帧的23维向量(C₀至C₂₂)的适当分组G₁，G₂，...，G_M，然后进一步基于传输的MFCC值来子分割这些分组的每一个。例如，所述分组G_m将根据传输的MFCC值(C₀至C₁₂)被子分为分组G_m，1，G_m，2，...，G_m，K。对应于总和M×K的所有子分组的C₁₃至C₂₂的10维均值向量被预先计算并且存储。在语音重构期间，音调周期值P和传输的MFCC值(C₀至C₁₂)都被用于选择适当的预存向量以便代替丢失的MFCC值(C₁₃至C₂₂)。这种改变都意欲归入如下的权利要求的范围之内。

Claims

1.一种用于语音重构的方法，所述方法包括如下步骤：

接收第一组Mel-频率倒谱系数(MFCC)；

计算第二组MFCC；并且

利用所接收的以及所计算的MFCC来重构语音。

2.如权利要求1所述的方法，其中利用所接收的以及所计算的MFCC来构成语音的步骤包括以下步骤：

把所接收的以及所计算的MFCC变换为谐波幅度；以及

利用所述谐波幅度来重构语音。

3.如权利要求1所述的方法，其中接收第一组MFCC的步骤包括接收系数C₀-C₁₂的步骤。

4.如权利要求3所述的方法，其中计算第二组MFCC的步骤包括计算系数C₁₃至C₂₂的步骤。

5.如权利要求4所述的方法，其中利用所接收的以及所计算的MFCC来构成语音的步骤包括以下步骤：

把系数C₀至C₂₂变换为谐波幅度；以及

利用所述谐波幅度来重构语音。

6.如权利要求1所述的方法，其中接收第一组MFCC的步骤包括经由空中通信链路来接收第一组MFCC的步骤。

7.如权利要求1所述的方法，还包括如下步骤：

接收音调周期以及第一组MFCC。

8.一种设备，包括：

接收机，用于接收第一组Mel-频率倒谱系数(MFCC)；

MFCC重构器，用于计算第二组MFCC；以及

语音处理器，用于利用所接收的以及所计算的MFCC来重构语音。

9.如权利要求8所述的设备，其中所述接收机是无线电频率(RF)接收机。

10.如权利要求8所述的设备，其中：

第一组MFCC包括系数C₀-C₁₂；以及

第二组MFCC包括系数C₁₃-C₂₂。