CN1331825A - 周期性语音编码法 - Google Patents

周期性语音编码法 Download PDF

Info

Publication number
CN1331825A
CN1331825A CN99814821A CN99814821A CN1331825A CN 1331825 A CN1331825 A CN 1331825A CN 99814821 A CN99814821 A CN 99814821A CN 99814821 A CN99814821 A CN 99814821A CN 1331825 A CN1331825 A CN 1331825A
Authority
CN
China
Prior art keywords
prototype
last
current
reconstruction
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99814821A
Other languages
English (en)
Other versions
CN1242380C (zh
Inventor
S·曼朱纳什
W·加德纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN1331825A publication Critical patent/CN1331825A/zh
Application granted granted Critical
Publication of CN1242380C publication Critical patent/CN1242380C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

本发明提供了一种准周期语音信号的编码方法和设备。语音信号由用线性预测编码(LPC)分析滤波器对语音信号滤波而产生的剩余信号代表。从剩余信号的当前帧里提取当前原型而对剩余信号编码。计算第一组参数,该组参数描述如何将前一原型修改成使所述更新的前一原型接近于所述当前原型。从第一代码簿中选择一个或多个代码矢量,其中所述代码矢量相加时接近于所述当前原型与所述更新的前一原型之差,而且其中所述代码矢量用第二组参数描述。根据所述第一与第二组参数重建当前原型。在所述当前重建的原型与前一重建的原型之间的区域内插剩余信号。根据所述内插的剩余信号合成输出语音信号。

Description

周期性语音编码法
发明背景
I、发明领域
本发明涉及语音信号编码。具体而言,本发明涉及通过只量化信号的原型部分而对准周期性语音信号编码。
II、相关技术的说明
当今的许多通信系统,特别是远距与数字无线电话应用中,都把话音当作数字信号发射。这类系统的性能部分取决于以最少的位数精确地代表话音信号。简单地通过采样与数字化来发送语音,为了达到普通模拟电话的语音质量,要求数据速率为每秒64kb(kbps)。然而,现有的编码技术可明显减少正常语音再现所需的数据速率。
术语“声码器”一般指根据人类语音发生模型通过提取诸参数来压缩发出的语音的装置。声码器包括编码器与解码器,编码器分析送入的语音并提取相关的参数,解码器用经传输信道接收自编码器的诸参数合成语音。通常把语音信号分成几帧数据与字块供声码器处理。
声码器建立垢基于线性预测的时域编码方案,在数量上远远超过了其它各类编码器。这类技术从语音信号里提取诸相关的单元,只编码不相关的单元。基本的线性预测滤波器预测的当前样本作为过去样本的一种线性组合。Thomas E.Tremain等人撰写的论文“一种4.8kbps码受激线性预测编码器”(移动卫星会议录,1998),描术了一例这类特定的编码算法。
这类编码方案除去语音中固有的所有自然冗余度(即相关单元),把数字化语音信号压缩成低位速率信号。许语一般呈现出唇与舌的机械动作造成的短期冗余度和声带振动造成的长期冗余度。线性预测方案把这些动作模拟成滤波器,除去冗余度,再将得到的剩余编码器通过发送滤波器系数和量化噪声而不是发送全带宽的语音信号,可以减小位速率。
然而,即使是这些减小的位速率,也往往超过了有效带宽,其中语音信号必须远距离传播(如地面到卫星),或在拥挤的信道中与许多其它信号共存。因此,要求有一种改进的编码方案,以实现比线性预测方案更低的位速率。
发明内容
本发明是一种编码准周期性语音信号的新颖改进方法。语音信号表示为用线性预测编码(LPC)分析滤波器滤波语音信号而产生的剩余信号,通过从其当前帧中提取原型周期而编码。算出单一组参数,该组参数描绘如何将前一个原型周期更新到接近当前原型周期。选择一个或多个代模矢量,相加时,接近当前原型删期与被修改的前一原型周期之差。第二组参数描绘这些选择的代码矢量。解码器根据第一与第二组参数至建当前原型周期,合成输出语音信号。然后,将剩余信号内插在当前重建的原型周期与前一重建的原型周期之间的区域上,解码器根据该内插的剩余信号合成输出语音。
本发明的一个特征是用原型周期代表并重建语音信号。编码原型周期而不是整个语音信号,减小了要求的位速率,由此转换成更高的容量,更大的距离与更小的功率要求。
本发明的另一特征是把过去原型周期用作当前原型周期的预测器。对当前原型周期与优化旋转缩放的前一原型周期之差作编码与发送,进一步减小了要求的位速率。
本发明的再一特征是解码器根据连续原型周期的加权平均和平均滞后,在连续重建的原型周期之间作内插,重建剩余信号。
本发明的又一特征是用多级代码簿对发送的误差矢量编码,代码簿可有效地存贮和搜索代码数据。为达到期望的精度等级,另可加级。
本发明的再一特征是用弯曲器有效地改变第一信号的长度以与第二信号长度匹配,其中编码操作要求两信号同长。
本发明的还有一个特征是提取的原型周期须经“无切割”区,避免了输出因沿帧边界分割高能区而造成不连续。
通过以下结合附图所作的详述,本发明的特征、目的和优点将更清楚,图中用同样的标号表示同样或功能上类拟的元件。另外,标号最左边的数字表示首次出现该标号的图。
附图概述
图1是表示信号传输环境的图;
图2是详细示出编码器102和解码器104的图;
图3是表示本发明可变速率语音编码的流程图;
图4A是表示一帧话音语音分割为若干子帧的图;
图4B是表示一帧非话音语音分割为若干子帧的图;
图4C是表示一帧过渡语音分为若干子帧的图;
图5是描绘原始参数计算的流程图;
图6是描绘语音分类为有效或无效的流程图;
图7A是表示CELP编码器的图;
图7B是表示CELP解码器的图;
图8是表示音调滤波器模块的图;
图9A是表示PPP编码器的图;
图9B是表示PPP解码器的图;
图10是表示PPP编码法(包括编解码)步骤的流程图;
图11是措述原型剩余周期提取流程图;
图12是示出从当前帧剩余信号提取的原型剩余周期和从前一帧提取的原型剩余周期的图;
图13是计算旋转参数的流程图;
图14是表明编码代码簿工作的流程图;
图15A是表示第一滤波器更新模块实施例的图;
图15B是表示第一周期内插器模块实施例的图;
图16A是表示第二滤波器更新模块实施例的图;
图16B是表示第二周期内插器模块实施例的图;
图17是描述第一滤波器更新模块实施例的工作的流程图;
图18是描述第二滤波器更模块实施例的工作的流程图;
图19是描述原型剩余周期对准与内插的流程图;
图20是描述第一实施例根据原型剩余周期重建语音信号的流程图;
图21是描述第二实施例根据原型剩余周期重建语音信号的流程图;
图22A是表示NELP编码器的图;
图22B是表示NELP解码器的图;和
图23是描述NELP编码法的流程图。
本发明的较件实施方式
I.环境概述
II.发明概述
III.原始参数确定
A.计算LPC系数
B.LSI计算
C.NACF计算
D.音调轨迹与滞后计算
E.计算带能与零交叉率
F.计算元音共振峰(formant)余量
IV.有效/无效语音分类
A.拖尾(hangover)帧
V.有效语音帧分类
VI.编码器/解码器模式选择
VII.代码受激的线性预测(CELP)编码模式
A.音调编码模块
B.编码代码簿
C.CELP解码器
D.滤波器更新模块
VIII.原型音调周期(PPP)编码模式
A.提取模式
B.旋转相关器
C.编码代码簿
D.滤波器更新模块
E.PPP解码器
F.周期内插器
IX.噪声激励的线性预测(NELP)编码模式
X.结论。
I.环境概述
要发明针对可变速率语音编码的新颖改进的方法和设备。图1示出信号传输环境100,它包括编码器102、解码器104和信号传输媒体106。编码器102对语音信号s(n)编码,形成的编码语音信号senc(n)通过传输媒体106传输给解码器104,后者对senc(n)解码而生成合成的语音信号(n)。
这里的“编码”一般指包括编码二者的方法。一般而言,编码方法和设备试图将通过传输媒体106发送的位数减至最少(即将senc(n)的带宽减至最少),同时保持可接受的语音再现(即(n)≈s(n))。编码语音信号的成分随具体的语音编码方法而不同。下面描述根据它们工作的各种编码器102、解码器104和编码方法。
下述编码器102和解码器104的元件,可用电子硬件,计算机软件或二者的组合构成,下面按其功能描述这些元件。功能用硬件实施还是用软件实施,将取决于具体应用和对整个系统的设计限制性。熟练的技术人员应该知道硬软件在这些场合中的互换性以及如何最佳地实施对每个具体应用描述的功能。
本领域的技术人员应明白,传输媒体106可以代表许多不同的传输媒体,包括(但不限于)陆基通信线路、基站与卫星间的链路、蜂窝电话与基站或蜂窝电话与卫星间的无线通信。
本领域的技术人员还将明白,通信的每一方通常都作发射与接收,因此每一方都要求有编码器102和解码器104。然而,下面将把信号传输环境100描述成在传输媒体106的一端包括编码器102,另一端包括解码器104。技术人员将容易明白如何将这些设想扩展到双向通信。
为了进行描述,假定s(n)是在一般交谈中得到的数字语音信号,交谈包括不同的语音发声与静寂周期。语音信号s(n)最好分成若干帧,每个帧又分成若干子帧(最好为4个)。在作字快处理时,如在本文情况下,一般应用这些任意选择的帧/子帧边界,对帧叙述的操作也适用于子帧,在这方面帧与子帧在这里可互换使用。然而,若是连续处理而不是字块处理,s(n)就根本无须分为帧/子帧。技术人员很容易明白如何将下述的字块技术扩展到连续处理。
在一较佳实施例中,s(n)以8kHz作数字采样。每帧最好含20ms数据,即在8kHz速率下为160个样本,所以各子帧含40个数据样本。要着重指出,下面的许多公式都假设了这些值。然而,技术人员将明白,虽然这些参数适合语音编码,但是仅仅为了示例,可以应用其它合适的替代参数。
II.发明概述
本发明的方法和设备涉及到编码与语音信号s(n)。图2详细示出了编码器102和解码器104。根据本发明,编码器102包括原始参数计算模块202,分类模块208和一种或多种编码器模式204。解码器104包括一种或多种解码器模式206。解码器模式数Nd一般等于编码器模式数Ne。如技术人员所知,编码器模式,与解码器模式1相联系,其它依次类推。如图所示,编码的语音信号senc(n)通过传输媒体106发送。
在一较佳实施例中,根据哪一模式最适合当前帧规定的s(n)特性,编码器102在各帧的多个编码器模式之间作动态切换,解码器104也在各帧的相应解码器模式之间作动态切换。对每一帧选择一具体模式,以获得最低位速率并保持解码器可接受的信号再现。这一过程称为可变速率语音编码,因为编码器的位速率随时间而变化(作为信号变化的特点)。
图3是流程图300,描述了本发明的可变速率语音编码法。在步骤302,原始参数计算模块202根据当前帧的数据计算各种参数。在一较佳实施例中,这些参数包括下列参数之一或几个:线性预测编码(LPC)滤波器系数、线路谱信息(LSI)系数、归一化自相关函数(MACF)、开环滞后、带能、零交叉速率和元音共振峰分剩余信号。
在步骤304、分类模块208把当前帧分为含“有效”或“无效”的语音。如上所述,s(n)假定对普通谈话包括语音周期与静寂周期。有效语音包括说出的单词,而无效语音包括其它任何内容,如背景噪声、静寂、间歇。下面详细描述本发明把语音分为有效/无效的方法。
如图3所示,步骤306研究当前帧在步骤304是否被分为有效或无效,若有效,控制流程进到步骤308;若无效,控制流程进到步骤310。
被分为有效的帧在步骤308再分为话音帧、非话音帧或过渡帧。技术人员应明白,人类语音可用多种不同的方法分类。两种常用的语音分类是话音声与非话音声。根据本发明,把非话音语音都归为过渡语音。
图4A示出一例含话音语音402的s(n)部分。产生话音声时,迫使空气通过喉门并调节声带的紧度,以松驰振荡方式振动,由此产生激发发音系统的准周期空气脉冲。话音语音测出的一个共同特性是图4A所示的音调周期。
图4B示出一例含非话音语音404的s(n)部分。产生非话音时,在发音系统的某一点形成收缩部(通常朝向嘴端),迫使空气以足够高的速度通过该收缩部而产生扰动,得到的非话音语音信号类似于有色噪声。
图4C示出一例含过渡语音406(即既不是话音也不是非话音的语音)的s(n)部分。图4C列举的过渡语音406可以代表s(n)在非话音语音与话音语音音的转变。技术人员将明白,可根据这里描述的技术应用多种不同的语音分类获得到可比的结果。
在步骤310,根据步骤306和308作出的帧分类,选择编码器/解码器模式。各种编/解码器模式平行连接,如图2所示,一种或多种此类模式可在规定时间工作。但如下所述,最好在规定时间只有一种模式工作,并按当前帧分类选择。
以下几段描述几种编/解码器模式。不同的编/解码器模式按不同的编码方案工作。有些模式在语音信号s(n)呈现某些特点的编码部分更为有效。
在一较佳实施例中,对分类为过渡语音的代码帧选用“代码受激线性预测”(CELP)模式,该模式用量化型线性预测剩余信号激发线性预测发音系统模型。这里描述的所有编/解码器模式中,CELP通常产生最准确的语音再现,但要求最高的位速率。
对分类为话音语音的代码帧,最好选用“原型音调周期”(PPP)模式。话音语音包含可被PPP模式利用的慢时变周期分量。PPP模式只对每帧内音调周期的子组编码。语音信号的其余周期通过这些原型周期间的内插而重建。利用话音语音的周期性,PPP能实现比CELP更低的位速率。且仍能以感性的精确方式再现该语音信号。
对分类为非话音语音的代码帧,可选用“噪声受激线性预测”(CELP)模式,它用经滤波的伪随机噪声信号模拟非话音语音。NELP对编码语音应用最简单的模型,所以位速率最低。
同一种编码技术能以不同的位速率频繁地工作,性能级别不同。因此,图2中不同的编码器/解码器模式可代表不同的编码技术的相同编码技术,或上述情况相组合。技术人员应明白,增加编/解码器模式数量,选择模式更灵活,且能导致更低的平均位速率,不过整个系统会更复杂。在指定系统中应用的具体组合,将决定于现有的系统资源与特定的信号环境。
在步骤312,选用的编码器模式204对当前帧编码,最好将编码的数据装入数据包传输。在步骤314,对应的解码器模式206打开数据包,对收到的数据解码并重建该语音信号。下面针对合适的编/解码器模式详细描述这些操作。
III.原始参数确定
图5是更详细说明步骤302的流程图。各种原始参数按本发明计算。这些参数最好包括如LPC系数、线路谱信息(LSI)系数、归一化自相关函数(NACF)、开环滞后、带能、零交叉速率和元音共振峰剩余信号,这些参数在整个系统内按各种方式使用,如下所述。
在一较佳实施例中,原始参数计算模块202应用“超前(look ahead)”的160+40个样本,这有几个原因。首先,160样本超前可用下一帧的信息计算音调频率轨迹,明显增强了下述话音编码与音调周期估算技术的耐用性。其次,160样本超前可对将来一帧计算LPC系数、帧能和话音活性,这能有效地多帧量化帧能与LPC系数。再次,附加的40样本超前可对下述的汉明窗语音计算LPC系数。因此,处理当前帧之前缓冲的样本数是160+160+40,包括当前帧和160+40样本超前。
A.计算LPC系数
本发明用LPC预测误差滤波器消除语音信号中的短期冗余度。LPC滤波器的传递函为: A ( z ) = 1 - Σ i = 1 10 a i z - i
本发明最好构制一种十阶滤波器,如前述公式所示。解码器中的LPC合成滤波器重新插入冗余度,并由A(z)的倒数规定: 1 A ( z ) = 1 1 - Σ i = 1 10 a i z - i
在步骤502,LPC系数ai由s(n)计算如下。在对当前帧编码期间,最好对下一帧计算LPC参数。
对中心位于第119与第120样本之间的当前帧应用汉明窗(假定较佳的160样本帧有一“超前”)。窗示语音信号sw(n)为: s w ( n ) = s ( n + 40 ) ( 0.5 + 0.46 * cos ( &pi; n - 79.5 80 ) ) , 0 &le; n < 160
40样本的偏移导致该语音窗的中心位于较佳语音160样本帧的第119与120样本之间。
最好将11个自相关值计算成: R ( k ) = &Sigma; m = 0 159 - k s w ( m ) s w ( m + k ) , 0 &le; k &le; 10
对自相关值开窗可减少丢失线路谱对(LSP)的根的可能性,LSP对由LPC系数得出:
R(k)=h(k)R(k),0≤k≤10
导致带宽略有扩展,如25Hz。值h(k)最好取自255点汉明窗的中心。
接着用Durbin递归从开窗的自相关值获取LPC系数,Durbin递归是众所周知的高效运算方法,在Rabiner & Schafer提出的文本“语音信号数字处理法”中作了讨论。
B.LSI计算
在步骤504,把LPC系数变换成线路谱信息(LSI)系数作量化和内插。LSI系数按本发明以下述方式计算:
如前一样,A(z)为
A(z)=1-a1z-1-…-a10z-10
式中ai是LPC系数,且1<i<10
PA(z)与QA(z)定义如下:
PA(z)=A(z)+z-11A(z-1)=p0+p1z-1+…+p11z-11
QA(z)=A(z)-z-11A(z-1)=q0+q1z-1+…+q11z-11
其中
pi=-ai-a11-i,1≤i≤10
qi=-ai+a11-i,1≤i≤10
P0=1 P11=1
q0=1 q11=-1
线路谱余弦(LSC)是下述两函数中-0.1<X<1.0的10个根
P′(x)=p′0cos(5cos-1(x))+p′1(4cos-1(x))+…+p′4+p′5/2
Q′(x)=q′0cos(5cos-1(x))+q′1(4cos-1(x))+…+q′4x+q′5/2
式中
p′0=1
q′0=1
p′i=pi-p′i-1 1≤i≤5
q′i=qi+q′i-1 1≤i≤5
然而以下式计算LSI系数
LSC可按下式从LSI系数里取回:
LPC滤波器的稳定性确保这两个函数的根交替,即最小根lsc1就是P′(x)的最小根,下一最小根1sc2就是Q(X)的最小根,等等。因此,lsc1、1sc3、lsc5、lsc7、lsc9都是p’(x)的根,而lsc2、1sc4、lsc6、lsc8与1sc0都是Q’(x)的根。
技术人员将明白,最好应用某种计算LSI系数灵敏度的方法来量化。量化处理中可用“灵敏度加权”对每个LSI中的量化误差合理地加权。
LSI系数用多级矢量量化器(VQ)量化,级数最好取决于所用的具体位速率与代码簿,而代码簿的选用以当前帧是否为话音为依据。
矢量量化将如下定义的加权均方误差(WMSE)减至最小: E ( x &RightArrow; , y &RightArrow; ) = &Sigma; i = 0 P - 1 w i ( x i - y i ) 2
式中 是量化的矢量,
Figure A9981482100175
是与其有关的加权,
Figure A9981482100176
是代码矢量。在一较佳实施例中,
Figure A9981482100177
是灵敏度权和,p=10。
LSI矢量由LSI码重建,而LSI码是量化成
Figure A9981482100178
得到的,其中CBi是话音或非话音帧的第i级VQ代码簿(基于指明选择代码簿的代码),codei是第i级的LSI代码。
在LSI系灵敏变换成LPC系数之前,要作稳定性检查,确保得到的LPC滤波器不因量化噪声或将噪声注入LSI系数的语道误差而不稳定。若LSI系数保持有序的,则要确保稳定性。
计算原始LPC系数时,使用中心位于帧的第119与120样本之间的语音窗。该帧其它各点的LPC系数可在前一帧的LSC与当前帧的LSC之间内插近似,得到的内插LSC再到变换回LPC系数。各子帧使用的正确内插为:
ilscj=(1-ai)lscprevj+ailsccurrp 1≤j≤10
式中ai是40个样本中各四个子帧的内插系数0.375、0.625、0.875、1.000,ilsc是内插的LSC。用内插的LSC计算
Figure A9981482100181
Figure A9981482100182
为: P ^ A ( z ) = ( 1 + z - 1 ) &Pi; j = 1 5 1 - 2 ilsc 2 j - 1 z - 1 + z - 2 Q ^ A ( z ) = ( 1 - z - 1 ) &Pi; j = 1 5 1 - 2 ilsc 2 j z - 1 + z - 2
所有四个子帧内插的LPC系数作为下式的系数来计算: A ^ ( z ) = P ^ A ( z ) + Q ^ A ( z ) 2
因此
Figure A9981482100186
C.NACF计算
在步骤506,归一化自相关函数(WACF)按本发明计算。
下一帧的元音共振峰余量对40个样本子帧计算成 r ( n ) = s ( n ) - &Sigma; i = 1 10 a ~ i s ( n - i )
式中
Figure A9981482100188
是相应子帧第i次内插的LPC系数,内插在当前帧的非量化LSC与下一帧的LSC之间进行。下一帧的能量也计算成: E n = 0.5 log 2 ( &Sigma; i = 0 159 r 2 ( n ) 160 )
上述计算的余量经低通滤波和抽取,最好使用一种零相FIR滤波器实施,其长度为15,其系数dfi(-7<i<7)为{0.0800,0.1256,0.2532,0.4376,0.6424,0.8268,0.9544,1.000,0.9544,0.8268,0.6424,0.4376,0.2532,0.1256,0.0800}。低通滤波、抽取的余量计算为: r d ( n ) = &Sigma; i = - 7 7 df i r ( Fn + i ) , 0 &le; n < 160 / F
式中f=2为抽取系数,r(Fn+i),-7≤Fn+i≤6根据非量化LPC系数从当前帧的余量的最后14个值得到。如上所述,这些LPC系数在前一帧计算和存贮。
下一帧两子帧(40样本抽取)的WACF的计算如下: Exx k = &Sigma; i = 0 39 r d ( 40 k + i ) r d ( 40 k + i ) , k = 0,1 Exy k , j = &Sigma; i = 0 39 r d ( 40 k + i ) r d ( 40 k + i - j ) ,
                     12/2≤j<128/2,k=0,1 Eyy k , j = &Sigma; i = 0 39 r d ( 40 k + i - j ) r d ( 10 k + i - j ) ,
                     12/2≤j<128/2,k=0,1 n _ corr k , j - 12 / 2 = ( Exy k , j ) 2 Exx Eyy k , j ,
                     12/2≤j<128/2,k=0,1
对n为负的rd(n),一般使用当前帧的低通滤波和抽取的余量(前一帧存贮的)。当前子帧c_corr的NACF也在前一帧计算和存贮。
D.音调轨迹与滞后计算
在步骤508,按本发明计算音调轨迹音调滞后。最好按下列公式用有反向轨迹的Viterbi类搜索法计算音调滞后: R 1 i = n _ corr 0 , j + max { n _ corr 1 , j + FAN 1 , 0 } ,
                     0≤i<116/2,0≤j<FANi,2 R 2 i = c _ corr i , j + max { R 1 j + FAN i , 0 ) ,
                     0≤i<116/2,0≤j<FANi,1 RM 2 i = R 2 i + max { c _ corr 0 , j + FAN i , 0 ) ,
                     0≤i<116/2,0≤j<FANi,1
其中FANij是2×58矩阵,{{0,2},{0,3},{2,2},{2,3},{2,4},{3,4},{4,4},{5,4},
{5,5},{6,5},(7,5},{8,6},{9,6},{10,6},{11,6},{11,7},{12,7},{13,7},{14,8},{15,8},
{16,8},{16,9},{17,9},{18,9},{19,9},{20,10},{21,10},{22,10},{22,11},{23,11},
{24,11},{25,12},{26,12},{27,12},{28,12},{28,13},{29,13},{30,13},{31,14},{32,14},
{33,14},{33,15},{34,15},{35,15},{36,15},{37,16},{38,16},{39,16},{39,17},{40,17},
{41,16},{42,16},{43,15},{44,14},{45,13},{45,13},{46,12},{47,11}}。
矢量RM2i经内插得R2i+1值为: RM iF + 1 = &Sigma; j = 0 4 cf j RM ( i - 1 + j ) F , 1 &le; i < 112 / 2
                    RM1=(RM0+RM2)/2
                    RM2*56+1=(RM2*56+RM2*57)/2
                    RN2*57+1=RM2*57
其中cfj是内插滤波器,系数为{-0.0625,0.5625,0.5625,-0.0625}。然后选择滞后Lc,使RLc-12=max{Ri},4≤i<116,将当前帧的NACF置成RLc-12/4。再搜索对应于大于0.9RLc-12的最大相关的滞后,消除滞后倍数,其中 R max { [ L c / M ] - 14.16 } &hellip; R [ L c / M ] - 10 for all 1 &le; M &le; [ L c / 16 ]
E.计算带能与零交叉速率
在步骤510,按本发明计算0-2kHz带与2kHz-4Khz带内的能量: E L = &Sigma; i = 0 159 s L 2 ( n ) E H = &Sigma; i = 0 159 s H 2 ( n )
其中 S L ( z ) = S ( z ) bl 0 + &Sigma; i = 1 15 bl i z - i al 0 + &Sigma; i = 1 15 al i z - i S H ( z ) = S ( z ) bh 0 + &Sigma; i = 1 15 bh i z - i ah 0 + &Sigma; i = 1 15 ah i z - i
S(z),SL(z)和SH(z)分别是输入语音信号s(n),低通信号SL(n)和高通信号Sh(n)的z变换,bl={0.0003,0.0048,0.0333,0.1443,0.4329,
0.9524,1.5873,2.0409,2.0409,1.5873,0.9524,0.4329,0.1443,0.0333,0.0048,0.0003),
al={1.0,0.9155,2.4074,1.6511,2.0597,1.0584,0.7976,0.3020,0.1465,0.0394,0.0122,
0.0021,0.0004,0.0,0.0,0.0},bh={0.0013,-0.0189,0.1324,-0.5737,1.7212,-3.7867,
6.3112,-8.1144,8.1144,-6.3112,3.7867,-1.7212,0.5737,-0.1324,0.0189,-0.0013}and
ah={1.0,-2.8818,5.7550,-7.7730,8.2419,-6.8372,4.6171,-2.5257,1.1296,-0.4084,
0.1183,-0.0268,0.0046,-0.0006,0.0,0.0}.
语音信号能量本身为
Figure A9981482100211
。零交叉速率ECR计算为:
if(s(n)s(n+1)<0)ZCR=ZCR+1,0≤n<159
F.计算元音振峰余量
在步骤512,对四个子帧计算当前帧的元音共振峰余量: r curr ( n ) = s ( n ) - &Sigma; i = 1 10 a ^ i s ( n - i )
其中ai,是相应子帧的第i个LPC系数。
IV.有效/无效语音分类
再参照图3,在步骤304,把当前帧分类为有效语音(如讲出的单词)或无效语音(如背景噪声,静寂)。图6的流程图600详细列出了步骤304。在一较佳实施例中,用基于双能带的取域值方法确定有无有效语音。下带(带0)跨越频率为0.1-2.0kHz,上带(带1)为2.0-4.0kHz。在当前帧编码时,最好以下述方法确定下一帧的话音有效性检测。
在步骤602,对各带i=0,1计算带能Eb[i]:用下列递归公式将III、A节中的自相关序列扩展到19: R ( k ) = &Sigma; i = 1 10 a i R ( k - i ) , 11 &le; k &le; 19
利用该公式,从R(1)到R(10)中算出R(11),从R(2)-R(11)中算出R(12),依次类推。再用下式从扩展的自相关序列中算出带能: E b ( i ) = log 2 ( R ( 0 ) R h ( 0 ) ( 0 ) + &Sigma; k = 1 19 R ( k ) R h ( i ) ( k ) ) , i = 0,1
式中R(K)是当前帧扩展的自相关序列,Rh(i)(k)是表1中带i的带滤波器自相关序列。
表1:计算带能的滤波器自相关序列
    k      Rx(0)(k)带0      Rx(1(k)带1
    0     4.230889E-01     4.042770E-01
    1     2.693014E-01    -2.503076E-01
    2     -1.124000E-02    -3.059308E-02
    3     -1.301279E-01     1.497124E-01
    4     -5.949044E-02    -7.905954E-02
    5     1.494007E-02     4.371288E-03
    6     -2.087666E-03    -2.088545E-02
    7     -3.823536E-02     5.622753E-02
    8     -2.748034E-02    -4.420598E-02
    9     3.015699E-04     1.443167E-02
    10     3.722060E-03    -8.462525E-03
    11     -6.416949E-03     1.627144E-02
    12     -6.551736E-03    -1.476080E-02
    13     5.493820E-04     6.187041E-03
    14     2.934550E-03    -1.898632E-03
    15     8.041829E-04     2.053577E-03
    16     -2.857628E-04    -1.860064E-03
    17     2.585250E-04     7.729618E-04
    18     4.816371E-04    -2.297862E-04
    19     1.692738E-04     2.107964E-04
在步骤604,平滑带能估值,并用下式对各帧更新平滑的带能估值Esm(i):
Esm(i)=0.6Esm(i)+0.4Eb(i),i=0,1
在步骤606,更新信号能与噪声能的估值。信号能估值Es(i)最好用下式更新。
Es(i)=max(Esm(i),Es(i)),i=0,1
噪声能估值En(i)最好用下式更新
Es(i)=min(Esm(i),En(i)),i=0,1
在步骤608,两带的长期信噪比SNR(i)计算为
SNR(i)=Es(i)-En(i),i=0,1
在步骤610,这些SNR值最好分成8个区RegSNR(i),定义为:
Figure A9981482100221
在步骤612,以下述方式按本发明判断话音有效性。若Eb(0)-En(0)>THRESH(RegSNR(O)),或Eb(1)-En(1)>THRESH(RegSNR(1)),则判定该语音帧有效,反之为无效。THRESH值由表2规定。
信号能估值Es(i)最好用下式更新:
Es(i)=Es(i)-0.014499,i=0,1.
表2:阈值系数与SNR区的函数关系
    SNR  区     THRESH
    0     2.807
    1     2.807
    2     3.000
    3     3.104
    4     3.154
    5     3.233
    6     3.459
    7     3.982
噪声能估值En(i)最好用下式更新
Figure A9981482100231
A.拖尾帧
信噪比很低时,最好加“拖尾”帧提高重建语音的质量。若三个前帧分为有效而当前帧为无效,则包括当前帧在内的后M帧分类为有效语音。拖尾帧数M确定时与表3中规定的SNR(0)成函数关系。
表3:拖尾帧与SNR(0)的函数关系
  SNR(O)     M
    0     4
    1     3
    2     3
    3     3
    4     3
    5     3
    6     3
    7     3
V.有效语音帧的分类
再参照照图3,在步骤308,在步骤304分为有效的当前帧再按语音信号s(n)呈现的特性分类。在一较佳实施例中,有效语音分为话音,非话音或过渡。有效语音信号呈现的周期性程度确定了它的分类。话音语音呈现最高度的周期性(准周期特性)。非话音语音很少或不呈现周期性,过渡语音的周期性程度在上述二者之间。
然而,这里描述的一般框架不限于该较佳分类方式,下面描述特定的编/解码器模式。有效语音可以不同方式分类,编码则有不同的编/解码器模式。技术人员应明白,分类与编/解码器模式可以有许多组合方式。许多这样的组合可以按这里描述的一般框架降低平均位速率即一般框架即是把语音分成无效或有效,再对有效语音作分类,然后用特别适合于每一类范围内语音的编/解码器模式编码语音信号。
虽然有效语音分类基于周期性程度,但是分类判断最好不以某种周期性的直接测量为基础,而是从步骤302计算的各种参数为基础,如上下带中的信噪比和NACF。较佳的分类可用下列伪码描述。
    ifnot(previousN ACF<0.5 and currentN ACF>0.6)
           if(currentN ACF<0.75and ZCR>60)UNVOICED
           else if(previousN ACF<0.5 and currentN ACF<0.55
                         and ZCR>50)UNVOICED
           else if(currentN ACF<0.4 and ZCR>40)UNVOICED
     if(UNVOICED and currentSNR>28dB
                         and EL>aEH)TRANSIENT
     if(previousN ACF<0.5 and currentN ACF<0.5
                         andE<5e4+N)UNVOICED
     if(VOICED and low-bandSNR>high-bandSNR
                         andpreviousN ACF<0.8 and
                         0.6<currentN ACF<0.75)TRANSIENT
其中
Figure A9981482100241
Nnoise是背景噪声估值,Eprev是前一帧输入能。
用该伪码描述的方法可按实施的特定环境提炼。技术人员应明白,上面给出的各种阈值仅作为示例,实践中可根据实施情况要求调节。该方法还可通过增加附加的分类目录予以精炼,如将TRASIENT分成两类:一类用于从高能转为低能的信号,另一类用于从低能转为高能的信号。
技术人员应明白,其它方法也可以区分话音、非话音与过渡有效语音,还可能有其它有效语音的分类方法。
VI.编/解码器模式选择
在步骤310,根据步骤304与308分类的当前帧选择编/解码器模式。根据一较佳实施例,模式选成如下选择:用NELP模式对无效帧和有效非话音帧编码,用PPP模式对有效话音帧编码,用CELP模式对有效过渡帧编码。下面描述各编/译码器模式。
在一替代实施例中,无效帧用零速率模式编码。技术人员应明白,有许多要求很低位速率的其它零速率模式。研究过去的模式选择,可改良零速率模式的选择。例如,若前一帧分为有效,就可不对当前帧选择零速率模式。同样地,若下一帧有效,可不对当前帧选择零速率模式。另一方法是不对过多的连续帧(如9个连续帧)选用零速率模式。技术人员应明白,可对基本的选模判断作其它许多更改,以改善其在某些环境中的操作。
如上所述,在相同一框架内,可交替地应用许多其它分类的组合和编/解码器模式。下面详述本发明的几种编/解码器模式,先介绍CELP模式,然后叙述PPP与NELP模式。
VII.代码受激的线性预测(CELP)编码模式
如上所述,当当前帧分为有效过渡语音时,可应用CELP编/解码模式。该模式能最精确地再现信号(与这里描述的其它模式相比),但是位速率最高。
图7详细示出了CELP编码器模式204和CELP解码器模式206。如图7A图所示,CELP编码器模式204包括音调编码模块702,编码代码簿704和滤波器更新模块706。模式204输出编码的语音信号Senc(n),最好包括传输给CELP编码器模式206的代码簿参数与音调滤波器参数。如图7B所示,模式206包括解码代码簿模块708,音调滤波器710和LPC合成滤波器712。CELP模式206接收编码的语音信号而输出合成的语音信号(n)。
A.音调编码模块
音调编码模块702接收语音信号s(n)和前一帧量化的余量Pc(n)(下述)。根据该输入,音调解码模块702产生目标信号x(n)与一组音调滤波器参数。在一实施例中,这类参数包括最佳音调滞后L*与最佳音调增益b*。这类参数按“分析加合成”法选择,其中解码处理选择的音调滤波器参数,可将输入语音与用这些参数合成的语音之间的加权误差减至最小。
图8示出了音调编码模块702,这包括感性加权滤波器803,加法器804与816,加权的LPC合成滤波器806与808,延迟与增益810及最小平方和812。
感性加权滤波器802用于对原始语音与以感性有意义的方式合成的语音之间的误差加权。
感性加权滤波器的形式为 W ( z ) = A ( z ) A ( z / &gamma; )
式中A(z)是LPC预测误差滤波器,γ最好等于0.8。加权的LPC分析滤波器806接收原始参数计算模块202算出的LPC系数。滤波器806输出的azir(n)是给出LPC系数的零输入响应。加法器804将负输入azir(n)与滤波的输入信号相加以形成目标信号x(n)。
延迟与增益810对给定的音调滞后L与音调增益B输出估算的间调滤波器输出bpL(n),延迟与增益810接收前一帧量化的剩余样本Pc(n)和估算的音调滤波器将来的输出P0(n),按下式形成P(n)。
然后延迟L个样本,用b标定,形成bpL(n)。Lp是子帧长度(最好为40样本)。在一较佳实施例中,音调滞后L用8位代表,可以取值20.0,20.5,21.0,21.5….126.0,126.5,127.0,127.5。
加权的LPC分析滤波器808用当前LPC系数滤波bpL(n)而得出bY2(n)。加法器816将负输入byL(n)与x(n)相加,其输出被最小平方和812接收,后者选择标为L*的最佳L和标为b*的最佳b,而L和b的值按下式将Epitch(L)减至最小: E pitch ( L ) = &Sigma; n = 0 L p - 1 { x ( n ) - b y L ( n ) } 2
,且 ,则对规定的L值将Epitch减至最小的b值为: b * = E xy ( L ) E yy ( L )
因此 E pitch ( L ) = K - E xy ( L ) 2 E yy ( L )
式中K是可以忽略的常数
首先确定使Epitch(L)最小的L值,再计算b*,求出L与b的最佳值(L*与b*)
最好对各子帧算出这些音调滤波器参数,量化后作有效传输。在一实施例中,第j个子帧的传输代码PLAGj与PGAINj计算成 PGAINj = [ min { b * , 2 } 8 2 + 0 . 5 ] - 1
若PLAGj置0,则将PGAINj调至-1。这些传输代码发送给CELP解码器模式206作为音调滤波器参数,成为编码的语音信号Senc(n)的组成部分。
B.编码代码簿
编码代码簿704接收目标信号x(n),并确定一组供CELP解码器模式206使用的代码簿激励参数,与音调滤波器参数一起,以重建量化的剩余信号。
编码代码簿704首先将x(n)更新如下:
x(n)=x(n)-ypxir(n),0≤n<40
式中ypzir(n)是加权的LPC合成滤波器(带有从前一帧结尾保留数据的存储器)对某一输入的输出,而该输入是带参数L*与b*(和前一子帧处理的存储器)的音调滤波器的零输入响应。
由于
Figure A9981482100275
用而建立一反滤波目标
Figure A9981482100276
0<n<40,其中
Figure A9981482100277
是脉冲响应矩阵,由脉冲响应{hn}和 0≤n<40形成,同样产生了两个以上矢量 s &RightArrow; = sign ( d &RightArrow; )
其中
Figure A9981482100283
编码代码簿704将值Exy*与Eyy*初始化为零,并按以下公式最好用四个N值(0,1,2,3)搜索最佳激励参数。 p &RightArrow; = ( N + { 0,1,2,3,40 } ) % 5
                    A={p0,p0+5,…,i′<40}
                    B={p1,p1+5,…,k′<40} Den i , k = 2 &phi; 0 + s i s k &phi; | k - i | , i &Element; A k &Element; B
                    
Figure A9981482100286
{ S 0 , S 1 } = { s I 0 , s I 1 } Exy 0 = | d I 0 | + | d I 1 | Eyy 0 = Eyy I 0 , I 1
                    A={p2,p2+5,…,i′<40}
                    B={p3,p3+5,…,k′<40} Den i , k = Eyy 0 + 2 &phi; 0 + s i ( S 0 &phi; | I 0 - i | + S 1 &phi; | I 1 - i | ) + s k ( S 0 &phi; | I 0 - k | + S 1 &phi; | I 1 - k | ) + s i s k &phi; | k - i |
                i∈Ak∈B
                     { S 2 , S 3 } = { s I 2 , s I 3 } Exy 1 = Exy 0 + | d I 2 | + | d I 3 | Eyy 1 = Den I 2 , I 3
                     A={p4,p4+5,…,i′<40} Den i = Eyy 1 + &phi; 0 + s i ( S 0 &phi; | I 0 - i | + S 2 &phi; | I 1 - i | + S 2 &phi; | I 2 - i | + S 3 &phi; | I 3 - i | ) , i &Element; A I 4 = arg max i &Element; A { Exy 1 + | d i | Den i } S 4 = s I 4 Exy 2 = Exy 1 + | d I 4 | Eyy 2 = Den I 4
     Exy2Eyy*>Exy2Eyy2{
              Exy*=Exy2
              Eyy*=Eyy2
              {indp0,indp1,indp2,indp3,indp4}={I0,I1,I2,I3,I4}
              {sgnp0,sgnp1,sgnp2,sgnp3,sgnp4}={S0,S1,S2,S3,S4}
    }
编码代码簿704把代码簿增益G*计算成Exy*/Eyy*,然后对第j个子帧将该组激励参数量化成下列传输码: DBIjk = [ ind k 5 ] , 0 &le; k < 5
Figure A9981482100299
CBGj = [ min { log 2 ( max { 1 , G * } ) , 11.2636 } 31 11.2636 + 0.5 ] 量化的增益 *为
Figure A99814821002912
除去音调解码模块702,只作代码簿搜索以对四个子帧都确定指数I与增益G,就可实现CELP编/解码器模式的较低位速率实施例。技术人员应明白如何扩充上述想法来实现该较低的位速率实施例。
C.CELP解码器
CELP解码器模式206从CELP解码器模式204接收解码的语音信号,最好包括代码簿激励参数与音调滤波器参数,并根据该数据输出合成的语音(n)。解码代码簿模块708接收代码簿激励参数,产生增益为G的激励信号Cb(n)。j个子帧的激励信号Cb(n)包含大多数零,但五个位置例外:
Ik=5CBIjk+k,0≤k<5
它相应地具有脉冲值:
Sk=1-2SIGNjk,0≤k<5
所有值均用计算为
Figure A9981482100301
的增益G标定,以提供Gcb(n)。
音调滤波器710按下列公式对接收传输代码的音调滤波器参数解码: L * ^ = PLAGj 2
Figure A9981482100303
音调滤波器710接着滤波Gcb(n),滤波器的传递函数为: 1 P ( z ) = 1 1 - b * z - L *
在一实施例中,在音调滤波器710之后,CELP解码器模式706还加接了额外的滤波操作的音调前置滤波器(未示出)。音调前置滤波器的滞后与音调滤波器710的滞后相同,但其增益最好是最高达0.5的音调增益的一半。LPC合成滤波器712接收重建的量化剩余信号
Figure A9981482100305
,输出合成的语音信号(n)。
D.滤波器更新模块
滤波器更新模块706像前一节描述的那样合成语音,以便更新滤波器存储器。滤波器更新模块706接收代码簿激励参数与音调滤波器参数,产生激励信号cb(n),对Gcb(n)作音调滤波,再合成(n)。在解码器作这一合成,就更新了音调滤波器与LPC合成滤波器中的存储器,供处理后面的子帧使用。
VIII.原型音调周期(PPP)编码模式
原型音调周期(PPP)编码法利用语音信号的周期性实现比CELP编码法可得到的更低的位速率。一般而言,PPP编码法涉及提取一代表性的剩余个周期,这里称为原型余量,然后用该原型通过在当前帧的原型余量与前一帧的类似音调周期(如果最后帧是PPP,即为原型余量)之间作内插,在该帧内建立早期音调周期,PPP编码法的有效性(降低位速率)部分取决于如何使当前与前一原型余量精密地类似于介入的音调周期。为此,最好将PPP编码法应用于呈现出相对高度周期性的语音信号(如话音语音),这里指准周期语音信号。
图9详细示出了PPP编码器模式204和PPP解码器模式206,前者包括提取模块904,旋转相关器906,编码代码簿908和滤波器更新模块910。PPP编码器模式204接收剩余信号r(n),输出编码的语音信号senc(n),最好包括代码簿参数和旋转参数。PPP解码器模式206包括代码簿解码器912、旋转器914,加法器916,周期内插器920和弯曲滤波器918。
图10的流程图1000示出PPP编码的步骤,包括编码与解码。这些步骤与PPP编码器模式204和PPP解码器模式206一起讨论。
A.提取模块
在步骤1002,提取模块904从剩余信号r(n)中提取原型余量rp(n)。如III、F、节所述,初始参数计算模块202用LPC分析滤波器计算各帧的rp(n)。在一实施例中,如VII、A节所述,该滤波器的LPC系数作感性加权。rp(n)的长度等于原始参数计算模块202在当前帧最后一个子帧中算出的音调滞后L。
图11是详细示出步骤1002的流程图。PPP提取模块904最好尽量接近帧结束时选择音调周期,并加下述的某些限制。图12示出一例基于准周期语音计算的剩余信号,包括当前帧与前一帧的最后一个子帧。
在步骤1102,确定“无切割区”。无切割区限定一组余量中不能是原型余量终点的样本。无切割区保证余量的高能区不出现在原型的开始或结束(会造成输出中允许出现的断续性)。计算r(n)最后L个样本每一样本的绝对值。变量Ps置成等于最大绝对值(这里称为“音调尖峰”)样本的时间指数。例如,若音调尖峰出现在最后L个样本的最后一个样本中,Ps=L-1。在一实施例中,无切割区的最小样本CFmin置成Ps-6或Ps-0.25L,无论哪个更小。无切割区的最大值CFmax置成Ps+6或Ps+0.25L,无论哪个更大。
在步骤1104,从余量中切割L个样本,选择原型余量,在区域终点不能在无切割区内的约束下,选择的区域尽量接近帧的结束处。用以下列伪码描述的算法确定原型余量的L个样本:
         (CFmin<0){
           for(i=0 to L+CFmin-1)rp(i)=r(i+160-L)
            for(i=CFmin to L-1)rp(i)=r(i+160-2L)
         }
    else if
     (CFmin≤L(
      for(i=0toCFmin-1)rp(i)=r(i+160-L)
      for(i=CFmin to L-1)rp(i)=r(i+160-2L)
    else{
       for(i=0toL-1)rp(i)=r(i+160-L)
B.旋转相关器
再参照图10,在步骤1004,旋转相关器906根据当前原型余量rp(n)和前一帧的原型余量rprev(n)计算一组旋转参数。这些参数描述怎样最佳地旋转和标定rprev以用作rp(n)的预测器。在一实施例中,这组旋转参数包括最佳旋转R*与最佳增益b*。图13是详细示出步骤1004的流程图。
在步骤1302,对原型音调余量周期rp(n)作循环滤波,算出感性加权的目标信号x(n)。这是按如下方式实现的。由rp(n)产生临时信号tmp1(n):
将其用零存储器的加权LPC合成滤波器滤波,以提供输出tmp2(n)。在一实施例中,使用的LPC系数是对应于当前帧最后一个子帧的感性加权系数。于是,目标信号x(n)为:
x(n)=tmp2(n)+tmp2(n+L),0 ≤n<L
在步骤1304,从前一帧量化的元音共振峰余量(也存在音调滤波器的存储器中)中提取前一帧的原型余量γprev(n)。该前一原型余量最好定义为前一帧元音共振峰余量的最后LP值,若前一帧不是PPP帧,Lp等于L,否则置成前一音调滞后。
在步骤1306,把γprev(n)的长度改为与x(n)一样长,从而正确地计算相关性。这里把改变采样信号长度的这种技术称为弯曲。弯曲的音调激励信号γwprev(n)可以描述成:
rwprev(n)=rprev(n*TWF),0≤n<L
式中TWF是时间弯曲系数Lp/L。最好用一套sinc函数表计算非整数点n*TWF的样本值。选择的sinc序列是sinc(-3-F:4-F),F是n*TWF的小数部分,含入最接近的1/8倍数。该序列的开头对准rprev(N-3)%Lp),N是n*TWF在含入最接近第八位后的整数部分。
在步骤1308,循环滤波弯曲的音调激励信号rwprev(n),得出y(n)。该操作与上述对步骤1302作的操作一样,但应用于rwprev(n)。
在步骤1310,计算音调旋转搜索范围,首先计算期望的旋转Erot E rot = L - round ( L frac ( ( 160 - L ) ( L p + L ) 2 L p L ) )
frac(x)给出X的小数部分。若L<80,则音调旋转搜索范围定义为{Erot-8,Erot-7.5….Erot+7.5}和{Erot-16,Erot-15…Erot+15},其中L>80。
在步骤1312,计算旋转参数,最佳旋转R*与最佳增益b*。在x(n)和y(n)之间导致最佳预测的音调旋转与相应的增益b一起选择。这些参数最好选成将误差信号e(n)=x(n)-y(n)减至最小。最佳旋转R*与最佳增益b*是导致ExyR 2/Eyy最大值的那些旋转R与增益b值,其中
Figure A9981482100332
Figure A9981482100333
在旋转R*时的最佳增益b*为ExyR*/Eyy。对于旋转的小数值,通过对在整数旋转值时算出的ExyR值作内插,求出ExyR的近似值。应用了一种简单的四带内插滤波器,如
ExyR=0.54(ExyR′+ExyR′+1)-0.04*(ExyR′-1+ExyR′+2)
R是非整数的旋转(精度0.5),R’=|R|。
在一实施例中,旋转参数作量化以有效地传输。最佳增益
Figure A9981482100334
最好在0.0625和4.0之间均匀地量化成: PGAIN = max { min ( [ 63 ( b * - 0.0625 4 - 0.0625 ) + 0.5 ] , 63 ) , 0
式中PGAIN为传输码,量化增益b*由max{0.0625+(PGAIN(4-0.0625)/63),0.0625}给出。将最佳旋转R*量化成传输码PROT,若:L<80。将其置成2(R*-Erot+8),L≥80,则R*-Erot+16。
C.编码代码簿
再参照图10,在步骤1006,编码代码簿908根据接收的目标信号x(n)产生一组代码簿参数。代码簿908设法求出一个或多个代码矢量,经标定,相加和滤波后,加成接近x(n)的信号。在一实施例中,编码代码簿908构成多级代码簿,最好是三级,每级产生一种标定的代码矢量。因此,该组代码簿参数包括了对应于三种代码矢量的标引和增益。图14是详细示出步骤1006的流程图。
在步骤1402,搜索代码簿之前,将目标信号x(n)更新成
x(n)=x(n)-by(n-R*)%L),0≤n<L
若在上述减法中旋转R*不是整数(即有小数0.5),则
y(i-0.5)=-0.0073(y(i-4)+y(i+3))+0.0322(y(i-3)+y(i+2))
       -0.1363(y(i-2)+y(i+1))+0.6076(y(i-1)+y(i))
式中i=n-|R*|
在步骤1404,将代码簿值分成多个区域。根据一实旋例,把代码簿确定为:
Figure A9981482100341
式中CBP是随机或训练的代码簿值。技术人员应知道这些代码簿值是如何产生的。把代码簿划分成多个区域,长度各为L。第一区是单脉冲,其余各区由随机或训练的代码簿值组成。区数N将为[128/L]。
在步骤1406,代码簿的多个区都作循环滤波而产生滤波的代码簿,yreg(n),其串联是信号y(n)。对每一区,按上述步骤1302作循环滤波。
在步骤1408,计算各区滤波的代码簿能量Eyy(reg)并存贮起来: Eyy ( reg ) = &Sigma; i = 0 L - 1 y reg ( i ) , 0 &le; reg < N
在步骤1410,计算多级代码簿各级的代码簿参数(即代码矢量标引与增益)。根据一实施例,使Region(I)=reg,定义为其中有样本I的区即,
Figure A9981482100351
并假定将Exy(I)定义为: Exy ( I ) = &Sigma; i = 0 L - 1 x ( i ) y Regton ( I ) ( ( i + I ) % L )
第j代码簿级的代码簿参数I*与G*用下列伪码计算:
 Exy*=0,Eyy*=0
 for(I=Oto127){
      computeExy(I)
      
Figure A9981482100353
          Exy*=Exy(I)
          Eyy*=Eyy(Region(I)
          I*=I
      }
 }
而且G*=Exy*/Eyy*。
根据一实施例,代码簿参数量化后作有效传输。传输代码CBIj(j=级数-0,1或2)最好置成I*,而传输代码CBGj与SIGNj通过量化增益G*而设置:
Figure A9981482100354
CBGj = [ min { max { 0 , log 2 ( | G * | ) } , 11.25 } 4 3 + 0.5 ]
量化的增益
Figure A9981482100357
然后减量当前级代码簿矢量的贡献,更新目标信号x(n): x ( n ) = x ( n ) - G ^ * y Region ( I * ) ( ( n + I * ) % L ) , 0 &le; n < L
上述从伪码开始的步骤重复进行,对第二和第三级计算I*,G*和相应的传输代码。
D.滤波器更新模块
再参照图10,在步骤1008,滤波器更新模块910更新PPP解码器模式204所使用的滤波器。图15A与16A示出两个替代的滤波器更新模块910的实施例。如图15A的第一替代实施例,滤波器更新模块910包括解码代码簿1502,旋转器1504,弯曲滤波器1506,加法器1510,对准与内插模块1508,更新音调滤波器模块1512,和LPC合成滤波器1514。图16A的第二实施例包括解码代码簿1602,旋转器1604,弯曲滤波器1606,加法器1608,更新音调滤波器模块1610,循环LPC合成滤波器1612和更新LPC滤波器模块1614,图17与18是详细示出这两个实施例中步骤1008的流程图。
在步骤1702(和1802,两实施例的第一步骤),由代码簿参数与旋转参数重建当前重建的原型余量rcurr(n),长度为L样本,。在一实施例中,旋转器1504(和1604)按下式旋转弯曲型的前一原型余量:
rcurr((n+R*)%L)=brwprev(n),0≤n<L式中rcurr是要建立的当前原型,rwprev是由音调滤波器存储器中最新L个样本获得的弯曲型前一周期(如VIIIA节所述,TWF=Lp/L),由包传输码获得的音调增益b和旋转R为: b = max { 0.0625 ( PGAIN ( 4 - 0.0625 ) 63 ) , 0.0625 }
Figure A9981482100362
其中Erot是上述VIIIB节算出的期望的旋转。
解码代码簿1502(和1602)将三个代码簿级的每级的贡献加到rcurr(n):
式中I=CBIj,G如上节所述由CBGj和SIGj获得,j为级数。
在这方面,滤波器更新模块910的这两个替代实施例有所不同。先参照图15A的实施例,在步骤1704,从当前帧开头到当前原型余量开头,对准与内插模块1508填入剩余样本的其余部分(如图12所示)。这里对剩余信号对准和内插。然而,如下所述,还对语音信号作同样的操作。图19是详细描述步骤1704的流程图。
在步骤1902,确定前一滞后LP是否相对于当前滞后L为两倍或是一半。在一实施例中,其它倍数不太可能,故不予考虑。若Lp>1.85L,LP为一半,只使用前一周期rprev(n)的前一半。若Lp>0.54L,当前滞后L可能加倍,因而LP也加倍,前一周期Rprev(n)反复扩展。
在步骤1904,如步骤1306所述,rprev(n)弯成rwprev(n),TWF-LP/L,因而两原型余量的的长度现在相同。注意,该操作在步骤1702执行,如上所述,做法是弯曲滤波器1506。技术人员应明白,若弯曲滤波器1506对对准与内插模块1508有输出,就不需要步骤1904。
在步骤1906,计算允许的对准旋转范围。期望的对准旋转EA的计算与VIIIB节所述的Erot的计算相同。对准旋转搜索范围定义为{EA-δA,EA-δA+0.5,EA-δA+1…EA-δA-1.5,EA-δA-1},δA=max{6,0.15L}。
在步骤1908,把整数对准旋转R前一与当前原型周期之间的交叉相关性计算成 C ( A ) = &Sigma; i = 0 L - 1 r curr ( ( i + A ) % L ) rw prev ( i )
通过在整数旋转处内插相关值,近似算出非整数旋转A的交叉相关性:
C(A)=0.54(C(A′)+C(A′+1))-0.04(C(A′-1)+C(A′+2))
式中A’=A-0.5。
在步骤1910,将导致C(A)最大值的A值(在允许旋转范围内)选为最佳对准,A*。
在步骤1912,按下述方法算出中间样本的平均滞后或音调周期Lav。周期数估值Nper算为 N per = round ( A * L + ( 160 - L ) ( L p + L ) 2 L p L )
中间样本的平均滞后为 L av = ( 160 - L ) L N per L - A *
在步骤1914,根据下述在前一与当前原型余量之间的内插,算出当前帧中其余的剩余样本:
Figure A9981482100381
式中x=L/Lav。非整数点
Figure A9981482100382
的样本值(等于nα或nα+A*)用一套sinc函数表计算。选择的sinc序列为sinc(-3-F:4-F),其中F是n舍入最接近l/8倍数的小数部分,序列开头对准rprev(N-3)%LP),N是 舍入最接近1/8后的整数部分。
注意,该操作与上述步骤1306的弯曲基本上相同。因此,在一替代实施例中,步骤1914的内插值用弯曲滤波器计算。技术人员应明白,对于这里描述的各种目的,重复使用单个弯曲滤波器更经济。
参照图17,在步骤1706,更新音调滤波器模块1512从重建的余量
Figure A9981482100384
将值复制到音调滤波器存储器。同样地,也要更新音调滤波器的存储器。在步骤1708,LPC合成滤波器1514对重建的余量 滤波,作用是更新LPC合成滤波器的存储器。
现在描述图16A的第二个滤波器更新模块910实施例。如步骤1702所述,在步骤1802,由代码簿与旋转参数重建原型余量,导致Tcurr(n)。
在步骤1804,按下式从rcurr(n)复制L样本复制件,更新音调滤波器模块1610更新音调滤波器存储器。
pitch_mem(i)=rcurr((L-(131%L)+i)%L),0≤i<131
或者
potch_mem(131-l-i)=rcurr(L-1-i%L),0≤i<131
其中131最好是最大滞后为127.5的音调滤波器阶数。在一实施例中,音调前置滤波器的存储器同样用当前周期rcurr(n)的复制件替换:
pitch_prefilt_mem(i)=pitch_mem(i),0≤i<131
在步骤1806,rcurr(n)最好应用感性加权的LPC系数循环滤波,如VIIIB节所述,导致sc(n)。
在步骤1808,用sc(n)的值,最好是后10个值(对第10阶LPC滤波器)更新LPC合成滤波器的存储器。
E.PPP解码器
参照图9和10,在步骤1010,PPP解码器模式206根据收到的代码簿与旋转参数重建原型余量rcurr(n)。解码代码簿912,旋转器914和弯曲滤波器918的工作方式如上节所述。周期内插器920接收重建的原型余量rcurr(n)和前一重建的原型余量rcurr(n),在两个原型之间内插样本,并输出合成的语音信号
Figure A9981482100391
。下节描述周期内插器920。
F.周期内插器
在步骤1012,周期内插器920接收rcurr(n),输出合成的语音信号(n)。图15A与16b是两个周期内插器920的替代实施例。在图15B的第一例中,周期内插器920包括对准与内插模块1516,LPC合成滤波器1518和更新音调滤波器模块1520。图16B的第二例包括循环LPC合成滤波器1616,对准与内插模块1618,更新音调滤波器模块1622和更新LPC滤波器模块1620。图20和21表示两实施例的步骤1012的流程图。
参照图15B,在步骤2002,对准与内插模块1516对当前剩余原型rcurr(n)与前一剩余原型rprev(n)之间的样本重建剩余信号,形成 模块1516以步骤1704所述的方式(图19)操作。
在步骤2004,更新音调滤波器模块1520根据重建的剩余信号 更新音调滤波器存储器,如步骤1706所述。
在步骤2006,LPC合成滤波器1518根据重建的剩余信号
Figure A9981482100394
合成输出语音信号 操作时,LPC滤波器存储器自动更新。
参照图16B和21,在步骤2102,更新音高调滤波器模块1622根据重建的当前剩余原型rcurr(n)更新音调滤波器存储器,如步骤1804所示。
在步骤2104,循环LPC合成滤波器1616接收rcurr(n),合成当前语音原型sc(n)(长为L样本),如VIIIB节所述。
在步骤2106更新LPC滤波器模块1620更新LPC滤波器存储器,如步骤1808所述。
在步骤2108,对准与内插模块1618在前一与当前原型周期之间重建语音样本。前一原型余量rprev(n)循环滤波(在LPC合成结构中),仅内插可以语音域进行。对准与内插模块1618以步骤1704的方式操作(见图19),只是对语音原型而不是对剩余原型操作。对准与内插的结果就是合成的语音信号s(n)。
IX.噪声激励的线性预测(NELP)编码模式
噪声激励的线性预测(NELP)编码法将语音信号模拟成一个伪随机噪声序列,由此实现比CELP或PPP编码法更低的位速率。用信号再现来衡量,NELP解码的操作最有效,此时语音信号很少有或没有音调结构,如非话音或背景噪声。
图22详细示出了NELP编码器模式204和NELP解码器模式206,前者包括能量估算器2202和编码代码簿2204,后者包括解码代码簿2206,随机数发生器2210,乘法器2212和LPC合成滤波器2208。
图23是示明NELP编码步骤的流程图2300,包括编码和解码。这些步骤与NELP编/解码器模式的各种元件一起讨论。
在步骤2302,能量估算器2202将四个子帧的剩余信号能量都算成: Esf i = 0.5 log 2 ( &Sigma; n = 40 i 40 i + 39 s 2 ( n ) 40 ) , 0 &le; i < 4
在步骤2304,编码代码簿2204计算一组代码簿参数,形成编码的语音信号senc(n)。在一实施例中,该组代码簿参数包括单个参数,即标引I0,它被置成等于j值,并将
Figure A9981482100402
其中0≤j<128减至最小。代码簿矢量SFEQ用于量化子帧能量Esfi,并包括等于帧内子帧数的元数(在实施例中为4)。这些代码簿矢量最好按技术人员已知的普通技术产生,用于建立随机或训练的代码簿。
在步骤2306,解码代码簿2206对收到的代码簿参数解码。在一实施例中,按下式解码该组子帧增益Gi
G1=2SFEQ(10,1),或
G1=20.2SFEQ(10,1)+0.2log,Gprev-2(用零速率编码方案对前一帧编码)其中0≤i<4,Gprev是代码簿激励增益,对应于前一帧的最后一个子帧。
在步骤2308,随机数发生器2210产生一单位变化随机矢量nz(n),该矢量在步骤2310按各子帧内合适的增益Gi标定,建立激励信号Ginz(n)。
在步骤2312,LPC合成滤波器2208对激励信号Ginz(n)滤波,形成输出语音信号
Figure A9981482100411
在一实施例中,也应用了零速率模式,其中对当前帧的各子帧使用了从最近非零速率NWLP子帧获得的增益G,与LPC参数。技术人员应明白,在连续出现多个NELP帧时,可有效地应用这种零速率模式。
X.结论
虽然以上描述了本发明的各种实施例,但应明白,这些都是示例,不用来作限制,因此,本发明的范围不受上述任一示例性实施例限制,仅由所附的权项及其等效物限定。
上述诸较佳实施例的说明可供任何技术人员用于制作或应用本发明。尽管参照诸较佳实施例具体示出并描述了本发明,但是技术人员应明白,在不违背本发明的精神与范围的情况下,可在形式上和细节上作出各种变化。

Claims (24)

1.一种准周期语音信号的编码方法,其中语音信号由用线性预测编码(LPC)分析滤波器对语音信号滤波而产生的剩余信号代表,其中将剩余信号分成数据帧,其特征在于所述方法包括步骤:
(a)从剩余信号的当前帧里提取当前原型;
(b)计算第一组参数,该组参数描述如何将前一原型修改成使所述更新的前一原型接近于所述当前原型;
(c)从第一代码簿中选择一个或多个代码矢量,其中所述代码矢量相加时接近于所述当前原型与所述更新的前一原型之差,而且其中所述代码矢量用第二组参数描述;
(d)根据所述第一与第二组参数重建当前原型;
(e)在所述当前重建的原型与前一重建的原型之间的区域内插剩余信号;
(f)根据所述内插的剩余信号合成输出语音信号。
2.如权利要求1所述的方法,其中所述当前帧有一音调滞后,而所述当前原型的长度等于所述音调滞后。
3.如权利要求1所述的方法,其中所述提取当前原型的步骤从属于“无切割区”。
4.如权利要求3所述的方法,其中所述当前原型从所述当前帧结束处提取,并从属于所述无切割区。
5.如权利要求1所述的方法,其中所述计算第一组参数的步骤包括以下步骤:
(i)循环滤波所述当前原型,形成目标主号;
(ii)提取所述前一原型;
(iii)弯曲所述前一原型,使所述前一原型的长度等于所述当前原型
的长度;
(iv)循环滤波所述弯曲的前一原型;和
(v)计算最佳旋转和第一最佳增益,其中由所述最佳旋到转的并由
所述第一最佳增益标定的所述滤波的弯曲前一原型,最佳地接近所述目
标信号。
6.如权利要求5所述的方法,其中所述计算最佳旋转和第一最佳增益的步骤从属于音调旋转搜索范围。
7.如权利要求5所述的方法,其中所述计算最佳旋转和第一最佳增益的步骤,将所述滤波器的弯曲前一原型与所述目标信号的均方差减至最小。
8.如权利要求5所述的方法,其中所述第一代码簿包括一级或多级,而所述选择一个或多个代码矢量的步骤包括以下步骤:
(i)减去由所述最佳旋转转动并由所述第一最佳增益标定的所述滤
波的弯曲前一原型,更新所述目标信号;
(ii)将所述第一代码簿划分成多个区域,其中每个所述区域形成一
代码矢量;
(iii)循环滤波每个所述代码矢量;
(iv)选择最接近所述更新的目标信号的所述滤的代码矢量之一,其
中所述特定代码矢量用一最用一最佳标引描述;
(v)根据所述更新的目标信号与所述选择的滤波代码矢量间的相关
性,计算第二最佳增益;
(vi)减去所述第二最佳增益标定的所述选择的滤波代码矢量,更新
所述目标信号;和
(vii)对所述第一代码簿里每个所述级重复步骤(iV)-(Vi),其中所
述第二组参数包括每个所述级的所述最佳标引和所述第二最佳增益。
9.如权利要求8所述的方法,其中所述重建当前原型的步骤包括以下步骤:
(i)弯曲前一重建的原型,使其长度等于所述当前重建的原型的长
度;
(ii)所述弯曲的前一重建原型用所述最佳旋转转动并用所述第一最
佳增益标定,由此形成所述当前重建的原型;
(iii)从第二代码簿接收第二代码矢量,其中所述第二代码矢量用所
述最佳标引识别,而且所述第二代码簿包括的级数等于所述第一代码簿
的级数;
(iv)用所述第二最佳增益标定所述第二代码矢量;
(v)将所述标定的第二代码矢量与所述当前重建的原型相加;和
(vi)对所述第二代码簿中各所述级重复步骤(iii)-(v)。
10.如权利要求9所述的方法,其中所述内插剩余信号的步骤包括以下步骤:
(i)计算所述弯曲的前一重建原型与所述当前重建的原型之间的最
佳对准;
(ii)根据所述最佳对准,计算所述弯曲的前一重建原型与所述当前
重建原型之间的平均滞后;和
(iii)内插所述弯曲的前一重建原型与所述当前重建原型,由此在所
述二者之间的区域内形成剩余信号,其中所述内插的剩余信号具有所述
平均滞后。
11、权项10的方法,其中所述合成输出语音信号的步骤包括用LPC合成滤波器滤波所述内插的剩余信号的步骤。
12.一种准周期语音信号的编码方法,其中语音信号由用线性预测编码(LPC)分析滤波器对语音信号滤波而产生的剩余信号代表,其中将剩余信号分成数据帧,其特征在于所述方法包括步骤:
(a)从剩余信号的当前帧里提取当前原型;
(b)计算第一组参数,该组参数描述如何将前一原型修改成使所述更新的前一原型接近于所述当前原型;
(c)从第一代码簿中选择一个或多个代码矢量,其中所述代码矢量相加时接近于所述当前原型与所述更新的前一原型之差,而且其中所述代码矢量用第二组参数描述;
(d)根据所述第一与第二组参数重建当前原型;
(e)用LPC合成滤波器所述当前重建原型;
(f)用所述LPC合成滤波器滤波前一重建原型;
(g)在所述滤波的当前重建原型与所述滤波的前一重建原型之间的区域内作内插,由此形成输出语音信号。
13.一种准周期语音信号的编码方法,其中语音信号由用线性预测编码(LPC)分析滤波器对语音信号滤波而产生的剩余信号代表,其中将剩余信号分成数据帧,其特征在于所述方法包括步骤:
从剩余信号的当前帧里提取当前原型的装置;
从第一代码簿选择一个或多个代码矢量的装置,其中所述代码矢量相加后接近所述当前原型与所述更新的前一原型之差,而且所述代码矢量用第二组参数描述;
根据所述第一与第二组参数重建当前重建的原型的装置;
在所述当前重建的原型与前一重建的原型之间的区域内内插剩余信号的装置;
根据所述内插的剩余信号合成输出语音信号的装置。
14.如权利要求13所述的系统,其中所述当前帧有一音调滞后,而所述当前原型的长度等于所述音调滞后。
15.如权利要求13所述的系统,其中所述提取所述当前原型的装置从属于“无切割区”。
16.如权利要求15所述的系统,其中所述从所述当前帧结束时提取所述当前原型的装置从属于所述无切割区。
17.如权利要求13所述的系统,其中计算第一组参数的所述装置包括:
第一循环LPC合成滤器,耦合成接收所述当前原型并输出目标信号;
从前一帧提取所述前一原型的装置;
弯曲滤波器,耦合成接收所述前一原型,其中所述弯曲滤波器输出弯曲的前一原型,其长度等于所述当前原型的长度;
第二循环LPC合成滤波器,耦合成接收所述弯曲的前一原型,其中所述第二循环LPC合成滤波器输出滤波的弯曲前一原型;和
计算最佳旋转与第一最佳增益的装置,其中所述滤波的弯曲前一原型由所述最佳旋转转动,并由所述第一最佳增益标定而最佳地接近于所述目标信号。
18.如权利要求17所述的系统,其中所述计算装置计算从属于音调旋转搜索范围的所述最佳旋转和所述第一最佳增益。
19.如权利要求17所述的系统,其中计算装置将所述滤波的弯曲前一原型与所述目标信号的均方差减至最小。
20.如权利要求17所述的系统,其中所述第一代码簿包括一级或多级,而所述选择一个或多个代码矢量的装置包括:
减去由所述最佳旋转转动并由所述第一最佳增益标定的所述滤波的弯曲前一原型,更新所述目标信号的装置;
将所述第一代码簿划分成多个区域,其中每个所述区域形成一代码矢量的装置;
耦合成接收所述代码矢量的第三循环LPC合成滤波器,其中所述第三循环LPC合成滤波器输出滤波的代码矢量;
对所述第一代码簿中各级计算最佳标引与第二最佳增益的装置,其特征在于包括:
选择所述滤波的代码矢量之一的装置,其中用一最佳标引描述最接近所述目标信号的所述选择的滤波代码矢量。
根据所述目标信号与所述选择的滤波代码矢量的相关性计算第二最佳增益的装置,和
通过减去所述第二最佳增益标定的所述选样的滤波代码矢量而更新所述目标信的装置;
其中所述第二组参数包括各所述级的所述最佳标引与所述第二最佳增益。
21.如权利要求20所述的系统,其中所述重建当前原型的装置包括:
耦合成接收前一重建原型的第二弯曲滤波器,其中所述第二弯曲滤波器输出弯曲的前一重建原型,其长度等于所述当前重建原型的长度;
用所述最佳旋转转动所述弯曲的前一重建原型并用所述第一最佳增益标定的装置,以此形成所述发前重建的原型;和
对所述第二组参数数译码的装置,其中对第二代码簿的每级译码第二代码矢量,第二代码簿的级数等于所述第一代码簿的级数,所述装置包括:
从所述第二代码簿检索所述第二代码矢量的装置,其中所述第二代码矢量用所述最佳标引标识;
用所述第二最佳增益标定所述第二代码矢量的装置,和
将所述标定的第二代码矢量加到所述当前重建的原型的装置。
22.如权利要求21所述的系统,其中所述内插剩余信号的装置包括:
计算所述弯曲的前一重建原型与所述当前重建原型之间最佳对准的装置;
根据所述最佳对准计算所述弯曲的前一重建原型与所述当前重建原型之间的平均滞后的装置;和
内插所述弯曲的前一重建原型与所述当前重建原型,从而在所述二者之间的区域内形成剩余信号的装置,其中所述内插的剩余信号具有所述平均滞后。
23.如权利要求22所述的系统,其中所述合成输出语音信号的装置包括LPC合成滤波器。
24.一种准周期语音信号的编码方法,其中语音信号由用线性预测编码(LPC)分析滤波器对语音信号滤波而产生的剩余信号代表,其中将剩余信号分成数据帧,其特征在于所述方法包括步骤:
从剩余信号的当前帧提取当前原型的装置;
计算第一组参数的装置,所述参数描述如何将前一原型修改成使所述更新的前一原型接近于所述当前原型;
从第一代码簿中选择一个或多个代码矢量的装置,其中所述代码矢量相加后接近所述当前原型与所述更新的前一原型之差,而且所述代码矢量用第二组参数描述;
根据所述第一与第二组参数重建当前重建的原型的装置;
耦合成接收所述当前重建原型的第一LPC合成滤波器,其中所述第一LPC合成滤波器输出滤的前一重建原型;
在所述滤的当前重建原型与所述滤波的前一重建原型之间的区域内内插而形成输出语音信号的装置。
CNB998148210A 1998-12-21 1999-12-21 利用原型波形的周期性语音编码 Expired - Lifetime CN1242380C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/217,494 1998-12-21
US09/217,494 US6456964B2 (en) 1998-12-21 1998-12-21 Encoding of periodic speech using prototype waveforms

Publications (2)

Publication Number Publication Date
CN1331825A true CN1331825A (zh) 2002-01-16
CN1242380C CN1242380C (zh) 2006-02-15

Family

ID=22811325

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB998148210A Expired - Lifetime CN1242380C (zh) 1998-12-21 1999-12-21 利用原型波形的周期性语音编码

Country Status (11)

Country Link
US (1) US6456964B2 (zh)
EP (1) EP1145228B1 (zh)
JP (1) JP4824167B2 (zh)
KR (1) KR100615113B1 (zh)
CN (1) CN1242380C (zh)
AT (1) ATE309601T1 (zh)
AU (1) AU2377600A (zh)
DE (1) DE69928288T2 (zh)
ES (1) ES2257098T3 (zh)
HK (1) HK1040806B (zh)
WO (1) WO2000038177A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008067735A1 (fr) * 2006-12-05 2008-06-12 Huawei Technologies Co., Ltd. Procédé et dispositif de classement pour un signal sonore
CN105408954A (zh) * 2013-06-21 2016-03-16 弗朗霍夫应用科学研究促进协会 利用改进的音调滞后估计的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
US10643624B2 (en) 2013-06-21 2020-05-05 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754630B2 (en) * 1998-11-13 2004-06-22 Qualcomm, Inc. Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6715125B1 (en) * 1999-10-18 2004-03-30 Agere Systems Inc. Source coding and transmission with time diversity
JP2001255882A (ja) * 2000-03-09 2001-09-21 Sony Corp 音声信号処理装置及びその信号処理方法
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
ATE553472T1 (de) * 2000-04-24 2012-04-15 Qualcomm Inc Prädikitve dequantisierung von stimmhaften sprachsignalen
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
KR100487645B1 (ko) * 2001-11-12 2005-05-03 인벤텍 베스타 컴파니 리미티드 유사주기 파형들을 이용한 음성 인코딩 방법
US7389275B2 (en) * 2002-03-05 2008-06-17 Visa U.S.A. Inc. System for personal authorization control for card transactions
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US7738848B2 (en) 2003-01-14 2010-06-15 Interdigital Technology Corporation Received signal to noise indicator
US20040235423A1 (en) * 2003-01-14 2004-11-25 Interdigital Technology Corporation Method and apparatus for network management using perceived signal to noise and interference indicator
US7627091B2 (en) * 2003-06-25 2009-12-01 Avaya Inc. Universal emergency number ELIN based on network address ranges
KR100629997B1 (ko) * 2004-02-26 2006-09-27 엘지전자 주식회사 오디오 신호의 인코딩 방법
US7130385B1 (en) 2004-03-05 2006-10-31 Avaya Technology Corp. Advanced port-based E911 strategy for IP telephony
US20050216260A1 (en) * 2004-03-26 2005-09-29 Intel Corporation Method and apparatus for evaluating speech quality
US7246746B2 (en) * 2004-08-03 2007-07-24 Avaya Technology Corp. Integrated real-time automated location positioning asset management system
US7830900B2 (en) 2004-08-30 2010-11-09 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
KR100639968B1 (ko) * 2004-11-04 2006-11-01 한국전자통신연구원 음성 인식 장치 및 그 방법
US7589616B2 (en) * 2005-01-20 2009-09-15 Avaya Inc. Mobile devices including RFID tag readers
US9047860B2 (en) * 2005-01-31 2015-06-02 Skype Method for concatenating frames in communication system
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8107625B2 (en) 2005-03-31 2012-01-31 Avaya Inc. IP phone intruder security monitoring system
US20090210219A1 (en) * 2005-05-30 2009-08-20 Jong-Mo Sung Apparatus and method for coding and decoding residual signal
US7599833B2 (en) * 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7184937B1 (en) * 2005-07-14 2007-02-27 The United States Of America As Represented By The Secretary Of The Army Signal repetition-rate and frequency-drift estimator using proportional-delayed zero-crossing techniques
US7821386B1 (en) 2005-10-11 2010-10-26 Avaya Inc. Departure-based reminder systems
US8259840B2 (en) * 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
WO2007120308A2 (en) * 2005-12-02 2007-10-25 Qualcomm Incorporated Systems, methods, and apparatus for frequency-domain waveform alignment
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8682652B2 (en) 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
BRPI0712625B1 (pt) * 2006-06-30 2023-10-10 Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Forschung E.V Codificador de áudio, decodificador de áudio, e processador de áudio tendo uma caractéristica de distorção ("warping") dinamicamente variável
US20100030557A1 (en) * 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
CN101523486B (zh) * 2006-10-10 2013-08-14 高通股份有限公司 用于编码和解码音频信号的方法和设备
CN101583995B (zh) * 2006-11-10 2012-06-27 松下电器产业株式会社 参数解码装置、参数编码装置以及参数解码方法
US20080120098A1 (en) * 2006-11-21 2008-05-22 Nokia Corporation Complexity Adjustment for a Signal Encoder
US8005671B2 (en) * 2006-12-04 2011-08-23 Qualcomm Incorporated Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US20100006527A1 (en) * 2008-07-10 2010-01-14 Interstate Container Reading Llc Collapsible merchandising display
US9232055B2 (en) * 2008-12-23 2016-01-05 Avaya Inc. SIP presence based notifications
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466673B (en) * 2009-01-06 2012-11-07 Skype Quantization
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
CN102687199B (zh) 2010-01-08 2015-11-25 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置
FR2961937A1 (fr) * 2010-06-29 2011-12-30 France Telecom Codage/decodage predictif lineaire adaptatif
DK2684190T3 (da) * 2011-03-10 2016-02-22 Ericsson Telefon Ab L M Fyldning af ikke-kodede undervektorer i transformationskodede lydsignaler
TWI591620B (zh) 2012-03-21 2017-07-11 三星電子股份有限公司 產生高頻雜訊的方法
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
EP3084763B1 (en) 2013-12-19 2018-10-24 Telefonaktiebolaget LM Ericsson (publ) Estimation of background noise in audio signals
TWI688609B (zh) 2014-11-13 2020-03-21 美商道康寧公司 含硫聚有機矽氧烷組成物及相關態樣

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62150399A (ja) * 1985-12-25 1987-07-04 日本電気株式会社 音声合成用基本周期波形生成法
JP2650355B2 (ja) * 1988-09-21 1997-09-03 三菱電機株式会社 音声分析合成装置
JPH02160300A (ja) * 1988-12-13 1990-06-20 Nec Corp 音声符号化方式
US5884253A (en) 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JPH06266395A (ja) * 1993-03-10 1994-09-22 Mitsubishi Electric Corp 音声符号化装置および音声復号化装置
JPH07177031A (ja) * 1993-12-20 1995-07-14 Fujitsu Ltd 音声符号化制御方式
US5517595A (en) 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5809459A (en) 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
JP3531780B2 (ja) * 1996-11-15 2004-05-31 日本電信電話株式会社 音声符号化方法および復号化方法
JP3296411B2 (ja) * 1997-02-21 2002-07-02 日本電信電話株式会社 音声符号化方法および復号化方法
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
JP3268750B2 (ja) * 1998-01-30 2002-03-25 株式会社東芝 音声合成方法及びシステム
US6260017B1 (en) * 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008067735A1 (fr) * 2006-12-05 2008-06-12 Huawei Technologies Co., Ltd. Procédé et dispositif de classement pour un signal sonore
CN105408954A (zh) * 2013-06-21 2016-03-16 弗朗霍夫应用科学研究促进协会 利用改进的音调滞后估计的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
US10381011B2 (en) 2013-06-21 2019-08-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved concealment of the adaptive codebook in a CELP-like concealment employing improved pitch lag estimation
US10643624B2 (en) 2013-06-21 2020-05-05 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization
CN105408954B (zh) * 2013-06-21 2020-07-17 弗朗霍夫应用科学研究促进协会 利用改进的音调滞后估计的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
US11410663B2 (en) 2013-06-21 2022-08-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation

Also Published As

Publication number Publication date
KR100615113B1 (ko) 2006-08-23
DE69928288D1 (de) 2005-12-15
EP1145228B1 (en) 2005-11-09
WO2000038177A1 (en) 2000-06-29
US6456964B2 (en) 2002-09-24
JP2003522965A (ja) 2003-07-29
DE69928288T2 (de) 2006-08-10
KR20010093208A (ko) 2001-10-27
ATE309601T1 (de) 2005-11-15
AU2377600A (en) 2000-07-12
HK1040806B (zh) 2006-10-06
US20020016711A1 (en) 2002-02-07
ES2257098T3 (es) 2006-07-16
HK1040806A1 (en) 2002-06-21
CN1242380C (zh) 2006-02-15
JP4824167B2 (ja) 2011-11-30
EP1145228A1 (en) 2001-10-17

Similar Documents

Publication Publication Date Title
CN1242380C (zh) 利用原型波形的周期性语音编码
CN1331826A (zh) 可变速率语音编码
CN1324556C (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN1145142C (zh) 矢量量化方法和语音编码方法及其装置
CN1131507C (zh) 音频信号编码装置、解码装置及音频信号编码·解码装置
CN1296888C (zh) 音频编码装置以及音频编码方法
CN1245706C (zh) 多模式语音编码器
CN1229775C (zh) 宽带语音和音频信号解码器中的增益平滑
CN100346392C (zh) 编码设备、解码设备、编码方法和解码方法
CN1240049C (zh) 语音编码系统
CN1205603C (zh) 在用于宽带信号编码的代数码本中索引脉冲位置和符号的方法和设备
CN100338648C (zh) 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件
CN1156822C (zh) 音频信号编码方法、解码方法,及音频信号编码装置、解码装置
CN1160703C (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN1196271C (zh) 可变速率声码器
CN1957398A (zh) 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
CN1338096A (zh) 用于分析-合成celp型语音编码的自适应窗
CN1906855A (zh) 空间矢量和可变分辨率量化
CN1097396C (zh) 声音编码装置和方法
CN1702736A (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN1632864A (zh) 扩散矢量生成方法及扩散矢量生成装置
CN1890714A (zh) 一种优化的复合编码方法
CN1890713A (zh) 用于数字信号压缩编码的多脉冲字典的索引间的编码转换
CN1287354C (zh) 代码转换方法与设备
CN1669071A (zh) 用于在音频代码的编码/解码处理之间转换代码的方法和装置以及使用该方法和装置的存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20060215

CX01 Expiry of patent term