CN1653521B

CN1653521B - 用于音频代码转换中的自适应码本音调滞后计算的方法

Info

Publication number: CN1653521B
Application number: CN038106450A
Authority: CN
Inventors: M·A·加布里; J·W·王; S·乔吉; M·伊布拉西姆
Original assignee: Dilithium Networks Inc
Current assignee: Di Lee Sim (for the benefit of creditors) Ltd.; Di Lee Sim Network Inc.; Dilithium Networks Inc
Priority date: 2002-03-12
Filing date: 2003-03-12
Publication date: 2010-05-26
Anticipated expiration: 2023-03-12
Also published as: US20080189101A1; EP1483758A1; US7996217B2; CN1653521A; JP2005520206A; WO2003079330A1; US20040002855A1; AU2003214182A1; EP1483758A4; US7260524B2; KR20040104508A

Abstract

一种用于将自适应码本音调迟滞从一种基于CELP的标准处理为另一种基于CELP的标准的装置。该装置具有各种模块，它们执行至少这里所述的功能。该装置包括时基子帧检验器检查模块，它适用于使一个或多个输入子帧与目的编解码器的输出子帧相关。该装置还具有与时基子帧检查模块耦合的判定模块。该判定模块适用于在各两个或多个输入子帧中从多个音调迟滞参数中确定所需的音调迟滞参数。该装置具有与判定模块耦合的音调迟滞选择模块。音调迟滞选择模块适用于选择所需的音调迟滞参数。

Description

用于音频代码转换中的自适应码本音调滞后计算的方法

发明领域

本发明一般涉及处理电信信号。更特别地，本发明提供用于将数字语音分组从一种码激励线性预测编码(CELP)格式转化为另一种CELP格式的方法和装置。更特别地，它涉及一种方法和装置，用于将由第一CELP编码器作为输入获得的自适应码本音调迟滞(pitch lag)插入第二CELP编码器的另一个自适应码本音调滞后。仅作为实例，本发明已应用于话音代码转换，但可以理解，本发明还可以包括其它应用。

发明背景

电信技术已开发了很多年。仅作为实例，编码技术将用于在电信媒介上传输的信号打包。编码通常包括将未加工信号(语音、图像、视频等等)转换成服从传输或存储的格式的处理。编码通常导致大量压缩，但一般包括要实现有效的信号处理。编码的结果是根据给定压缩格式的被编码的参数的比特流(帧的序列)。通过使用模拟信号的各种技术统计地和感性地除去冗余信息来实现压缩。因此，被编码的格式被称作“压缩格式”或“参数空间”。解码器获得被压缩的比特流并重新生成原信号。在语音编码的情况中，压缩典型地引起信息损失。

可以用编解码器装置执行编码。作为实例，基于CELP(码激励线性预测编码)的编解码器可以被认为是一种算法，它使用语音产生的模型在采样语音和某些参数空间之间进行映射，即它编码和解码数字语音。一般，所有基于CELP的算法都对语音的帧进行操作，这些语音帧被进一步分成几个子帧。基于CELP的模型中使用的帧参数具有用于语音信号的短期预测的线性预测系数(LPC)(并物理地涉及声道、口腔和鼻腔和嘴唇)，以及由自适应和固定码本组成的激励信号。自适应码本用于模拟语音中的长期音调信息。分析语音帧中的多数计算努力在于确定LPC系数和找到音调迟滞(或者等效地，自适应码字索引)。

存在着与多个不同端子连接的许多不同网络，这些端子中的每一个都支持许多基于CELP话音编码标准中的一种(或多种)。话音压缩标准之间缺乏内在的互用性常意味着当端对端呼叫横穿网络边界时需要进行转化。互连这些不同的网络和端子一般要求将话音从一种话音标准代码转化为另一种话音标准。这种代码转化的需要典型地存在于移动切换中心、媒体网关、多媒体消息系统中以及网络边缘上。

仅作为实例，不同无线、移动和有线线路网络的上下文中的话音编码说明不同标准上运行的网络。存在各种话音压缩和编码标准，它们用于不同网络-Voice overIP(VoIP)的G.729和G.723.1、GSM，GSM-AMR、EVRC以及不同无线网络上使用(或出现)的许多其它标准。图1A、1B和1C以简化的方式说明了基于CELP的话音压缩标准的这种多样性。在这种情况中，话音代码转换产生于每个网络的边缘处和任意两个网络之间。

自适应码本音调迟滞的计算在查找语音代码转换中的自适应码本中起到重要的作用。由于在多个流行的基于CELP的标准之间进行代码转换时帧尺寸或子帧尺寸可能不同，为不同子帧尺寸标准重新计算码本音调迟滞计算变得具有挑战性。例如，G.723.1中子帧尺寸是7.5ms(图1B)，而在GSM-ARM(图1A)中是5ms，以及在EVRC中是6.625ms或6.75ms(图1C)。

包括级联代码转换(强力方法)和某些“智能”代码转换方法的代码转换常规方法仍重建语音信号并执行广泛的计算来通过开环或闭环查找提取音调迟滞。这样，这种方法仍在语音信号空间中而不是参数空间中进行操作。因此，常规方法是计算密集的。

在对消除语音信号空间中的音调迟滞插入的尝试中，美国No.2002/0077812A1中体现了一种“智能”代码转换。虽然该方法执行CELP参数之间的代码转换，它仅对一般需要源和目的CELP编解码器之间的非常限制条件的特殊情况可用。例如，它一般要求使用代数CELP(ACELP)算法并要求源和目的编解码器两者具有相同的子帧尺寸，它具有很多限制并不能广泛地应用。

因此，需要一种改进了的话音代码转换，它能有效地计算自适应码本音调迟滞。

发明概述

根据本发明，提供了用于处理电信信号的技术。更特别地，本发明提供了一种方法和装置，其用于将数字语音分组从一种码激励线性预测编码(CELP)格式转化为另一种CELP格式。尤其是，它涉及一种方法和装置，其用于将由第一CELP编码器作为输入获得的自适应码本音调迟滞插入第二CELP编码器的另一个自适应码本音调迟滞。仅作为实例，本发明应用于话音代码转换，但可以理解，本发明还可以包括其它应用。

本发明是用于自适应码本音调迟滞计算的方法和装置。该装置包括(a)时基子帧检查模块，它存储等待插入或映射的源编解码器的每个子帧的自适应码本参数并计算源编解码器和目的编解码器之间重叠的子帧的比例；(b)判定模块，它计算与目的子帧重叠的所有源子帧之中自适应码本的能并查找最大能值作为选择音调迟滞的标准；以及(c)选择模块，它基于判定模块的输出从所有重叠的源子帧中选择子帧的音调迟滞作为输出。时基子帧检查模块包括缓冲器，它存储音调迟滞、音调增益和等待映射到目的子帧的源子帧的大量采样，以及鉴别器，它确定目的子帧是否由多个源子帧覆盖。

该方法包括通过源CELP编解码器参数空间计算目的子帧的音调迟滞的步骤。计算音调迟滞的步骤包括存储与目的子帧重叠的每个源子帧的自适应码本参数，确定目的子帧是否由一个源子帧或多个源子帧完全覆盖，如果目的子帧仅由一个源子帧完全覆盖则输出源子帧的音调迟滞或者如果目的子帧由多个源子帧覆盖则输出具有由判定模块使用的标准的最大值的子帧的音调迟滞。输出具有由判定模块使用的标准的最大值的子帧的音调迟滞的步骤包括通过判定进行模块查找标准的最大值，在所有重叠源子帧中具有最大值的子帧的音调迟滞，以及输出所选子帧的音调迟滞的步骤。通过判定模块查找标准的最大值的步骤包括组合重叠的源子帧的自适应码本参数，计算每个源子帧的重叠的比例，计算用作每个重叠子帧中的标准值的能作用，以及检索具有标准的最大值的子帧。

在具体实施例中，本发明提供了一种用于将自适应码本音调迟滞从一种基于CELP的标准处理为另一种基于CELP的标准的装置。该装置具有执行至少这里所述的功能的各种模块。该装置包括时基子帧检查模块，它适用于使一个或多个输入子帧与目的编解码器的输出子帧相关。该装置还具有与时基子帧检查模块耦合的判定模块。该判定模块适用于在各两个或多个输入子帧中从多个音调迟滞参数中确定所需子帧的音调迟滞。该装置具有与判定模块耦合的音调迟滞选择模块。该音调迟滞选择模块适用于选择所需的音调迟滞参数。

在可选方案的具体实施例中，本发明提供了一种用于将自适应码本参数音调迟滞从源基于CELP编解码器处理为目的CELP标准编解码器的方法。该方法包括使一个或多个输入的子帧与目的编解码器的输出子帧相关联；在各自的两个或更多个输入子帧中从多个音调迟滞参数中确定所需的音调迟滞参数；以及选择所需的音调迟滞参数。

在进一步的实施例中，本发明提供了一种用于将自适应码本音调迟滞从一种基于CELP的标准处理为另一种基于CELP的标准的基于计算机的系统。该系统包括计算机存储器，它可以是一个或多个存储器。各种代码被提供于该一个或多个存储器上。该系统包括指向时基子帧检查模块的一个或多个代码，该时基子帧检查模块适用于使一个或多个输入子帧与目的编解码器的输出子帧相关。该系统还包括指向与时基检查模块耦合的判定模块的一个或多个代码，该判定模块适用于在各自两个或更多输入子帧中从多个音调迟滞参数中确定所需的音调迟滞参数。一个或多个代码指向与判定模块耦合的音调迟滞选择模块。该判定模块适用于选择所需的音调迟滞参数。根据实施例，计算机代码可以按软件或固件形式用于执行这里所述的功能。

根据具体实施例，可以有很多好处和/或优点。根据具体实施例，本发明的优点在于它提供在代码转换中从一种编解码器到另一种编解码器的快速音调迟滞参数计算而不牺牲音频质量。快速和准确的计算算法可以改善音频代码转换，不仅在计算性能方面，更重要的是在保持音频质量方面。根据实施例，可以实现这些优点中的一个或更多。

特别地，在所附权利要求书中阐述了被认为是新颖的本发明的目的、特点和优点。通过参考以下说明并结合附图将最佳地理解本发明(关于其操作的组织和方式)以及进一步的目的和优点。

附图概述

图1A、1B和1C是用于说明不同CELP编解码器中使用的不同子帧尺寸的示意图；

图2是根据本发明实施例的用于执行自适应码本音调迟滞插入的简化的功能框图；

图3是示出根据本发明实施例的源和目的编解码器之间不同的子帧尺寸的比较和重叠的简化图；

图4是说明根据本发明实施例的用于为不同子帧尺寸插入音调迟滞的例程的简化流程图；

图5是示出根据本发明实施例的从G.723.1代码转换为GSM-AMR的特殊实例中子帧计算的简化框图。

具体实施方式

根据本发明，提供了用于处理电信信号的技术。更特别地，本发明提供了一种方法和装置，它们用于将数字语音分组从一种码激励线性预测编码(CELP)格式转化为另一种CELP格式。更特别地，它涉及一种方法和装置，它们用于将由第一CELP编解码器作为输入获得的自适应码本音调迟滞插入第二CELP编解码器的另一个自适应码本音调迟滞中。仅作为实例，本发明应用于话音代码转换，但可以理解，本发明也可包括其它应用。

通过现存音频编解码器标准中自适应码本的仔细调查，我们发现可以在代码转换中将码本音调迟滞参数从一个编解码器插入另一个编解码器而不牺牲音频质量。快速和正确的计算算法可以改善音频代码转换，不仅在计算性能方面而且更重要的是在保持音频质量方面。

在特定实施例中，语音信号可以被分类为有声或无声信号。在有声激励序列期间，自适应码本音调迟滞参数是相当稳定的，但在无声声音期间或者在有声声音的开始时是不稳定的。无声声音一般是较弱的、随机信号，且在这种情况中，自适应码本增益很小且自适应码本音调迟滞的选择与有声信号相比不是很重要。另一方面，有声信号一般较强和稳定，且自适应码本音调迟滞的选择直接决定语音压缩的质量。

虽然不同音频编解码器中优化的自适应码本音调迟滞非常接近，在音频代码转换中智能自适应码本音调迟滞计算是必要的。这是因为源和目的编解码器之间的子帧尺寸可能不同(图3)。如图所示，源编解码器中的子帧包括第一子帧的Ns的尺寸。目的编解码器(参见标号1)具有ND的第一子帧，它的尺寸小于第一编解码器子帧。如进一步所示的，第一源编解码器和第一目的编解码器的一边缘对准。由于第一源子帧的尺寸较大并具有延伸超过第一目的子帧的空间对准，第一目的子帧由第一源子帧覆盖(即，整体覆盖)。还示出了第二目的子帧(参见标号2)，它具有部分α1和部分α2，其与源编解码器的第一子帧和源编解码器的第二子帧重叠。第二目的子帧并非由单个源子帧覆盖。如同应用于处理不同尺寸的子帧，在本说明书中且特别是以下内容中提供了本发明进一步的细节。

根据特定实施例，我们提供了至少一种方法来为不同尺寸的子帧在音频代码转换中插入自适应码本音调迟滞，以及其它变化、修改和可选方案。

图2说明了根据本发明在音调迟滞插入中使用的构建块的层次。该图仅仅是实例，而不应过度地限制这里权利要求书的范围。本技术领域内的普通技术人员将理解许多变化、修改和可选方案。根据特定实施例，由于源和目的编解码器的不同子帧尺寸，时基子帧检查模块(Time-Base Subframe Inspection Module)处理源编解码器和目的编解码器之间的子帧插入，该模块处理源和目的子帧长度的所有情况(即，源子帧长度短于目的子帧长度，源子帧长度长于目的子帧长度以及源子帧长度等于目的子帧长度)。快速判定模块(Quick Decision Module)为目的编解码器计算所需音调迟滞的选择功能的标准。选择模块(Selection Module)根据快速判定模块计算的标准输出处理最终音调迟滞的计算。应注意，时基子帧检查模块可以直接连接到该输出(即，可以绕过快速判定模块和选择模块)。这样是因为时基子帧检查模块拥有将其直接映射到该输出的能力。这是基于目的子帧相对于源子帧的位置由时基检查模块及时确定的。

再次参考图3，假定源编解码器中自适应码本增益、自适应码本音调迟滞和子帧尺寸分别是g_p ^S，L^S，N_S，且目的编解码器的子帧尺寸是N_D。源编解码器的子帧尺寸可以与目的编解码器的不相同。此外，源和目的帧可以不对准且它们可以重叠。根据特殊的实施例，我们在不同情况标题下描述了实施例表，它们仅提供进行说明。这些实施例并非旨在限制这里权利要求书的范围。本技术领域内的普通技术人员将理解许多变化、可选方案和修改。

情况1：如果目的子帧由来自源编解码器的一个子帧完全覆盖，用于目的的自适应码本音调迟滞是：

L_D＝L_S (等式1)

情况2：如果目的子帧由来自源的多个子帧覆盖，自适应码本音调迟滞是对于它来说自适应码本增益和重叠尺寸的函数是最大值的源子帧的音调迟滞。它可以被表示成：

E_n＝α_n·g_P ² (等式2)

其中En是源子帧中自适应增益gp^S和覆盖部分α的函数：

E_max＝max(E₁，E₂…E_n) (等式3)

且Emax是与目的子帧m重叠的所有子帧中最大的E。

因此，所选的自适应码本音调迟滞可以用作目的子帧的自适应码本音调迟滞，或者如果需要进一步调整也可以用作开环自适应码本音调迟滞。

图4中，说明了本发明操作流程的流程图。该图仅仅是实例，而不应限制这里权利要求书的范围。本技术领域内的普通技术人员可以认识到许多变化、修改和可选方案。自适应码本参数到达音频代码转换的插入器模块的输入。对与源子帧相对的当前目的子帧的对准进行检查。如果目的子帧由源编解码器的一个子帧完全覆盖，目的子帧处的音调迟滞等于源子帧的相应音调迟滞，如等式1所规定的。

如果目的子帧由来自源编解码器的两个或更多子帧覆盖，则音频代码转换内的选择模块在重叠的源子帧中查找最大标准，如等式2和3所规定的。

等式2和3中标准的基础是源编解码器子帧中音调迟滞的强度。在正常对话中的无声时间段中，自适应码本增益很小，这与有声时间段相对，其中音调迟滞很强。因此，根据重叠的源子帧的一部分，如等式3的因子α和音调迟滞的量值所规定的，计算等式3(En)中规定的判定标准。

随后，在目的编解码器处输出音调迟滞。应注意，计算出的音调迟滞应合适于目的编解码器的音调迟滞的允许的索引范围内。在计算出的音调迟滞不合适于目的编解码器的允许的索引范围内的情况中，根据它落于何处，可以将音调迟滞加倍或减半，不管处于最小的允许音调或处于最大的允许音调。根据实施例，我们还提供了仅用于说明的特定实例。贯穿本说明书尤其在以下部分可以发现这些实例。

G.723.1 GSM-AMR代码转换实例

作为说明性实例，我们示出如何将自适应码本音调迟滞插入G.723.1到GSM-AMR代码转换(图5)。同样，该图仅仅是实例，而不应限制这里权利要求书的范围。本技术领域内的普通技术人员可以认识到许多变化、修改和可选方案。

通过图5可发现，需要三个GSM-AMR子帧来描述与两个G.723.1子帧相同的语音信号持续时间。同样，每两个G.723.1子帧需要三个GSM-AMR子帧。如果源编解码器是G.723.1而目的编解码器是GSM-AMR，则计算后的GSM-AMR自适应码本音调迟滞如下：

(1)第m个子帧：GSM-AMR子帧是5ms而G.723.1子帧是7.5ms。GSM-AMR子帧{m}由G.723.1子帧{n}完全覆盖。根据等式(1)，其自适应码本音调迟滞是

L_m ^GSM-AMR＝L_n ^G723.1

(2)第(m+1)个子帧：第(m+1)个子帧由两个源子帧{n}和{n+1}覆盖，GSM-AMR子帧{m}与G.723.1子帧{n}的重叠与{m}和{n+1}的相同。因此，通过源自适应码本增益确定计算。根据等式(2)和(3)，第{m+1}个子帧自适应码本预定值可以如下获得：

其中Gp是音调增益。

(3)第(m+2)个子帧：第(m+2)个子帧仅由G723.1子帧(n+1)覆盖。因此，自适应码本音调迟滞与G723.1相同。

L_m+2 ^GSM-AMR＝L_n+1 ^G723.1

(4)可以如上地获得后续子帧的自适应码本音调迟滞。

其它CELP代码转换

根据其它具体实施例，本文档中描述的自适应码本计算的本发明对于所有基于CELP的话音编解码器是一般的，并应用于利用音调迟滞信息的现有编解码器G.723.1，GSM-AMR，EVR，G.728，G.729，G.729A，QCELP，MPEG-4CELP，SMV和所有其它将来的基于CELP的话音编解码器之间的任何话音代码转换。

提供了之前的较佳实施例的描述以使得本技术领域内的熟练技术人员实施或使用本发明。对这些实施例的各种修改对于本技术领域内的熟练技术人员来说是显见的，且这里限定的一般原理可以应用于其它实施例中而无需创造能力。因此，本发明并非旨在限制这里示出的实施例而是根据与这里揭示的原理和创新特点一致的最宽范围。

Claims

1.一种用于将自适应码本音调迟滞从源CELP编解码器处理为目的CELP编解码器的装置，其特征在于，包括：

时基子帧检查模块，它适用于使源CELP编解码器的一个或多个输入的子帧与目的CELP编解码器的输出子帧相关联；

判定模块，它与所述时基子帧检查模块耦合，该判定模块适用于在源CELP编解码器的两个或更多个输入子帧中从多个音调迟滞参数中确定所需的音调迟滞参数；以及

音调迟滞选择模块，它与所述判定模块耦合，该音调迟滞选择模块适用于选择所需的音调迟滞参数。

2.如权利要求1所述的装置，其特征在于，所述时基子帧检查模块是单个模块或多个模块。

3.如权利要求1所述的装置，其特征在于，所需的音调迟滞参数是具有与两个或更多输入子帧有关的音调迟滞选择函数的标准的最大值的输入子帧的音调迟滞。

4.如权利要求1所述的装置，其特征在于，所需的音调迟滞参数是具有与两个或更多输入子帧有关的音调迟滞选择函数的标准的加权平均值或平均值的输入子帧的音调迟滞。

5.如权利要求1所述的装置，其特征在于，所述判定模块是单个模块或多个模块。

6.如权利要求1所述的装置，其特征在于，所述音调迟滞选择模块是单个模块或多个模块。

7.如权利要求1所述的装置，其特征在于，所述源CELP编解码器和所述目的CELP编解码器使用不同的子帧尺寸或者相同的子帧尺寸。

8.如权利要求1所述的装置，其特征在于，所述时基子帧检查模块包括：

自适应码本缓冲器，该自适应码本缓冲器适用于存储音调迟滞，音调增益，以及等待映射到一个或多个输出子帧的一个或多个输入子帧的一个或多个采样；以及

鉴别器，它与所述自适应码本缓冲器耦合，所述鉴别器适用于确定输出子帧是否由多个输入子帧覆盖。

9.如权利要求1所述的装置，其特征在于，判定模块通过以下等式计算每个输入子帧中自适应码本参数的能：

E_n＝α_n·g_P ²

其中E_n是每个输入子帧中自适应增益g_P ²和重叠部分α的函数。

10.如权利要求1所述的装置，其特征在于，所述判定模块通过以下等式查找包含标准的最大值的所需值：

E_max＝max(E₁，E₂…E_n)

其中E_max是与输出子帧m重叠的所有输入子帧中最大的E。

11.一种将自适应码本参数音调迟滞从源基于CELP的编解码器处理为目的CELP标准编解码器的方法，其特征在于，所述方法包括：

使一个或多个输入的子帧与目的编解码器的输出子帧相关联；

在各自的两个或更多个输入子帧中从多个音调迟滞参数中确定所需的音调迟滞参数；以及

选择所需的音调迟滞参数。

12.如权利要求11所述的方法，其特征在于，确定所需的音调迟滞参数包括：

如果输出子帧由超过一个的输入子帧覆盖，则通过判定模块查找标准的最大值；以及

在所有被查找的输入子帧中选择具有选择函数的标准的最大值的输入子帧的音调迟滞。

13.如权利要求11所述的方法，其特征在于，所需的音调迟滞参数是具有与两个或更多输入子帧有关的音调迟滞选择函数的标准的最大值的输入子帧的音调迟滞。

14.如权利要求11所述的方法，其特征在于，所需的音调迟滞参数是具有与两个或更多输入子帧有关的音调迟滞选择函数的标准的平均值或加权平均值的输入子帧的音调迟滞。

15.如权利要求11所述的方法，其特征在于，一个或多个输入子帧包括输入边缘，以及目的CELP编解码器的输出子帧包括输出边缘；其中在指定时间处所述输入边缘与输出边缘对准。

16.如权利要求12所述的方法，其特征在于，通过判定模块查找标准的最大值，包括：

组合覆盖输出子帧的每个输入子帧的自适应码本参数；

计算覆盖输出子帧的每个输入子帧的比例；

计算每个输入子帧中自适应码本参数的能；以及

检索具有自适应码本参数的最大能的输入子帧。

17.如权利要求11所述的方法，其特征在于，使一个或多个输入的子帧与目的编解码器的输出子帧相关联包括：

存储音调迟滞、音调增益以及等待映射到输出子帧的一个或多个输入子帧的一个或多个采样；

确定输出子帧是否由多个输入子帧覆盖；以及

如果输出子帧完全由输入子帧覆盖，则输出输入子帧的音调迟滞。

18.如权利要求11所述的方法，其特征在于，选择所需的音调迟滞参数包括输出所需的音调迟滞参数。

19.如权利要求11所述的方法，其特征在于，确定所需的音调迟滞参数通过以下等式计算每个输入子帧中自适应码本参数的能：

E_n＝α_n·g_P ²

20.如权利要求11所述的方法，其特征在于，确定所需的音调迟滞参数通过以下等式查找包含标准的最大值的所需值：

E_max＝max(E₁，E₂…E_n)

其中E_max是与输出子帧m重叠的所有输入子帧中最大的E。