CN101496098A

CN101496098A - 用于以与音频信号相关联的帧修改窗口的系统及方法

Info

Publication number: CN101496098A
Application number: CNA2007800282862A
Authority: CN
Inventors: 文卡特什·克里希南; 阿南塔帕德马那伯罕·A·坎达哈达伊
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-07-31
Filing date: 2007-07-31
Publication date: 2009-07-29
Anticipated expiration: 2027-07-31
Also published as: TWI364951B; KR20090035717A; CA2658560C; BRPI0715206A2; TW200816718A; US20080027719A1; WO2008016945A9; EP2047463A2; CN101496098B; US7987089B2; WO2008016945A2; CA2658560A1; RU2009107161A; RU2418323C2; WO2008016945A3; JP2009545780A; JP4991854B2; KR101070207B1

Abstract

本发明描述一种用于以与音频信号相关联的帧修改窗口的方法。接收信号。将所述信号分割为多个帧。确定所述多个帧内的一个帧是否与非语音信号相关联。如果确定所述帧与非语音信号相关联，则将经修改离散余弦变换(MDCT)窗口函数应用于所述帧以产生第一零填充区域及第二零填充区域。对所述帧进行编码。解码器窗口与编码器窗口相同。

Description

用于以与音频信号相关联的帧修改窗口的系统及方法

根据35U.S.C.§119主张优先权

本专利申请案主张2006年7月31日申请的标题为“用于具有少于50％的帧重叠的MDCT中的完美重构的开窗(Windowing for Perfect Reconstruction in MDCT with Lessthan 50％Frame Overlap)”的临时申请案第60/834,674号的优先权，且转让给本受让人，且在此以引用的方式明确并入本文中。

技术领域

本系统及方法大体来说涉及语音处理技术。更明确地说，本系统及方法涉及以与音频信号相关联的帧修改窗口的系统及方法。

背景技术

通过数字技术来传输声音已变得普遍，尤其是在长距离、数字无线电电话应用、使用计算机的视频消息传递等等中。此又对确定可经由信道发送的最少量信息且同时保持所重构的语音的可察觉质量产生了兴趣。用于压缩语音的装置可用于许多电信领域中。电信的一个实例为无线通信。另一实例为经由计算机网络(例如，因特网)的通信。通信领域具有许多应用，包括(例如)计算机、膝上型计算机、个人数字助理(PDA)、无绳电话、寻呼机、无线局域环路、无线电话(例如，蜂窝式及便携式通信系统(PCS)电话系统)、移动因特网协议(IP)电话及卫星通信系统。

发明内容

无

附图说明

图1说明无线通信系统的一配置；

图2为说明计算环境的一配置的框图；

图3为说明信号传输环境的一配置的框图；

图4A为说明一种用于以与音频信号相关联的帧修改窗口的方法的一配置的流程图；

图4B为说明用于以与音频信号相关联的帧修改窗口的编码器及解码器的配置的框图；

图5为说明一种用于重构音频信号的经编码帧的方法的一配置的流程图；

图6为说明与多模式解码器进行通信的多模式编码器的一配置的框图；

图7为说明一种音频信号编码方法的一实例的流程图；

图8为说明在将窗口函数应用于每一帧之后的多个帧的一配置的框图；

图9为说明一种用于将窗口函数应用于与非语音信号相关联的帧的方法的一配置的流程图；

图10为说明一种用于重构已由窗口函数加以修改的帧的方法的一配置的流程图；及

图11为通信/计算装置的一配置中的某些组件的框图。

具体实施方式

本发明描述一种用于以与音频信号相关联的帧修改窗口的方法。接收信号。将所述信号分割为多个帧。确定所述多个帧内的一个帧是否与非语音信号相关联。如果确定所述帧与非语音信号相关联，则将经修改的离散余弦变换(MDCT)窗口函数应用于所述帧以产生第一零填充区域及第二零填充区域。编码所述帧。

还描述一种用于以与音频信号相关联的帧修改窗口的设备。所述设备包括处理器及与所述处理器进行电子通信的存储器。指令存储于所述存储器中。所述指令可执行以：接收信号；将所述信号分割为多个帧；确定所述多个帧内的一个帧是否与非语音信号相关联；如果确定所述帧与非语音信号相关联，则将经修改的离散余弦变换(MDCT)窗口函数应用于所述帧以产生第一零填充区域及第二零填充区域；及编码所述帧。

还描述一种经配置而以与音频信号相关联的帧修改窗口的系统。所述系统包括用于处理的装置及用于接收信号的装置。所述系统还包括用于将所述信号分割为多个帧的装置及用于确定所述多个帧内的一个帧是否与非语音信号相关联的装置。所述系统进一步包括用于在确定所述帧与非语音信号相关联的情况下将经修改的离散余弦变换(MDCT)窗口函数应用于所述帧以产生第一零填充区域及第二零填充区域的装置及用于编码所述帧的装置。

还描述一种经配置以存储一组指令的计算机可读媒体。所述指令可执行以：接收信号；将所述信号分割为多个帧；确定所述多个帧内的一个帧是否与非语音信号相关联；如果确定所述帧与非语音信号相关联，则将经修改的离散余弦变换(MDCT)窗口函数应用于所述帧以产生第一零填充区域及第二零填充区域；及编码所述帧。

还描述一种用于选择待用于计算帧的经修改的离散余弦变换(MDCT)的窗口函数的方法。提供用于选择待用于计算帧的MDCT的窗口函数的算法。将所述所选择的窗口函数应用于所述帧。基于由额外编码模式强加于MDCT编码模式的约束而以所述MDCT编码模式来编码所述帧，其中所述约束包含所述帧的长度、先行长度及延迟。

还描述一种用于重构音频帧的经编码帧的方法。接收包。分解所述包以检索经编码帧。合成所述帧的位于第一零填充区域与第一区域之间的样本。向第一长度的重叠区域添加先前帧的先行长度。存储所述帧的所述第一长度的先行。输出经重构的帧。

现参看附图来描述所述系统及所述方法的各种配置，其中相同参考标号指示相同或功能类似的元件。如大致在本文中的各图中所描述及说明，可以广泛的多种不同配置来布置及设计本系统及方法的特征。因此，下文的详细描述并不希望限制如所主张的系统及方法的范围，而是仅表示所述系统及所述方法的配置。

可将本文中所揭示的配置的许多特征实施为计算机软件、电子硬件或两者的组合。为清楚地说明硬件与软件的此互换性，将大致就各种组件的功能性来描述所述组件。将此功能性实施为硬件还是软件视特定应用及强加于整个系统的设计约束而定。所属领域的技术人员可以针对每一特定应用的变化的方式来实施所描述的功能性，但不应将所述实施方案决策解释为导致脱离本系统及方法的范围。

在将所描述的功能性实施为计算机软件的情况下，此软件可包括任何类型的位于存储器装置内及/或作为电子信号而经由系统总线或网络传输的计算机指令或计算机可执行码。实施与本文中所描述的组件相关联的功能性的软件可包含单个指令或许多指令，且可分布在若干不同码段、分布于不同程序中及分布为跨越若干存储器装置。

如本文中所使用，术语“一配置”、“配置”、“若干配置”“所述配置”、“所述若干配置”、“一个或一个以上配置”、“一些配置”、“某些配置”、“一个配置”、“另一配置”及其类似物意味着“所揭示的系统及方法的一个或一个以上(但未必全部)配置”，除非另外明确规定。

术语“确定”(及其语法变体)是以极为广泛的意义来使用。术语“确定”包含广泛的多种动作且因此“确定”可包括核算、计算、处理、导出、调查、查找(例如，在表格、数据库或另一数据结构中进行查找)、查明及其类似物。并且，“确定”可包括接收(例如，接收信息)、存取(例如，存取存储器中的数据)及其类似物。并且，“确定”可包括解析、选择、挑选、建立及其类似物。

短语“基于”并不意味着“仅基于”，除非另外明确规定。换句话说，短语“基于”描述“仅基于”与“至少基于”两者。一般来说，可使用短语“音频信号”来指可被听到的信号。音频信号的实例可包括表示人类语音、器乐及声乐、音调声音等等。

图1说明码分多址(CDMA)无线电话系统100，其可包括多个移动台102、多个基站104、基站控制器(BSC)106及移动交换中心(MSC)108。MSC 108可经配置以与公共交换电话网络(PSTN)110介接。MSC 108还可经配置以与BSC 106介接。系统100中可存在一个以上BSC 106。每一基站104可包括至少一个扇区(未图示)，其中每一扇区可具有全向天线或指向径向地远离基站104的特定方向的天线。或者，每一扇区可包括两个用于分集接收的天线。每一基站104可经设计以支持多个频率指派。可将扇区与频率指派的相交部分称作CDMA信道。移动台102可包括蜂窝式或便携式通信系统(PCS)电话。

在蜂窝式电话系统100的操作期间，基站104可从若干组移动台102接收若干组反向链路信号。所述移动台102可正进行电话呼叫或其它通信。由给定基站104所接收的每一反向链路信号可在所述基站104内加以处理。可将所得数据转发到BSC 106。所述BSC 106可提供呼叫资源分配及移动性管理功能性(包括对在基站104之间的软越区切换的编配)。BSC 106还可将所接收的数据路由到MSC 108，所述MSC 108提供额外的路由服务以用于与PSTN 110介接。类似地，PSTN 110可与MSC 108介接，且所述MSC108可与BSC 106介接，所述BSC 106又可控制基站104以将若干组转发链路信号传输到若干组移动台102。

图2描绘计算环境200的一配置，所述计算环境200包括源计算装置202、接收计算装置204及接收移动计算装置206。源计算装置202可经由网络210而与接收计算装置204、206进行通信。网络210可为一类型的计算网络，其包括(但不限于)因特网、局域网络(LAN)、校园局域网络(CAN)、城域网络(MAN)、广域网络(WAN)、环状网络、星形网络、权标环状网络等等。

在一配置中，源计算装置202可对音频信号212进行编码且经由网络210而将其传输到接收计算装置204、206。音频信号212可包括语音信号、音乐信号、音调、背景噪声信号等等。如本文中所使用，“语音信号”可指由人类语音系统所产生的信号且“非语音信号”可指并非由人类语音系统所产生的信号(即，音乐、背景噪声等等)。源计算装置202可为移动电话、个人数字助理(PDA)、膝上型计算机、个人计算机或任何其它具有处理器的计算装置。接收计算装置204可为个人计算机、电话等等。接收移动计算装置206可为移动电话、PDA、膝上型计算机或任何其它具有处理器的移动计算装置。

图3描绘了信号传输环境300，其包括编码器302、解码器304及传输媒体306。可在移动台102或源计算装置202内实施编码器302。可在基站104、移动台102、接收计算装置204或接收移动计算装置206中实施解码器304。编码器302可对音频信号s(n)310进行编码，从而形成经编码的音频信号s_enc(n)312。可跨越传输媒体306而将经编码的音频信号312传输到解码器304。传输媒体306可促进编码器302以无线方式将经编码的音频信号312传输到解码器或其可促进编码器302经由在编码器302与解码器304之间的有线连接来传输经编码的信号312。解码器304可解码s_enc(n)312，从而产生经合成的音频信号

如本文中所使用，术语“编码”可通常指包含编码与解码两者的方法。通常，编码系统、编码方法及编码设备试图使经由传输媒体306所传输的位的数目(即，使s_enc(n)312的带宽最小化)最小化，同时保持可接受的信号再现(即，

s (n) 310 \approx \hat{s} (n) 316

)。经编码的音频信号312的组成可根据由编码器302所利用的特定音频编码模式而变化。下文描述了各种编码模式。

可将下文所描述的编码器302及解码器304的组件实施为电子硬件、计算机软件或两者的组合。下文就这些组件的功能性而描述了所述组件。将功能性实施为硬件还是软件可视特定应用及强加于整个系统的设计约束而定。传输媒体306可表示许多不同传输媒体，其包括(但不限于)基于陆地的通信线、基站与卫星之间的链路、蜂窝式电话与基站之间的无线通信、移动电话与卫星之间的无线通信或计算装置之间的通信。

通信的每一方可传输数据以及接收数据。每一方可利用编码器302及解码器304。然而，下文将把信号传输环境300描述为包括位于传输媒体306的一端处的编码器302及位于另一端处的解码器304。

在一配置中，s(n)310可包括在典型对话(包括不同有声声音及静默周期)期间所获得的数字语音信号。可将所述语音信号s(n)310分割为若干帧，且可将每一帧进一步分割为若干子帧。在执行某一块处理的情况下，可使用这些经随意选择的帧/子帧边界。在此意义上，还可对子帧执行被描述为对帧所执行的操作；本文中可互换使用帧及子帧。并且，可将一个或一个以上帧包括于一窗口中，所述窗口可说明各种帧之间的放置及时序。

在另一配置中，s(n)310可包括一非语音信号，例如，音乐信号。可将所述非语音信号分割为若干帧。可将一个或一个以上帧包括于一窗口中，所述窗口可说明各种帧之间的放置及时序。窗口的选择可视经实施以对信号进行编码的编码技术及可强加于系统的延迟约束而定。本系统及方法描述一种用于选择窗口形状的方法，所述窗口形状用于在能够对语音信号与非语音信号两者进行编码的系统中以基于经修改离散余弦变换(MDCT)及逆经修改离散余弦变换(IMDCT)的编码技术来对非语音信号进行编码及解码。所述系统可强加约束于可由基于MDCT的编码器使用多少帧延迟及先行而使得能够以均匀速率产生经编码信息。

在一配置中，编码器302包括可格式化包括与非语音信号相关联的帧的窗口的窗口格式化模块308。可编码被包括于格式化窗口中的帧且解码器可通过实施帧重构模块314而重构所述经编码帧。帧重构模块314可合成所述经编码帧以使得所述帧类似于语音信号310的经预编码帧。

图4为说明一种用于以与音频信号相关联的帧修改窗口的方法400的一配置的流程图。所述方法400可由编码器302实施。在一配置中，接收402一信号。所述信号可为如先前所描述的音频信号。可将所述信号分割404为多个帧。可应用408窗口函数以产生窗口且可产生第一零填充区域及第二零填充区域作为所述窗口的一部分以用于计算经修改离散余弦变换(MDCT)。换句话说，窗口的开始部分及结束部分的值可为零。在一方面中，第一零填充区域的长度及第二零填充区域的长度可依据编码器302的延迟约束而变。

可将经修改离散余弦变换(MDCT)函数用于若干音频编码标准中以将脉码调制(PCM)信号样本或将其经处理版本变换为其等效频域表示。MDCT可类似于IV型离散余弦变换(DCT)，其中帧的额外特性彼此重叠。换句话说，信号的由MDCT所变换的连续帧可彼此重叠50％。

另外，对于2M个样本中的每一帧来说，MDCT可产生M个变换系数。MDCT可为重要取样完美重构滤波器组。为提供完美重构，可由下式给出从信号x(n)(其中n＝0、1、...、2M)的帧获得的MDCT系数X(k)(其中k＝0、1、...、M)：

X (k) = Σ_{n = 0}^{2 M - 1} x (n) h_{k} (n) - - - (1)

其中

h_{k} (n) = w (n) \sqrt{\frac{2}{M}} \cos [\frac{(2 n + M + 1) (2 k + 1) π}{4 M}] - - - (2)

(其中k＝0、1、...、M)，且w(n)为可满足普林森-布拉德利(Princen-Bradley)条件的窗口，所述普林森-布拉德利(Princen-Bradley)条件陈述为：

w²(n)+w²(n+M)＝1 (3)

在解码器处，可使用逆MDCT(IMDCT)而将M个经编码系数变换回到时域。如果

(其中k＝0、1、2、...、M)为所接收的MDCT系数，则对应的IMDCT解码器通过根据下式而首先采用所接收的系数的IMDCT来获得2M个样本而产生经重构的音频信号：

\hat{x} (n) = Σ_{k = 0}^{M - 1} \hat{X} (k) h_{k} (n)

其中n＝0、1、...、2M-1(4)

其中h_k(n)由方程式(2)来界定，接着向当前帧的最初M个样本重叠及添加先前帧的IMDCT输出的M个最后样本及来自下一帧的IMDCT输出的最初M个样本。因此，如果对应于下一帧的经解码MDCT系数在一给定时间不可用，则仅可完整地重构当前帧的M个音频样本。

MDCT系统可利用M个样本的先行。MDCT系统可包括：编码器，其使用预定窗口而获得音频信号或其经滤波版本的MDCT；及解码器，其包括使用与编码器所使用的窗口相同的窗口的IMDCT函数。MDCT系统还可包括重叠及添加模块。举例来说，图4B说明了MDCT编码器401。由预处理器405接收输入音频信号403。所述预处理器405实施预处理、线性预测编码(LPC)滤波及其它类型的滤波。从预处理器405产生经处理的音频信号407。将MDCT函数409应用于已被适当窗口化的2M个信号样本。在一配置中，量化器411量化及编码M个系数413且将所述M个经编码系数传输到MDCT解码器429。

解码器429接收M个经编码系数413。使用与编码器401中的窗口相同的窗口而将IMDCT 415应用于所述M个所接收系数413。可将2M个信号值417分类为最初M个样本选择423且可保存最后M个样本419。可通过延迟421而将所述最后M个样本419进一步延迟一个帧。可通过求和器425来对最初M个样本423及经延迟的最后M个样本419求和。可使用所述经求和的样本来产生音频信号的经重构的M个样本427。

通常，在MDCT系统中，可从一当前帧的M个样本及一未来帧的M个样本而导出2M个信号。然而，如果仅来自未来帧的L个样本为可用的，则可选择实施未来帧的L个样本的窗口。

在经由电路交换网络而操作的实时声音通信系统中，可由最大可允许编码延迟来约束先行样本的长度。可假定先行长度L为可用的。L可小于或等于M。在此条件下，可能仍然需要使用MDCT(其中连续帧之间的重叠为L个样本)，同时保持完美的重构特性。

本系统及方法可尤其与实时双向通信系统有关，其中预期一编码器产生信息以用于以规则的时间间隔进行传输而不管对编码模式的选择。所述系统可能不能够容忍在由编码器产生此信息时的抖动或在产生此信息时的此抖动可能不合需要。

在一配置中，将经修改离散余弦变换(MDCT)函数应用410于帧。应用窗口函数可为计算所述帧的MDCT中的一步骤。在一配置中，MDCT函数处理2M个输入样本以产生M个可接着被量化及传输的系数。

在一配置中，可编码412帧。在一方面中，可编码412所述帧的系数。可使用将在下文予以更完整地论述的各种编码模式来编码所述帧。可将所述帧格式化414于包中且可传输416所述包。在一配置中，将所述包传输416到解码器。

图5为说明一种用于重构音频信号的经编码帧的方法500的一配置的流程图。在一配置中，可由解码器304来实施方法500。可接收502包。可从编码器302接收502所述包。可分解504所述包以便检索帧。在一配置中，可解码506所述帧。可重构508所述帧。在一实例中，帧重构模块314重构所述帧以类似于音频信号的经预编码帧。可输出510所述经重构帧。可将输出的帧与额外输出的帧组合以再现音频信号。

图6为说明跨越通信信道606而与多模式解码器604进行通信的多模式编码器602的一配置的框图。包括多模式编码器602及多模式解码器604的系统可为包括若干不同编码方案以编码不同音频信号类型的编码系统。通信信道606可包括射频(RF)接口。编码器602可包括相关联的解码器(未图示)。编码器602及其相关联的解码器可形成第一编码器。解码器604可包括相关联的编码器(未图示)。解码器604及其相关的编码器可形成第二编码器。

编码器602可包括初始参数计算模块618、模式分类模块622、多个编码模式624、626、628及包格式化模块630。将编码模式624、626、628的数目展示为N，其可表示任何数目的编码模式624、626、628。为简单起见，展示了三种编码模式624、626、628，其中虚线指示存在其它编码模式。

解码器604可包括包分解器模块632、多个解码模式634、636、638、帧重构模块640及后滤波器642。将解码模式634、636、638的数目展示为N，其可表示任何数目的解码模式634、636、638。为简单起见，展示三种解码模式634、636、638，其中虚线指示存在其它解码模式。

可将音频信号s(n)610提供到初始参数计算模块618及模式分类模块622。可将所述信号610划分为若干样本块(称作帧)。值n可表示帧数目或值n可表示帧中的样本数目。在替代配置中，可使用线性预测(LP)残余误差信号来替代音频信号610。可由语音编码器(例如，码激励线性预测(CELP)编码器)使用所述LP残余误差信号。

初始参数计算模块618可基于当前帧而导出各种参数。在一方面中，这些参数包括以下各项中的至少一者：线性预测编码(LPC)滤波器系数、线谱对(LSP)系数、规范化自相关函数(NACF)、开放环路滞后、零交叉速率、带能量及共振峰残余信号。在另一方面中，初始参数计算模块618可通过滤波信号610、计算音高等等来预处理信号610。

可将初始参数计算模块618耦接到模式分类模块622。所述模式分类模块622可在编码模式624、626、628之间进行动态切换。初始参数计算模块618可将关于当前帧的参数提供到模式分类模块622。所述模式分类模块622可经耦接以逐帧地在编码模式624、626、628之间进行动态切换以便选择用于当前帧的适当编码模式624、626、628。模式分类模块622可通过将所述参数与预界定阈值及/或最高值相比较而选择用于当前帧的特定编码模式624、626、628。举例来说，可使用MDCT编码方案来编码与非语音信号相关联的帧。MDCT编码方案可接收帧且将特定MDCT窗口格式应用于所述帧。下文关于图8而描述特定MDCT窗口格式的实例。

模式分类模块622可将语音帧分类为语音或非活动语音(例如，静默、背景噪声或言语之间的暂停)。基于帧的周期性，模式分类模块622可将语音帧分类为特定类型的语音(例如，有声、无声或瞬态)。

有声语音可包括展现出相对高程度的周期性的语音。音高周期可为语音帧的分量，其可用于分析及重构所述帧的内容。无声语音可包括辅音。瞬态语音帧可包括有声语音与无声语音之间的过渡。可将既未被分类为有声语音又未被分类为无声语音的帧分类为瞬态语音。

将帧分类为语音还是非语音可允许使用不同编码模式624、626、628来编码不同类型的帧，从而导致更有效地使用共享信道(例如，通信信道606)中的带宽。

模式分类模块622可基于帧的分类而选择用于当前帧的编码模式624、626、628。可并联耦接各种编码模式624、626、628。所述编码模式624、626、628中的一者或一者以上可在任何给定时间均为操作的。在一配置中，根据当前帧的分类来选择一个编码模式624、626、628。

不同编码模式624、626、628可根据不同编码位速率、不同编码方案或编码位速率与编码方案的不同组合而操作。不同编码模式624、626、628还可将一不同窗口函数应用于一个帧。所使用的各种编码速率可为全速率、半速率、四分之一速率及/或八分之一速率。所使用的各种编码模式624、626、628可为MDCT编码、码激励线性预测(CELP)编码、原型音高周期(PPP)编码(或波形内插(WI)编码)及/或噪声激励线性预测(NELP)编码。因此，举例来说，特定编码模式624、626、628可为MDCT编码方案，另一编码模式可为全速率CELP，另一编码模式624、626、628可为半速率CELP，另一编码模式可为624、626、628可为全速率PPP，且另一编码模式624、626、628可为NELP。

根据使用传统窗口来编码、传输、接收及在解码器处重构音频信号的M个样本的MDCT编码方案，所述MDCT编码方案利用编码器处的输入信号的2M个样本。换句话说，除音频信号的当前帧的M个样本之外，编码器可在可开始编码之前等待收集额外M个样本。在MDCT编码方案与其它编码模式(例如，CELP)共存的多模式编码系统中，使用用于MDCT计算的传统窗口格式可影响整体帧大小及整个编码系统的先行长度。本系统及方法针对任何给定帧大小及先行长度而提供用于MDCT计算的窗口格式的设计及选择，使得MDCT编码方案不会将约束强加于多模式编码系统。

根据CELP编码模式，可使用LP残余信号的经量化版本来激励线性预测声道模型。在CELP编码模式中，可量化当前帧。可使用CELP编码模式来编码被分类为瞬态语音的帧。

根据NELP编码模式，可使用经滤波的伪随机噪声信号来模仿LP残余信号。NELP编码模式可为实现低位速率的相对简单的技术。可使用NELP编码模式来编码被分类为无声语音的帧。

根据PPP编码模式，可编码每一帧内的一子组音高周期。可通过在这些原型周期之间进行内插来重构语音信号的剩余周期。在PPP编码的时域实施方案中，可计算第一组参数，所述第一组参数描述如何将先前原型周期修改为近似于当前原型周期。可选择一个或一个以上码向量，当对所述一个或一个以上码向量求和时其近似于当前原型周期与经修改的先前原型周期之间的差。第二组参数描述这些所选择的码向量。在PPP编码的频域实施方案中，可计算一组参数以描述原型的振幅及相位谱。根据PPP编码的实施方案，解码器604可通过基于描述振幅及相位的若干组参数而重构当前原型来合成输出音频信号616。可在当前经重构原型周期与先前经重构原型周期之间的区域上内插语音信号。所述原型可包括当前帧的一部分，所述部分将被线性地内插有同样位于所述帧内的来自先前帧的原型以便在解码器604处重构音频信号610或LP残余信号(即，将过去的原型周期用作当前原型周期的预测(predictor))。

编码原型周期而非整个帧可降低编码位速率。可以PPP编码模式来编码被分类为有声语音的帧。通过采用有声语音的周期性，PPP编码模式可实现比CELP编码模式低的位速率。

可将所选择的编码模式624、626、628耦接到包格式化模块630。所述所选择的编码模式624、626、628可编码或量化当前帧且将所述经量化的帧参数612提供到包格式化模块630。在一配置中，所述经量化的帧参数是从MDCT编码方案所产生的编码系数。包格式化模块630可将所述经量化的帧参数612组合于经格式化包613中。包格式化模块630可经由通信信道606而将经格式化包613提供到接收器(未图示)。所述接收器可接收、解调制及数字化所述经格式化包613，且将包613提供到解码器604。

在解码器604中，包分解器模块632可从接收器接收包613。包分解器模块632可拆开包613以便检索经编码帧。包分解器模块632还可经配置以逐包地在解码模式634、636、638之间进行动态切换。解码模式634、636、638的数目可与编码模式624、626、628的数目相同。每一经编号的编码模式624、626、628可与经配置以采用相同编码位速率及编码方案的相应经类似编号的解码模式634、636、638相关联。

如果包分解器模块632检测到包613，则分解所述包613并将其提供到相关的解码模式634、636、638。相关的解码模式634、636、638可基于包613内的帧而实施MDCT、CELP、PPP或NELP解码技术。如果包分解器模块632并未检测到包，则宣告包丢失且擦除解码器(未图示)可执行帧擦除处理。可将解码模式634、636、638的并联阵列耦接到帧重构模块640。所述帧重构模块640可重构或合成所述帧，从而输出经合成的帧。可将所述经合成的帧与其它经合成的帧组合以产生类似于输入音频信号s(n)610的经合成的音频信号

图7为说明音频信号编码方法700的一实例的流程图。可计算702当前帧的初始参数。在一配置中，初始参数计算模块618计算702所述参数。对于非语音帧来说，所述参数可包括一个或一个以上系数以指示所述帧为非语音帧。语音帧可包括以下各项中的一者或一者以上的参数：线性预测编码(LPC)滤波器系数、线谱对(LSP)系数、规范化自相关函数(NACF)、开放环路滞后、带能量、零交叉速率及共振峰残余信号。非语音帧还可包括例如线性预测编码(LPC)滤波器参数的参数。

可将当前帧分类704为语音帧或非语音帧。如先前所提及，语音帧可与语音信号相关联且非语音帧可与非语音信号(即，音乐信号)相关联。可基于步骤702及704中所进行的帧分类来选择710编码器/解码器模式。如图6中所示，可并联连接各种编码器/解码器模式。不同编码器/解码器模式可根据不同编码方案而操作。某些模式可在音频信号s(n)610的展现某些特性的编码部分处更为有效。

如先前所解释，可选择MDCT编码方案以编码被分类为非语音帧(例如，音乐)的帧。可选择CELP模式以编码被分类为瞬态语音的帧。可选择PPP模式以编码被分类为有声语音的帧。可选择NELP模式以编码被分类为无声语音的帧。可以变化的性能水平以不同的位速率来频繁地操作相同编码技术。图6中的不同编码器/解码器模式可表示不同编码技术或以不同位速率操作的相同编码技术或上述的组合。所选择的编码器模式710可将适当的窗口函数应用于所述帧。举例来说，如果所选择的编码模式为MDCT编码方案，则可应用本系统及方法的特定MDCT窗口函数。或者，如果所选择的编码模式为CELP编码方案，则可将与CELP编码方案相关联的窗口函数应用于所述帧。所选择的编码器模式可编码712当前帧且将所述经编码帧格式化714于包中。可将所述包传输716到解码器。

图8为说明在将特定MDCT窗口函数应用于每一帧之后多个帧802、804、806的一配置的框图。在一配置中，先前帧802、当前帧804及未来帧806可各自被分类为非语音帧。可由2M来表示当前帧804的长度820。先前帧802及未来帧806的长度还可为2M。当前帧804可包括第一零填充区域810及第二零填充区域818。换句话说，第一零填充区域810及第二零填充区域818中的系数值可为零。

在一配置中，当前帧804还包括重叠长度812及先行长度816。可将所述重叠长度812及所述先行长度816表示为L。重叠长度812可重叠先前帧802的先行长度。在一配置中，值L小于值M。在另一配置中，值L等于值M。当前帧还可包括单位长度814，其中在此长度814中帧的每一值为一。如所说明，未来帧806可在当前帧804的中途点808处开始。换句话说，未来帧806可在当前帧804的长度M处开始。类似地，先前帧802可在当前帧804的中途点808处结束。因而，在当前帧804上存在先前帧802与未来帧806的50％重叠。

如果量化器/MDCT系数模块在解码器处可靠地重构MDCT系数，则特定MDCT窗口函数可促进在解码器处完美地重构音频信号。在一配置中，量化器/MDCT系数编码模块在解码器处可能并未可靠地重构MDCT系数。在此状况下，解码器的重构保真度可视量化器/MDCT系数编码模块可靠地重构所述系数的能力而定。如果当前帧被先前帧与未来帧两者重叠50％，则将MDCT窗口应用于所述当前帧可提供所述当前帧的完美重构。另外，如果满足普林森-布拉德利(Princen-Bradley)条件，则MDCT窗口可提供完美重构。如先前所提及，可将普林森-布拉德利(Princen-Bradley)条件表达为：

w²(n)+w²(n+M)＝1 (3)

其中w(n)可表示图8中所说明的MDCT窗口。由方程式(3)所表达的条件可意味着帧802、804、806上的被添加到不同帧802、804、806上的对应点的一点将提供值一。举例来说，中途长度808中先前帧802的被添加到中途长度808中当前帧804的对应点的一点产生值一。

图9为说明一种用于将MDCT窗口函数应用于与非语音信号相关联的帧(例如，图8中所描述的当前帧804)的方法900的一配置的流程图。应用MDCT窗口函数的过程可为计算MDCT中的一步骤。换句话说，在不使用满足两个连续窗口之间的50％重叠的条件及先前所解释的普林森-布拉德利(Princen-Bradley)条件的窗口的情况下可不应用完美重构MDCT。可将方法900中所描述的窗口函数实施为将MDCT函数应用于一个帧的一部分。在一实例中，来自当前帧804的M个样本以及L个先行样本为可用的。L可为任意值。

可产生902当前帧804的(M-L)/2个样本的第一零填充区域。如先前所解释，零填充可意味着第一零填充区域810中的样本的系数可为零。在一配置中，可提供904当前帧804的L个样本的重叠长度。当前帧的L个样本的重叠长度可重叠且添加有906先前帧802的经重构的先行长度。当前帧804的第一零填充区域及重叠长度可重叠先前帧80250％。在一配置中，可提供908当前帧的(M-L)个样本。还可提供910当前帧的L个先行样本。所述L个先行样本可重叠未来帧806。可产生当前帧的(M-L)/2个样本的第二零填充区域。在一配置中，当前帧804的L个先行样本及第二零填充区域可重叠未来帧80650％。已被应用方法900的帧可满足如先前所描述的普林森-布拉德利(Princen-Bradley)条件。

图10为说明一种用于重构已由MDCT窗口函数加以修改的帧的方法1000的一配置的流程图。在一配置中，由帧重构模块314来实施方法1000。可合成1002当前帧804的开始于第一零填充区域810的末端到(M-L)区域814的末端的样本。可向当前帧804的L个样本的重叠区域添加1004先前帧802的先行长度。在一配置中，可存储1006开始于(M-L)区域814的末端到第二零填充区域818的开端的当前帧804的L个先行样本816。在一实例中，可将L个先行样本816存储于解码器304的存储器组件中。在一配置中，可输出1008M个样本。可将所输出的M个样本与额外样本组合以重构当前帧804。

图11说明了可根据本文中所描述的系统及方法而用于通信/计算装置1108中的各种组件。通信/计算装置1108可包括控制所述装置1108的操作的处理器1102。还可将所述处理器1102称作CPU。存储器1104(其可包括只读存储器(ROM)及随机存取存储器(RAM)两者)将指令及数据提供到处理器1102。存储器1104的一部分还可包括非易失性随机存取存储器(NVRAM)。

装置1108还可包括含有传输器1110及接收器1112的外壳1122以允许在接入终端1108与远程位置之间传输及接收数据。可将传输器1110及接收器1112组合于收发器1120中。可将天线1118附接到外壳1122且将其电耦接到收发器1120。可将传输器1110、接收器1112、收发器1120及天线1118用于通信装置1108配置中。

装置1108还包括用于检测及量化由收发器1120所接收的信号的电平的信号检测器1106。信号检测器1106检测例如总能量、每伪噪声(PN)码片的导频能量、功率谱密度的信号及其它信号。

通信装置1108的状态改变器1114基于当前状态及由收发器1120所接收且由信号检测器1106所检测的额外信号来控制通信/计算装置1108的状态。装置1108可能能够以若干状态中的任一状态来操作。

通信/计算装置1108还包括系统确定器1124，所述系统确定器1124用于控制装置1108且在确定当前服务提供者系统不适当时确定装置1108应转移到哪一服务提供者系统。

通信/计算装置1108的各组件可由总线系统1126耦接在一起，除数据总线之外，总线系统1126还可包括功率总线、控制信号总线及状态信号总线。然而，为清晰起见，在图11中将各种总线绘示为总线系统1126。通信/计算装置1108还可包括数字信号处理器(DSP)1116以用于处理信号。

可使用多种不同技术及技艺中的任一者来表示信息及信号。举例来说，可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子或其任何组合来表示在以上描述中可能提及的数据、指令、命令、信息、信号、位、符号及码片。

可将结合本文中所揭示的配置而描述的各种说明性逻辑块、模块、电路及算法步骤实施为电子硬件、计算机软件或两者的组合。为清楚地说明硬件与软件的此互换性，已在上文大致就其功能性而描述了各种说明性组件、块、模块、电路及步骤。将此功能性实施为硬件还是软件视特定应用及强加于整个系统的设计约束而定。所属领域的技术人员可以针对每一特定应用以多种方式来实施所描述的功能性，但不应将所述实施方案决策解释为导致脱离本发明系统及方法的范围。

可通过通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以执行本文所述功能的任何组合来实施或执行结合本文所揭示配置而描述的各种说明性逻辑块、模块及电路。通用处理器可为微处理器，但在替代方案中，处理器可为任何处理器、控制器、微控制器或状态机。还可将处理器实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合或任何其它此类配置的组合。

结合本文中所揭示的配置而描述的方法或算法的步骤可直接以硬件、由处理器执行的软件模块或所述两者的组合体现。软件模块可驻留于RAM存储器、快闪存储器、ROM存储器、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可拆卸盘、紧密光盘只读存储器(CD-ROM)或此项技术中已知的任何其它形式的存储媒体中。可将存储媒体耦接到所述处理器，使得所述处理器可从所述存储媒体读取信息或将信息写入到所述存储媒体。在替代例中，所述存储媒体可与所述处理器成一体。所述处理器及所述存储媒体可驻留于ASIC中。所述ASIC可驻留于用户终端中。在替代例中，所述处理器及所述存储媒体可作为离散组件而驻留于用户终端中。

本文中所揭示的方法包含一个或一个以上用于实现所描述的方法的步骤或动作。所述方法步骤及/或动作可彼此互换而不脱离本系统及方法的范围。换句话说，除非针对配置的恰当操作而规定步骤或动作的特定次序，否则可修改特定步骤及/或动作的次序及/或使用而不脱离本系统及方法的范围。可将本文中所揭示的方法以硬件、软件、或两者实施。硬件及存储器的实例可包括RAM、ROM、EPROM、EEPROM、快闪存储器、光盘、寄存器、硬盘、CD-ROM或任何其它类型的硬件及存储器。

虽然已说明及描述了本系统及方法的特定配置与应用，但将理解，所述系统及方法并不受限于本文中所揭示的精确配置及组件。可在不脱离所主张的系统及方法的精神及范围的情况下对本文中所揭示的方法及系统的布置、操作及细节进行所属领域的技术人员所显而易见的多种修改、改变及变化。

Claims

1.一种用于以与音频信号相关联的帧修改窗口的方法，所述方法包含：

接收信号；

将所述信号分割为多个帧；

确定所述多个帧内的一个帧是否与非语音信号相关联；

如果确定所述帧与非语音信号相关联，则将经修改离散余弦变换(MDCT)窗口函数应用于所述帧以产生第一零填充区域及第二零填充区域；以及

对所述帧进行编码。

2.根据权利要求1所述的方法，其中使用基于MDCT编码的方案对所述帧进行编码。

3.根据权利要求1所述的方法，其中所述帧包含2M的长度，其中M表示所述帧中的样本的数目。

4.根据权利要求1所述的方法，其中所述第一零填充区域位于所述帧的开端处。

5.根据权利要求1所述的方法，其中所述第二零填充区域位于所述帧的末端处。

6.根据权利要求1所述的方法，其中所述第一零填充区域及所述第二区域包含(M-L)/2的长度，其中L是小于或等于M的值，且其中M是所述帧中的样本的数目。

7.根据权利要求7所述的方法，其进一步包含提供长度为L的当前重叠区域。

8.根据权利要求7所述的方法，其中长度为L的所述重叠区域重叠且添加有与先前帧相关联的先行样本。

9.根据权利要求1所述的方法，其进一步包含提供长度为L的先行区域，其中L小于或等于M，且其中M是所述帧中的样本的数目。

10.根据权利要求9所述的方法，其中长度为L的所述先行区域和与未来帧相关联的未来重叠区域重叠。

11.根据权利要求1所述的方法，其中所述第一零填充区域及所述当前重叠区域重叠先前帧50％。

12.根据权利要求1所述的方法，其中所述第二零填充区域及所述先行区域重叠未来帧50％。

13.根据权利要求1所述的方法，其中添加有来自重叠的帧的相关联样本的所述帧的每一样本的和等于一。

14.一种用于以与音频信号相关联的帧修改窗口的设备，其包含：

处理器；

存储器，其与所述处理器进行电子通信；

指令，其存储于所述存储器中，所述指令可执行以：

接收信号；

将所述信号分割为多个帧；

确定所述多个帧内的一个帧是否与非语音信号相关联；

对所述帧进行编码。

15.根据权利要求14所述的设备，其中使用基于MDCT编码的方案对所述帧编码。

16.根据权利要求14所述的设备，其中所述帧包含等于2M的样本长度，其中M表示所述帧中的样本的数目。

17.根据权利要求14所述的设备，其中所述第一零填充区域位于所述帧的开端处。

18.根据权利要求14所述的设备，其中所述第二零填充区域位于所述帧的末端处。

19.一种经配置而以与音频信号相关联的帧修改窗口的系统，其包含：

用于处理的装置；

用于接收信号的装置；

用于将所述信号分割为多个帧的装置；

用于确定所述多个帧内的一个帧是否与非语音信号相关联的装置；

用于在确定所述帧与非语音信号相关联的情况下将经修改离散余弦变换(MDCT)窗口函数应用于所述帧以产生第一零填充区域及第二零填充区域的装置；以及

用于对所述帧进行编码的装置。

20.一种计算机可读媒体，其经配置以存储一组指令，所述指令可执行以：

接收信号；

将所述信号分割为多个帧；

确定所述多个帧内的一个帧是否与非语音信号相关联；

对所述帧进行编码。

21.一种用于选择待用于计算帧的经修改离散余弦变换(MDCT)的窗口函数的方法，所述方法包含：

提供用于选择待用于计算帧的MDCT的窗口函数的算法；

将所述所选择的窗口函数应用于所述帧；以及

基于由额外编码模式强加于MDCT编码模式的约束而以所述MDCT编码模式来对所述帧进行编码，其中所述约束包含所述帧的长度、先行长度及延迟。

22.一种用于重构音频信号的经编码帧的方法，所述方法包含：

接收包；

分解所述包以检索经编码帧；

合成所述帧的位于第一零填充区域与第一区域之间的样本；

向第一长度的重叠区域添加先前帧的先行长度；

存储所述帧的所述第一长度的先行；以及

输出经重构的帧。