CN102007534A

CN102007534A - 用于处理音频信号的方法和装置

Info

Publication number: CN102007534A
Application number: CN2009801136190A
Authority: CN
Inventors: 李显国; 尹圣龙; 金东秀; 林宰显
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2008-03-04
Filing date: 2009-03-04
Publication date: 2011-04-06
Anticipated expiration: 2029-03-04
Also published as: AU2009220341B2; ES2464722T3; EP2259254A2; JP5108960B2; EP2259254B1; JP2011514558A; WO2009110751A2; AU2009220341A1; US8135585B2; EP2259254A4; WO2009110751A3; KR20100134623A; RU2452042C1; CN102007534B; RU2010140365A; US20100070272A1; CA2717584A1; CA2717584C

Abstract

公开了一种用于处理编码的信号的装置及其方法，通过该方法音频信号能够以较高的效率压缩和重建。一种音频信号处理方法，包括步骤：使用第一类型信息识别音频信号的代码化类型是否是音乐信号代码化类型，如果音频信号的代码化类型不是音乐信号代码化类型，则使用第二类型信息识别音频信号的代码化类型是语音信号代码化类型还是混合信号代码化类型，如果音频信号的代码化类型是混合信号代码化类型，则从音频信号中提取频谱数据和线性预测系数，通过对频谱数据执行反频率变换产生用于线性预测的残余信号，通过对线性预测系数和残余信号执行线性预测代码化重建音频信号，并使用对应于重建的音频信号的部分区域的扩展基础信号和频带扩展信息重建高频区域信号。因此，各种的音频信号能够以较高效率编码/解码。

Description

用于处理音频信号的方法和装置

技术领域

本发明涉及用于有效地编码和解码不同种类的音频信号的音频信号处理装置及其方法。

背景技术

通常，代码化技术通常分类为二种类型，诸如感知音频代码化器和基于线性预测的代码化器。例如，为音乐而优化的感知音频代码化器采用在频率轴上使用掩蔽原理(其是人类听觉心理声学理论)在代码化处理中降低信息大小的方案。相反地，为语音而优化的基于线性预测的代码化器采用通过在时间轴上建模语音发声的降低信息大小的方案。

但是，以上所述的技术的每个对于每个优化的音频信号(例如，语音信号、音乐信号)具有良好性能，但是，对于从复杂地混合不同类型的音频信号或者语音和音乐信号在一起产生的音频信号则不能提供稳定性能。

发明内容

因此，本发明针对于一种用于处理音频信号的装置及其方法，其基本上消除了由于现有技术的限制和缺点的一个或多个问题。

本发明的一个目的是提供一种用于处理音频信号的装置及其方法，通过其不同类型的音频信号能够以较高效率压缩和/或重建。

本发明的另一个目的是提供一种适用于音频信号特征的音频代码化方案。

本发明的附加的特点和优点将在随后的描述中阐述，并且从描述中在某种程度上将是清晰可见的，或者可以通过实践本发明获悉。通过尤其在著述的说明书及其权利要求以及所附的附图中指出的结构，可以实现和获得本发明的目的和其他的优点。

为了实现这些和其他的优点，以及按照本发明的目的，如在此处实施和广泛地描述的，一种按照本发明的处理音频信号的方法包括步骤：使用第一类型信息识别音频信号的代码化类型是否是音乐信号代码化类型，如果音频信号的代码化类型不是音乐信号代码化类型，则使用第二类型信息识别音频信号的代码化类型是语音信号代码化类型还是混合信号代码化类型，如果音频信号的代码化类型是混合信号代码化类型，则从音频信号中提取频谱数据和线性预测系数，通过对频谱数据执行反频率变换产生用于线性预测的残余信号，通过对线性预测系数和残余信号执行线性预测代码化重建音频信号，和使用对应于重建的音频信号的部分区域的扩展基础信号和频带扩展信息重建高频区域信号。

为了进一步实现这些和其他的优点，以及按照本发明的目的，一种用于处理音频信号的装置包括：从比特流中提取第一类型信息和第二类型信息的多路分解器；使用第一类型信息识别音频信号的代码化类型是否是音乐信号代码化类型的解码器确定单元，如果音频信号的代码化类型不是音乐信号代码化类型，解码器使用第二类型信息识别音频信号的代码化类型是语音信号代码化类型还是混合信号代码化类型，解码器然后确定解码方案；如果代码化类型是音频信号的混合信号代码化类型，从音频信号中提取频谱数据和线性预测系数的信息提取单元；通过对频谱数据执行反频率变换产生用于线性预测的残余信号的频率变换单元；通过对线性预测系数和残余信号执行线性预测代码化重建音频信号的线性预测单元，和使用对应于重建的音频信号的部分区域的扩展基础信号和频带扩展信息重建高频区域信号的带宽扩展解码单元。

优选地，音频信号包括多个子帧，并且其中第二类型信息以子帧为单位存在。

优选地，高频区域信号的带宽不等于扩展基础信号的带宽。优选地，频带扩展信息信息包括应用于重建的音频信号的滤波范围、扩展基础信号的开始频率和扩展基础信号的结束频率中的至少一个。

优选地，如果音频信号的代码化类型是音乐信号代码化类型，则音频信号包括频域信号，其中如果音频信号的代码化类型是语音信号代码化类型，则音频信号包括时域信号，并且其中如果音频信号的代码化类型是混合信号代码化类型，则音频信号包括MDCT域信号。

优选地，线性预测系数提取包括提取线性预测系数模式，和提取对应于提取的线性预测系数模式的具有可变位大小的线性预测系数。

应该明白，上文的概述和下面的详细说明是示范性和说明性的，并且意欲对所要求保护的本发明提供进一步的说明。

附图说明

被包括以提供对本发明进一步的理解并且被结合以构成本说明书的一部分的附图图解了本发明的实施例，并且与说明书一起可以起解释本发明原理的作用。

在附图中：

图1是按照本发明的一个实施例的音频代码化装置的方框图；图2是按照本发明的另一个实施例的音频代码化装置的方框图；

图3是按照本发明一个实施例的带宽预处理单元150的详细方框图；

图4是按照本发明的一个实施例的用于使用音频类型信息来代码化音频信号的方法的流程图；

图5是用于按照本发明代码化的音频比特流结构的示例的图示；

图6是按照本发明的一个实施例的音频解码装置的方框图；

图7是按照本发明另一个实施例的音频解码装置的方框图；

图8是按照本发明一个实施例的带宽扩展单元250的详细方框图；

图9是按照本发明一个实施例的用于以音频解码装置实现的产品配置的图示；

图10是按照本发明一个实施例的用于在以音频解码装置实现的产品之间的关系的示例的图示；和

图11是按照本发明的一个实施例的用于音频解码方法的流程图。

具体实施方式

现在将详细地进行介绍本发明的优选实施例，其示例被在附图中图解。

在本发明中，在本发明中的术语可以解释为以下的介绍。首先，“代码化”有时候可以解释为编码或者解码。信息是包括值、参数、系数、元素等等的术语。

对于本发明，在本发明中的“音频信号”在理论上与视频信号区别。而且，音频信号表示在再现时可以听觉识别的所有信号。因此，音频信号可以分类为主要与人类发声有关的语音信号或者类似于语音信号的信号(在下文中，称为“语音信号”)，主要与机械噪声和声音有关的音乐信号或者类似于音乐信号的信号(在下文中，称为“音乐信号”)，和由将语音信号和音乐信号混合在一起而产生的“混合信号”。本发明意欲提供一种用于编码/解码以上三个类型的音频信号的装置及其方法，以便适合于音频信号特征来编码/解码音频信号。但是，音频信号仅仅为了本发明的描述而被分类。而且，很明显，本发明的技术构思同等地可适用于按照不同的方法分类音频信号的情形。

图1是按照本发明的一个优选实施例的音频代码化装置的方框图。具体地，图1示出了按照预置的基准分类输入的音频信号，然后通过选择适用于相应的音频信号的音频代码化方案代码化分类的音频信号的处理。

参考图1，按照本发明一个优选实施例的音频代码化装置包括：通过分析输入的音频信号的特征，将输入的音频信号分类为语音信号、音乐信号或者语音和音乐的混合信号的类型的信号分类单元(声音激活侦测器)100，代码化由信号分类单元100确定的信号类型的语音信号的线性预测建模单元110，对音乐信号代码化的心理声学模型单元120，和对语音和音乐的混合信号代码化的混合信号建模单元130。而且，音频代码化装置可以进一步包括：配置为选择适用于由信号分类单元100分类的音频信号的代码化方案的切换单元101。切换单元101使用由信号分类单元100产生的音频信号代码化类型信息(例如，第一类型信息和第二类型信息，其将参考图2和图3来详细说明)作为控制信号而操作。另外，混合信号建模单元130可以包括线性预测单元131、残余信号提取单元132和频率变换单元133。在以下的描述中，详细说明在图1中示出的相应的单元。

首先，信号分类单元100分类输入的音频信号的类型，然后产生控制信号以选择适用于分类类型的音频代码化方案。例如，信号分类单元100分类输入的音频信号是音乐信号、语音信号还是语音和音乐的混合信号。因此，输入的音频信号的类型被分类以从将稍后说明的音频代码化方案中选择每个音频信号类型的最佳代码化方案。因此，信号分类单元100执行分析输入的音频信号，然后为输入的音频信号选择最佳的音频代码化方案的处理。例如，信号分类单元100通过分析输入的音频信号产生音频代码化类型信息。产生的音频代码化类型信息被用作选择代码化方案的基准。产生的音频代码化类型信息作为比特流包括在最终代码化的音频信号中，并且然后传送给解码或者接收设备。此外，将参考图6至8和图11详细说明使用音频代码化类型信息的解码方法和装置。另外，由信号分类单元100产生的音频代码化类型信息例如可以包括第一类型信息和第二类型信息。这些将参考图4和图5来描述。

信号分类单元100按照输入的音频信号特征确定音频信号类型。例如，如果输入的音频信号是更适合以特定的系数和残余信号来建模的信号，则信号分类单元100确定输入的音频信号为语音信号。如果输入的音频信号是较不适合以特定的系数和残余信号来建模的信号，则信号分类单元100确定输入的音频信号为音乐信号。如果其很难确定输入的音频信号是语音信号还是音乐信号，则信号分类单元100确定输入的音频信号为混合信号。关于详细的确定基准，例如，当信号以特定的系数和残余信号来建模的时候，如果残余信号与信号的能级比小于预置的基准值，则信号可以确定为适于建模的信号。因此，信号可以确定为语音信号。如果信号在时间轴上具有高冗余度，信号可以确定为适于通过用于从过去的信号预测当前的信号的线性预测来建模的信号。因此，信号可以确定为音乐信号。

如果按照这个基准输入的信号被确定为语音信号，则能够使用为语音信号而优化的语言代码化器代码化输入信号。按照本实施例，线性预测建模单元100用于适用于语音信号的代码化方案。线性预测建模单元100提供有不同的方案。例如，ACELP(代数码激励的线性预测)代码化方案、AMR(自适应多速率)代码化方案或者AMR-WB(自适应多速率宽带)代码化方案可应用于线性预测建模单元110。

线性预测建模单元110能够以帧为单位对输入的音频信号执行线性预测代码化。线性预测建模单元110按每个帧提取预测系数，然后量化提取的预测系数。例如，使用“Levinson-Durbin算法”提取预测系数的方案通常广泛地使用。

具体地，如果输入的音频信号以多个帧构成，或者存在多个超帧，其每个具有多个帧单位，例如，能够确定是否按每个帧应用线性预测建模方案。有可能按存在于一个超帧内的每个单位帧或者单位帧的每个子帧，应用不同的线性预测建模方案。这能够提高音频信号的代码化效率。

同时，如果输入的音频信号由信号分类单元100分类为音乐信号，则能够使用为音乐信号而优化的音乐代码化器代码化输入信号。心理声学模型单元120被基于感知音频代码化器而配置。

同时，如果输入的音频信号由信号分类单元100分类为混合信号，其中语音和音乐混合在一起，则能够使用为混合信号而优化的代码化器代码化输入信号。按照本实施例，混合信号建模单元130用于适用于混合信号的代码化方案。

混合信号建模单元130能够通过由将前述的线性预测建模方案和心理声学模型方案混合在一起得出的混合方案执行代码化。具体地，混合信号建模单元130对输入信号执行线性预测代码化，获得等于在线性预测结果信号和原始信号之间差值的残余信号，然后通过频率变换代码化方案代码化残余信号。

例如，图1示出一个示例，其中混合信号建模单元130包括线性预测单元131、残余信号提取单元132和频率变换单元133。

线性预测单元131对输入信号执行线性预测分析，然后提取表示信号特征的线性预测系数。残余信号提取单元132使用提取的线性预测系数从输入信号中提取残余信号，其中冗余分量被从残余信号中除去。由于冗余被从残余信号中除去，相应的残余信号可以具有白噪声类型。线性预测单元131能够以帧为单位对输入的音频信号执行线性预测代码化。线性预测单元131按每个帧提取预测系数，然后量化提取的预测系数。例如，具体地，如果输入的音频信号被以多个帧构成，或者存在多个超帧，其每个具有多个帧单位，则能够确定是否按每个帧应用线性预测建模方案。有可能按存在于一个超帧内的每个单位帧，或者单位帧的每个子帧，应用不同的线性预测建模方案。这能够提高音频信号的代码化效率。

残余信号提取单元132接收由线性预测单元131代码化的剩余信号的输入和已经经由穿过分类单元100的原始音频信号的输入，然后提取残余信号，其是在二个输入信号之间的差信号。

频率变换单元133通过用MDCT等等对输入的残余信号执行频域变换来计算掩蔽阈值或者信号掩蔽比(SMR)，然后代码化残余信号。频率变换单元133能够使用TCX以及心理声学建模来代码化残余音频趋势的信号。

由于线性预测建模单元100和线性预测单元131通过对输入的音频信号执行线性预测和分析提取了音频特性反映的线性预测系数(LPC)，其能够考虑对于传送LPC数据方法使用可变位的方案。

例如，LPC数据模式通过考虑按每个帧的代码化方案而确定。那么，能够按每个确定的LPC数据模式分配具有可变位数的线性预测系数。据此，整个音频位数被降低。因此，音频代码化和解码可以更加有效地执行。

同时，如在先前的描述中提及的，信号分类单元100通过将音频信号分类为二个类型的代码化类型信息中的一个来产生音频信号的代码化类型信息，使得代码化类型信息能够包括在比特流中，然后将比特流传送给解码装置。在以下的描述中，按照本发明的音频代码化类型信息将参考图4和图5来详细说明。

图4是按照本发明的一个优选实施例的用于使用音频类型信息来代码化音频信号的方法的流程图。

首先，本发明提出了一种以使用供分类的第一类型信息和第二类型信息的方式表示音频信号类型的方法。例如，如果输入的音频信号被确定为音乐信号[S100]，信号分类单元100控制切换单元101去选择适用于音乐信号的代码化方案(例如，在图2中示出的心理声学建模方案)，然后使得能够按照选择的代码化方案执行代码化[S110]。此后，相应的控制信息被配置为第一类型信息，并且然后通过被包括在代码化的音频比特流中传送。因此，第一类型信息起到表示音频信号的代码化类型是音乐信号代码化类型的代码化识别信息的作用。第一类型信息在解码音频信号时按照解码方法和装置使用。

另外，如果输入信号被确定为语音信号[S120]，信号分类单元100控制切换单元101去选择适用于语音信号的代码化方案(例如，在图1中示出的线性预测建模)，然后使得能够按照选择的代码化方案执行代码化[S130]。如果输入信号被确定为混合信号[S120]，信号分类单元100控制切换单元101去选择适用于混合信号的代码化方案(例如，在图2中示出的混合信号建模)，然后使得能够按照选择的代码化方案执行代码化[S140]。随后，表示语音信号代码化类型或者混合信号代码化类型的控制信息被配置为第二类型信息。第二类型信息然后与第一类型信息一起通过被包括在代码化的音频比特流中传送。因此，第二类型信息起到表示音频信号的代码化类型是语音信号代码化类型或者混合信号代码化类型的代码化识别信息的作用。第二类型信息在解码音频信号时按照解码方法和装置与前述的第一类型信息一起使用。

关于第一类型信息和第二类型信息，按照输入音频信号的特征存在二种情况。即，仅仅第一信息需要被传送，或者第一类型信息和第二类型信息两者需要被传送。例如，如果输入音频信号的类型是音乐信号代码化类型，那么通过包括在比特流中仅仅传送第一类型信息，并且第二类型信息可以不包括在比特流中[图5的(a)]。即，只有在输入的音频信号代码化类型是语音信号代码化类型或者混合信号代码化类型的时候，第二类型信息才被包括在比特流中。因此，其能够防止不必要的位数以表示音频信号的代码化类型。

虽然本发明的示例教导了第一类型信息表示音乐信号类型的存在或者不存在，其只是示范性的。而且，很明显，第一类型信息是可用作表示语音信号代码化类型或者混合信号代码化类型的信息。因此，按照本发明所应用的代码化环境，通过利用具有高出现频率概率的音频代码化类型，其能够降低整个比特流的位数。

图5是用于按照本发明代码化的音频比特流结构的示例的图示。

参考图5的(a)，输入的音频信号对应于音乐信号。仅仅第一类型信息301包括在比特流中，而第二类型信息没有包括在其中。在比特流内，包括了由对应于第一类型信息301的代码化类型代码化的音频数据(例如，AAC比特流302)。

参考图5的(b)，输入的音频信号对应于语音信号。第一类型信息311和第二类型信息312两者均包括在比特流中。在比特流内，包括了由对应于第二类型信息312的代码化类型代码化的音频数据(例如，AMR比特流313)。

参考图5的(c)，输入的音频信号对应于混合信号。第一类型信息321和第二类型信息322两者均包括在比特流中。在比特流内，包括了由对应于第二类型信息322的代码化类型代码化的音频数据(例如，应用TCX的AAC比特流323)。

关于这些描述，包括在由本发明代码化的音频比特流中的信息示范性地在图5的(a)至(c)中示出。而且，很明显，在本发明的范围内不同的应用是可能的。例如，在本发明中，AMR和AAC的示例作为通过增加用于识别相应的代码化方案的信息的代码化方案的示例。此外，可应用不同的代码化方案，并且用于识别不同的代码化方案的代码化识别信息也同样不同地可用。此外，在图5的(a)至(c)中示出的本发明可应用于一个超帧、单位帧和子帧。即，本发明能够按每个预置的帧单位提供音频信号代码化类型信息。

在以下的描述中，参考图2和图3说明按照本发明另一个实施例的音频信号代码化方法和装置，其中包括代码化处理过程。

首先，作为使用线性预测建模单元110、心理声学建模单元120和混合信号建模单元130的输入信号的预处理过程，可以执行频率带宽扩展处理和信道编号改变处理。

例如，作为频带扩展处理的一个实施例，带宽预处理单元(在图2中的‘150’)能够使用低频分量产生高频分量。作为一个带宽处理单元的示例，能够使用被修改和增强的SBR(频谱带复制)和HBE(高频段扩展)。

另外，信道编号改变处理通过将音频信号的信道信息代码化为边信息而降低位分配大小。作为信道编号改变处理的一个实施例，能够使用下混合信道产生单元(图2中的‘140’)。下混合信道产生单元140能够采用PS(参数立体声)系统。在这种情况下，PS是用于代码化立体声信号的方案，并且下混合立体声信号为单信号。下混合信道产生单元140产生下混合信号和与下混合信号的重建有关的空间信息。

按照一个实施例，如果使用SBR和PS(参数立体声)传送48kHz立体声信号，单24kHz信号经由SBR/PS残存。这个单信号可以通过编码器编码。因此，编码器的输入信号具有24kHz。这是因为高频分量通过SBR代码化，并且下采样为先前的频率的一半。因此，输入信号变为单信号。这是因为立体声音频被经由转变为单信号和额外的音频的总和的PS(参数立体声)作为一个参数提取。

图2涉及代码化预处理过程，并且示出了包括以上描述的下混合信道产生单元140和以上描述的带宽预处理单元150的代码化装置。

参考图1描述的线性预测建模单元110、心理声学建模单元120、混合信号建模单元130和切换单元101的操作同等地应用于在图2中示出的对应单元的操作。另外，虽然信号分类单元100产生用于控制下混合信道产生单元140和带宽预处理单元150的激活的控制信号。

换句话说，信号分类单元100进一步产生用于控制下混合信道产生单元140的激活的存在或者不存在和下混合信道产生单元140的工作范围的控制信号100a，以及用于控制带宽预处理单元150的激活的存在或者不存在和带宽预处理单元150的工作范围的控制信号100b。

图3是按照本发明一个实施例的带宽预处理单元150的详细方框图。

参考图3，用于频带扩展的带宽预处理单元150包括高频区域除去单元151、扩展信息产生单元152和空间信息插入单元153。高频区域除去单元151从下混合信道产生单元140接收下混合信号和空间信息。高频区域除去单元151产生低频下混合信号和重建信息，其中，低频下混合信号由从下混合信号的频率信号中除去对应于高频区域的高频信号而产生，重建信息包括扩展基础信号(稍后描述)的开始频率和结束频率。

在这种情况下，能够基于输入信号的特征确定重建信息。通常，高频信号的开始频率是等于整个带宽一半的频率。相反地，按照输入信号的特征，重建信息可以确定开始频率为超过或低于整个频带一半的频率。例如，如果使用下混合信号的整个带宽信号比通过使用带宽扩展技术除去高频区域的来代码化下混合信号更加有效，则重建信息能够表示开始频率为位于带宽的结束的频率。能够使用信号大小、用于代码化的数据段的长度和信源类型的至少一个来确定重建信息，但本发明不限于此。

扩展信息产生单元152使用由下混合信道产生单元140产生的下混合信号和空间信息产生用于确定扩展基础信号的扩展信息，扩展基础信号将用于解码。扩展基础信号是下混合信号的频率信号，其用于在解码时重建由高频区域除去单元151除去的下混合信号的高频信号。而且，扩展基础信号可以是低频信号或者低频信号的部分信号。例如，能够通过对下混合信号执行带通滤波再次将低频信号分类为低频带区域和中间频带区域。在这种情况下，其能够仅仅使用低频带区域产生扩展信息。用于区别低频带区域和中间频带区域的边界频率可以被设置为随机固定值。做为选择，边界频率可以按照用于分析混合信号的语音和音乐的比的信息而按每帧可变地设置。

扩展信息可以匹配没有由高频区域除去单元151除去的下混合信号的信息，但本发明不限于此。而且，扩展信息可以是有关下混合信号的一部分信号的信息。如果扩展信息是有关下混合信号的一部分信号的信息，其可以包括扩展基础信号的开始频率和结束频率，并且可以进一步包括应用于下混合信号的频率信号的滤波范围。

空间信息插入单元153产生新的空间信息，该新的空间信息由将由高频区域除去单元121产生的重建信息和由扩展信息产生单元122产生的扩展信息插入到由下混合信道产生单元140产生的空间信息而得到。

图6是按照本发明的一个实施例的音频解码装置的方框图。

参考图6，解码装置能够通过执行与由参考图1描述的代码化装置执行的代码化处理相反的处理，根据输入的比特流重建信号。具体地，解码装置可以包括多路分解器210、解码器确定单元220、解码单元230和合成单元240。解码单元230可以包括多个解码单元231、232和233以分别地通过不同的方案执行解码。而且，它们在解码器确定单元220的控制下操作。更具体地，解码单元230可以包括线性预测解码单元231、心理声学解码单元232和混合信号解码单元233。另外，混合信号解码单元233可以包括信息提取单元234、频率变换单元235和线性预测单元236。

多路分解器210从输入的比特流中提取多个代码化信号和边信息。在这种情况下，边信息被提取以重建信号。多路分解器210提取包括在比特流中的边信息，例如，第一类型信息和第二类型信息(必要时才包括)，然后将提取的边信息传送给解码器确定单元220。

解码器确定单元220根据接收的第一类型信息和接收的第二类型信息(必要时才包括)在解码单元231、232和233内确定一个解码方案。虽然解码器确定单元220能够使用从比特流提取的边信息确定解码方案，如果在比特流内不存在边信息，解码器确定单元220能够通过单独的确定方法来确定方案。这个确定方法可以以利用前述的信号分类单元(参看图1中的‘100’)的特性的方式来执行。

在解码单元230内的线性预测解码器231能够解码语音信号类型的音频信号。心理声学解码器232解码音乐信号类型的音频信号。而且，混合信号解码器233解码语音和音乐混合类型的音频信号。具体地，混合信号解码器233包括从音频信号中提取频谱数据和线性预测系数的信息提取单元234、通过反变换频谱数据产生用于线性预测的残余信号的频率变换单元235、和通过对线性预测系数和残余信号执行线性预测代码化来产生输出信号的线性预测单元236。解码的信号通过由合成单元240合成在一起被重建为代码化之前的音频信号。

图7示出了按照本发明的一个实施例的解码装置，其涉及代码化的音频信号的后处理过程。后处理过程指的是使用线性预测解码单元231、心理声学解码单元232和混合信号解码单元233中的一个对解码的音频信号执行带宽扩展和信道编号改变的处理。后处理过程可以包括带宽扩展解码单元250和多信道产生单元260以对应于在图2中示出的前述的下混合信道产生单元140和前述的带宽预处理单元150。

图8示出了带宽扩展解码单元250的详细配置。

在频带扩展处理中，多路分解器210从比特流中提取由带宽预处理单元150产生的扩展信息，并且提取的扩展信息被利用。而且，不同的频带(例如，高频带)的频谱数据是使用包括在音频信号比特流中的扩展信息根据频谱数据的一部分或者整个频谱数据而产生。在这种情况下，在进行扩展频带中，具有类似特性的单元可以聚合为模块。这与通过聚合具有共同包络(或者包络特性)类型时隙(或者，采样)产生包络区域是相同的方法。

参考图8，带宽扩展解码单元250包括扩展基础区域确定单元251、高频区域重建单元252和带宽扩展单元253。

扩展区域确定单元251基于接收的扩展信息在接收的下混合信号中确定扩展基础区域，然后作为确定的结果产生扩展基础信号。下混合信号可以是在频域中的信号，并且扩展基础信号指的是频域的下混合信号中的部分频率区域。因此，扩展信息用于确定扩展基础信号，并且可以包括扩展基础信号的开始和结束频率，或者用于滤波下混合信号一部分的滤波范围。

高频区域重建单元252接收下混合信号和扩展信息，并且还接收扩展基础信号。然后，高频区域重建单元252能够使用扩展基础信号和扩展信息重建下混合信号的高频区域信号，其通过代码化侧被除去。高频区域信号可以不包括在下混合信号中，而包括在原始信号中。高频区域信号可以不是下混合信号的整数倍数，并且高频区域信号的带宽可以不等于扩展基础信号的带宽。

在按照本发明的一个实施例的带宽扩展装置和方法中，即使重建的高频区域不是下混合信号的整数倍数，也能够以使用在下混合信号中对应于部分频率区域的信号作为扩展基础信号，而不是使用高频区域由代码化侧除去的整个下混合信号作为扩展基础信号，的方式使用带宽扩展技术。

高频区域重建单元252可以进一步包括时间扩展下混合信号产生单元(在图中未示出)和频率信号扩展单元(在图中未示出)。时间扩展下混合信号产生单元能够通过将扩展信息应用于扩展基础信号将下混合信号在时域中扩展。频率信号扩展单元能够通过降低时间扩展下混合信号的采样数目(抽取)在下混合信号的频率区域中扩展信号。

如果高频区域重建单元252仅仅包括重建的高频区域信号，但是不包括低频区域信号，则带宽扩展单元253通过将下混合信号和高频区域信号组合在一起产生其带宽扩展的扩展下混合信号。高频区域信号可以不是下混合信号的整数倍数。因此，按照本发明一个实施例的带宽扩展技术可用于上采样为现在处于倍数关系之中的信号。

最终由带宽扩展单元253产生的扩展下混合信号被输入给多信道产生单元260以转换为多信道信号。

在以下的描述中，参考在图11中示出的流程图详细说明按照本发明的解码方法。

首先，多路分解器210从输入的比特流中提取第一类型信息和第二类型信息(必要时)。另外，多路分解器210提取用于后处理过程的信息(例如，频带扩展信息、重建信息等等)。解码器确定单元220首先使用提取的信息的第一类型信息确定接收的音频信号的代码化类型[S1000]。如果接收的音频信号的代码化类型是音乐信号代码化类型，则解码单元230内的心理声学解码单元232被利用。按每个帧或者子帧来应用的代码化方案按照第一类型信息来确定。然后，通过应用适当的代码化方案执行解码[S1100]。

如果使用第一类型信息确定接收的音频信号的代码化类型不是音乐信号代码化类型，解码器确定单元220使用第二类型信息确定接收的音频信号的代码化类型是语音信号代码化类型还是混合信号代码化类型[S1200]。

如果第二类型信息指示语音信号代码化类型，则通过以利用在解码单元230内的线性预测解码单元231的方式利用从比特流中提取的代码化识别信息确定按每个帧或者子帧应用的代码化方案。然后，通过应用适当的代码化方案执行解码[S1300]。

如果第二类型信息指示混合信号代码化类型，则通过以利用在解码单元230内的混合信号解码单元233的方式利用从比特流中提取的代码化识别信息确定按每个帧或者子帧应用的代码化方案。然后，通过应用适当的代码化方案执行解码[S1400]。

此外，作为使用线性预测解码单元231、心理声学解码单元232和混合信号解码单元233的音频信号解码处理的后处理，带宽扩展解码单元250可以执行频带扩展处理[S1500]。频带扩展处理以如下方式执行：通过解码从音频信号比特流中提取的带宽扩展信息，带宽扩展解码单元250根据频谱数据的一部分或者整个频谱数据产生不同的频带(例如，高频带)的频谱数据。

随后，多信道产生单元260可以执行为在频带扩展处理之后产生的带宽扩展的音频信号产生多信道的处理[S1600]。

图9是按照本发明一个实施例的用于以音频解码装置实现的产品配置的图示。而且，图10是按照本发明一个实施例的用于在以音频解码装置实现的产品之间关系的示例的图示。

参考图9，有线/无线通信单元910经由有线/无线通信系统接收比特流。具体地，有线/无线通信单元910可以包括有线通信单元910A、IR(红外线)通信单元910B、蓝牙单元910C和无线LAN通信单元910D中的至少一个。

用户验证单元920接收用户信息的输入，然后执行用户验证。用户验证单元920可以包括指纹识别单元920A、虹膜识别单元920B、面部识别单元920C和语音识别单元920D中的至少一个。用户验证单元920能够以向相应的识别单元920A/920B/920C/920D输入指纹/虹膜/面部轮廓/语音信息、将输入信息转换为用户信息，然后确定用户信息是否匹配于先前注册的用户数据的方式来执行用户验证。

输入单元930是用于使得用户能够输入不同种类的命令的输入设备。输入单元930能够包括小键盘单元930A、触摸板单元930B和遥控器单元930C中的至少一个，但本发明不受限于此。信号解码单元940使用接收的比特流和帧类型信息分析信号特性。

信号解码单元940可以包括音频解码装置945，其可以是参考图6描述的音频解码装置。音频解码装置945决定不同的方案中的至少一个，并且使用线性预测解码单元、心理声学解码单元和混合信号解码单元中的至少一个来执行解码。信号解码单元940通过使用对应于信号特性的解码单元来解码信号而输出输出信号。

控制单元950从输入设备接收输入信号，并且控制信号解码单元940和输出单元960的所有处理。而且，输出单元960是用于输出由信号解码单元940等等产生的输出信号的元件。输出单元960能够包括扬声器单元960A和显示单元960B。如果输出信号是音频信号，其输出到扬声器。如果输出信号是视频信号，其经由显示器输出。

图10示出了对应于在图9中示出的产品的终端和服务器之间的关系。参考图10的(A)，能够观察到，第一终端1001和第二终端1002能够经由有线/无线通信单元双向地互相通信以交换数据和/或比特流。参考图10的(B)，能够观察到，服务器1003和第一终端1001能够执行有线/无线通信。

按照本发明的音频信号处理方法能够实现以将要在计算机中运行的程序中，并且可以存储在计算机可读的记录介质中。而且，具有按照本发明的数据结构的多媒体数据同样也能够存储在计算机可读的记录介质中。计算机可读的记录介质包括其中存储通过计算机系统可读的数据的各种各样的记录设备。计算机可读的介质例如包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储设备等等，并且还包括载波型实现(例如，经由因特网的传输)。另外，由代码化方法产生的比特流存储在计算机可读的记录介质中，或者可以经由有线/无线通信网络传送。

因此，本发明提供以下的效果或者优点。

首先，本发明将音频信号分类为不同的类型，并且提供适用于分类的音频信号特征的音频代码化方案，从而使得能够更加有效的压缩和重建音频信号。

虽然已经参考其优选实施例在此处描述和图解了本发明，但是对于本领域技术人员来说显而易见的是，不脱离本发明的精神和范围，可以在其中进行各种各样的修改和变化。因此，本发明意欲覆盖其归入所附的权利要求和其等效范围之内的本发明的改进和变化。

Claims

1.在包括音频解码器的音频信号处理装置中，一种处理音频信号的方法，包括步骤：

使用第一类型信息识别所述音频信号的代码化类型是否是音乐信号代码化类型；

如果所述音频信号的代码化类型不是所述音乐信号代码化类型，则使用第二类型信息识别所述音频信号的代码化类型是语音信号代码化类型还是混合信号代码化类型；

如果所述音频信号的代码化类型是所述混合信号代码化类型，则从所述音频信号中提取频谱数据和线性预测系数；

通过对所述频谱数据执行反频率变换来产生用于线性预测的残余信号；

通过对所述线性预测系数和所述残余信号执行线性预测代码化来重建所述音频信号；和

使用对应于重建的音频信号的部分区域的扩展基础信号和频带扩展信息重建高频区域信号。

2.根据权利要求1的方法，其中所述音频信号包括多个子帧，并且其中所述第二类型信息以子帧为单位存在。

3.根据权利要求1的方法，其中所述高频区域信号的带宽不等于所述扩展基础信号的带宽。

4.根据权利要求1的方法，其中所述频带扩展信息包括应用于所述重建的音频信号的滤波范围、所述扩展基础信号的开始频率和所述扩展基础信号的结束频率中的至少一个。

5.根据权利要求1的方法，其中如果所述音频信号的代码化类型是所述音乐信号代码化类型，则所述音频信号包括频域信号，其中如果所述音频信号的代码化类型是所述语音信号代码化类型，则所述音频信号包括时域信号，并且其中如果所述音频信号的代码化类型是所述混合信号代码化类型，则所述音频信号包括MDCT域信号。

6.根据权利要求1的方法，线性预测系数提取步骤包括步骤：

提取线性预测系数模式；和

提取对应于提取的线性预测系数模式的具有可变位大小的线性预测系数。

7.一种用于处理音频信号的装置，包括：

多路分解器，从比特流中提取第一类型信息和第二类型信息；

解码器确定单元，使用第一类型信息识别所述音频信号的代码化类型是否是音乐信号代码化类型，如果所述音频信号的代码化类型不是所述音乐信号代码化类型，则解码器使用第二类型信息识别所述音频信号的代码化类型是语音信号代码化类型还是混合信号代码化类型，解码器然后确定解码方案；

信息提取单元，如果所述音频信号的代码化类型是所述混合信号代码化类型，则从所述音频信号中提取频谱数据和线性预测系数；

频率变换单元，通过对所述频谱数据执行反频率变换来产生用于线性预测的残余信号；

线性预测单元，通过对所述线性预测系数和所述残余信号执行线性预测代码化来重建所述音频信号；和

带宽扩展解码单元，使用对应于重建的音频信号的部分区域的扩展基础信号和频带扩展信息重建高频区域信号。

8.根据权利要求7的装置，其中所述音频信号包括多个子帧，并且其中所述第二类型信息以子帧为单位存在。

9.根据权利要求7的装置，其中所述高频区域信号的带宽不等于所述扩展基础信号的带宽。

10.根据权利要求7的装置，其中所述频带扩展信息包括应用于所述重建的音频信号的滤波范围、所述扩展基础信号的开始频率和所述扩展基础信号的结束频率中的至少一个。

11.根据权利要求7的装置，其中如果所述音频信号的代码化类型是所述音乐信号代码化类型，则所述音频信号包括频域信号，其中如果所述音频信号的代码化类型是所述语音信号代码化类型，则所述音频信号包括时域信号，并且其中如果所述音频信号的代码化类型是所述混合信号代码化类型，则所述音频信号包括MDCT域信号。

12.根据权利要求7的装置，线性预测系数提取包括：

提取线性预测系数模式；和

13.在包括用于处理音频信号的音频代码化器的音频信号处理装置中，一种处理音频信号的方法，包括步骤：

除去所述音频信号的高频带信号，并且产生用于重建所述高频带信号的频带扩展信息；

确定所述音频信号的代码化类型；

如果所述音频信号是音乐信号，则产生表示所述音频信号被代码化为音乐信号代码化类型的第一类型信息；

如果所述音频信号不是所述音乐信号，则产生表示所述音频信号被代码化为语音信号代码化类型还是混合信号代码化类型的第二类型信息；

如果所述音频信号的代码化类型是所述混合信号代码化类型，则通过对所述音频信号执行线性预测代码化来产生线性预测系数；

产生用于所述线性预测代码化的残余信号；

通过对所述残余信号进行频率变换来产生频谱系数；和

产生包括所述第一类型信息、所述第二类型信息、所述线性预测系数和所述残余信号的音频比特流。

14.一种用于处理音频信号的装置，包括：

除去所述音频信号的高频带信号的带宽预处理单元，所述带宽预处理单元产生用于重建高频带信号的频带扩展信息；

确定所述音频信号的代码化类型的信号分类单元，如果所述音频信号是音乐信号，则所述信号分类单元产生表示所述音频信号被代码化为音乐信号代码化类型的第一类型信息，如果所述音频信号不是所述音乐信号，则所述信号分类单元产生表示所述音频信号被代码化为语音信号代码化类型还是混合信号代码化类型的第二类型信息；

线性预测建模单元，如果所述音频信号的代码化类型是所述混合信号代码化类型，则通过对所述音频信号执行线性预测代码化来产生线性预测系数；

残余信号提取单元，产生用于所述线性预测代码化的残余信号；和

频率变换单元，通过对所述残余信号进行频率变换来产生频谱系数。

15.根据权利要求14的装置，其中所述音频信号包括多个子帧，并且其中所述第二类型信息按每个子帧来产生。