CN1910655A

CN1910655A - 构造多通道输出信号或生成下混信号的设备和方法

Info

Publication number: CN1910655A
Application number: CNA2005800028025A
Authority: CN
Inventors: 于尔根·赫勒; 克里斯托夫·法勒
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Agere Systems LLC
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Agere Systems LLC
Priority date: 2004-01-20
Filing date: 2005-01-17
Publication date: 2007-02-07
Anticipated expiration: 2025-01-17
Also published as: NO20063722L; AU2005204715A1; EP1706865A1; PT1706865E; RU2006129940A; KR20060132867A; NO337395B1; US7394903B2; RU2329548C2; ATE393950T1; WO2005069274A1; CA2554002A1; EP1706865B1; DE602005006385T2; CN1910655B; US20050157883A1; BRPI0506533A; BRPI0506533B1; CA2554002C; AU2005204715B2

Abstract

一种用于使用输入信号和参数补充信息来构造多通道输出信号的设备，输入信号包括从原始多通道信号中推导出的第一输入通道和第二输入通道，并且参数补充信息描述了多通道原始信号的通道之间的相互关系，所述设备使用基础通道来合成(324)在假设听众位置一侧的彼此不同的第一和第二输出通道。由于相干性测量，所以基础通道彼此不同。通过利用输入通道的组合来计算(322)这些通道之一的基础通道，减少了基础通道(例如左和左环绕重构通道)之间的相干性，所述组合是由相干性测量确定的。因此，由于近似的原始前/后向相干性，可以获得高主观质量的重构。

Description

构造多通道输出信号或生成下混信号的设备和方法

技术领域

本发明涉及一种用于处理多通道音频信号的设备和方法，具体地，涉及一种用于以立体声兼容方式处理多通道音频信号的设备和方法。

背景技术

近年来，多通道音频再现技术变得越来越重要。这可能是由于诸如公知的mp3技术等音频压缩/编码技术已经使得通过因特网或其它带宽有限的传输信道分发音频记录变为可能。mp3编码技术已经非常著名，因为其允许以立体声格式分发所有记录，即包括第一或左立体声通道和第二或右立体声通道的音频记录的数字表示。

然而，传统的双通道声音系统存在基本缺点。因此，开发了环绕技术。所推荐的多通道环绕表示除了包括两个立体声通道L和R之外，还包括额外的中央通道C和两个环绕通道Ls、Rs。此参考声音格式也被称作3/2立体声，这意味着三个正面通道和两个环绕通道。一般地，需要五个传输信道。在播放环境中，至少需要分别处于五个不同地点的五个扬声器，以在距五个适当放置的扬声器特定距离内获得最佳听音位置(sweet spot)。

现有技术中已知有数种技术用于减少传输多通道音频信号所需的数据量。这些技术被称作联合立体声技术。为此，参考图10，图10示出了联合立体声设备60。该设备可以是例如实现强度立体声(IS)或双声道提示编码(binaural cue coding，BCC)的设备。这种设备通常接收至少两个通道(CH1、CH2…CHn)作为输入，并且输出单载波通道和参数数据。定义参数数据，使得在解码器中可以计算原始通道(CH1、CH2…CHn)的近似。

通常，该载波通道包括子带采样、频谱系数、时域采样等，提供基础信号的相对精细的表示，而参数数据不包括频谱系数的这些采样，而是包括用于控制特定重构算法(例如，通过相乘进行加权、时移、频移等)的控制参数。因此，参数数据(parametric data)仅包括信号或相关联通道的相对粗略的表示。就数值而言，载波通道所需的数据量在60～70kbits/s的范围内，而针对一个通道的参数补充信息所需的数据量在1.5～2.5kbits/s的范围内。参数数据的示例是公知的比例因子、强度立体声信息或双声道提示参数，下面将进行描述。

在AES预印本3799，“Intensity Stereo Coding”，J.Herre，K.H.Brandenburg，D.Lederer，February 1994，Amsterdam中描述了强度立体声编码。一般地，强度立体声的概念基于向两个立体声音频通道的数据应用的主轴变换。如果大多数数据点集中在第一主轴周围，可以通过在编码之前将两个信号都旋转一定角度来实现编码增益。然而，这对于实际立体声产生技术并不总是正确的。因此，修改该技术，在比特流中不传输第二正交分量。于是，左右通道的重构信号由相同传输信号的不同加权或缩放版本构成。尽管如此，重构信号的幅度不同，而它们的相位信息相同。然而，利用选择性的缩放操作来保留两个原始音频通道的能量-时间包络，这通常以频率选择性方式来操作。这符合人类对高频声音的感觉，其中由能量包络确定占主导的空间提示。

另外，在实际实施方式中，所传送的信号，即载波通道，是根据左右通道的和信号而非旋转两个分量生成的。另外，这种处理，即生成强度立体声参数以执行缩放操作，是频率选择性地执行的，即，对于每个缩放因子波段(即，编码器频率分区)独立。优选地，组合两个通道，以形成组合或“载波”通道，并且，除了组合通道之外，还根据第一通道的能量、第二通道的能量或组合通道的能量来确定强度立体声信息。

在AES大会文献5574“Binaural cue coding applied to stereo andmulti-channel audio compression”，C.Faller，F.Baumgarte，May 2002，Munich中描述了BCC技术。在BCC编码中，使用带有重叠窗口的、基于DFT的变换，将多个音频输入通道转换为频谱表示。将得到的均匀频谱划分为非重叠分区，每个分区具有索引。每个分区的带宽正比于等价矩形带宽(ERB)。对每一帧k，针对每个分区估计通道间电平差(ICLD)和通道间时间差(ICTD)。对于ICLD和ICTD量化和编码，得到BCC比特流。相对于参考通道，向每个通道给出通道间电平差和通道间时间差。然后，根据指定公式，计算参数，其中公式取决于待处理信号的特定分区。

在编码器一侧，编码器接收单通道信号和BCC比特流。将单通道信号变换到频域，并输入到空间合成模块，该空间合成模块还接收已解码的ICLD和ICTD值。在空间合成模块中，使用BCC参数(ICLD和ICTD)值来执行对单通道信号的加权操作，以合成多通道信号，在频率/时间变换之后，多通道信号表示原始多通道音频信号的重构。

在BCC的情况下，联合立体声模块60可操作来输出通道补充信息，从而参数通道数据是量化和编码的ICLD或ICTD参数，其中原始通道之一用作参考通道，用于编码通道补充信息。

通常，载波通道由参与的原始通道的和构成。

当然，上述即使仅向解码器提供单通道表示，解码器也只能处理载波通道，而不能够处理参数数据来生成多于一个输入通道的一个或多个近似。

在美国专利申请公开US 2003，0219130A1、2003/0026441 A1和2003/0035553 A1中也描述了被称作双声道提示编码(BCC)的音频编码技术。还可以另外参考“Binaural Cue Coding.Part II：Schemes andApplications”，C.Faller & F.Baumgarte，IEEE Trans.On Audio andSpeech Proc.，Vol.11，No.6，Nov.2993。所提及的美国专利申请公开和两篇Faller和Baumgarte写作的关于BCC技术的技术文献在此一并作为参考。

下面，参考图11至13更详细地阐述用于多通道音频编码的典型通用BCC方案。图11示出了用于多通道音频信号编码/传输的这种通用双声道提示编码方案。BCC编码器12的输入110处的多通道音频输入信号在下混(downmix)模块114中进行下混。在本示例中，输入110处的原始多通道信号是5通道环绕信号，具有正面左通道、正面右通道、左环绕通道、右环绕通道和中央通道。在本发明的优选实施例中，下混模块114通过将这五个通道简单相加为单通道信号，来产生和信号。现有技术中已知的其它下混方案例如：使用多通道输入信号，可以获得具有单通道的下混信号。在和信号线115处输出该单通道信号。在补充信息线117上输出由BCC分析模块116获得的补充信息。在BCC分析模块中，如上所述，计算通道间电平差(ICLD)和通道间时间差(ICTD)。近来，BCC分析模块116已经增强，还计算通道间相关性值(ICC值)。优选地，以量化和编码形式将和信号和补充信息发送到BCC解码器120。BCC解码器将所发送的和信号分解为多个子带，并应用缩放、延迟和其它处理，以生成输出多通道音频信号的子带。执行此处理，从而输出121处重构多通道信号的ICLD、ICTD和ICC参数(提示)类似于BCC编码器112的输入110处原始多通道信号的相应提示。为此，BCC编码器120包括BCC合成模块122和补充信息处理模块123。

下面，参考图12解释BCC合成模块122的内部构造。线115上的和信号被输入到时间/频率变换单元或滤波器组FB 125。在模块125的输出处，存在N个子带信号，或者在极端情况下，当音频滤波器组125执行1∶1变换时，即，根据N个时域采样产生N个频谱系数的变换，存在一批频谱系数。

BCC合成模块122还包括延迟级126、电平修改级127、相关性处理级128和逆滤波器组级IFB 129。在级129的输出处，可以向图11所示的一组扬声器124输出重构的多通道音频信号，例如在5通道环绕系统中，所述音频信号具有五个通道。

如图12所示，利用单元125，将输入信号s(n)转换到频域或滤波器组域中。对单元125输出的信号进行相乘，从而得到该信号的数个版本，如乘法节点130所示。原始信号的版本数等于要重构的输出信号中的输出通道数。一般而言，节点130处原始信号的每个版本经历特定延迟d₁、d₂、…、d_i、…、d_N。由图11中的补充信息处理模块123计算延迟参数，并且根据BCC分析模块116确定的通道间时间差得到。

对乘法参数a₁、a₂、…、a_i、…、a_N同样如此，它们也是由补充信息处理模块123根据BCC分析模块116确定的通道间电平差计算的。

由BCC分析模块116计算的ICC参数用于控制模块128的功能，从而在模块128的输出处获得被延迟且电平被操作的信号之间的特定相关性。此处应该注意，级126、127、128的排序可以不同于图12所示的情况。

此处应该注意，在音频信号的帧智能(frame-wise)处理中，帧智能(即，时变)并且还频率智能地执行BCC分析。这意味着，对于每个频带，获得BCC参数。这意味着，在音频滤波器组125将输入信号例如分解为32个带通信号的情况下，BCC分析模块针对32频带中每一频带获得一组BCC参数。当然，图11中的BCC合成模块122(在12中详细示出)执行重构，在该示例中，重构也基于32个频带。

下面参考图13，图13示出了确定特定BCC参数的建立。通常，可以在通道对之间定义ICLD、ICTD和ICC参数。然而，优选地，在参考通道和每个其它通道之间确定ICLD和ICTD参数。这在图13A中进行了图示。

可以以不同方式来定义ICC参数。最一般地，如图13B所示，可以在所有可能的通道对之间估计编码器中的ICC参数。在这种情况下，解码器将合成ICC，从而ICC与原始多通道信号中所有可能通道对之间的ICC近似相同。然而，建议每次仅估计最强两个通道之间的ICC参数。图13C示出了这种方案，其中示出了这样的示例：在一个时刻，估计通道1和2之间的ICC参数，并且在另一时刻，计算通道1和5之间的ICC参数。然后，解码器合成解码器中最强通道之间的通道间相关性，并且应用某些启发式规则，以针对其它通道对计算和合成通道间相关性。

关于根据所发送的ICLD参数计算，例如乘法参数a₁、…、a_N，参考上述AES大会文献5574。ICLD参数表示原始多通道信号中的能量分布。不失一般性，在图13A中示出了四个ICLD参数，表示所有其它通道和正面左通道之间的能量差。在补充信息处理模块123中，根据ICLD参数得到乘法参数a₁、…、a_N，从而所有重构输出通道的总能量与所发送的和信号的能量相同(或与之成正比)。确定这些参数的一种简单方式是2级处理，其中，在第一级，将正面左通道的乘法因子设置为一，而将图13A中其它通道的乘法因子设置为所发送的ICLD值。然后，在第二级中，计算所有五个通道的能量，并且与所发送的和信号的能量相比较。然后，使用对所有通道都一样的缩减因子来缩减所有通道，其中选择缩减因子，使得所有重构输出通道的总能量在缩减之后等于所发送和信号的总能量。

当然，还有其它方法来计算乘法因子，它们不依赖于2级处理而是只需要1级处理。

关于延迟参数，应该注意，当正面左通道的延迟参数d₁被设置为零时，可以直接使用从BCC编码器发送来的延迟参数ICTD。在此不需要进行重新缩放，因为延迟不改变信号的能量。

关于从BCC编码器发送到BCC解码器的通道间相关性测量ICC，此处应该注意，可以通过修改乘法因子a₁、…、a_N来进行相关性操作，例如通过将所有子带的加权因子乘以数值在20log10(-6)和20log10(6)之间的随机数。优选地，选择伪随机序列，以使对于所有临界频带，方差几乎恒定，并且在每个临界频带内平均值为零。对每个不同帧的频谱系数应用相同序列。于是，通过修改伪随机序列的方差来控制听觉表象(auditory image)宽度。方差越大，创建的表象宽度越大。可以在宽度为临界频带宽的单独频带中执行方差修改。这使得听觉场景中能够同时存在多个对象，每个对象具有不同的表象宽度。伪随机序列的合适幅度分布是对数刻度上的均匀分布，如美国专利申请公开2003/0219130 A1中所述。尽管如此，所有BCC合成处理涉及如图11所示的作为和信号从BCC编码器发送到BCC解码器的单输入通道。

为了以兼容方式，即，以常规立体声解码器也可理解的比特流格式，来发送五个通道，已经使用了所谓的矩阵化技术，如“MUSICAMsurround：a universal multi-channel coding system compatible with ISO11172-3”，G.Theile & G.Stoll，AES preprint 3403，October 1992，SanFrancisco中所述。将五个输入通道L、R、C、Ls和Rs送入矩阵化设备中，矩阵化设备执行矩阵化操作，以根据五个输入通道计算基本或兼容立体声通道Lo、Ro。具体地，这些基本立体声通道Lo/Ro如下计算：

Lo＝L+xC+yLs

Ro＝R+xC+yRs

其中，x和y是常数。除了包括基本立体声信号Lo/Ro的编码版本的基本立体声层之外，其它三个通道C、Ls、Rs还在扩展层中传输。对于比特流，该Lo/Ro基本立体声层包括报头、诸如比例因子之类的信息和子带采样。多通道扩展层，即中央通道和两个环绕通道，包括在多通道扩展字段中，该字段也称作辅助数据字段。

在解码器一侧，执行逆矩阵化操作，以使用基本立体声通道Lo、Ro和三个额外通道，形成五通道表示中左右通道的重构。另外，从辅助信息中解码三个额外通道，以获得解码后的五通道或者原始多通道音频信号的环绕表示。

在文献“Improved MPEG-2 audio multi-channel encoding”，B.Grill，J.Herre，K.H.Brandenburg，E.Eberlein，J.Koller，J.Mueller，AESpreprint 3865，February 1994，Amsterdam中描述了多通道编码的另一种方法，其中，为了获得后向兼容性，考虑后向兼容模式。为此，使用兼容性矩阵来从原始五个输入通道获得两个所谓的下混通道Lc、Rc。另外，可以动态选择作为辅助数据传输的三个辅助通道。

为了利用立体声无关性(irrelevancy)，对通道组应用联合立体声技术，通道组例如三个正面通道，即，左通道、右通道和中央通道。为此，组合这三个通道，以获得组合通道。对该组合通道进行量化，并封装到比特流中。然后，该组合通道与相应的联合立体声信息被一起输入到联合立体声解码模块中，以获得联合立体声解码通道，即，联合立体声解码左通道、联合立体声解码右通道和联合立体声解码中央通道。这些联合立体声解码通道与左环绕通道和右环绕通道一起输入到兼容性矩阵模块中，以形成第一和第二下混通道Lc、Rc。然后，两个下混通道的量化版本和组合通道的量化版本与联合立体声编码参数一起被封装到比特流中。

因此，使用强度立体声编码，在“载波”数据的单个部分内传输一组独立的原始通道信号。然后，解码器将所涉及到的信号重构为相同的数据，根据它们原始的能量-时间包络对数据进行重新缩放。因此，所传输的通道的线性组合将导致结果，这与原始下混差异极大。这适用于基于强度立体声概念的任何类型联合立体声编码。对于提供兼容下混通道的编码系统，存在这样的直接结果：如前述文献中所述，通过去矩阵化的重构遭受由于非完全重构而导致的假象。使用所谓的联合立体声预矫正方案减轻了此问题，在联合立体声预矫正方案中，在编码器中矩阵化之前执行左、右和中央通道的联合立体声编码。以这种方式，用于重构的去矩阵化方案引入较少的假象，因为在编码器一侧，已经使用联合立体声解码的信号来产生下混通道。于是，非完全的重构处理被转移到兼容下混通道Lc和Rc中，在其中更易于被音频信号自身所掩盖。

虽然这种系统减少了由于解码器侧的去矩阵化而导致的假象，但是仍然具有某些缺点。一种缺点在于，立体声兼容下混通道Lc和Rc不是根据原始通道而是根据原始通道的强度立体声编码/解码版本得到的。因此，兼容下混通道中包括由于强度立体声编码系统导致的数据损失。因此，仅解码兼容通道而非增强强度立体声编码通道的仅立体声解码器提供的输出信号受到强度立体声导致的数据损失的影响。

另外，除了两个下混通道之外，还必须传输完全额外的通道。此通道是组合通道，通过对左通道、右通道和中央通道进行联合立体声编码形成。另外，还必须向解码器发送用于根据组合通道重构原始通道L、R、C的强度立体声信息。在解码器处，执行逆矩阵化，即去矩阵化操作，以根据两个下混通道得到环绕通道。另外，通过使用所传输的组合通道以及所传输的联合立体声参数进行联合立体声解码，近似原始的左、右和中央通道。还应注意，通过对组合通道进行联合立体声解码得到原始的左、右和中央通道。

已经发现，在强度立体声技术的情况下，当与多通道信号结合使用时，只可以产生完全相干的输出信号，这些输出信号基于相同的基础通道。

在BCC技术中，减少重构多通道输出信号中通道间相干性非常昂贵，因为需要用于影响加权区段的伪随机数发生器。另外，已经表明，这种处理的问题在于可能引入由于随机操作乘法因子和时间延迟因子而导致的假象，这在特定环境下可能变得能听见，因此，恶化了重构多通道输出信号的质量。

发明内容

因此，本发明的目的是提供一种多通道音频信号的比特高效和减少假象的处理或者逆处理的概念。

根据本发明的第一方面，由一种设备用于使用输入信号和参数补充信息来构造多通道输出信号的设备来实现该目的，其中所述输入信号包括从原始多通道信号中推导出的第一输入通道和第二输入通道，所述原始多通道信号具有多个通道，所述多个通道包括至少两个原始通道，所述两个原始通道被定义为位于假设听众位置的一侧，其中，第一原始通道是所述至少两个原始通道中的第一个，第二原始通道是所述至少两个原始通道中的第二个，并且参数补充信息描述了所述多通道原始信号的原始通道之间的相互关系，所述设备包括：确定装置，用于通过选择第一和第二输入通道之一或者第一和第二输入通道的组合来确定第一基础通道，并且用于通过选择第一和第二输入通道的另一个或者第一和第二输入通道的不同组合来确定第二基础通道，使得第二基础通道与第一基础通道不同；以及合成装置，用于使用参数补充信息和第一基础通道来合成第一输出通道，以获得第一合成输出通道，所述第一合成输出通道是位于假设听众位置一侧的第一原始通道的再现版本，并且用于使用参数补充信息和第二基础通道来合成第二输出通道，所述第二输出通道是位于假设听众位置的相同一侧的第二原始通道的再现版本。

根据本发明的第二方面，由一种使用输入信号和参数补充信息来构造多通道输出信号的方法来实现该目的，其中所述输入信号包括从原始多通道信号中推导出的第一输入通道和第二输入通道，所述原始多通道信号具有多个通道，所述多个通道包括至少两个原始通道，所述两个原始通道被定义为位于假设听众位置的一侧，其中，第一原始通道是所述至少两个原始通道中的第一个，第二原始通道是所述至少两个原始通道中的第二个，并且参数补充信息描述了所述多通道原始信号的原始通道之间的相互关系，所述方法包括：通过选择第一和第二输入通道之一或者第一和第二输入通道的组合来确定第一基础通道，并且通过选择第一和第二输入通道的另一个或者第一和第二输入通道的不同组合来确定第二基础通道，以使第二基础通道与第一基础通道不同；以及使用参数补充信息和第一基础通道来合成第一输出通道，以获得第一合成输出通道，所述第一合成输出通道是位于假设听众位置一侧的第一原始通道的再现版本，并且使用参数补充信息和第二基础通道来合成第二输出通道，所述第二输出通道是位于假设听众位置的相同一侧的第二原始通道的再现版本。

根据本发明的第三方面，由一种用于根据多通道原始信号来产生下混信号的设备来实现该目的，其中所述下混信号具有少于原始通道数目的通道，所述设备包括：计算装置，用于使用下混规则来计算第一下混通道和第二下混通道；计算装置，用于计算表示能量在多通道原始信号中通道之间的分布的参数电平信息；确定装置，用于确定两个原始通道之间的相干性测量，所述两个原始通道位于假设听众位置的一侧；以及形成装置，用于使用第一和第二下混通道、参数电平信息和仅位于一侧的两个原始通道之间的至少一个相干性测量或者从所述至少一个相干性测量中推导出的值，但是不使用位于假设听众位置的不同侧的任何相干性测量，来形成输出信号。

根据本发明的第四方面，通过一种用于根据多通道原始信号来产生下混信号的方法来实现该目的，其中所述下混信号具有少于原始通道数目的通道，所述方法包括：使用下混规则来计算第一下混通道和第二下混通道；计算表示能量在多通道原始信号中通道之间的分布的参数电平信息；确定两个原始通道之间的相干性测量，所述两个原始通道位于假设听众位置的一侧；以及使用第一和第二下混通道、参数电平信息和仅位于一侧的两个原始通道之间的至少一个相干性测量或者从所述至少一个相干性测量中推导出的值，但是不使用位于假设听众位置的不同侧的任何相干性测量，来形成输出信号。

根据本发明的第五方面，通过一种计算机程序来实现该目的，其中所述计算机程序包括构造多通道方法或者产生下混信号方法。

本发明基于找到当存在两个或更多的通道时获得多通道输出信号的高效和减少假象的重构，其中，优选地，作为左和右立体声通道的通道示出了特定程度的不相干性。由于通过下混多通道信号而获得的左和右立体声通道或者左和右兼容立体声通道通常示出了特定程度的不相干性，即不完全相干或者完全相关，所以这通常是事实。

根据本发明，通过确定不同输出通道的基础通道，将多通道输出信号的重构输出通道彼此解相关，其中通过使用不相关传输通道的变化程度来获得不同的基础通道。

换句话说，例如，假设没有额外的“相关合成”，具有左传输输入通道作为基础通道的重构输出通道在BCC子带域中将与具有与基础通道相同的左通道的另一个重构输出通道完全相关。在该上下文中，应该注意，确定的延迟和电平设置并不减少这些通道之间的相干性。根据本发明，通过使用第一基础通道用于构成第一输出通道和使用第二基础通道用于构成第二输出通道，这些通道之间的相干性(在以上示例中是100％)被减少到特定相干度或者相干性测量，其中，第一和第二基础通道具有两个传输(解相关的)的通道不同“部分”。这意味着与受第一通道影响较少(即主要受第二传输通道的影响)的第二基础通道相比，第一基础通道受第一传输通道或者与第一传输通道相等的通道的强烈影响。

根据本发明，传输通道之间的本质解相关被用于提供多通道输出信号中的解相关通道。

在优选实施例中，在编码器中以时间相关或者频率相关的方式确定例如左前和左环绕或者右前和右环绕的各个通道对之间的相干性测量，作为补充信息，并且将其传输到本发明的解码器，使得可以获得基础通道的动态确定和因此的重构输出通道之间的相干性的动态操作。

与上述仅传输两个最强通道的ICC提示的现有技术的情况相比，本发明的系统更易于控制和提供更好质量的重构，这是因为本发明的相干性测量总是与相同的通道对相关联，与该通道对是否包括最强的通道无关，所以在编码器和解码器中不必确定最强的通道。由于将两个下混通道从编码器传输到解码器，以便自动地传输左/右相干关系，从而不需要关于左/右相干性的额外信息，所以与现有技术系统相比可以获得更高的质量。

本发明的其它优点在于由于可以减少甚至完全消除正常的解相关处理负荷，所以可以减少解码器一侧的计算工作量。

优选地，推导出一个或多个原始通道的参数通道补充信息，使得它们与下混通道之一相关联，而不是与现有技术一样，与额外的“组合”联合立体声通道相关联。这意味着计算参数通道补充信息，使得在解码器一侧，通道重构器使用通道补充信息和下混通道之一或者下混通道的组合来重构分配了通道补充信息的原始音频通道的近似。

该概念的优点在于提供了比特高效的多通道扩展，使得可以在解码器处播放多通道音频信号。

此外，由于仅适用于进行两个通道处理的较低等级解码器可以简单地忽略扩展信息(即通道补充信息)，所以本发明的概念是后向兼容的。较低等级的解码器可以仅播放两个下混通道以获得原始多通道音频信号的立体声表示。然而，能够进行多通道操作的高等级解码器可以使用传输的通道补充信息来重构原始通道的近似。

本发明实施例的优点在于与现有技术相比，由于除了第一和第二下混通道Lc、Rc之外不再需要额外的载波通道，所以是比特高效的。然而，通道补充信息与一个或两个下混通道相关联。这意味着下混通道自身用作载波通道，通道补充信息与之组合以重构原始音频通道。这意味着通道补充信息优选地是参数补充信息，即不包括任意子带采样或频谱系数的信息。然而，参数补充信息是用于加权(在时间和/频率上)各个下混通道或者各个下混通道的组合以获得选中原始通道的重构版本的信息。

在本发明的优选实施例中，获得了基于兼容立体声信号的多通道信号的后向兼容编码。优选地，使用多通道音频信号的原始通道的矩阵化来产生兼容立体声信号(下混信号)。

优选地，根据例如强度立体声编码或双声道提示编码的联合立体声技术，获得选中原始通道的通道补充信息，因此，在解码器一侧，不必执行去矩阵化操作。避免了与去矩阵化相关联的问题，即，与去矩阵化操作中不希望的量化噪声分布相关联的某些假象。这是由于解码器使用通道重构器，重构器使用一个下混通道或者下混通道组合以及传输的通道补充信息来重构原始信号。

优选地，本发明的概念适用于具有五个通道的多通道音频信号。这五个通道是左通道L、右通道R、中央通道C、左环绕通道Ls和右环绕通道Rs。优选地，下混通道是提供原始多通道音频信号的立体声表示的立体声兼容下混通道Ls和Rs。

根据本发明的优选实施例，对于每一个原始通道，在输入到输出数据中的解码器一侧计算通道补充信息。使用左下混通道推导出原始左通道的通道补充信息。使用左下混通道推导出原始左环绕通道的通道补充信息。根据右下混通道推出原始右通道的通道补充信息。根据右下混通道推导出原始右环绕通道的通道补充信息。

根据本发明的优选实施例，使用第一下混通道以及第二下混通道，即使用两个下混通道的组合，来推导出原始中央通道的通道信息。优选地，该组合是总和。

因此，分组(即通道补充信息和载波信号之间的关系)用于提供选中原始通道的通道补充信息的下混通道，使得对于最佳质量，选择包含利用通道补充信息所表示的各个原始多通道信号的最高可能相关量的特定下混通道。对于联合立体声载波信号，使用第一和第二下混通道。优选地，还可以使用第一和第二下混通道的总和。当然，第一和第二下混通道的总和可以被用于计算每一个原始通道的计算通道补充信息。然而，优选地，下混通道的总和被用于计算例如五个通道环绕、七个通道环绕、5.1环绕或7.1环绕的环绕环境中原始中央通道的通道补充信息。使用第一和第二下混通道的总和是尤其有利的，因为不必执行额外的传输开销。这是由于在解码器处存在两个下混通道，使得在解码器处可以容易地执行这些下混通道的求和而不需要任何额外的传输比特。

优选地，以兼容方式将形成多通道扩展的通道补充信息输入到输出数据比特流中，使得较低等级的解码器简单地忽略多通道扩展数据，并且仅提供多通道音频信号的立体声表示。然而，更高等级的解码器不仅使用两个下混通道，而且采用通道补充信息来重构原始音频信号的完全多通道表示。

附图说明

以下通过参考附图来描述本发明的优选实施例，附图中：

图1A是本发明编码器的优选实施例的方框图；

图1B是用于提供各个输入通道对的相干性测量的本发明编码器的方框图；

图2A是本发明解码器的优选实施例的方框图；

图2B是对于不同输出通道具有不同基础通道的本发明解码器的方框图；

图2C是图2B的合成装置的优选实施例的方框图；

图2D是图2C所示设备的5通道环绕系统的优选实施例的方框图；

图2E是本发明编码器中相干性测量的确定装置的示意表示；

图2F是确定用于计算具有特定相干性测量的基础通道相对于另一个基础通道的加权因子的优选示例的示意表示；

图2G是根据图2F中所示的方案所计算的特定加权因子来获得重构输出通道的优选方式的示意图；

图3A是计算以获得频率选择通道补充信息的装置的优选实现方式的方框图；

图3B是实现例如强度编码或双声道提示编码的联合立体声处理的计算器的优选实施例；

图4演示了用于计算通道补充信息的装置的另一个优选实施例，其中通道补充信息是增益因子；

图5演示了当编码器被实现为如图4所示时、解码器的实现方式的优选实施例；

图6演示了用于提供下混通道的装置的优选实现方式；

图7演示了用于针对各个原始通道来计算通道补充信息的原始和下混通道的分组；

图8演示了本发明编码器的另一个优选实施例；

图9演示了本发明解码器的另一个实现方式；以及

图10演示了现有技术的联合立体声编码器。

图11是现有技术的BCC编码器/解码器链？的框图表示；

图12是图11的BCC合成模块的现有技术实现方式的方框图；

图13是用于确定ICLD、ICTD和ICC参数的公知方案的表示；

图14A是用于针对不同输出通道再现来分配不同基础通道的方案的示意表示；

图14B是用于确定ICC和ICTD参数所需的通道对的表示；

图15A是用于构成5通道输出信号的基础通道的第一选择的示意表示；以及

图15B是用于构成5通道输出信号的基础通道的第二选择的示意表示。

具体实施方式

图1A示出了用于处理多通道音频信号10的设备，多通道音频信号10至少具有三个原始通道，例如R、L和C。优选地，原始音频信号具有多于三个的通道，例如环绕环境中的五个通道，如图1A所示。五个通道是左通道L、右通道R、中央通道C、左环绕通道Ls和右环绕通道Rs。本发明的设备包括用于提供第一下混通道Lc和第二下混通道Rc的装置12，其中第一和第二下混通道是根据原始通道得到的。为了根据原始通道得到下混通道，存在数种可能。一种可能是通过使用如图6所示的矩阵化操作对原始通道进行矩阵化，来得到下混通道Lc和Rc。这种矩阵化操作在时域中执行。

选择矩阵化参数a、b和t，使得它们小于或等于1。优选地，a和b是0.7或0.5。优选地，选择总体加权参数t，以便避免通道削波。

可选地，如图1A所示，也可以从外部提供下混通道Lc和Rc。当下混通道Lc和Rc是“人工混合”操作的结果时，可以如此进行。在这种情况下，录音师自己混合下混通道，而不是使用自动矩阵化操作。录音师执行创造性的混合，以获得最优化下混通道Lc和Rc，它们给出原始多通道音频信号的最佳可能立体声表示。

在从外部提供下混通道的情况下，用于提供下混通道的装置不执行矩阵化操作，而是简单地将外部提供的下混通道转发到随后的计算装置14。

计算装置14可操作用于计算通道补充信息，例如对于选中的原始通道L、Ls、R或Rs，分别计算l_i、ls_i、r_i或rs_i。具体地，计算装置14可操作来计算通道补充信息，从而当使用通道补充信息来对下混通道加权时，得到选中原始通道的近似。

可选地或另外，用于计算通道补充信息的装置还可操作来针对选中原始通道计算通道补充信息，从而当使用所计算的通道补充信息对包括第一和第二下混通道的组合的组合下混通道进行加权时，得到选中原始通道的近似。

为了在附图中表示此特征，示出了加法器14a和组合通道补充信息计算器14b。

本领域技术人员应该清楚，这些单元不必实现为不同的单元。相反，模块14、14a和14b的全部功能可以由特定处理器来实现，所述处理器可以是通用处理器或者用于执行所需功能的任何其它装置。

另外，应该注意，作为子带采样或频域值的通道信号以大写字母表示。与通道本身相反，通道补充信息以小写字母表示。因此，通道补充信息c_i是原始中央通道C的通道补充信息。

通道补充信息以及下混通道Lc和Rc或者由音频编码器16所产生的编码版本Lc′和Rc′被输入到输出数据格式化器18。一般地，输出数据格式化器18充当用于生成输出数据的装置，输出数据包括至少一个原始通道的通道补充信息、第一下混通道或根据第一下混通道得到的信号(例如，其编码版本)以及第二下混通道或根据第二下混通道得到的信号(例如，其编码版本)。

然后，可以将输出数据或输出比特流20发送到比特流解码器，或者可以存储或分发。优选地，输出比特流20是不具备多通道扩展能力的小型解码器也可以读取的兼容比特流。这种较低等级编码器(例如，现有技术的mp3)将简单地忽略多通道扩展数据，即通道补充信息。它们仅解码第一和第二下混通道，以产生立体声输出。较高等级解码器(例如，具备多通道功能的解码器)将读取通道补充信息，然后将生成原始音频通道的近似，从而获得多通道音频印象。

图8示出了本发明在五通道环绕/mp3环境中的优选实施例。这里，优选地，将环绕增强数据写入标准化mp3比特流句法中的辅助数据字段中，从而获得“mp3环绕”比特流。

图1B图示了图1A中单元14的更详细表示。在本发明的优选实施例中，计算器14包括用于计算代表图1A中10处所示的多通道原始信号中通道之间能量分布的参数电平信息的装置141。因此，单元141能够生成所有原始通道的输出电平信息。在优选实施例中，此电平信息包括通过常规BCC合成获得的ICLD参数，如结合图10至13所述。

单元14还包括用于确定位于假设听众位置一侧的两个原始通道之间的相干性测量的装置142。在图1A所示的5通道环绕示例的情况下，这种通道对包括右通道R和右环绕通道R_s，或者可选地或另外，包括左通道L和左环绕通道L_s。可选地，单元14还包括用于计算这种通道对(即，通道位于假设听众位置一侧的通道对)的时间差的装置143。

图1A中的输出数据格式化器18可操作来在20向数据流输入表示多通道原始信号中通道之间能量分布的电平信息以及仅针对左和左环绕通道对和/或右和右环绕通道对的相干性测量。然而，输出数据格式化器可操作来在输出信号中不包括任何其它相干性测量或者可选的时间差，从而与其中传输所有可能通道对的ICC提示的现有技术方案相比，减少了补充信息量。

为了更详细地说明图1B所示的本发明编码器，参考图14A和图14B。在图14A中，给出了示例5通道系统的通道扬声器的布置，其中假设听众位于各个扬声器所处圆圈的中心点。如上所述，5通道系统包括左环绕通道、左通道、中央通道、右通道和右环绕通道。当然，这种系统还可以包括图14中没有示出的重低音通道。

此处应该注意，左环绕通道也可以称作“背面左通道”。对右环绕通道也是如此。此通道也称作背面右通道。

与具有一个传输通道的现有BCC(其中，同一基础通道，即图11所示的所传输的单通道信号，用来生成N个输出通道中的每个通道)相反，本发明的系统使用N个所传输的通道之一或者它们的线性组合作为N个输出通道中每个通道的基础通道。

因此，图14示出了N到M方案，即，在该方案中，将N个原始通道下混为两个下混通道。在图14的示例中，N等于5，而M等于2。具体地，对于正面左通道重构，使用所发送的左通道L_c。类似地，对于正面右通道重构，使用第二发送通道R_c作为基础通道。另外，使用L_c和R_c的均等组合(equal combination)作为重构中央通道的基础通道。根据本发明的实施例，从编码器还向解码器发送相关性测量。因此，对于左环绕通道，不仅使用所发送的左通道L_c并且还使用所发送的通道L_c+α₁R_c，从而用于重构左环绕通道的基础通道不完全与用于重构正面左通道的基础通道相干。类似地，对右侧(相对于假设听众位置)执行相同过程，其中用于重构右环绕通道的基础通道不同于用于重构正面右通道的基础通道，其中差异取决于相干性测量α₂，优选地，从编码器向解码器发送该相干性测量作为补充信息。

因此，本发明的处理的独特之处在于，优选地，对于每个输出通道的再现，使用不同的基础通道，其中基础通道等于所发送的通道或者它们的线性组合。这种线性组合可以取决于所发送的基础通道的变化程度，其中这些程度取决于相干性测量，而相干性测量取决于原始多通道信号。

给定M个发送的通道，获得N个基础通道的处理被称作“上混”(upmixing)。这种上混可以如此实现：将带有所发送通道的向量乘以N×M矩阵，以生成N个基础通道。如此，形成了所发送的信号通道的线性组合，以产生输出通道信号的基础信号。图14A中示出了上混的具体示例，这是5到2方案，用来利用2通道立体声传输生成5通道环绕输出信号。优选地，额外的重低音输出通道的基础通道与中心通道L+R相同。在本发明的优选实施例中，提供时变以及可选的频变相干性测量，从而获得时间自适应上混矩阵，可选地，该矩阵也是频率选择性的。

下面参考图14B，图14B示出了图1B所示的本发明编码器实施方式的背景。在该环境中，应该注意，左和右以及左环绕和右环绕之间的ICC和ICTD提示在所发送的立体声信号中相同。于是，根据本发明，不需要使用左和右以及左环绕和右环绕之间的ICC和ICTD提示来合成或重构输出信号。不合成左和右以及左环绕和右环绕之间的ICC和ICTD提示的另一原因是，客观来说，应该尽可能少地修改基础通道，以维持最大信号质量。任何信号修改可能引入假象或不自然。

因此，只提供通过提供ICLD提示获得的原始多通道信号的电平表示，而根据本发明，仅针对位于假设听众位置一侧的通道对，计算和发送ICC和ICTD参数。这在图14B中进行了图示，其中虚线144表示左侧，虚线145表示右侧。与ICC和ICTD相反，ICLD合成对于假象和不自然是不成问题的，因为这仅涉及子带信号的缩放。于是，与常规BCC中一样，即，在参考通道和所有其它通道之间合成ICLD。更一般地，在N2M方案中，与常规BCC类似，在通道对之间合成ICLD。然而，根据本发明，仅在相对于假设听众位置位于同一侧的通道对之间，即，对包括正面左和左环绕通道的通道对或者包括正面右和右环绕通道的通道对，合成ICC和ICTD提示。

在7通道或更高的环绕系统中，其中在左侧有三个通道，在右侧有三个通道，可以采用相同的方案，其中仅针对左侧或右侧的可能通道对发送相干性参数，用于提供不同的基础通道，以重构在假设听众位置一侧的不同输出通道。因此，如图1A和1B所示的本发明的N到M编码器的独特之处在于，不是将输入信号下混为一个单通道，而是下混为M个通道，并且仅估计和发送必要的通道对之间的ICTD和ICC提示。

在5通道环绕系统中，图14B示出了这种情况，从图14可知，必须发送左和左环绕之间的至少一个相干性测量。此相干性测量也可以用来提供右和右环绕之间的去相关。这是一种低补充信息实施方式。在可用通道容量更大的情况下，也可以生成和发送右和右环绕通道之间的单独相干性测量，从而在本发明的解码器中，可以获得左侧和右侧的不同程度的去相关。

图2A示出了本发明的解码器的图示，该解码器用作对在输入数据端口22接收到的输入数据进行逆处理的设备。输入数据端口22处接收到的数据与图1A中的输出数据端口20处输出的数据相同。可选地，当数据不是通过有线信道而是通过无线信道传输时，输入数据端口22处接收到的数据是根据编码器所产生的原始数据得到的数据。

将解码器输入数据输入到数据流读取器24，用于读取输入数据，以最终获得通道补充信息26以及左下混通道28和右下混通道30。在输入数据包括下混通道的编码版本的情况下，这对应于存在图1A中的音频编码器16的情况，数据流读取器24还包括音频解码器，该音频解码器与用来编码下混通道的音频编码器适配。在这种情况下，音频解码器(是数据流读取器24的一部分)可操作来生成第一下混通道Lc和第二下混通道Rc，或者更准确地说，这些通道的解码版本。为了便于描述，仅在明确表明时区分信号及其解码版本。

数据流读取器24输出的通道补充信息26和左右下混通道28和30被送入多通道重构器32中，以提供原始音频信号的重构版本34，此重构版本34可以由多通道播放器36播放。在多通道重构器可在频域中操作的情况下，多通道播放器36将接收频域输入数据，必须在播放之前以特定方式解码频域数据，例如转换到时域中。为此，多通道播放器36还可以包括解码设施。

此处应该注意，较低等级解码器只具有数据流读取器24，其只输出左右下混通道28和30到立体声输出38。然而，增强的本发明解码器将提取通道补充信息26，并使用这些通道补充信息和下混通道28和30，来使用多通道重构器32重构原始通道的重构版本34。

图2B示出了图2A的多通道重构器32的本发明实施方式。因此，图2B示出了用于使用输入信号和参数补充信息重构多通道输出信号的设备，其中输入信号包括根据原始多通道信号得到的第一输入通道和第二输入通道，并且参数补充信息描述多通道原始信号的通道之间的相互关系。图2B所述的本发明设备包括用于根据第一原始通道和第二原始通道提供相干性测量的装置320，其中第一原始通道和第二原始通道包括在原始多通道信号中。在参数补充信息中包括相干性测量的情况下，参数补充信息输入到装置320，如图2B所示。装置320所提供的相干性测量输入到用于确定基础通道的装置322中。具体地，装置322可操作来通过选择第一和第二输入通道之一或者第一和第二输入通道的预定组合来确定第一基础通道。装置322还可操作来使用相干性测量确定第二基础通道，从而由于相干性测量，第二基础通道不同于第一基础通道。在图2B所示的示例(涉及5通道环绕系统)中，第一输入通道是左兼容立体声通道L_c；并且第二输入通道是右兼容立体声通道R_c。装置322可操作来确定基础通道，这已经结合图14A进行了描述。于是，在装置322的输出处，获得了针对每一待重构输出通道的独立基础通道，其中，优选地，装置322输出的基础通道彼此全都不同，即，它们之间具有相干性测量，每一对之间的相干性测量不同。

装置322输出的基础通道和诸如ICLD、ICTD或强度立体声信息之类的参数补充信息输入到装置324，用于使用参数补充信息和第一基础通道合成第一输出通道(例如，L)以获得第一合成输出通道L，这是相应第一原始通道的再现版本，并且用于使用参数补充信息和第二基础通道合成第二输出通道(例如，Ls)，第二输出通道是第二原始通道的再现版本。另外，合成装置324可操作来使用另一对基础通道再现右通道R和右环绕通道Rs，其中由于相干性测量或者由于对右/右环绕通道对得到的额外相干性测量，所述另一对中的基础通道彼此不同。

图2C中示出了本发明解码器的更详细实施方式。可以看到，在图2C所示的优选实施例中，一般结构类似于结合图12针对现有技术BCC解码器已经描述过的结构。与图12相反，图2C所示的本发明方案包括两个音频滤波器组，即，一个滤波器组针对一个输入信号。当然，单个滤波器组也足够了。在这种情况下，需要进行控制，使输入信号按顺序输入到单个滤波器组。滤波器组由模块319a和319b示出。图2B中所示的单元320和322的功能包括在图2C中上混模块323中。

在上混模块323的输出处，获得彼此不同的基础通道。这与图12相反，在图12中，节点130处的基础通道彼此相同。图2B所示的合成装置324优选地包括延迟级324a、电平修改级324b，并且在某些情况下包括用于执行额外处理任务的处理级324c，以及相应数目的逆音频滤波器324d。在一个实施例中，单元324a、324b、324c和324d的功能可以与结合图12所描述的现有技术中的功能相同。

图2D示出了图2C针对5通道环绕设置的更详细示例，其中输入两个输入通道y₁和y₂，并获得五个重构输出通道，如图2D所示。与图2C相反，给出了上混模块323的更详细的设计。具体地，示出了求和器件323，用于提供基础通道，以重构中央输出通道。另外，图2D中示出了标记为“W”的两个模块331、332。这些模块根据在相干性测量输入334处输入的相干性测量K，执行两个输入通道的加权组合。优选地，加权模块331或332还对基础通道执行各自的后处理操作，例如如下面所述的在时间和频率中进行平滑。于是，图2C是图2D的一般情况，其中图2C图示了给定解码器的M个输入通道，如何生成N个输出通道。将所发送的信号变换到子带域中。

对每个输出通道计算基础通道的处理表示为上混，因为每个基础通道优选是所发送通道的线性组合。上混可以在时域中或者在子带或频域中执行。

为了计算每个基础通道，可以应用特定的处理，以减少所发送的通道不同相或同相时的消除/放大作用。通过对子带信号施加延迟来合成ICTD，并且通过缩放子带信号来合成ICLD。可以使用不同技术来合成ICC，例如利用随机数序列来操作加权因子或延时。然而，此处应该注意，优选地，除了根据本发明对每个输出通道确定不同基础通道之外，不执行输出通道之间的相干性/相关性处理。因此，优选的本发明设备处理从解码器接收到的ICC提示，用于构造基础通道，并处理从解码器接收到的ICTD和ICLD提示，用于操作已经构造的基础通道。于是，ICC提示，或者更一般地说相干性测量不用来操作基础通道，而是用来构造基础通道，随后对基础通道进行操作。

在图2D所示的具体示例中，从2通道立体声传输解码5通道环绕信号。将所发送的2通道立体声信号转换到子带域。然后，应用上混，以生成五个优选地不同的基础通道。通过应用已经结合图14B讨论过的延迟d_i(k)，仅在左和左环绕以及右和右环绕之间合成ICTD提示。此外，在图2D中使用相干性测量来重构基础通道(模块331和332)，而不是进行模块324c中的任何后处理。

根据本发明，在所发送的立体声信号中维持左和右以及左环绕和右环绕之间的ICC和ICTD提示。因此，单个ICC提示和单个ICTD提示参数就足够了，因此，将它们从编码器发送到解码器。

在另一实施例中，可以在编码器中计算两侧的ICC提示和ICTD提示。可以将这两个值从编码器发送到解码器。可选地，编码器可以通过向算术功能(例如，平均功能等)输入两侧的提示，计算结果ICC或ICTD，用于根据两个相干性测量得到结果值。

下面，参考图15A和15B，图15A和15B示出了本发明概念的低复杂度实施方式。虽然高复杂度实施方式需要在编码器侧确定在假设听众位置一侧的至少一个通道对之间的相干性测量，并且优选地以量化和熵编码的形式发送此相干性测量，但是低复杂度版本不需要在编码器侧确定任何相干性测量并从编码器向解码器发送这种信息。尽管如此，为了获得所重构的多通道输出信号的良好主观质量，图2D中的装置324提供预定的相干性测量，或换句话说，预定的加权因子，用于使用这种预定加权因子，确定所发送的输入通道的加权组合。存在数种可能来减少用于重构输出通道的基础通道中的相干性。不使用本发明的措施，在并不编码和发送ICC和ICTD的底线实施方式中，各个输出通道将完全相干。因此，使用任何预定相干测量将减少所重构输出信号中的相干性，从而所重构的输出信号是相应原始通道的更好近似。

因此，为了防止基础通道完全相干，进行上混，例如，如图15A所示，这是一种可选方案，或者如图15B所示，这是另一可选方案。计算五个基础通道，使得如果传输的立体声信号完全不相干，则五个基础通道也完全不相干。这导致当减少左通道和右通道之间的通道间相干时，自动地减少左通道和左环绕通道之间或者右通道和右环绕通道之间的通道间相干。例如，对于在所有通道内独立的例如欢呼信号的音频信号，这种上混具有产生左和左环绕以及右和右环绕之间的某种独立而不需要明确地合成(以及编码)通道间相干的优点。当然，该上混的第二版本可以与静态合成ICC和ICTD的方案相结合。

图15A示出了对左前和右前的上混优化，其中使左前和右前之间保持几乎独立(most imdependence)。

图15B示出了另一个示例，其中按照相同的方式一方面来处理左前和右前并且另一方面来处理左环绕和右环绕，使得前和后通道的独立程度是相同的。这可以从图15B中左/右前之间的角度与左环绕/右之间角度相同这个事实看出来。

根据本发明的优选实施例，使用动态上混代替静态选择。为此，本发明还涉及一种能够动态地采用上混矩阵以便优化动态性能的增强算法。在以下所示的示例中，可以针对后通道选择上混矩阵，使得前后相干性的最佳再现成为可能。本发明的算法包括以下步骤：

对于前通道，使用基础通道的简单分配，如在图14A或15A中所述。通过该简单选择，保留了沿左/右轴的通道相干性。

在编码器中，测量左/左环绕之间以及优选地右/右环绕对之间的例如ICC提示的前后相干值。

在解码器中，通过形成传输信道信号(即传输的左通道和传输的右通道)的线性组合，确定左后和右后通道的基础通道。具体地，确定上混系数，使得左和左环绕以及右和右环绕之间的实际相干达到在编码器中测量的值。实际上，当传输的通道信号表现出足够的非相关性时(通常是在5个通道的场景中)，可以实现上述目的。

在动态上混的优选实施例中，参考关于编码器实现的图2E和关于解码器实现的图2F和2G，给出被认为是执行本发明的最佳模式的实现示例。图2E示出了用于测量左和左环绕通道之间或者右和右环绕通道之间(即位于假设听众位置一侧的通道对)的前/后相干值(ICC值)的一个示例。

图2E的方框中所示的等式给出了第一通道x和第二通道y之间的相干性测量cc。在一种情况下，第一通道x是左通道，而第二通道y是左环绕通道。在另一种情况下，第一通道x是右通道，而第二通道y是右环绕通道。x_i代表在时刻i处相应通道x的采样，而y_i代表在另一个原始通道y的时刻处的采样。还应该注意，可以在时域上完全计算相干性测量。在这种情况下，和指数i从下限达到上限，其中上限通常与帧智能处理的情况下一个帧中的采样数目相同。

可选地，还可以在带通信号(即与原始视频信号相比较具有缩减带宽的信号)之间计算相干性测量。在这种情况下，相干性测量不仅是时间独立的，而且是频率独立的。产生的前/后ICC提示(即对于左前/后相干性的CC_l和对于右前/后相干性的CC_r)优选地以量化和编码形式被传输到解码器，作为参数补充信息。

下面，参考示出了优选解码器上混方案的图2F。在所示情况下，传输的左通道被保持为左输出通道的基础通道。为了接收左后输出通道的基础通道，确定左(l)和右(r)传输通道之间的线性组合，即l+αr。确定加权因子α，以使l和l+αr之间的互相关与左侧的传输希望值CC_l和右侧的CC_r或者通常相干性测量k相等。

在图2F中描述了适当的α值的计算。具体地，如图2E的方框中的等式所示，定义两个信号l和r的归一化互相关。

给定两个传输的信号l和r，必须确定加权因子α，使得信号l和l+αr之间的归一化互相关与希望的值k(即相干性测量)相等。该测量被定义在-1和+1之间。

使用两个通道的互相关定义，获得在图2F中对于值k所给出的等式。通过使用在图2F的底部所给出的多个简化，k的条件可以被重写为二次方程，该方程的解给出了加权因子α。

可以示出方程总是有实数值的解，即确保判别式是非负的。

取决于信号l和r的基本互相关，并且取决于希望的互相关k，两个传递的解实际上也许会使希望的互相关值为负，因此对于所有其它计算丢弃所述解。

在作为l信号和r信号的线性组合计算基础通道信号之后，将产生的信号归一化(重新缩放)为传输的l或r通道信号的原始信号能量。

类似地，可以通过交换左和右通道，即考虑r和r+αl之间的互相关，来推导出右输出通道的基础通道信号。

实际上，优选地在时间和频率上平滑α值的计算过程的结果，以便获得最大信号质量。此外，除了左/左后和右/右后之外，还可以将前/后相关测量用于进一步使信号质量最大化。

其后，参考图2G，来给出图2A的多通道重构器32所执行的功能的逐步描述。

优选地，根据编码器提供给解码器的动态相干性测量或者根据结合图15A和15B所述的静态提供的相关性测量，来计算加权因子α(200)。然后，在时间和/或频率上平滑加权因子(步骤202)，用以获得平滑的加权因子α_s。然后，基础通道b被计算为例如l+α_sr(步骤204)。然后使用基础通道b和其它基础通道一起来计算粗略输出信号。

从方框206中可见，需要电平表示ICLD以及延迟表示ICTD用于计算粗略输出信号。然后，将粗略输出信号缩放，使之具有与左和右输出通道的各个能量和相同的能量。换句话说，利用缩放因子来缩放粗略输出信号，使得缩放的粗略输出信号的各个能量的和与传输的左和右输入通道的各个能量的和相等。

可选地，还可以计算左和右传输通道的和，并且使用得到的信号的能量。可选地，还可以通过对粗略输出信号进行采样智能求和来计算和信号，并且使用得到的信号能量用于缩放。

然后，在方框208的输出处，获得唯一的重构输出通道，其中没有一个重构的输出通道完全与另一个重构输出通道相干，从而获得再现输出信号的最大质量。

为了简化，本发明的概念在可以使用任意数目的传输通道(M)和任意数目的输出通道(N)方面是有利的。

此外，优选地，经由动态上混来完成输出通道的传输通道和基础通道之间的转换。

在重要的实施例中，上混包括上混矩阵的乘法(即形成传输通道的线性组合)，其中优选地，通过使用相应的传输基础通道作为基础通道来合成前通道，而后通道包括传输通道的线性组合，其中线性组合的程度取决于相干性测量。

此外，优选地，以时间变化方式自适应地执行对信号的上混处理。具体地，上混处理优选地取决于从BCC编码器传输的补充信息，例如前/后相干的通道间相干提示。

设定每一个输出通道的基础通道，应用与常规双声道提示的处理，来合成空间提示，即在子带中应用缩放和延迟并且应用技术来减小通道之间的相干，其中额外地或者可选地，ICC提示被用于支持各个基础通道以便获得前/后相干的其它最佳再现。

图3A示出了用于计算通道补充信息的本发明计算器14的实施例，其中，音频编码器以及通道补充信息计算器对于多通道的相同空间表示进行操作。然而，图1示出了其它备选，其中音频编码器和通道补充信息计算器对于多通道信号的不同空间表示进行操作。当计算的资源不是与音频质量一样重要时，执行图1A的备选，因为滤波器组分别优化音频编码，并且可以使用补充信息计算。然而，当计算资源是一个问题时，执行图3A的备选，因为由于元件的共享使用，该备选需要更少的计算能力。

图3A所示的设备操作用于接收两个通道A、B。图3A所示的设备操作用于计算通道B的补充信息，使得对于选中原始通道B来使用该通道补充信息，可以根据通道信号A来计算通道B的重构版本。此外，图3A所示的设备操作用于形成频域通道补充信息，例如用于加权(与在BCC编码器中一样，通过乘法或时间处理)频谱值或子带采样的参数。为此，本发明的计算器包括加窗和时间/频率转换装置140a，用于获得输出140b处通道A的频率表示或输出140c处通道B的频域表示。

在优选实施例中，使用量化频谱值来执行补充信息确定(利用补充信息确定装置140f)。然后，还存在优选地使用具有心理声学模型控制输入140e的心理声学模型来进行控制的量化器140d。然而，当补充信息确定装置140c使用通道A的非量化表示以用于确定通道B的通道补充信息时，不需要量化器。

在利用通道A的频域表示和通道B的频域表示来计算通道B的通道补充信息的情况下，加窗和时间/频率转换装置140a可以与在基于滤波器组的音频编码器中使用的一样。在这种情况下，当考虑AAC(ISO/IEC 13818-3)时，装置140a被实现为具有50％重叠相加(overlap-and-add)功能的MDCT滤波器组(MDCT＝改进离散余弦变换)。

在这种情况下，量化器140d是例如当产生mp3或AAC编码音频信号时使用的迭代量化器。然后，优选已经被量化的通道A的频域表示被直接用于使用熵编码器140g的熵编码，熵编码器140g可以是基于Huffman的编码器或者实现算术编码的熵编码器。

当与图1相比较时，图3A中设备的输出是补充信息，例如一个原始通道的l_i(与在设备140f的输出处的B的补充信息相对应)。通道A的熵编码比特流与例如在图1的方框16的输出处的编码左下混通道Lc’相对应。从图3A中显而易见，单元14(图1)(即用于计算通道补充信息化的计算器)和音频编码器16(图1)可以被实现为独立的装置，或者可以被实现为共享版本，例如两个装置共享例如MDCT滤波器组140a、量化器140e和熵编码器140g的多个单元。当然，在需要不同的变换等以用于确定通道补充信息的情况下，则编码器16和计算器14(图1)被实现为不同的设备，例如两个单元不共享滤波器组等。

通常，用于计算补充信息的实际计算器(或者一般表述为计算器14)可以被实现为如图3B所示的根据例如强度立体声编码或双声道提示编码的联合立体声技术来进行工作的联合立体声模块。

与这种现有技术的强度立体声编码器相对，迭代确定装置140f不必计算组合通道。“组合通道”或者载波通道已经存在，并且是左兼容下混通道Lc或右兼容下混通道Rc或者这些下混通道的组合版本(例如Lc+Rc)。因此，本发明的设备140f仅必须计算用于缩放各个下混通道的缩放信息，使得当使用缩放信息或者强度方向信息来加权下混通道时，可以获得各个选中原始通道的能量/时间包络。

因此，演示了图3B中的联合立体声模块140f，其接收作为第一或第二下混通道或者下混通道组合的“组合的”通道A以及原始选中通道作为输入。当然，该模块输出“组合的”通道A和联合立体声参数作为通道补充信息，使得使用组合通道A和联合立体声参数，可以计算原始选中通道B的近似。

可选地，联合立体声模块140f可以被实现用于执行双声道提示编码。

在BCC的情况下，联合立体声模块140f操作用于输出通道补充信息，以使通道补充信息是量化并编码的ICLD或ICTD参数，其中选中原始通道用作实际要处理的通道，而用于计算补充信息的例如第一、第二或第一和第二下混通道的组合的各个下混通道被用作BCC编码/解码技术的基准通道。

参考图4，给出了单元140f的简单的涉及能量的实现。该设备包括用于从通道A选择频率波段和通道B的相应频率波段的频率波段选择器44。然后，在两个频率波段中，针对每一个分支，利用能量计算器42来计算能量。能量计算器42的详细实现取决于方框40的输出信号是否是子带信号或者是频率系数。在其它实施方式中，在计算比例因子波段的比例因子的情况下可以使用第一和第二通道A、B的比例因子作为能量值E_A和E_B，或者至少作为能量的估计。在增益因子计算设备44中，根据特定规则(例如图4中方框44所示的增益确定规则)来确定选中频率波段的增益因子g_B。此时，增益因子g_B可以直接被用于加权时域采样或者频率系数，稍后在图5中进行描述。为此，对于选中频率波段有效的增益因子g_B被用作作为选中原始通道的通道B的通道补充信息。该选中原始通道B并不被传输到解码器，而是由图1中计算器14所计算的参数通道补充信息表示。

此处应该注意，不必传输增益值作为通道补充信息。传输与选中原始通道的绝对能量相关联的频率无关值是足够的。因此，解码器必须根据通道B的下混通道能量和传输能量来计算下混通道的实际能量和增益因子。

图5示出了与基于变换的感性音频编码器一同建立的解码器的可能实现。与图2相比较，熵解码器和逆量化器50(图5)的功能被包括在图2的方框24中。然而，在图2的项目36中实现频率/时间转换单元52a、52b(图5)的功能。图5中的单元50接收第一或第二下混信号Lc’或Rc’的编码版本。在单元50的输出处，存在第一和第二下混通道(以后称为通道A)的至少部分解码版本。通道A被输入到用于从通道A中选择特定频率波段的频率波段选择器54。使用乘法器56来加权该选中频率波段。乘法器56接收分配给频率波段选择器54(在编码器一侧与图4中的频率波段选择器49相对应)所选择的选中频率波段的特定增益因子g_B以用于相乘。在频率时间转换器52a的输入处，与其它波段一起存在通道A的频域表示。在乘法器56的输出处，具体地在频率/时间转换装置52b的输入处，存在通道B的重构频域表示。因此，在单元52a的输出处，存在通道A的时域表示，而在单元52b的输出处，存在重构通道B的时域表示。

应该注意，取决于特定实施例，在多通道增强编码器中并不播放解码的下混通道Lc或Rc。在这种多通道增强解码器中，解码的下混通道仅用于重构原始通道。仅在低等级(lower scale)立体声解码器中重放解码的下混通道。

为此，参考图9，图9示出了在环绕/mp3环境中本发明的优选实施例。Mp3增强环绕比特流被输入标准mp3解码器24，解码器24输出原始下混通道的解码版本。然后可以利用较低等级解码器来直接重放这些下混通道。可选地，这两个通道被输入较高等级联合立体声解码设备32，较高等级联合立体声解码设备32还接收多通道扩展数据，其中多通道扩展数据优选地被输入到mp3遵从比特流中的辅助数据字段中。

其后，参考图7，图7示出了选中原始通道和各个下混通道或组合下混通道的分组。在这点上，图7中表格的右侧列与图3A、3B、4和5中的通道A相对应，而中间列与这些图中的通道B相对应。在图7的左侧列中，明确地示出各个通道补充信息。根据图7的表格，使用左下混通道Lc来计算原始左通道L的通道补充信息l_i。利用原始选中左环绕通道Ls来确定左环绕通道补充信息Ls_i，并且左下混通道LC是载波。使用右下混通道Rc来确定原始右通道R的右通道补充信息r_i。此外，使用右下混通道Rc作为载波来确定右环绕通道Rs的通道补充信息。最后，使用组合的下混通道来确定中央通道C的通道补充信息c_i，而组合的下混通道是利用第一和第二下混通道的组合而获得的，其中第一和第二下混通道的组合可以在编码器和解码器中容易地被计算出并且不需要任何用于传输的额外比特。

当然，还可以例如根据组合的下混通道或者甚至是一个下混通道，来计算左通道的通道补充信息，其中通过例如0.7Lc和0.3Rc的第一和第二下混通道的加权加法而获得组合的下混通道，只要解码器知道加权参数或者相对应传输加权参数。然而，对于多数应用，优选地，根据组合下混通道(即根据第一和第二下混通道的组合)仅推导出中央通道的通道补充信息。

为了示出本发明的比特节约可能，给出下面的典型示例。在五个通道音频信号的情况下，正常的编码器对于每一个通道需要64kbit/s的比特率，对于五个通道信号总计等于320kbit/s的总体比特率。左和右立体声信号需要128kbit/s的比特率。一个通道的通道补充信息在1.5和2kbit/s之间。因此，即使在传输五个通道之一的通道补充信息的情况下，该附加的数据合计仅达7.5至10kbit/s。因此，本发明的概念使得可以使用138kbit/s(与320(！)kbit/s相比)的比特率以良好质量来传输五个通道音频信号，因为解码器不使用烦琐的去矩阵化运算。可能更重要的是本发明的概念是完全后向兼容的，因为现有每一种mp3播放器都能够重放第一下混通道和第二下混通道以生成传统的立体声输出。

取决于应用环境，可以以硬件或软件实现用于构造或产生的本发明方法。实现方式可以是数字存储介质，例如具有电可读控制信号的盘片或CD，该介质可以与可编程计算机系统协作使得可以执行本发明的方法。因此，一般而言，本发明还涉及具有存储在机器可读载体上的程序代码的计算机程序产品，当在计算机上运行计算机程序产品时，所述程序代码适用于执行本发明方法。因此，换句话说，本发明还涉及一种计算机程序，具有用于当在计算机上运行计算机程序时执行本发明方法的程序代码。

Claims

1、一种用于使用输入信号和参数补充信息来构造多通道输出信号的设备，所述输入信号包括从原始多通道信号中推导出的第一输入通道(Lc)和第二输入通道(Lc’)，所述原始多通道信号具有多个通道，所述多个通道包括至少两个原始通道，所述两个原始通道被定义为位于假设听众位置的一侧，其中，第一原始通道是所述至少两个原始通道中的第一个，第二原始通道是所述至少两个原始通道中的第二个，并且参数补充信息描述了所述多通道原始信号的原始通道之间的相互关系，所述设备包括：

确定装置(322)，用于通过选择第一和第二输入通道之一或者第一和第二输入通道的组合来确定第一基础通道，并且用于通过选择第一和第二输入通道的另一个或者第一和第二输入通道的不同组合来确定第二基础通道，使得第二基础通道与第一基础通道不同，以及

合成装置(324)，用于使用参数补充信息和第一基础通道来合成第一输出通道，以获得第一合成输出通道，所述第一合成输出通道是位于假设听众位置一侧的第一原始通道的再现版本，并且用于使用参数补充信息和第二基础通道来合成第二输出通道，所述第二输出通道是位于假设听众位置的相同一侧的第二原始通道的再现版本。

2.根据权利要求1所述的设备，还包括：

提供装置(320)，用于提供相干性测量，所述相干性测量取决于第一原始通道和第二原始通道之间的相干性，其中第一和第二原始通道被包括在原始多通道信号中；

其中，确定装置(322)操作用于根据相干性测量来确定彼此不同的第一和第二基础通道。

3.根据权利要求1所述的设备，其中，所述至少两个原始通道包括左原始通道和左环绕原始通道或者右原始通道和右环绕原始通道。

4.根据权利要求1所述的设备，其中，被确定为第二基础通道的第一和第二输入通道的组合使得两个输入通道之一对第二基础通道的贡献大于另一个输入通道。

5.根据权利要求2所述的设备，其中，相干性测量是时间变化的，以便确定装置(320)操作用于将第二基础通道确定为第一输入通道和第二输入通道的组合，其中组合随时间改变。

6.根据权利要求1所述的设备，其中，参数补充信息包括相干性测量，使用第一原始通道和第二原始通道来确定所述相干性测量，其中提供装置(320)操作用于从参数补充信息中提取相干性测量。

7.根据权利要求6所述的设备，其中，输入信号具有帧序列，并且参数补充信息包括包含相干性测量的参数序列，所述参数与帧相关联。

8.根据权利要求1所述的设备，其中，原始信号还包括中央通道(C)，其中确定装置(322)还操作用于使用等同部分中的第一输入通道和第二输入通道来计算第三基础通道。

9.根据权利要求1所述的设备，其中，参数补充信息是频率相关的，并且合成装置(324)操作用于执行频率相关合成。

10.根据权利要求1所述的设备，其中，参数补充信息包括包含通道间电平差参数和通道间时间延迟参数的双声道提示编码(BCC)参数，并且当合成输入通道时，合成装置操作用于使用利用确定装置所确定的基础通道来执行BCC合成。

11.根据权利要求1所述的设备，其中，确定装置(322)操作用于将第一基础通道确定为第一和第二输入通道之一，并且将第二基础通道确定为第一和第二输入通道的加权组合，其中加权因子取决于相干性测量。

12.根据权利要求11所述的设备，其中，如下确定加权因子：

α_{1; 2} = \frac{- B &PlusMinus; \sqrt{B^{2} - 4 AC}}{2 A},

其中，α是加权因子，如下确定A、B、C：

A＝C²-k²LR B＝2LC(1-k²) C＝L²(1-k²)

其中，如下确定L、R、C

L＝∑l² R＝∑r² C＝∑l·r

其中，k是相干性测量，l是第一输入通道，r是第二输入通道。

13.根据权利要求11所述的设备，其中，对于频率波段给出相干性测量，并且确定装置操作用于确定频率波段的第二基础通道。

14.根据权利要求11所述的设备，其中，如下确定相干性测量：

cc (x, y) = \frac{Σx \cdot y}{\sqrt{Σ x^{2}} \cdot \sqrt{Σ y^{2}}}

其中，cc(x，y)是两个原始通道x、y之间的相干性测量，x_i是第一原始通道的时刻i处的采样，y_i是第二原始通道在时刻i处的采样。

15.根据权利要求1所述的设备，其中，确定装置(322)操作用于使用从原始通道中推导出的功率测量来缩放输出通道，所述功率测量是在参数补充信息中传输的。

16.根据权利要求11所述的设备，其中，确定装置(322)操作用于基于时间和/或频率来平滑加权因子。

17.根据权利要求1所述的设备，其中，参数补充信息包括表示原始信号中原始通道的能量分布的电平信息，并且合成装置(324)操作用于缩放输出通道，以使输出通道的能量总和与第一输入通道和第二输入通道的能量总和相等。

18.根据权利要求17所述的设备，其中，合成装置(324)操作用于根据确定的基础通道和电平信息来计算粗略输出通道，并且缩放粗略的输出通道，以使缩放的粗略输出通道的总能量与第一和第二输入通道的总能量相等。

19.根据权利要求1所述的设备，其中，输入信号包括左通道和右通道，原始通道包括左前通道、左环绕通道、右前通道和右环绕通道，并且确定装置(322)操作用于确定

左通道，作为左前通道(L)的合成的基础通道，

右通道，作为右前通道(R)的合成的基础通道，

左通道和右通道的组合，作为左环绕通道(Ls)或右环绕通道(Rs)的基础通道。

20.根据权利要求1所述的设备，其中，

输入信号包括左通道和右通道，原始信号包括左前通道、左环绕通道、右前通道和右环绕通道，并且确定装置操作用于确定

左通道，作为左前通道(L)的合成的基础通道，

右通道，作为右前通道(R)的合成的基础通道，

第一和第二输入通道的组合，作为右前通道或左环绕通道的合成的基础通道。

21.一种使用输入信号和参数补充信息来构造多通道输出信号的方法，所述输入信号包括从原始多通道信号中推导出的第一输入通道和第二输入通道，所述原始多通道信号具有多个通道，所述多个通道包括至少两个原始通道，所述两个原始通道被定义为位于假设听众位置的一侧，其中，第一原始通道是所述至少两个原始通道中的第一个，第二原始通道是所述至少两个原始通道中的第二个，并且参数补充信息描述了所述多通道原始信号的原始通道之间的相互关系，所述方法包括：

确定(322)，通过选择第一和第二输入通道之一或者第一和第二输入通道的组合来确定第一基础通道，并且通过选择第一和第二输入通道的另一个或者第一和第二输入通道的不同组合来确定第二基础通道，以使第二基础通道与第一基础通道不同，以及

合成(324)，使用参数补充信息和第一基础通道来合成第一输出通道，以获得第一合成输出通道，所述第一合成输出通道是位于假设听众位置一侧的第一原始通道的再现版本，并且使用参数补充信息和第二基础通道来合成第二输出通道，所述第二输出通道是位于假设听众位置的相同一侧的第二原始通道的再现版本。

22.一种用于根据多通道原始信号来产生下混信号的设备，所述下混信号具有少于原始通道数目的通道，所述设备包括：

计算装置(12)，用于使用下混规则来计算第一下混通道和第二下混通道；

计算装置(14)，用于计算表示能量在多通道原始信号中通道之间的分布的参数电平信息；

确定装置(142)，用于确定两个原始通道之间的相干性测量，所述两个原始通道位于假设听众位置的一侧；以及

形成装置(18)，用于使用第一和第二下混通道、参数电平信息和仅位于一侧的两个原始通道之间的至少一个相干性测量或者从所述至少一个相干性测量中推导出的值，而不使用位于假设听众位置的不同侧的任何相干性测量，来形成输出信号。

23.根据权利要求22所述的设备，还包括确定装置(143)，用于确定位于假设听众位置一侧的两个原始通道之间的时间延迟信息；以及

其中，形成装置(18)操作用于仅包括位于假设听众一侧的两个原始通道之间的时间电平信息，而不包括位于假设听众位置不同侧的两个原始通道之间的时间电平信息。

24.一种用于根据多通道原始信号来产生下混信号的方法，所述下混信号具有少于原始通道数目的通道，所述方法包括：

使用下混规则来计算(12)第一下混通道和第二下混通道；

计算(124)表示能量在多通道原始信号中通道之间的分布的参数电平信息；

确定(142)两个原始通道之间的相干性测量，所述两个原始通道位于假设听众位置的一侧；以及

使用第一和第二下混通道、参数电平信息和仅位于一侧的两个原始通道之间的至少一个相干性测量或者从所述至少一个相干性测量中推导出的值，而不使用位于假设听众位置的不同侧的任何相干性测量，来形成(18)输出信号。

25.一种计算机程序，具有用于执行根据权利要求21所述的构造多通道方法或者根据权利要求24所述的产生下混信号方法的程序代码。