CN1115663C

CN1115663C - 具有多个输入源的音频处理设备和音频处理方法

Info

Publication number: CN1115663C
Application number: CN98803542A
Authority: CN
Inventors: H·J·W·贝尔特; C·P·杨瑟
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1997-11-22
Filing date: 1998-11-20
Publication date: 2003-07-23
Anticipated expiration: 2018-11-20
Also published as: CN1251192A; US7146012B1; JP4372232B2; EP0954850A2; KR20000070387A; WO1999027522A3; DE69822128D1; DE69822128T2; KR100584491B1; WO1999027522A2; EP0954850B1; US7454023B1; JP2001510001A

Abstract

在音频处理设备(2)中，来自多个输入源(4，6)的输入信号被加权元件(10，12)以加权因子x和y加权。加权后的输入信号被加法器(18)组合为一个组合信号。加法器(18)的输出信号构成音频处理设备的输出。为了以最强的信号来发音，在满足加权系数的平方和为一个常数的条件下，加权系数(x，y)被控制来最大化加法器(18)的输出。

Description

具有多个输入源的音频处理设备和音频处理方法

本发明涉及一种音频处理设备，该设备包括很多产生输入音频信号的音频源，以及用来根据输入音频信号获取处理后的音频信号的处理装置，该音频处理设备还包括用来根据处理后的音频信号获取组合音频信号的组合装置。

本发明还涉及一种音频信号处理设备以及一种音频处理方法。

从1997年9月的IEEE Transactions on Speech and AudioProcessing，Vol 5，No，5中S.Affes和Y.Grenier发表的“A SignalSubspace Tracking Algorithm for Microphone Array Processingof Speech”中可以了解到根据本发明的音频处理。

在当前和将来的通讯系统中，象移动电话，视频会议和基于互连网(TCP/IP)的通讯系统中，无手操作变得逐渐重要。而且在用户接口中使用语音识别的无手操作起到重要的作用。

一种降低语音清晰度的声学现象是由于从说话者到麦克风的多路径传播引起的混响现象。这种多路径传播是由于语音信号与说话者周围环境，例如墙、家具等等之间的反射造成的。为了处理这种多路径传播，常常使用一种所谓的延迟-总和波束形成器。在延迟-总和波束形成器中，来自多个麦克风的信号被加上一个延迟值以补偿说话者与各个麦克风之间的延迟差值。延迟后的信号被相加而组合起来。如果延迟补偿作的很好，延迟补偿的音频信号的直达声场分量被相干加在一起，而混响语音分量不会被相干相加。这将会提高语音清晰度。

延迟-总和波束形成器的一个问题是，它难以准确确定延迟值并足够快地追踪移动的说话者或很快调整到另一个开始说话的人。在有混响的房间里尤其会这样。其结果是，延迟估计可能是错误的，麦克风信号不再被相干叠加。因此，将不会获得对语音信号清晰度的任何提高。甚至还会降低语音清晰度。

在上面提到的文章中描述了一种方法用于改进语音信号的清晰度。在所述文章中使用了从说话者到麦克风的能量传递函数，这是基于这样一种假设作出的：如果说话者移动，该能量传递函数不会变化很大。上面提到的能量传递函数通过测量得到。由于需要对每个位置进行测量，使得使用这种方法配置的产品变的很麻烦。

本发明的目标是，提供一种音频处理设备，在部署该音频处理设备之前不需要进行任何测量。

为了实现这个目标，根据本发明的音频处理设备的特征在于该音频处理设备包括用来控制处理装置以便最大化组合音频信号的功率测量值的控制装置，并且该控制装置被安排来将处理后的音频信号的组合功率增益测量值限制到一个预定的值。

在组合功率增益测量值(例如，各个信号的功率和)被限制到一个预定值的前提下，通过最大化组合音频信号的功率测量值，就不需要使用任何的测量数据。实验表明，与以前技术的设备相比，语音信号的清晰度并没有变坏。

实验还证明，在以前技术的设备中，当使用具有长脉冲响应的滤波器时，会发生所谓的预回声。预回声发生于在语音信号的直达声场分量被再生之前，再生其经过缩放的版本的时候。预回声的发生会使听者感觉很不舒服。实验还表明，在根据本发明的处理装置中，预回声的发生基本上少于以前技术的处理装置。

本发明的一个实施方案的特征在于，处理装置包括以缩放因子缩放输入音频信号以获得处理后的音频信号的缩放装置，所述的控制装置还包括用来获得多个以某一缩放因子缩放的组合音频信号的缩放装置，其中的缩放因子对应于缩放装置的缩放因子，并且在于该控制装置被安排来最大化组合音频信号的功率测量值，并通过最小化输入音频信号和对应于该音频信号的缩放组合音频信号之间的差值来限制处理后音频信号的组合功率增益测量值。

实验表明，使用简单的缩放因子作为处理工具可以获得语音清晰度非常明显的改进。适当的前提条件是，不同输入源的缩放因子的平方和等于一个预定的常数。

本发明的另一个实施方案的特征在于，处理装置包括多个可调整滤波器用来获得处理后的音频信号，还在于控制装置包括多个进一步可调的滤波器，其传递函数为可调滤波器传递函数的共扼，所述进一步可调滤波器被安排来从组合音频信号获得滤波后的组合音频信号，并且在于控制装置被安排来最大化组合音频信号的功率测量值，并通过控制可调滤波器和进一步可调滤波器的传递函数从而将处理后的音频信号的组合功率增益测量值限制为一个预定值，以便最小化输入音频信号和对应于该输入音频信号的滤波组合音频信号之间的差值。

通过使用可调滤波器作为处理装置，语音信号的质量可以进一步增强。通过最小化输入音频信号和对应的滤波组合音频信号之间的差值，在每个频率分量可调滤波器的功率增益和都等于一个预定常数的前提下，可以获得组合音频信号功率测量值的最大化。上面提到的两个准则之间的对应将通过简化的例子在附图的详细描述中给出。

可调滤波器的使用使得不再需要在延迟-总和波束形成器中采用的任何可调的延迟元件。

本发明的又一个实施方案的特征在于，音频源包括多个麦克风，并且麦克风被放置在其指向性图案明显分离的位置。

凭借根据本发明的组合装置，通过将多个分离的指向性图案的麦克风组合起来，可以实现：来自接收最强信号麦克风的信号被自动加强。这种系统可以被很好地用于一类会议系统中，在该系统中发言者的声音必须被加强，而不需要能够选择具有最强信号的麦克风的开关。

本发明再一个实施方案的特征在于音频源包括多个麦克风，这些麦克风被放置在一个线形阵列中。

实验表明当线形阵列的麦克风结合处理装置中的可调滤波器被用做音频源时，语音信号和它的第一反射被相干相加，使得语音清晰度得到提高。与使用延迟-总和波束形成器的配置相比，这种配置更加强壮，并且收敛更快。可以发现，在线形阵列中麦克风被放置在与指向性图案主瓣方向基本正交的直线上，但是，还可能的是麦克风被放置在与指向性图案主瓣方向一致的线上。

根据本发明的一个实施例，麦克风围绕一个中心点放置，两个麦克风之间的角度为360度除以麦克风的数目。

本发明将被结合附图作出解释：

图1是根据本发明的音频处理设备，其中实值的加权因子被用于处理装置。

图2是根据本发明的音频处理设备，其中频域自适应滤波器和频域可编程滤波器被使用。

图3是用于图2设备中的归一化装置73的详细实施方案。

图4是用于图2的频域自适应滤波器62，66，68的实现。

图5是用于图2的频域可编程滤波器44，46，50的实现。

图6是根据本发明的音频处理设备的实现，其中时域自适应滤波器和时域可编程滤波器被使用。

在图1的音频处理设备2中，第一音频源，(这里是麦克风4)的输出端被连接到音频处理设备2的第一输入端，第二音频源(这里是麦克风6)的输出端被连接到音频处理设备2的第二输入端。如果假设麦克风4，6通过衰减因子a和b接收信号V_IN，那麽麦克风4的输出信号等于a.V_IN，麦克风6的输出信号等于b.V_IN。这里的处理装置包括第一缩放装置10和第二缩放装置12，这些装置以缩放因子x和y分别缩放它们的输入信号。在处理装置11的输出端处，可获得处理后的信号V_P和V_Q。对于这些处理后的信号可以有：

V_P＝a·x·V_IN (1)和

V_Q＝b·y·V_IN (2)

组合装置18的输出端处，可得到处理后的信号V_P和V_Q的和V_SUM。该信号V_SUM等于：

V_SUM＝(a·x+b·y)V_IN (3)

进一步缩放装置14和16利用缩放因子x和y从组合信号获得缩放后的组合信号。第一缩放组合信号等于

V_SC1＝(a·x+b·y)·x·V_IN (4)

第二缩放组合信号等于

V_SC2＝(a·x+b·y)·y·V_IN (5)

第一输入音频信号和第一缩放组合音频信号之间的第一差值测量值由减法器24确定。对于减法器24的输出信号有：

V_DIFF1＝{a-(a·x+b·y)·x}·V_IN (6)

第二输入音频信号和第二缩放组合音频信号之间的第二差值测量值由减法器26确定。对于减法器26的输出信号有：

V_DIFF2＝{b-(a·x+b·y)·y}·V_IN (7)

根据图1的设备包括一个控制元件20用来调整缩放因子x来使得减法器24的输出信号V_DIFF1等于0。该设备还包括一个控制元件22使得减法器2 6的输出信号V_DIPP1F2等于0。为了找到x和y的值使得两个差值都等于0，下述等式必须成立：

(a·x+b·y)·x＝a (8)

(a·x+b·y)·y＝b (9)通过(8)被(9)除来从(8)和(9)中消去(a·x+b·y)得到：

\frac{x}{y} = \frac{a}{b} &DoubleRightArrow; x = \frac{a \cdot y}{b} - - - (10)

在(9)中代入(10)得到y的表达式：

(\frac{a^{2} \cdot y}{b} + b \cdot y) \cdot y = b &DoubleRightArrow; y = \frac{&PlusMinus; b}{\sqrt{a^{2} + b^{2}}} - - - (11)

将(11)代入(10)得到x

x = \frac{&PlusMinus; a}{\sqrt{a^{2} + b^{2}}} - - - (12)

根据(11)和(12)可以清楚看到当a增加(或b降低)时，x增加，当b增加(或a降低)时，y增加。采用这种方法，可以得到最强的输入信号。这种应用能够相对背景噪声和语音信号混响分量增强说话者的语音信号，而不需要象以前的技术设备中那样需要知道说话者到麦克风的路径a和b的频率关系。对a和b的估计可以从麦克风输入信号的平均值中得到。

下面将要证明的是在处理装置的功率增益和受限的情况下，最大化组合音频信号的功率的结果是x，y的值与使得减法器24和26的输出信号为0的x，y的值相同。

对于组合音频信号V_SUM的功率测量值P_SUM有：

P_SUM＝V_SUM ²＝(a·x+b·y)²·V_IN ² (13)对于边界条件：缩放装置的功率增益和为一个常数可以表示如下：

G^P＝x²+y²＝1 (14)

因此，在边界条件x²+y²-1＝0下，(a·x+b·y)²必须为最大。这可以利用众所周知的拉格朗日乘数方法实现。根据所述方法，下面表达式必须取最大值。

(a·x+b·y)²+λ·(x²+y²-1) (15)在(1 5)中对x和y微分，并使结果为0得到：

2·(a·x+b·y)·a+2·λ·x＝0 (16)

2·(a·x+b·y)·b+2·λ·y＝0 (17)

将(16)乘以y并将(17)乘以x并相减，得到：

y = \frac{b}{a} \cdot x - - - (18)

将(18)代入(14)，分别得到x和y

x = \frac{&PlusMinus; a}{\sqrt{a^{2} + b^{2}}}; y = \frac{&PlusMinus; b}{\sqrt{a^{2} + b^{2}}} - - - (19)

该结果对应于(11)和(12)。因此，很明显，控制x和y使差值信号为0等价于在边界条件：处理装置的不同分支的功率增益和被限制为一个最大值的条件下，最大化组合信号的功率。

对于具有传递因子a_i，1≤i≤N的N个输入，上面的描述是很容易推广的。如果假设处理装置具有N个分支，每个对应于信号i并具有传递因子x_i，对于这些x_i有：

x_{i} = \frac{&PlusMinus; a_{i}}{\sqrt{Σ_{j = 1}^{N} {a_{j}}^{2}}} - - - (20)

根据图1的设备可以与延迟元件结合以补偿从音频信号源到几个麦克风的路径延迟之间的差别。根据本发明的设备提高了性能，而且在补偿路径延迟的延迟元件的延迟值还没有被调整到最佳值的过渡期间，性能也得到了提高。

在根据图2的音频处理设备中，来自音频源-这里是麦克风30，32，34的输入信号被转换成数字信号，通过相应的串-并行转换器36，38，40，这些数字信号又被转换成包含L个样本的数据块。串-并行转换器36，38，40的输出被连接到处理装置41的相应输入端，并被分别连接到块延迟元件54，56，58的输入端。

在处理装置41中，串-并行转换器36的输出信号被施加给块连接单元42。块连接单元42根据当前的L样本数据块和来自以前样本块的N个样本构造包含N+L个样本的数据块，其中的N个样本可以在串-并行转换器36的输出处获得。块连接单元42的输出端被连接到频域可编程滤波器44的输入端处。频域可编程滤波器44的输出端-载有处理后的音频信号-被连接到组合装置(这里是加法器76)的第一输入端。频域可编程滤波器44在其输出端处产生包含N+L个样本的样本块。

以同样的方法，串-并行转换器38的输出信号被块连接单元48和频域可编程滤波器46处理，串-并行转换器40的输出信号被块连接单元52和频域可编程滤波器50处理。频域可编程滤波器46，50的输出端载有处理后的音频信号，它被连接到加法器76的相应输入端。

加法器76的输出被连接到IFFT单元77的输入端，该单元根据加法器76的输出信号确定经过反向快速傅立叶变换的信号。IFFT单元77的输出被连接到单元79的输入端，后者抛弃IFFT单元77输出端处N+L个样本中的N个样本。

单元77的输出信号被并-串转换器78转换成串形的样本流。在并-串转换器78的输出端处可以获得音频处理设备的输出信号。单元79的输出信号也被传送给块连接单元74，后者根据当前在加法器76的输出端处得到的包含L个样本的样本块和在单元79的输出端处得到的包含N个以前样本的样本块得到包含N+L个样本的样本块。块连接单元74的输出被连接到快速傅立叶变换器72的输入端，该变换器根据其输入端的N+L个样本计算N+L点的FFT。快速傅立叶变换器72的输出信号表示组合信号的频谱。该频谱被传送给频域自适应滤波器62，66，68的输入端，以及归一化装置73的输入端。归一化装置73的输出信号被连接到频域自适应滤波器62，66，68的输入端。

块延迟元件54的输出端被连接到减法器60的第一输入端。块延迟元件56的输出端被连接到减法器64的第一输入端，块延迟元件58的输出端被连接到减法器70的第一输入端。块延迟元件54，56，58被用来补偿音频信号在频域可编程滤波器44，46，50和频域自适应滤波器62，66，68中经受的延迟。

频域自适应滤波器62的输出端被连接到减法器60的第二输入端，减法器60的输出端被连接到频域自适应滤波器的控制输入端。频域自适应滤波器66的输出端被连接到减法器64的第二输入端，减法器64的输出端被连接到频域自适应滤波器的控制输入端。频域自适应滤波器68的输出端被连接到减法器70的第二输入端，减法器70的输出端被连接到频域自适应滤波器的控制输入端。

频域自适应滤波器62，66，68被安排来调整它们的传递函数以便最小化其控制输入处的输入信号功率。频域自适应滤波器62，66，68将其N+L个滤波器系数提供给频域可编程滤波器44，46，48。这些频域自适应滤波器在利用它们对从块连接单元42，48，52接收的信号滤波之前确定这N+L个滤波器系数的共扼值。

在根据图3的频域自适应滤波器62，66，68中，填充元件80将从各个频域自适应滤波器的控制输入端得到的L个样本与值为0的N个样本组合成包含N+L个数据的样本块。该N+L样本块被FFT元件82进行N+L点快速傅立叶变换。在执行FFT之前将包含L个样本的样本块扩展成包含N+L个样本的样本块的操作是为了避免信号的失真，这种失真是由于FFT信号在半采样频率处的对称性造成的。对于频域(自适应)滤波器领域的技术人员来说这一点是众所周知的。

在FFT元件82的输出端处，可获得频域自适应滤波器控制输入端处(减法器60，64，70的输出)的信号频谱。FFT元件82的输出信号被乘以归一化装置73的输出信号。归一化装置73的输出信号的N+L个分量表示确定频域自适应滤波器系数的调整速度的调整速度值。

乘法器84的输出信号被加入块延迟元件112的输出信号中。块延迟元件112的输出信号表示频域自适应滤波器系数的以前值。加法器86的输出信号被IFFT元件94进行反向快速傅立叶变换。根据IFFT元件94的2.L个输出样本，最后L个样本的值被元件96设置为0。接下来，2.L个样本(其中L个样本为0)被FFT元件110进行FFT操作。IFFT元件94，元件96和FFT元件110的使用被用来避免由于FFT处理器82执行的FFT变换的周期性造成的信号失真。

在FFT元件110的输出处，可得到N+L个系数用于滤波操作。这些系数也被传递给相应的频域可编程滤波器。这些系数也被通过块延迟元件112传递给加法器86。加法器86，IFFT元件94，元件96和FFT元件110和块延迟元件112一起根据下面的表达式共同确定滤波器系数：

v_i，k＝v_i，k-1+λ_i，k·E_i，k (21)

在(21)中，v_i，k表示在时刻k的N+L个滤波器系数，v_i，k-1表示在时刻k-1的N+L个滤波器系数，λ_i，k表示归一化装置73提供给乘法器84的第二输入端的自适应系数，E_k，i表示图2中减法器60，64和70输出端处误差信号的频谱。

在根据图4的归一化装置73中，图2中FFT 72单元提供的输入信号，共扼元件106确定所述输入信号的共扼值。该共扼值被乘法器104乘以所述的输入信号。在乘法器104的输出端处，可获得输入信号的功率谱。乘法器104的输出端被连接到乘法器102的输入端。

由乘法器102，加法器100，乘法器98和块延迟元件92组成的低通滤波器确定可在乘法器104的输出端获得的频域自适应滤波器输入信号功率谱的时间平均。b的一个适当值为：

b = 1 - \frac{20 \cdot L}{f_{sample}} - - - (22)

在(22)中f_sample是采样频率，音频信号以该采样率被采样和处理。L＝32已经被证明是一个有用的值。具有时间平均功率谱信息的加法器100的输出端被连接到除法器88的第一输入端。共扼元件106的输出信号被缩放元件90以缩放因子2a缩放。a的一个适当值是0.01。缩放元件90的输出信号被连接到除法器88的第二输入端。

除法器确定λ_i，k的值，其方式为计算数字滤波器的输入信号的共扼FFT变换(以缩放因子2a缩放)与归一化装置73的输入信号的时间平均功率谱之间的比值。λ_i，k随着输入信号的k阶谱分量和时间平均功率谱的k阶谱分量之间的比成正比增长。这产生一种自适应语音，它对于所有频率分量都是一样的而不管他们的强度如何。

在根据图5的频域可编程滤波器44，46，50中，输入信号被传送给FFT元件120的输入端，120根据所述输入信号计算N+L点FFT。共扼元件122确定从频域自适应滤波器62，66，68接收到的参数的共扼值。乘法器124通过将输入信号的FFT乘以从频域自适应滤波器接收的共扼滤波器系数来计算滤波后的信号。

IFFT元件126根据在乘法器124的输出端获得的滤波后输出信号来计算时域输出信号。抛弃元件抛弃来自IFFT元件126的输出信号的最后L个样本并在其输出端给出频域可编程滤波器的输出信号。

可以观察到，对N的适当选择是使N＝L，但是也可能的是选择N大于或小于L。理想的是使得N+L等于2的幂以便比较容易地实现FFT和IFFT操作。

在根据图6的音频处理设备的时域实现中，麦克风30，32，34的输出端被连接到处理装置131以及延迟元件186，188和190的输入端。处理装置131包括时域可编程滤波器133，135和137。

时域可编程滤波器133包括很多级联延迟元件130，132和134，以及将以加权因子W_1，1......W_1，N加权的延迟元件的输出信号相加的加法器146。其中的加权是由加权元件136，138，140，142和144执行的。时域可编程滤波器135包括很多级联延迟元件148，150和152，以及将以加权因子W_2，1......W_2，N加权的延迟元件的输出信号相加的加法器164。其中的加权是由加权元件154，156，158，160和162执行的。时域可编程滤波器137包括多个级联延迟元件166，168和170，以及将以加权因子W_M，1......W_M，N加权的延迟元件的输出信号相加的加法器182。

时域可编程滤波器133，135和137的输出端载有处理后音频信号，它被连接到这里为加法器184的组合装置。在加法器184的输出端处，可获得加强的语音信号。加法器184的输出端被连接到时域自适应滤波器191，193，和195的输入端。

时域自适应滤波器191包括很多延迟元件194，196和198。延迟元件194，196和198的输出信号被加权元件200，202，204，206和208以加权因子W_1，1......W_1，N加权。加权元件200......208的输出信号被加法器192相加，该加法器提供自适应滤波器191的输出信号。

时域自适应滤波器193包括很多延迟元件226，228和230。延迟元件226，228和230的输出信号被加权元件216，218，220，222和224以加权因子W_2，1......W_2，N加权。加权元件216......224的输出信号被加法器210相加，该加法器提供自适应滤波器193的输出信号。

时域自适应滤波器195包括很多延迟元件236，240和246。延迟元件236，240和246的输出信号被加权元件234，238，242，244和248以加权因子W_M，1......W_M，N加权。加权元件234......248的输出信号被加法器232相加，该加法器提供自适应滤波器195的输出信号。

延迟元件186，188和190的输出被连接到减法器212，214和250的第一输入端。延迟元件186，188和190被用来使得可编程滤波器的脉冲响应对应于时域可编程滤波器的脉冲响应相对为非因果性的(anticausal)(在时间上早)。减法器212，214和250的第二输入被耦合到时域自适应滤波器191，193和195的输出端。减法器212，214和250的输出被分别连接到控制装置231，233和235。这些控制装置被安排来调整对应自适应滤波器191，193和195的传递函数来最小化相应减法器输出信号的功率。

控制装置231，233和235被安排用来根据下面表达式调整自适应滤波器191，193和195的系数。W_j，k(n+1)＝W_j，k(n)+μ·y[n-k]·e_j[n] (23)

在(23)中，W_j，k(n)是j阶自适应滤波器中k阶加权元件的加权因子，μ是自适应常数，e_j[n]是延迟输入信号的j阶块延迟元件的输出信号与j阶自适应滤波器输出信号之间的差值。y_j[n-k]是音频处理设备的输出信号经过k个样本延迟后的值。这些信号y[n-k]可以在自适应滤波器的延迟元件的输出端处获得。因为自适应滤波器都具有相同的输入信号，延迟元件可以被共享，使得所需延迟元件的数目减少。

在系数W_j，k(n)被确定之后，这些系数被反向传送给时域可编程滤波器133，135和137。这意味着对应于自适应滤波器的第一抽头的系数被传送给相应可编程滤波器中最后一个抽头的系数。

Claims

1、一种音频处理设备，包括多个产生输入音频信号的音频源以及用来根据输入音频信号获取处理后的音频信号的处理装置，该音频处理设备还包括用来根据处理后的音频信号获取组合音频信号的组合装置；该音频处理设备的特征在于它包括用来控制处理装置以便最大化组合音频信号的功率测量值的控制装置，并且在于该控制装置被安排来将处理后的音频信号的组合功率增益测量值限制在一个预定的值。

2、根据权利要求1的音频处理设备，其特征在于处理装置包括用来以缩放因子缩放输入音频信号以获得处理后的音频信号的缩放装置，所述的控制装置还包括用来获得多个以某一缩放因子缩放的组合音频信号的缩放装置，其中的缩放因子对应于缩放装置的缩放因子，并且在于该控制装置被安排来最大化组合音频信号的功率测量值，并通过最小化输入音频信号和对应于该输入音频信号的缩放组合音频信号之间的差值来限制处理后音频信号的组合功率增益。

3、根据权利要求1的音频处理设备，其特征在于处理装置包括多个可调整滤波器用来获得处理后的音频信号，还在于控制装置包括多个进一步可调的滤波器，其传递函数为可调滤波器传递函数的共扼，所述进一步可调滤波器被安排来从组合音频信号获得滤波后的组合音频信号，并且在于控制装置被安排来最大化组合音频信号的功率测量值，并通过控制可调滤波器和进一步可调滤波器的传递函数从而将处理后的音频信号的组合功率增益测量值限制为一个预定值，以便最小化输入音频信号和对应于该输入音频信号的滤波组合音频信号之间的差值。

4、根据权利要求2的音频处理设备，其特征在于该音频处理设备包括用来补偿输入音频信号中存在的普通音频信号的延迟差值的延迟元件。

5、根据权利要求1-4中任一项的音频处理设备，其特征在于音频源包括多个麦克风，并且麦克风被放置在它们的指向性图案分离的位置。

6、根据权利要求5的音频处理设备，其特征在于麦克风围绕一个中心点放置，两个麦克风之间的角度为360度除以麦克风的数目。

7、根据权利要求1，2，3或4的音频处理设备，其特征在于音频源包括多个麦克风，这些麦克风被放置在一个线形阵列中。

8、一种音频处理设备，包括多个用来接收输入音频信号的输入端，以及用来根据输入音频信号获取处理后的音频信号的处理装置，该音频处理设备还包括用来根据处理后的音频信号获取组合音频信号的组合装置；该音频处理设备的特征在于它包括用来控制处理装置以便最大化组合音频信号的功率测量值的控制装置，并且在于该控制装置被安排来将处理后的音频信号的组合功率增益测量值限制在一个预定的值。

9、根据权利要求8的音频处理设备，其特征在于处理装置包括用来以缩放因子缩放输入音频信号以获得处理后的音频信号的缩放装置，所述的控制装置还包括用来获得多个以某一缩放因子缩放的组合音频信号的缩放装置，其中的缩放因子对应于缩放装置的缩放因子，并且在于该控制装置被安排来最大化组合音频信号的功率测量值，并通过最小化输入音频信号和对应于该音频信号的缩放组合音频信号之间的差值来限制处理后音频信号的组合功率增益。

10、一种音频处理方法，包括从多个音频源接收很多输入音频信号，根据输入音频信号获取处理后的音频信号，根据处理后的音频信号获取组合音频信号，其特征在于该方法包括控制音频信号的处理以便最大化组合音频信号的功率测量值，并且在于该方法包括控制将处理后的音频信号的组合功率增益测量值限制在一个预定值的过程。