CN1140869A

CN1140869A - 用于降低噪声的方法

Info

Publication number: CN1140869A
Application number: CN96106052A
Authority: CN
Inventors: 陈志浩
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1995-02-17
Filing date: 1996-02-17
Publication date: 1997-01-22
Also published as: BR9600761A; AU4444496A; DE69617069D1; CA2169424A1; TW297970B; ATE209389T1; KR100414841B1; EP0727769A2; PL184098B1; PL312845A1; KR960032294A; US6032114A; JPH08221093A; EP0727769A3; MY121575A; TR199600132A2; SG52253A1; CA2169424C; EP0727769B1; JP3484801B2

Abstract

一种用于噪声抑制的降低输入语音信号中噪声的方法，包括将输入语音信号转换成一个频谱；根据一个第一值和一个第二值确定滤波器特征，第一值是以该频谱的一个电平与该频谱中包含的噪声的估计电平之比为基础获得的，第二值是从该频谱的基于帧的信号电平与该估计噪声电平之比的最大值和从该估计噪声电平中找出的；以及响应该滤波器特征通过滤波降低输入语音信号中的噪声。同时还公开了一种降低噪声的相应装置。

Description

用于降低噪声的方法

本发明涉及除去包含在语音信号中噪声的方法，用于抑制或降低其中的噪声。

在便携电话机或语音识别的技术领域中，人们感到对包含在所收集语音信号中的诸如背景噪声或环境噪声的噪声进行抑制以增强其语音成分是必要的。

作为一种增强语音或降低噪声的技术，R.J.McAulay和M.L.Maplass提出了一种把条件概率函数用于衰减因子调整的技术。其发表在1980年4月IEEE传输，声学，语音信号处理杂志(Vol.28，pp.137 to 145)上，题目为“使用软判决噪声抑制滤波器的语音增强”。

在上述的噪声抑制技术中，由于不适当的抑制滤波器或根据不适当的固定信噪比(SNR进行的操作产生非自发的声调或失真的语音是经常发生的。在实现最佳性能的实际操作中，不得不把信噪比作为噪声抑制装置的参数之一来进行调整是用户所不希望有的。此外，对于普通的语音信号增强技术，要有效地消除噪声而在易受短时间内SNR显著变化影响的语音信号中不产生失真是困难的。

这些语音增强或噪声降低技术使用了一种通过将输入功率或电平与一预定门限值比较鉴别噪声域的技术。然而，如果该门限值的时间常数由于该技术防止门限值跟踪该语音而被增加，则一个变化的噪声电平，尤其是一个增长的噪声电平不能被合适地跟踪，这样偶然会导致误鉴别。

为了克服这一缺陷，本发明人在日本专利申请平-6-99869(1994)中已提出了一种在语音信号中降低噪声的噪声降低方法。

对于该用于语音信号的噪声降低方法，通过自适应地控制一个最大似然滤波器实现噪声抑制，该最大似然滤波器被构造用于根据由输入的语音信号导出的SNR和该语音当前概率计算语音成分。该方法使用了一个与输入语音频谱对应的信号，该输入语音频谱小于在其中计算该当前概率的估计噪声频谱。

对于该用于语音信号的噪声降低方法，由于该最大似然滤波器取决于该输入语音信号的SNR被调整到一个最佳抑制滤波器，所以可以实现输入语音信号的有效噪声降低。

然而，由于计算语音当前概率需要复杂和大量的处理运算，因此需要对这种处理运算进行简化。

因而，本发明的目的是提供一种用于输入语音信号的噪声降低方法，通过此方法可以简化用于输入语音信号的噪声抑制的处理运算。

按照本发明的一个方案，提供一种用于噪声抑制的降低输入语音信号中噪声的方法，该方法包括将输入语音信号转换成一个频谱，根据一个第一值和一个第二值确定滤波器特征，所述的第一值是以该频谱的一个电平与该频谱中包含的噪声的一个估计电平之比为基础获得的，所述第二值是从该频谱的基于帧的信号电平与该估计噪声电平之比的最大值和从该估计噪声电平中找出的，和响应该滤波器特征通过滤波降低输入语音信号中的噪声。

按照本发明的另一个方案，提供一种用于噪声抑制的降低输入语音信号中噪声的装置，该装置包括用于将输入语音信号转换成频谱的装置；用于根据一个第一值和一个第二值确定滤波器特征的装置，所述的第一值是以该频谱的一个电平与该频谱中包含的噪声的一个估计电平之比为基础获得的，所述第二值是从该频谱的基于帧的信号电平与该估计噪声电平之比的最大值和从该估计噪声电平中找出的；和响应该滤波器特征通过滤波降低输入语音信号中的噪声的装置。

按照本发明，对于降低语音信号中噪声的方法和装置，所述第一值是根据通过从该输入语音信号转换获得的输入信号频谱与在该输入信号频谱中包含的估计噪声频谱之比计算获得的值，它设定了滤波器特征的一个初始值，以确定在用于噪声降低的滤波中的噪声降低量。所述第二值是根据该输入频谱的信号电平与该估计噪声电平之比的最大值(即最大SNR)和该估计噪声电平计算获得的，它是一个用于可变化地控制该滤波器特征的值。按照由所述第一和第二值可变控制的滤波器特征通过滤波可以从该输入语音信号中消除掉一个与该最大SNR相应量的噪声。

由于可以使用一个具有输入信号频谱的预定电平和加在该输入信号频谱之中的噪声频谱的估计电平的表来查找该第一值，因而可有助于减少处理量。

而且，响应该最大SNR和基于帧的噪声电平获得该第二值，所述滤波器特征可被调整，以便响于应该最大SNR，该滤波的最大噪声减少量在1dB范围内将基本线性地变化。

对于上述本发明的降低噪声方法，所述第一和第二值被用于控制用于滤波从输入语音信号中消除噪声的滤波器特征，由此，按照该输入语音信号中的最大SNR通过滤波从该输入语音信号中消除噪声。特别地，在语音信号中由于以高SNR滤波导致的失真可被消弱，并且实现该滤波器特征的处理运算量也可被减少。

此外，根据本发明，用于控制滤波器特征的第一值可使用一个具有输入信号频谱的电平和加在该输入信号频谱之中的估计噪声频谱的电平的表计算得到，以减少实现该滤波器特征的处理量。

而且，根据本发明，响应该最大SNR和基于帧的噪声电平获得的第二值可被用于控制滤波器特征，以减少实现该滤波器特征的处理量。通过滤波器特征实现的最大噪声降低量可相应于该输入语音信号的N比率改变。

图1示出了本发明的用于降低语音信号的噪声方法的第一实施例，它被应用于一降低噪声装置中。

图2示出了图1的实施例中能量E[k]和衰减能量E_decay[k]的一个特定例子。

图3示出了图1的实施例中RMS值RMS[k]，估计噪声电平值MinRMS[k]和最大RMS值MaxRMS[k]的特定例子。

图4示出了图1的实施例中该相对能量B_rel[k]，以dB为单位的最大SNR MaxSNR[k]和一个用于噪声鉴别的门限值dBthres_rel[k]的特定例子。

图5是图1所示实施例中一个表示作为相应于最大SNR MaxSNR[k]定义的函数NR_电平[k]的曲线。

图6示出了图1所示实施例中NR[w，k]和以dB为单位的最大噪声减少量之间的相对关系。

图7示出了图1所示实施例中Y[w，k]/N[w，k]的比率和以dB为单位的相应于NR[w，k]的Hn[w，k]之间的相对关系。

图8示出了本发明的用于语音信号的噪声降低方法的第二实施例，它被应用于一噪声减低装置中。

图9是一个表示根据由图1和图8的噪声降低装置实现的噪声抑制获得的语音信号的各分段部分的失真相应于该分段的SNR的曲线图。

参考附图，将详细描述按照本发明的用于降低语音信号中噪声的方法和装置。

图1示出了根据本发明用于降低语音信号中噪声的噪声降低装置的实施例。

该噪声降低装置中作为主要元件包括：一个快速富立叶变换单元3，用于转换输入语音信号成为频域信号或频谱；一个Hn值计算单元7，用于在通过滤波从输入语音信号中消除噪声部分期间控制滤波器特征；和一个频谱校正单元10，用于响应由Hn值计算单元7产生的滤波器特征通过滤波降低输入语音信号中的噪声。

输入到所述噪声降低装置的语音信号输入端13的输入语音信号y[t]被提供给成帧单元1。由该成帧单元1输出的一个已成帧信号y_帧j，k被提供到开窗单元2，噪声估计单元5内的均方根(RMS)计算单元21，和滤波单元8。

开窗单元2的输出提供到快速富立叶变换单元3，它的输出被同时提供给频谱校正单元10和一个频带分割单元4。该频带分割单元4的输出被施加到频谱校正单元10，噪声估计单元5内的噪声频谱估计单元26，以及Hn值计算单元7。频谱校正单元10的输出经反向快速富立叶变换单元11和一个重叠相加单元12被提供到一个语音信号输出端14。

均方根(RMS)计算单元21的输出被提供到相对能量计算单元22，最大RMS计算单元23，估计噪声电平计算单元24，以及噪声频谱估计单元26。最大RMS计算单元23的输出被提供给估计噪声电平计算单元24和最大SNR计算单元25。相对能量计算单元22的输出被提供到噪声频谱估计单元26。估计噪声电平计算单元24的输出被提供给滤波单元8，最大SNR计算单元25，噪声频谱估计单元26，以及一个NR值计算单元6。最大SNR计算单元25的输出被提供到NR值计算单元6和噪声频谱估计□

单元26，该噪声频谱估计单元26的输出被施加到Hn值计算单元7。

NR值计算单元6的输出被再次提供给NR值计算单元6自身，而且还被施加到Hn值计算单元7。

该Hn值计算单元7的输出经滤波单元8和频带转换单元9提供到频谱校正单元10。

对所述噪声降低装置的上述第一实施例的操作进行说明。

在语音信号输入端13施加一个包含语音成分和噪声成分的输入语音信号y[t]。该输入语音信号y[t](它是一个按例如取样频率FS取样的数字信号)被提供给成帧单元1，在其中它被分割成多个帧，每一帧都具有FL个取样的帧长。然后在上述帧的基础上处理被这样分割的输入语音信号y[t]。作为沿时间轴的帧的位移量的帧间隔是FI个取样，以便第(k+1)帧从第k帧的FI个取样之后开始。举例来说明取样频率和取样数量，如果取样频率是8KHz，则80个取样的帧间隔FI相应为10ms，而160个取样的帧长相应为20ms。

在由快速富立叶变换单元3进行正交变换计算之前，开窗单元2把来自成帧单元1的每个已成帧信号y_帧j，k与窗函数W_input相乘。在基于帧信号处理操作的终端级执行的随后的反向FFI时(如将在后面进行描述的)，使输出信号与窗函数W_output相乘。所述窗函数W_input和W_output可由下列等式(1)和(2)分别示例：

W_{input} [j] = {(\frac{1}{2} - \frac{1}{2} \cos (\frac{2 πj}{FL}))}^{\frac{1}{ζ}}, 0 \leq j \leq FL \dots (1)

W_{output} [j] = {(\frac{1}{2} - \frac{1}{2} \cos (\frac{2 πj}{FL}))}^{\frac{3}{ζ}}, 0 \leq j \leq FL \dots (2)

然后，快速富立叶变换单元3执行256点快速富立叶变换，以产生频谱幅度值，然后，该频谱幅度值然后被频带分割单元4分割成例如18个频带。这些频带的频率区域作为例子被显示在表1中：

表1

频带	频率区域
频带	频率区域	01234567891011121314151617	0到125Hz125到250Hz250到275Hz375到563Hz563到750Hz750到938Hz938到1125Hz1125到1313Hz1313到1563Hz1563到1813Hz1813到2063Hz2063到2313Hz2313到2563Hz2563到2813Hz2813到3063Hz3063到3375Hz3375到3688Hz3688到4000Hz

由频谱分割产生的频带的幅值变为输入信号频谱的帧值Y[w，k]，它们被输出给前述的各相应部分。

上述频率区域是以下面的事实为基础的，即频率越高，人的听力器官的感知分辨率就变得越差。对于各频带的幅度，使用相应频率区域中最大FFT幅度。

在噪声估计单元5中，已成帧信号y-frame_j，k的噪声被从语音中分离出来，被假定为噪声的帧被检测出，而最大SNR被提供到NR值计算单元6。噪声域估计或噪声帧检测由例如三种检测运算实现。现在对噪声域估计的一个说明例子进行解释。

RMS计算单元21计算信号每帧的RMS值并输出该被计算的RMS值。第k帧的RMS值，或RMS[k]，由下列等式(3)计算：

RMS [k] = \sqrt{\frac{1}{FL} Σ_{j = 0}^{FL - 1} {(y - {frame}_{j, k})}^{2}} \dots (3)

在相对能量计算单元22中，计算与来自在前帧的衰减能量，即dB_rel[k]相对应的第K帧的相对能量，并且该结果值被输出。该以dB为单位的相对能量即dB_rel[k]由下式求出：

{dB}_{rel} [k] = {10 \log}_{10} (\frac{E_{decay} [k]}{E [k]}) \dots (4)

而能量值E[k]和衰减能量值F_decay[k]则由下面的等式(5)和(6)求出：

E [k] = Σ_{l = 1}^{FL} {(y - {frame}_{j, k})}^{2} \dots (5)

E_{decay} [k] = \max (E [k], (\exp \frac{- FI}{0.65 * FS}) * E_{decay} [k - 1]) \dots (6)

等式(5)可根据等式(3)表示为FL*(RMS[k])²。当然，在等式(3)的计算期间由RMS计算单元21获得的等式(5)的值可被直接提供到相对能量计算单元算单元22。在等式(6)中，衰减时间设定为0.65秒。

图2示出了能量值E[k]和衰减能量E_decay[k]的说明示例。

最大RMS计算单元23求出并输出用于估计信号电平与噪声电平之比(即最大SN比率)的最大值所需要的一个最大RMS值。该最大RMS值MaxRMS[k]可由等式(7)求出：MaxRMS[k]＝max(4000，RMS[k]，θ*MaxRMS[k-1]+(1-8)*RMS[k])

...(7)

其中θ是一个衰减常量。对于θ，取其使最大RMS值以3.2秒衰减到1/e的θ值，即θ＝0.993769。

估计噪声电平计算单元24求出并输出一适于估计背景噪声电平的最大RMS值。该估计噪声电平值minRMS[k]是在当前时间点之前的五个局部最小值中的最小值。这五个值满足等式(8)：(RMS[k]＜0.6*MaxRMS[k]和RMS[k]＜4000和RMS[k]＜RMS[k+1]和RMS[k]＜RMS[k-1]和RMS[k]＜RMS[k-2])或(RMS[k]＜MinRMS)

...(8)

该估计噪声电平值minRMS[k]被如此设定，以便升高语音的背景噪声反馈。这种高噪声电平的升高率是指数的，而固定升高率被用作低噪声电平，以实现更显著的升高。

图3示出了RMS值RMS[k]，估计噪声电平值minRMS[k]，和最大RMS值MaxRMS[k]的示例。

最大SNR计算单元25使用最大RMS值和估计噪声电平值通过下面的等式(9)估计和计算最大SN比率MaxSNR[k]：

MaxSNR [k] = 20 \log_{10} (\frac{MaxRMS [k]}{MinRMS [k]}) - 1 \dots (9)

根据该最大SNR值MaxSNR，计算表示相对能量噪声电平的范围在0到1的一个规一化参数NR_电平。对于NR_电平，使用下列函数：

现在来说明对噪声频谱估计单元26的操作。在相对能量计算单元22，估计噪声电平计算单元24和最大SNR计算单元25中求出的各个值被用于从背景噪声中识别语音。如果下列条件成立：((RMS[k]＜NoiseRMS_thres[k])或(dB_rel[k]＞dB_thres[k]))和(RMS[k]＜RMS[k-1]+200)

...(11)其中NoiseRMS_thres[k]＝1.05+0.45*NR_level[k]×MinRMS[k]dB_thresrel[k]＝max(MaxSNR[k]-4.0，0.9*MaxSNR[k]则第K帧的信号被划归为背景噪声。对如此划归的背景噪声的幅度进行计算并输出作为该噪声频谱的平均时间估计值N[w，k]。

图4示出了图11中所示的以dB为单位的相对能量，即dBrel[k]，最大SNR[k]，和作为用于噪声识别的门限值之一的dBthresrel[k]的说明性示例。

图6示出了作为等式(10)中的MaxSNR[k]的函数的NR_level[k]。

如果第K帧的信号被划归为背景噪声或噪声，则噪声频谱的平均时间估计值N[w，k]通过下列等式(12)由当前帧信号的输入信号频谱的幅度Y[w，k]修改：N[w，k]＝α*max(N[w，k-1]，Y[w，k])

+(1-α)*min(N[w，k-1]，Y[w，k])

...(12)

α = \exp (\frac{- FI}{0.5 * FS})

其中W表示频带分离中的频带数。

如果第K帧的信号被划归为语音，N[W，K-1]的值被直接用于N[w，k]。

NR值计算单元6计算NR[w，k]，它是一个用于防止滤波器响应突变的值，并输出该产生的值NR[w，k]。该NR[w，k]是一个范围从0到1的值并由等式(13)确定：

在等式(13)中，adj[w，k]是用于考虑如下所述的效果的参数，并由等式(14)确定：

δ_NR＝0.004and

adj[w，k]＝min(adj1[k]，adj2[k])-adj3[w，k]…(14)

在等式(14)中，adj1[k]是一个具有由下面所述的滤波以高SNR实现的抑制噪声效果的值，并由下面的等式(15)定义：

在等式(14)中，adj2[k]是一个具有抑制效果的值，由上述滤波操作实现的噪声抑制率相应于极低的噪声电平或极高的噪声电平，并且该adj2[k]由下面的等式(16)确定：

在等式(14)中，adj3[k]是一个在2375Hz和4000Hz之间具有抑制最大噪声降低量从18dB到15dB的效果的值，并由下面的等式(17)确定：

而且，可以看到，以dB为单位以上的NR[w，k]的各值和最大噪声降低量之间的相对关系在dB范围内基本上是线性的，如图6所示。

Hn值计算单元7根据分裂成多个频带的输入信号频谱的幅度Y[w，k]产生噪声谱N[w，k]的平均时间估计值和值NR[w，k]，值Hn[w，k]确定被构造用于从输入语音信号中消除噪声部分的滤波器特征。该值Hn[w，k]根据下面的等式(18)计算：Hn[w，k]＝1-(2*NR[w，k]-NR²[w，k])*(1-H[w][S/N＝Y])

...(18)

当SNR被固定在值r时，上述等式(18)中的值H[W][S/N＝r]等效于一噪声抑制滤波器的最佳特征，并且由下面的等式(19)求出：

H [w] [S / N = γ] = \frac{1}{2} (1 + \sqrt{1 - \frac{1}{x^{2} (w, k)}}) * P {(H 1 | Y_{w})}_{[S / N = γ]} + G_{\min} * P {(H 0 | Y_{w})}_{[S / N = γ]} \dots (19)

而且，该值可事先求出，并根据Y[w，k]/N[w，k]的值列成一个表。此外，等式(19)中的X[w，k]等效于Y[w，k]/N[w，k]，而Gmin是一个指示H[W][S/N＝r]的最小增益的参数。另一方面，P(Hi|Yw)[S/N＝r]和P(H0|Yw)[S/N＝r]是定义幅度Y[w，k]的状态的参数，P(H1|Yw)[S/N＝r]是一个定义其中语音分量和噪声分量被一起混合在Y[w，k]中的状态的参数，而P(H0|Yw)[S/N＝r]是一个定义仅有噪声分量被包含在Y[w，k]中的参数。这些值根据下面的等式(20)计算：P(H1|Y_w)_[S/N＝Y]＝1-P(H0|Y_w)_[S/N＝Y]

= \frac{P (H 1) * (\exp (- γ^{2})) * I_{G} (2 * γ * x [w, k])}{P (H 1) * (\exp (- γ^{2})) * I_{0} (2 * γ * x [w, k]) + P (H 0) * (\exp (- x^{2}}

§[§[...(20)其中P(H1)＝P(H0)＝0.5

从等式(20)可以看到，P(H1|Yw)[S/N＝r]和P(H0|Yw)[S/N＝r]是X[w，k]的函数，而I0(2*r*X[w，k])是一个贝塞尔函数，并且相应于r和X[w，k]的值求出。P(H1)和P(H0)都被固定在0.5。通过如上所述对参数进行的简化，处理量可被减小到大约通常方法的五分之一。

由Hn值计算单元7产生的Hn[w，k]值和X[w，k]值(即比率Y[w，k]/N[w，k])之间的相对关系是这样的，对于高的比率Y[w，k]/N[w，k]的值，即对于语音分量高于噪声分量的情况，值Hn[w，k]被增加，即抑制被减弱，相反，对于较低的比率Y[w，k]/N[w，k]的值，即对于语音分量低于噪声分量的情况，值Hn[w，k]被减小，即抑制被增强。在上面的等式中，实线代表r＝2.7，Gmin＝-18dB和NR[w，k]＝1的情况。还可以看到，说明上述关系的曲线在取决于NR[w，k]值的区域L内改变，并且该NR[w，k]值的各自曲线以与NR[w，k]＝1相同的趋势变化。

滤波单元8执行滤波，沿频率轴和时间轴对Hn[w，k]进行平滑，以便产生一被平滑信号H_{t_smooth}[w，k]作为输出信号。在沿频率轴方向的滤波具有减少信号Hn[w，k]的有效脉冲响应长度的效果。这避免了由于滤波器的实现导致的循环卷积在频域相乘而产生的混淆。在沿时间轴方向的滤波具有限制滤波器特征中变化率的效果，以抑制突发噪声的产生。

首先对沿频率轴方向的滤波进行说明。在每个频带的Hn[w，k]上执行平均值滤波。本方法由下面的等式(21)和(22)表示：step1：H1[w，k]＝max(median(Hn[w-i，k]，Hn[w，k]

，Hn[w+1，k]，Hn[w，k]) ...(21)step2：H2[w，k]＝min(median(H1[w-i，k]，H1[w，k]

，H1[w+1，k]，H1[w，k]) ...(22)

在等式(21)和(22)中，如果(w-1)或(w+1)不存在，则H1[w，k]＝Hn[w，k]和H2[w，k]＝H1[w，k]。

在步骤1中，H1[w，k]是没有唯一或单独的零(0)频带的Hn[w，k]，相反，在步骤2中，H2[w，k]是没有唯一，单独或突出频带的H1[w，k]。以这种方式，Hn[w，k]被转换成H2[w，k]。

下面对沿时间轴方向的滤波进行说明。对于沿时间轴方向的滤波，对这样的情况进行考虑，即输入信号包含三个分量，即语音，背景噪声和表示语音的渐高部分的瞬态的瞬时状态。语音信号H_speech[w，k]沿时间轴被平滑，如等式(23)所示：H_speech[w，k]＝0.7*H2[w，k]+0.3*H2[w，k-1] ...(23)背景噪声沿时间轴被平滑，如等式(24)所示：H_noise[w，k]＝0.7*Min_H+0.3*Max_H ...(24)

在上述的等式(24)中，Min_H和Max_H可分别通过Min_H＝min(H2[w，k]，H2[w，k-1])和Max_H＝max(H2[w，k]，H2[w，k-1])求出。

在沿时间轴方向处在瞬态的信号不被平滑。

利用上述的被平滑信号，通过等式(25)产生被平滑的输出信号H_{t_smooth}：H_{t_smooth}[w，k]＝(1-α_tr)(α_sp*Hspeech[w，k]

+(1-α_sp)*Hnoise[w，k)+α_tr*H2[w，k]

...(25)

在上面的等式(25)中，α_sp和α_tr可以分别由等式(26)和等式(27)求出：

...(26)其中

{SNR}_{inst} = \frac{RMS [k]}{MinRMS [k - 1]}

其中

δ_{rms} = \frac{{RMS}_{local} [k]}{{RMS}_{local} [k - 1]},

然后，在频带转换单元9中，来自滤波单元8的18个频带的平滑信号H_{t_smooth}[w，k]通过内插例如一个要被输出的128-频带信号H128[w，k]被扩展。

{RMS}_{local} [k] = \sqrt{\frac{1}{FI} Σ_{j = \frac{FI}{2}}^{FL - \frac{FI}{2}} {(y_fram e_{j, k})}^{2}}

这种转换例如通过两级执行，而从18扩展到64个频带和从64扩展到128个频带分别通过零阶保持和低通滤波器型内插来完成。

频谱校正单元10然后将利用FFT单元3获得的已成帧信号y_帧j，k的快速富立叶变换得到的FFT的实部和虚部与上述的信号H128[w，k]相乘，以执行频谱校正，即噪声成分衰减，合成的信号被输出。其结果是频谱幅度被校正，而不改变相位。

然后，反向FFT单元11对频谱校正单元10的输出信号执行反向FFT，以便输出合成的被IFFT的信号。

重叠相加单元12重叠和相加基于帧的被IFFT的信号的帧边缘部分。该合成的输出语音信号在语音信号输出端14被输出。

图8示出了按照本发明执行用于语音信号的噪声降低方法的另一个实施例。由图1所示的噪声降低装置公用的元件或部件用相同的数字表示，为了简化删除了有关操作的描述。

该噪声降低装置拥有用于将输入语音信号变换成频域信号的快速富立叶变换单元3，用于对从输入语音信号中消除噪声成分的滤波运算的滤波器特征进行控制的Hn值计算单元7，和用于根据由Hn值计算单元7产生的滤波器特征通过滤波降低输入语音信号中的噪声的频谱校正单元10。

在拥有Hn值计算单元7的噪声抑制滤波器特征发生单元35中，频带分离部分4将自FFT单元3输出的频谱的幅度分离成例如18个频带，并将基于频带的幅度Y[w，k]输出给用于计算RMS，估计噪声电平和最大SNR的计算单元31，以及输出给噪声频谱估计单元26和初始滤波器响应计算单元33。

计算单元31根据从成帧单元1输出的y_帧j，k和由频带分离部分4输出的Y[w，k]计算基于帧的RMS值RMS[k]，估计噪声电平值MinRMS[k]和最大RMS值Max[k]，并将这些值传送到噪声频谱估计单元26和adj1，adj2，和adj3计算单元32。

初始滤波器响应计算单元33将从噪声频谱估计单元26输出的平均时间噪声值N[w，k]和从频带分离部分4输出的Y[w，k]提供给滤波器抑制曲线表单元34，用于求出与存储在滤波器抑制曲线表单元34中的Y[w，k]和N[w，k]相对应的H[w，k]的值，以将如此求得的值传送到Hn值计算单元7。在滤波器抑制曲线表单元34中存储有一个H[w，k]值的表。

由图1和8所示的噪声降低装置获得的输出语音信号被提供给一个信号处理电路，诸如用于便携电话机的各种编码电路，或提供给一个语音识别装置。可替换地，可以对便携电话机的解码器输出信号执行噪声抑制。

图9和10分别示出了用本发明的噪声抑制方法实施噪声抑制获得的语音信号中的失真(以黑色所示)和用通常的噪声抑制方法实施噪声抑制获得的语音信号中的失真(以白色所示)。在图9的图示中，相对于每20ms取样的各分段的失真绘制了这些分段的SNR值。在图10的图示中，相对于整个输入语音信号的失真绘制了各分段的SNR值。在图9和10中，纵坐标代表随自源点的高度逐渐变小的失真，而横坐标代表向右逐渐变高的各分段的SNR。

从这些图中可以看出，与用通常的噪声抑制方法实施噪声抑制获得的语音信号相比，用本发明的噪声抑制方法实施噪声抑制获得的语音信号经受失真到一个很小的程度，尤其是以在超过20的一个高SNR值的情况下。

Claims

1.一种用于噪声抑制的降低输入语音信号中噪声的方法，包括：

将输入语音信号转换成一个频谱；

根据一个第一值和一个第二值确定滤波器特征，所述的第一值是以该频谱的一个电平与该频谱中包含的噪声的一个估计电平之比为基础获得的，所述第二值是从该频谱的基于帧的信号电平与该估计噪声电平之比的最大值和从所述估计噪声电平中求出的；和

响应该滤波器特征通过滤波降低所述输入语音信号中的噪声。

2.根据权利要求1的降低输入语音信号中噪声的方法，其中所述第一值是利用从包含该输入信号的预定电平和该噪声频谱的估计电平的表中获得的值求出的。

3.根据权利要求1的降低输入语音信号中噪声的方法，其中所述第二值是响应该信号电平与该估计噪声电平的比率的最大值和该基于帧的噪声电平获得的值，并是一个通过根据滤波器特征滤波调整最大噪声减少量的值，以便该最大噪声降低量在1dB范围内将基本线性地变化。

4.根据权利要求1的降低输入语音信号中噪声的方法，其中所述估计噪声电平是根据基于帧的输入信号的幅度的均方根值和该均方根值的最大值获得的值，该信号电平与估计噪声电平之比率的最大值是一个根据该均方根值的最大值和该估计值计算获得的值，其中该均方根值的最大值是基于帧的输入信号的幅度的均方根值，根据紧接前一帧的该均方根值的最大值获得的值，和一个预定值中的一个最大值。

5.一种用于噪声抑制的降低输入语音信号中噪声的装置，包括：

将输入语音信号转换成频谱的装置；

用于根据一个第一值和一个第二值确定滤波器特征的装置，所述的第一值是以该频谱的一个电平与该频谱中包含的噪声的一个估计电平之比率为基础获得的，所述第二值是从该频谱的基于帧的信号电平与该估计噪声电平之比的最大值和从所述估计噪声电平中求出的；和

响应所述滤波器特征通过滤波降低所述输入语音信号中的噪声的装置。