CN1238835C

CN1238835C - 通信系统中的方法和装置

Info

Publication number: CN1238835C
Application number: CN00818721.5A
Authority: CN
Inventors: 帕特里克·泽奎斯特; 索伦·V·安德森; 巴斯特兰·W·克莱因
Original assignee: Global IP Sound AB
Current assignee: Google LLC
Priority date: 1999-12-28
Filing date: 2000-12-06
Publication date: 2006-01-25
Anticipated expiration: 2020-12-06
Also published as: US7321851B2; WO2001048736A1; DE60034484D1; US7502733B2; SE517156C2; SE9904812D0; AU2241701A; SE9904812L; ATE360300T1; DE1243090T1; EP1243090B1; DE60034484T2; CN1433561A; EP1243090A1; US20070260462A1; US20030167170A1

Abstract

本发明涉及在分组交换网络上传输声音的系统中所接收的声音数据分组的解码/回放部分。根据本发明，所接收的信号帧的长度通过在时变区间、以扩展或压缩的时变长度执行一个或多个信号帧的时间扩展或时间压缩，所述区间和所述长度被确定为使得保持所要回放的信号样值的连续流。

Description

通信系统中的方法和装置

技术领域

总的来说，本发明涉及在分组交换网络上发送声音的系统，更具体地说，涉及在该系统中所接收的声音数据分组的解码/回放部分。

背景技术

在诸如因特网这样的分组交换数据网中，数据分组的达到时间受到严重的延迟抖动。此外，数据分组可能在传输中丢失或故意地被网络删除，以便解决拥挤问题。对于在传输时间上没有严格要求的数据传输，用以使用信号交换和重发的传输协议可以建立无差错传输。

当诸如语音或音频这样的声音信号在分组交换网络上发送时，信号帧即连续的信号样值集被编码成为数据分组，每个数据分组对应于一个或多个信号帧。在例如双工通信系统中，这些信号帧将在接收器端无过多延迟的被回放。在这种情况下，具有信号交换和重发的传输协议常常不是确保信号帧对于连续回放可用的可行性方案。

此外，延迟抖动是这些信号的问题来源：如果数据分组延迟导致其对于相邻信号帧的连续回放到达太晚，那么出现的问题与当数据分组丢失时出现的问题类似。

语音的分组传输始终是分组交换网络的重要应用。针对延迟抖动和丢失分组问题的大多数解决方案是与语音分组传输联在一起被提出的。传统上，利用所谓的抖动缓冲器减少延迟抖动问题。在抖动缓冲器中，存储输入分组，并以正确的顺序发送给解码器和回放设备。配置抖动缓冲器，以得到回放延迟和丢失/延迟的分组数目之间有益的折中。在该设置中存在两个要解决的问题：

a)我们如何持续的保持抖动缓冲器运行于良好的工作状态，即我们如何确保短的回放延迟，同时又最小化对于回放来说太晚的分组数量？

b)当数据分组丢失或延迟超过缓冲器延迟时我们该采取什么措施？

我们称第一问题(a)为定时问题，并且把处理第一问题的方法称作定时恢复方法。我们称第二问题(b)为丢失帧问题，并把处理第二问题的方法称作丢失帧替代法。下面将描述解决这两个不同问题的最新方法。

当处理与声音的分组交换传输有关的定时恢复和丢失帧替代时，本发明或者其实施例使用并改进原来为了不同的问题提出的方法：用于时间标度语音的振荡器。下面将概览该方法。

上述提及的已知方法使用合并或平滑信号段的技术，以避免回放的声音中的不连续性。因为本发明应用了同样或类似的技术，所以下面将描述合并或平滑的技术。

I.定时恢复方法

抖动缓冲器配置的一个很好的折中(compromise)是延迟抖动的统计功能。因为抖动是随时间变化的，抖动缓冲器总是在传输期间不断地进行配置，即，使用每个话音突峰的最初的一个或两个数据分组，或从前一话音突峰估计的延迟统计。

在静音(silence)期间不发送数据分组的系统中，作为自然的结果，抖动缓冲器将空闲，并且在每个新的话音突峰的开始处需要引入足够的缓冲延迟。在每个数据分组的奇偶校验位的引入和其值从一个话音突峰到下一个的变化，允许立即检测接收器中话音突峰的开始。因此，该话音突峰回放的开始可以被延迟一个时间间隔，该时间间隔被称作保留延迟。这允许抖动缓冲器从下溢恢复到良好运行状态。

在传输延迟突然增加的时候，存在发生抖动缓冲器下溢的危险。即在用以产生用于连续回放的信号帧的解码所需的时候，抖动缓冲器中没有数据分组。在该情况下，抖动缓冲器中的最后数据分组中编码的信号帧的重复回放可以允许缓冲器恢复到良好的运行状态。在具有语音编码和解码的系统中，通过保持一些输入参数对语音解码器恒定来实现重复回放。在更简单的系统中，重复回放将意味着信号帧的简单重复。US 5699481公开了更为先进的方法，此处信号以恒定的长度单位重复，长度在系统设计中预先设置。

传输延迟的突然下降可能导致抖动缓冲器的上溢。除了与具有足够容量以存储附加分组的设备有关的实施细节问题外，该情况是系统引入了回放的过多延迟的指示。此处，跳过某些信号帧的回放，即删除或丢弃这些信号帧，可以使缓冲器恢复到良好的运行状态。US 5699481的方法还删除有恒定长度单位的信号部分，该长度是在系统设计中预先设置的。

在用于发送被输入到线性预测编码(LPC)滤波器的激励帧的语音传输系统中，信号帧的重复或删除可以最好发生在激励域，例如在US 5699481中公开的那样。此外，对于语音特殊的应用，让信号帧的删除和重复规则独立于诸如有声的或无声这样的非寂静信号帧的分类是有利的。由于固定长度的子帧的重复或删除可以导致有声的语音的严重的降级，在US 5699481中的应用仅修改了无声的和寂静语音帧。

除了在发送中的延迟抖动外，在发送和接收设备的时钟之间的差异将引起缓冲器下溢或上溢。问题由本发明和现有技术解决。然而本发明提供更好的结果回放的声音信号质量。

II.丢失帧替代法

针对数据分组被丢失的情况开发了多种方法，分组丢失指的是尽管抖动缓冲器在良好的运行状态，但数据分组被网络放弃或到达接收器的时间晚于对应的信号帧的连续回放要求的时间。通常，用于该情况的方法的特征在于，使用在信号中早于并在某些情况下晚于给定信号帧的信号帧估计来替代丢失信号帧的方法。这些方法中最简单的是直接重复前一信号帧。

更为先进的方法是估计线性长期预测器的方法，即前一信号帧上的节距预测器，让具有相同长度的长期(long-term)预测器作为组成丢失信号帧的估计的信号帧。

第三种方法涉及与作为目标段的最后信号帧的L个最后样值的目标匹配，其中L是整数。然后该方法寻找在与该目标最匹配的信号中较早的L-样值段，并让帧替代成为跟随该L-样值段的样值(最终按比例的给相同的和平方值作为最后的信号帧。因为，对于完全帧替代，与帧长度相同数目的样值需要被估计，一些方法考虑目标均方误差匹配，该目标仅具有在信号的至少一个帧长度的后部L-样值段，即在第二到最后的信号帧和后部中的段。

L-样值目标匹配可以以附加延迟为代价，被用来从在信号中稍后的信号帧估计丢失的信号帧。对于丢失的信号帧的精细估计可以导致在来自前一信号帧的估计值和来自后一信号帧的估计值之间的平滑插值。

上述方法的例子在“The Effct of Waveform Substitution on the Quality ofPCM Packet Communications”(波形替代在PCM分组通信的质量上的影响)，O.J.Wasen et al.；IEEE Trans.Signal Proc.，vol.SP-36，no.3，pp.432-448，1988中公开。

III.用于时间标度语音的振荡器模型

在“Time-Scale Modification of Speech Based on a Nonlinear OscillatorModel”(基于非线性振荡器模型的语音的时间标度修改)，G.Kubin和W.B.Kleijn，in Proc.Int.Conf.Acoust.Speech Sign.Processl，(Adilaide)，pp.I453-I456，1994中，这里列出作为参考，提出了时间标度的振荡器模型。在振荡器模型中，信号的短固定长度段被附加在具有与段中的第一样值有关的固定正延迟的样值的状态向量上。振荡器模型定义了短信号段的电码本(codebook)。对于在该电码本中的每个信号段，连接一个状态向量。

如果对于定义为短段的级联的有限的信号，振荡器模型的电码本包含所有这些短段及其对应的状态向量，那么开始于第一短信号段的状态的振荡器模型对于任意现实世界的信号可以通过重复读出下一短信号段而没有错误的再生原始信号段。

对于无限长度信号，振荡器可以从第一短段的状态没有错误的再生原始信号。这可以通过周期性地更新电码本来对应于有限子信号而获得。当我们改变电码本的更新率，而没有改变电码本的大小或内容时，时间标度跟随。更快的更新率导致时间标度小于一，更慢的更新导致时间标度大于一。这是参考上文中提出的振荡器模型的应用。

IV.合并和滤波

为了改善从信号帧到替代帧以及从替代帧到随后信号帧的过渡，参考上文的O.J.Wasem等人的文章公开了使用所谓的合并，即使用在短而固定(例如8个样值)的过渡区中两个信号间平滑插值(smooth interpolation)。

在上面提及的文章“Time-Scale Modification of Speech Based on aNonlinear Oscillator Model”中，作者提出使用线性预测滤波，以便减少类似的过渡区。在那个上下文中，按照如下获得线性预测滤波：通过LPC解析滤波器滤波信号连续的估计，以产生剩余信号。解析滤波器由来自振荡器模型的状态电码本的滤波器状态进行初始化。信号连续的精细估计由剩余信号的LPC合成滤波获得，合成滤波器由包含在连续之前的信号中的最后的那些样值的状态来初始化。

在滤波(smoothing)时，值得注意的是，在US 5699484中公开的语音特殊定时恢复重复或删除在CELP(代码激励线性预测)编码器的激励域中具有固定长度的信号子帧，并使用线性预测滤波(smoothing)，以改进信号子帧间的过渡。

因此，简言之，定时恢复和丢失帧替代的最新方法包括：

单独针对定时恢复的方法通过重复和删除具有固定的、预定数目的样值长的信号帧或子帧而修改定时。线性预测滤波作为在CELP编码器的激励域的处理而提出。在这些方法中没有使用诸如模板目标匹配或相关最大化这样的信号匹配或估计最优化。

单独针对丢失帧替代的方法用在长度上相同的估计来替代丢失信号帧。这些方法不改变定时。它们使用诸如向量匹配或相关最大化这样的信号匹配或估计最优化以及重叠相加合并(overlap-add merging)。

发明内容

本发明的目的是当从分组交换网络以数据分组形式接收到数字化声音信号时，允许在接收器末端连续回放信号样值。

另一个目的是与由现有技术完成的同样的回放的质量相比，当由听者解译时，提供更好的作为数据分组接收的数字化声音信号的回放质量。

根据本发明，所述目的由使用振荡器模型、程序存储设备和装置的方法完成，所有的都是本发明的不同方面。

本发明基于执行信号帧的时间扩展和/或时间压缩，而不是执行重复或删除完整信号帧或具有预定长度的信号帧单元的想法。这意味着如果需要重复信号的一部分，则重复的信号部分的长度可能小于或大于信号帧。相应地，如果需要删除信号的一部分，则删除的信号部分的长度可能小于或大于信号帧。此外，重复或删除信号部分的持续时间在时间上是改变的，即本发明提供时间扩展或时间压缩的时变长度。结果，在其上执行时间扩展或时间压缩的间隔在时间上是变化的，并且与时间扩展或时间压缩的长度有关。因为扩展/压缩的长度以及不同扩展/压缩间的长度在时间上变化，因此，在异步基础上执行信号帧的时间扩展和时间压缩。

根据本发明的实施例，时间扩展或时间压缩的长度是诸如在信号上的向量匹配或相关最大化这样的信号匹配的结果。结果，依据时间被扩展或时间被压缩的信号帧的最后所得的长度，在其上执行时间扩展或时间压缩的时间间隔将在时间上改变。

最好，时间扩展或时间压缩的长度定义为样值的分辨率或两个连续样值间持续时间的分数部分。这通常考虑在信号帧和其扩展间的边界处的非常少或零处不连续。通过以相同的取样率但是在新的时间情况下重新取样，可以实现微小的分辨率(fractional resolution)，由此获得新的、与原始信号相比被极小地延迟的样值，即每个样值被延迟了小于两个连续原始样值间时间间隔的时间间隔。

最好基于该判定在实时观察和来自抖动缓冲器的统计上进行时间扩展和时间压缩。这些当监控抖动缓冲器时观察到的实时观察和统计包含例如缓冲器中的数据分组数，缓冲器中分组的短期和长期变化，以及丢失分组的短期和长期百分比。

最好，当在解码器中有许多相邻信号帧是可用的，其中帧数是随时间变化的，并基于来自抖动缓冲器的实时统计时，尝试两个或更多帧的压缩。这可能会或可能不会导致一压缩信号帧，其短于输入压缩的各信号帧的长度和。长度差可能是样值的分数并依赖实际信号帧的信号匹配。如果信号匹配不能产生由阈值例如相关度量或向量匹配所限定的具有平滑过渡的压缩信号帧，则信号帧保持不变。这个阈值最好适应于在整个时间，以允许压缩的临界标准越小，抖动缓冲器越接近上溢。然而根据信号帧的类型，阈值可以改变。对于语音，具有不同的压缩阈值的信号类型典型地分为：有声、无声、过渡和寂静。这种设置允许仅当抖动缓冲器非常接近上溢，压缩一些信号类型，而即使是在正常工作状态，为了抖动缓冲器导致回放延迟的减少，其他信号类型也被压缩。

最好在以下任何一种情况下调用帧扩展：抖动缓冲器下溢，接近抖动缓冲器下溢，在抖动缓冲器中数据分组后至，和丢失数据分组。在调用帧扩展时，不需要做出关于发生情况的明确决定。扩展按照如下重复。在每次重复时，信号帧使用与信号相关的并且可能极小地精确的样值数进行扩展。这些样值有时是与增益成比例的上一帧的结尾部分的型式。对于这些扩展样值的回放的末端，其时间基于解码器处理时间，抖动缓冲器被检查，以观察是否良好的工作状态已经被恢复，即抖动缓冲器不再处于下溢或后至的数据分组已经到达。

如果良好的工作状态已经恢复，回放可以在扩展信号帧和下一信号帧之间的边界无不连续地继续。保持这种状态是因为帧扩展的每个重复产生，有时增益按比例的，最后扩展帧的尾部的型式(version)；从那儿借助下一信号帧的平滑增益比例(gain-scaling)可以总是无不连续的实现到下一信号帧的过渡。

否则，如果后至的(late)数据分组仍未到达抖动缓冲器，并且如果跟随后至的数据分组的任何数据分组已经到达抖动缓冲器，对应于所述滞后并缺席的数据分组的信号帧被宣布丢失。在该点已经部分回放的帧扩展将在这个情况下事实上成为丢失帧替代。

丢失信号帧的替代是为了等于前一信号帧时间扩展的第一部分：丢失帧替代与缓冲器下溢没有区别，接近缓冲器下溢，或滞后数据分组的情况，直到属于相对于当前正在回放帧的未来信号的预定数目的信号帧，例如1个，是在接收器中为止。替代帧的长度并不固定成在传输系统中的信号帧的长度。替代地，选择替代帧的长度以使得可以平滑过渡到随后的帧。该选择是基于诸如向量匹配或相关最大化这样的信号匹配，结果可以是以样值的分数精度所指定的替代帧长度。

在丢失帧替代中，不仅前一帧可以被扩展，而且下一帧也可以在合并两个帧之前扩展。

应该注意，帧替代不仅可以变得更长，而且可以短于分组传输系统的信号帧的长度，具有许多在两个连续样值间延迟部分指定的差值。因此，根据本发明，该帧替代技术依赖与所述定时恢复技术的合作。关于是因为定时恢复情况还是因为丢失数据分组情况来执行处理的决定将被延迟，直到两个的实际位置(situation)的末端为止，在两个不同情况下执行的处理的主要部分是相同的。

根据本发明的帧扩展的迭代向量匹配可以看作振荡器模型的应用。在这方面，本发明引入振荡器模型的4个新原理。每个原理都对振荡器模型进行了精练，并且根据本发明每个原理改善了组合的定时恢复和丢失帧替代的性能。此外，每个原理可以单独使用，或与其他组合。这些原理如下：

·振荡器电码本的状态不仅起于整数样值周期延迟，而且起于分数的延迟，即具有两个连续样值之间的时间的分数分辨率的延迟。

·振荡器模型中的段具有可变的长度，它们都形成建立振荡器模型的信号的尾段或头段。

·向量匹配可以最好使用增益比例匹配。

·通过对于一帧的扩展仅使用相同段一次来避免迭代帧扩展的周期性。

根据本发明的另一个实施例的该发明方法与合并和用于减少不连续的预测滤波都相容。它们之间的选择是质量和计算复杂度之间的均衡。此外，合并和预测滤波可以同时例如通过在某编码-解码方案的激励域合并来利用。

关于合并，本发明包括多个不同的实施例，每个具有不同的发明原理：

根据一个实施例，当通过重叠相加合并两个段时，在时间上最迟的段最后时移若干或分数的样值，因而对于两个段的重叠部分优化相关或向量匹配标准。或者，合并可以通过替换振荡器模型中的电码本来实现。这些合并可替换的方法中的两个在应用于丢失帧替代情况时，依赖于有效定时恢复的存在，它如前所述那样被包括在本发明的发明方法中。

根据本发明的另一个实施例，当最迟的段乘以一个增益时，合并可以最好最优化相关或向量匹配标准，该增益是最优化中的自由参数。从那儿，在这个结尾段的剩余部分或随后的信号帧上可以获得向后平滑过渡至一致增益(unity gain)。

根据本发明，操作信号的方法或者对在时域中的解码信号、作为适用于任何编码-解码系统的后处理那样起作用，或对时域信号起作用，该时域信号是在信号解码过程中的中间，并且对于使用的编码-解码方法是特殊的。对于一些编码方案，作用于中间时域信号的操作允许平滑交叉信号帧(smoothing across signal frame)而没有附加额外的计算复杂度。在其上使用本发明的中间时域信号的例子是在CELP解码器的激励信号、或那些波形插值或正弦编码器进行激励信号合成滤波。该方法可以被改进成使用诸如合声这样的语音特殊信号特性，但是在没有关于信号的任何源的特殊假设的情况下开发基本算法；可以是任何声音源，例如语音和音频。

附图说明

从所附权利要求和通过组合附图对本发明的多个典型的实施例进行的详细描述，本发明的进一步的特性和优点将会变得更加清楚，其中相同的标号指定相同的单元，并且在其中：

图1显示了用于在分组交换网络中发送声音的系统的发送部分的概览；

图2显示了根据本发明的实施例的用于在分组交换网络上发送声音的系统的接收部分的概览。该系统在解码信号帧上使用组合的定时恢复和丢失帧替代；

图3显示了根据本发明的另一个实施例的用于在分组交换网络上发送声音的系统的接收部分的概览。该系统在声音解码的中间的时域信号帧上使用定时恢复和丢失帧替代；

图4是说明了根据本发明的实施例参考图2和3的用于组合的定时恢复和丢失帧替代的过程的总体操作的流程图；

图5是在图4中称作时间压缩子过程的用于时间压缩信号帧的子过程的流程图；

图6是在图4中称作正常子过程的用于输出具有正常相邻序列的信号帧的子过程流程图；

图7是在图4中称作合并子过程的用于合并信号帧扩展和未来的不相邻的信号帧的子过程的流程图；

图8是在图4中称作扩展子过程的用于扩展信号帧和输出获得的扩展的子过程的流程图；

图9是在图5和图6中称作校正增益比例子过程的用于校正在扩展或合并后的信号帧的增益比例的子过程的流程图；

图10a和图10b是说明信号帧的时间扩展实例的图；

图11a、图11b和图11c是说明如何获得分数分辨率的实例图；以及

图12a和图12b是说明两个信号帧示范的时间压缩的实例图。

具体实施方式

图1是用于在分组交换网络中发送声音的系统的发送部分的方框图。麦克风10拾取声音，以产生电信号15，它被A/D转换器20取样和量化成数字格式。声音信号的取样率是适合于信号带宽的比率，典型地对于语音信号是8或16KHz，对于声频信号是32、44.1或48KHz。数字表达的量化精度是适合于期望的传输质量的精度，典型地是7或8比特A-或μ-律量化或13或16比特的一致量化。换句话说，A/D转换器20是重复取样差分量化类型。取样信号25输入到声音编码器30。声音编码器30产生具有固定或可变容量以及具有固定或可变大小的数据分组35。这些数据分组包含对于合适的声音解码器的足够的声音信号，以再现声音信号，该声音信号是原始声音信号的高质量的再现。控制器40给这些分组加上顺号和目标地址，产生适合于在分组交换网络上发送的新数据分组45。

在图2和图3中，给出了本发明的两个不同的实施例。这两个实施例都显示了用于在分组交换网络上发送声音的系统的接收部分。图2和图3的两个实施例之间的差异在于定时恢复和丢失帧替代组合的方法80的位置。在两个系统中，控制器50接收来自分组交换网络的数据分组，剥离寻址消息，并适当地将数据分组放入抖动缓冲器60中。抖动缓冲器60是存储介质，典型地是RAM，具有有限物理容量。根据本发明，通过调整数据分组65从抖动缓冲器60出去的速率，接收系统保持在抖动缓冲器60中的数据分组数目低但是为非零，由此减少系统中的延迟。在抖动缓冲器60中的分组数量典型地是一到四个分组。这个数目依赖于本发明的参数化法，将在后面描述。为了获得整个系统的良好运行，抖动缓冲器60的物理容量是所有到来的数据分组65能够被存储的量这一点很重要，使得时间调整的系统的上溢不会发生。定时恢复和丢失帧替代80输出有规则地取样的声音信号85，典型地，除了在发送和接收时钟上的差值外，具有和图1中取样信号25相同的取样率。

在图2中说明的实施例中，声音解码器70将数据分组65解码成信号帧75，即解码声音信号的固定长度段。这些信号帧75输入到组合的定时恢复和丢失帧替代80中。声音解码器70作为译码器工作，定时恢复和丢失帧替代80可以通过译码器以信号帧75的形式存取来自抖动缓冲器60的数据。即定时恢复和丢失帧替代80从声音解码器70产生帧请求76。这引起声音解码器从抖动缓冲器60构成分组请求67。抖动缓冲器60选取数据分组65，并将其发送给将解码它们的声音解码器70，并返回它作为信号帧75。由定时恢复和丢失帧替代80取出信号帧的决定是基于附加的缓冲器状态信息66，用将在随后描述的方法进行的。

在图3中说明的实施例中，图2的声音解码器70被部分声音解码器130所替代。部分(partial)声音解码器将数据分组65解码成中间时域信号145的信号帧135。这些信号帧135对于使用的编码-解码系统的类型是特殊的。定时恢复和丢失帧替代80接收的信号帧135的典型例子是在CELP解码器或那些波形插值或进行激励信号合成滤波的正弦编码器中的激励信号。定时恢复和丢失帧替代80在这些信号帧135上的操作在结构上等同于在图2中所示的操作来自图2中的解码器70的信号帧75的结构，然而，对于扩展、合并和滤波的有利的子方法的选择对于两种实施例是不同的。与参考图2的描述一致，图3的实施例使用帧请求76、分组请求67和缓冲器状态信息66。声音解码过程的剩余部分150是从中间时域信号145到规则地取样的声音信号155的映射，它对应于(compare)参考图2所述的实施例的取样信号85。该剩余部分B 150在来自部分声音解码器130即解码过程的初步部分A的边(side)信息136的帮助下推断解码过程。

在上述的两个实施例中，分别参考图2和图3，D/A转换器90分别将规则地取样声音信号85和155转换成模拟电信号95，它驱动声音再现系统100，即扬声器，以产生接收的声音。

定时恢复和丢失帧替代80的判定逻辑的实施例将参考图4、5、6、7、8和9的流程图来说明。在以下描述中，将使用符号N_A(C)，其中N根据上下文表示以下之一：信号帧的数量；特殊信号帧的索引号；信号帧的扩展数；或信号样值数。从具体的N出现的上下文将明确N的含义。C代表与数字N相关的信号帧的类型。紧随N的下标(例如写成N_A、N_B、N_C等)仅用来相互区分不同的N:s，因为在一个上下文环境中的N与在另一个上下文环境中的N不同，即例如，N_A和N_B彼此不相关。

在图4中显示了图2和图3的定时恢复和丢失帧替代80中的判定逻辑的流程图的概览。如流程图中所示，定时恢复和丢失帧替代是在具有索引I的信号帧上的迭代。在通信或话音突峰开始时，在预置或适合数量的帧出现在抖动缓冲器中之后，在块180，该迭代开始。在块200帧(I)首先被分类为多个类中的一个类C。类C影响朝向信号帧的方法的剩余部分的行为。可能的类的有利的选择依靠声音信号的本质。对于语音信号分类成寂静、无声和有声信号帧是有利的。通常这个分类可以以一种本领域技术人员所知的方法直接从数据分组即编码的信号帧中提取。如果想要，通过让所有信号帧属于一个唯一的类可以避免关于声音信号的假设，即省略块200。然后，在块210，如果在简单的执行两个帧(N_A(C)＝1)中的由类和时间决定的多个相邻帧是在接收器中，则记录项时间压缩子过程块240。时间相依是基于来自抖动缓冲器的实时统计。否则，在块220检查是否至少当前帧即帧(I)是在接收器中。如果是，则记录项正常子过程块250。如果不是这种情况，则或者抖动缓冲器处于下溢，分组迟了或者丢失。在开始处，帧(I-1)应该被扩展多次，以给帧(I)更多的机会出现，每次扩展都在块270中执行。在回放的情况下，在每次扩展被检查之后，同样在块270中检查是否帧(I)已经到达，否则在N_F(C)扩展后，在块230决定是否帧(I-1)应该和任何未来帧合并，包括该未来帧的头部分的可能的扩展，除了或作为可替换的扩展帧(I-1)。合并决定的结果导致合并子过程260或者扩展子过程270的呼叫。合并意味着帧(I)已经被认为丢失了，并且帧索引I增加依据在接收器中最近的未来帧确定的数目，即索引I增加一次或多次。从那个帧，过程被重复，并且总的过程流程从块260回到块200，其中还有其他具有增加的索引I的帧的分类被执行。或者，在块270的扩展导致在上一帧的末端输出与样值数目相关的信号，此后，总的过程流程回到块210，在此同时检查是否信号帧可用。

图5是对于信号帧的时间压缩的子过程流程图，参考图4的时间压缩子过程240。在块290中，该子过程使用依据类的阈值T(C)进行多个信号帧即帧(I)至帧(I+N_B(C))的时间压缩。如果时间压缩不满足阈值条件，时间压缩将导致信号帧的简单级联。在该说明书中将在随后进一步描述时间压缩。然后，在块300，所得的信号帧关于一增益被平滑地校正，该增益可以通过在较早的帧上的扩展或合并操作引入。随后，时间压缩的信号帧在块310输出，此后帧索引I在块320更新。输出操作意味着判定逻辑等待时间瞬间，该时间瞬间依赖于输出的样值数，但小于D/A转换器90花费来回放这些样值的时间。这是确保对于声音解码器70或130、150和定时恢复和丢失帧替代80具有非零处理次数(times)的连续回放。块330表示判定逻辑继续于图4中的新帧，即子过程流程返回图4中总的过程流程的块200。

图6是用于输出具有正常连续序列的信号帧的子过程流程图，在图4中将其称作所谓的正常子过程250。这个子过程250开始于使用子过程350平滑校正增益，该增益可能是由扩展或合并较早的帧操作而引入的。当进入正常子过程时，帧(I)总是在接收器中。通过选择参数，该子过程可以是帧(I)的简单的输出。然而在某些情况下让输出按如下方式依赖于在抖动缓冲器中的第二观察是有利的：在块360类C，检查在抖动缓冲器中准备好的在帧(I)后，相邻帧的数目N_C，以及抖动缓冲器统计。此后，依据提及的检查的参数，在块370，确定在帧(I)上进行时间扩展的数目N_D。然后，在块380检查是否该数目N_D大于0。如果不是，帧(I)不被扩展，而是直接由块410输出。如果是，帧(I)在块390扩展N_D次，并且在块400登记帧(I)的结束是否具有不同于1的增益。随后，在块410输出扩展帧。在块410之后，子过程流程继续到块420，在该块将帧索引加1。块430表示判定逻辑在图4中继续一新帧，即子过程流程回到在图4中总的过程流程的块200。关于扩展的更详细的说明将在本说明中稍后描述。

图7用于将信号帧扩展与未来的不相邻的信号帧进行合并的子过程流程图，在图4中被称作合并子过程260。在块450中输出的最后一帧具有索引I1，而在块460，在接收器中的下一个帧具有索引I2。然后，在块470中，使用图6的块390中相同的扩展步骤时间扩展(time expand)上一帧(I1)。或者，使用扩展步骤390，将时间扩展帧(I1)和帧(I2)。然后在块480中，扩展的帧(I1)与帧(I2)合并，帧(I2)可以如上所述进行扩展或不进行扩展。关于合并更详细的内容将在稍后描述。帧(I1)和帧(I2)的合并导致一合并的新帧(I2)，它具有不同于1的增益。新帧(I2)的增益在块490登记。然后在块500，输出合并的新帧(I2)，此后在块510索引I2加1。块520表示判定逻辑进行图4中的一新帧，即于过程流程回到图4的总过程流程的块200。

图8是用于扩展信号帧并输出获得的扩展的子过程流程图，在图4中称作扩展子过程270。首先，在块540中，检查我们是否等待第一信号帧(I)(当索引I等于1时扩展)。如果I等于1，在块570中输出零值样值的数目N_E，以便使信号帧到达。如果帧数目索引I表示至少一个帧已经到达，将发生随后情况：在块550，帧(I-1)被时间扩展，在块555，登记增益在帧(I-1)末端，该增益可以不同于1。在块556，如果执行相同帧的连续扩展，则引入衰减窗口，其理由是如果没有来自抖动缓冲器60的新信号帧到达，则在一段时间后，减弱信号。然后，在块560输出扩展的帧(I-1)。最后，块580表示判定逻辑继续在抖动缓冲器60中的新的观察，即子过程流程回到图4中的总过程流程的块210。

图9是用于校正在扩展或合并之后，信号帧的增益比例的子过程流程图，在图5和图6中称作校正增益比例子过程300。首先在块600，检查增益是否不同于为帧(I-1)登记的值1。如果是，帧(I)的样值乘以一系数，在帧(I)开始处的系数等于帧(I-1)末端的增益，并且帧(I)末端的系数等于1.0。对于帧(I)的中间(intermediate)样值，在这些系数值即开始和末端系数值之间，执行平滑插值。在块610执行描述的所谓帧(I)的平滑增益比例。子过程然后继续块620。如果块600检测没有登记增益不同于1.0的帧，则子过程直接继续到块620。对于长信号帧，即16ms或更大，校正增益比例子过程根据上述描述执行是有利的。然而，对于短信号帧，在多于一个信号帧的时间间隔期间让增益回到1.0是有利的。这可以通过改进的平滑功能和图9的改进的校正增益比例子过程实现，以便也用不同于1.0的系数乘以帧(I)末端的样值。

图10a显示了说明所要被时间扩展的信号帧的结尾部分的框图。结尾部分的、在由x标出的区域内的样值的最后数目，形成状态x，即所谓的真实状态。

在图10b中，在执行时间扩展后，图10a的帧的结尾部分被显示。真实状态x已经和所要扩展的帧中的不同状态比较，并且帧的状态y已经被找到，以提供与真实状态x匹配的信号的可接受的电平。当时间扩展帧时，与状态y有关、在图10b中由段y表示的段已经被用作扩展段，即帧的扩展段与段y相同。结果，当使用段y作为扩展段的时候，在从扩展段到随后的帧的过渡中没有不连续性。

图11a-11c是说明本发明的分数(fractional)分辨率的原理的框图。图11a显示了匹配状态将要被查找的真实状态，这个真实状态的样值T₁-T₄的信号电平可以在y轴上看见，即1、2、1、0。假设现在最匹配状态是图11b中显示的状态。当比较真实状态的样值T₁-T₄和最匹配状态的样值M₁-M₄时，具有信号电平，1，1，的信号匹配将远非完美，例如如果均方误差被用作在信号匹配上的度量。然而通过执行再取样，可以获得具有分数延迟的状态。在该再取样后，图11b的状态导致具有如图11c中所示样值序列的状态，即具有信号电平1、2、1、0的样值MF₁-MF₄。因此，在图11a中的真实状态的信号匹配和在图11c中的具有分数延迟的状态将提供完美的匹配。图12a和12b是举例说明两个信号帧的时间压缩的框图。在图12a中，给出了两个连续非压缩帧，帧(1)和帧(2)，或给出了帧(1)的结尾部分和帧(2)的头部分。已经在上面描述了判定基于的以压缩两个帧以及基于的确定压缩长度的标准。图12b显示了最后所得的压缩帧。如可以从图12a和12b中看见，长度t₁，包含从样值“a”的帧(1)的结尾部分和帧(2)的开头部分直到样值“b”，被时间压缩到长度t₂，即在图12b中的样值“a”和“b”之间的长度t₂小于图12a中的长度t₁。现在将描述总的过程执行的处理步骤的进一步的细节和参考图4-9描述的子过程，已经由图10-12说明的框图的有关细节。

根据本发明，组合的定时恢复和丢失帧替代尤其依靠信号帧的时间扩展。信号帧的时间扩展分别由在图6、7和8中的块390、470和550的判定逻辑执行。时间扩展也被需要作为图5的块290执行的时间压缩中的步骤，其方法将在稍后更详细说明。

在这些块中要求的时间扩展基本上是相同的。可以使用至少两种时间扩展的方法：通过使用改进的振荡器模型扩展信号帧，以及使用节距预测(pitchprediction)扩展信号帧。这些方法的共同处是它们导致具有依赖样值数目的信号的信号帧的时间扩展。除了已知的增益系数外，这些样值是那些在扩展的帧的末端的一些样值，最好是10个，将等于在未被扩展信号帧的末端的一组样值。假如在属于当前播放的信号帧的时间扩展部分的样值回放期间，下一个帧出现在接收器，这允许本发明的方法，借助对于下一帧的增益比例校正(图5和图6的块300)，以确保没有任何不连续的下一帧的回放的继续。

根据本发明的实施例，为了在组合的定时恢复和丢失帧替代的环境中执行时间扩展，适合于本发明的新振荡器模型如下定义：

存储在振荡器电码本的段都是所要扩展的信号帧的结尾段。在电码本中的状态和段数目依靠使用的分数延迟值的数目，即0、，，3/4样值。对于每个延迟值进行再次取样。第一(N_G-N_H)状态和其相应的段与第一分数延迟相关，下一(N_G-N_H)状态和其相应的段与下一分数延迟相关，等等。关于分数延迟的第一电码本的记录项保存对应的再次取样信号段的N_G个最后样值，第n个电码本记录项保存对应的再次取样的信号段的N_G+(n-1)个最后样值，并且最后电码本记录项存储对应的再次取样信号段的N_H个最后样值。对于语音信号，N_G优选取20个样值以及N_H优选是120个样值。当扩展信号帧的头部分时，也使用相应的方法，其中存储在电码本中的段是信号帧的头段。

电码本的每个段与具有N₁个样值的固定长度的状态相关，其中每个状态对应于电码本的一记录项。与第一段相关的状态包括信号帧的N_G+1至N_G+N_I个最后样值，并且通常，与第n个段相关的状态包括对应的再次取样信号帧的N_G+(n-1)+1至+N_G(n-1)+N_I个最后样值。对于语音信号，N_I优选是10。

在简单的应用中，再次取样(re-sampled)可以限制为0。然而，通过使用再次取样的方案，可以获得有分数延迟的段。为了避免在继续到下一帧时不连续，未来帧被以相同的分数(fraction)极少地再次取样。最初，再次取样大量未来帧以作为单独扩展过程的结果似乎是额外的计算负担。然而，随后将会解释，分数延迟还可以应用于时间压缩和合并过程。从所有的3个操作的改进性能证明维持极小地延迟的取样轨迹的计算负载是合理的，并且分数，例如，或，在某些应用中可能导致性能的改进，这证明增加的计算复杂性是合理的。

一种具有振荡器的替代方法总是选择其状态向量与信号帧的N_I个最后样值最匹配的段，使用均方误差度量，在将信号帧的N_I个最后样值与状态匹配前，将自由增益系数应用到电码本的状态上。如果在该操作后达到一匹配，匹配状态的段从振荡器电码本读出并且与增益相乘。如前参考上述子过程所示，信号帧的时间扩展部分的增益系数被登记。最好，只要导致增益系数小于1.0时，通过选择使用自由增益系数的匹配方法，否则通过选择不使用自由增益系数的匹配方法，即具有固定增益1.0，组合上述的状态匹配的两个可替换的方法。

信号帧的N_I个最后样值与电码本的状态向量的匹配通常不能导致完美的匹配。因此，在原始信号帧和其连续即其时间扩展部分之间将很可能引入信号的不连续。如上所述，当参考技术方法的状态，以前知道使用线性预测滤波以减少不连续。然而，根据本发明，将在随后解释对于线性预测滤波的计算起来更简单的替代。最终具有最优的增益系数的选择的状态向量是信号帧的N_I个最后样值的近似，扩展应该遵循它而无任何不连续。通过在N_I个信号的最后样值和匹配状态向量之间执行重叠相加过渡，完成到扩展的无不连续的过渡。尤其是在图3的实施例中，这种计算起来更简单的方法提供了对于线性预测滤波的有利的替换。

最好，在振荡器的段选择上施加限制：当重复时，振荡器被禁止选择相同的段在一行读出两次。这种抑制的原因在于为了避免由于扩展信号的引入的周期而导致的降级。或者，可以使用标准(classical)节距周期，或具有极小节距滞后(lag)的节距周期执行时间扩展，而不违反本发明的思想的范围。

根据本发明，通过合并扩展段和未来的信号帧完成了丢失帧替代，该步在图7的块480中执行。至少两个合并的方法可以被使用：通过使用最大相关匹配的重叠相加而合并，或通过振荡器模型而合并。这些方法的共同处在于它们执行未来信号帧和扩展段的时间校准，以最小化两者间转换的不连续性。这个时间校准可以具有是样值的分数分辨率。

在本发明中，m个样值上的两个段的重叠相加合并包括如下：

·将第一段的结尾m个样值乘以以值1.0开始，以值0.0结束的平滑窗口；

·将第二段的m个主要样值乘以平滑窗口，该平滑窗口定义为用1减去第一窗口；以及最后

·重叠两个段的有窗口的部分并将其相加。

最好，为此目的2m个样值汉宁(Hanning)窗的结尾和主要部分可以被应用。

重叠相加合并使用最大相关匹配。最大相关匹配改变重叠m并允许自由增益参数乘以第二段，以便两个重叠段的样值间的均方误差距离先于窗口操作被最小化。在扩展过程期间通过使用相同的再次取样方案，即使对于精度较小的重叠，最大相关匹配可以被最优化。

在最优化匹配中，自由增益系数的使用是任选的。如果使用自由增益系数，在块490它被登记，以便允许随后的帧进行合适的增益比例校正。

或者，在本发明的实施例中，通过使用振荡器模型执行合并。这个合并以等同于如上述提及的G.kubin和W.B.Kleijn文中的时间标度(time-scaling)小于1的方法被执行。当使用振荡器模型进行合并时，振荡器模型用对应于第二信号帧的电码本替代对应于第一信号帧的电码本。结果是匹配段之间的过渡的状态。振荡器模型还可以最好与分数节距和增益比例状态和信号段合作。用振荡器模型替代重叠相加最大相关匹配，用于执行合并过程，是一种可能的替代，它不违背本发明思想的范围。

根据本发明，反复地执行一串信号帧的时间压缩：每个重复将两个信号帧压缩成一个信号帧，具有两个信号帧和两个信号帧长度之和中最短的长度，最后所得的长度依赖于压缩的成功。使用当执行所述合并过程所使用的相同的处理步骤一样的步骤获得两个信号帧的压缩，除了只有当这个合并满足阈值时，压缩的信号帧经历合并。否则，如果这个阈值不满足，压缩两个信号帧的尝试导致组合的信号帧，它是两个信号帧的简单的级联。阈值的定义依赖于使用的合并方法。当使用振荡器模型时，该阈值是根据在状态匹配中的最小误差的最大值确定。当使用重叠相加最大相关匹配完成合并时，该阈值根据最大相关系数的最小值确定。

根据上述内容执行最大相关匹配。最好，对于有声语音段可以使用最大相关系数在0.7和0.9之间的阈值。针对语音信号的感觉，最好避免无声段的时间压缩。在所述的结构中，这可以通过对于这些信号帧大于1的最大相关系数的阈值实现。包含寂静的信号帧可以给一个0阈值。当时间压缩不同类依据的阈值的两个信号帧时，压缩的阈值总是两个阈值中较大的。

最好，检查这个阈值，以便避免当预先给定该阈值不能满足时，而且当它预先给定该阈值可以满足即使具有段的完全重叠时最大化。

最好，当抖动缓冲器接近上溢时，压缩的阈值被减小。这导致从抖动缓冲器的更快的读出。

像本领域的技术人员可以理解那样，本发明的方法可以很容易地使用微处理器来实施，例如数字信号处理器，微处理器操作在存储器上，例如RAM存储器。本发明方法使用的信号段存储在这个存储器上，并从该存储器检索出来。

尽管本发明是参照其特定的典型的实施例来描述的，但本领域的技术人员应该理解，可以对其进行各种改变、修改等。所述的实施例不是试图去限制本发明的范围，如所附权利要求中定义的。

Claims

1.一种处理在分组交换网络上以数据分组方式传输的数字化声音信号的方法，在通信系统中接收器端中操作的该方法被配置为用于将接收的声音数据分组解码成所要回放的声音信号帧，该方法包括通过在时变区间、以扩展或压缩的时变长度执行一个或多个信号帧的时间扩展或时间压缩，处理接收的信号帧的长度，所述区间和所述扩展或压缩的时变长度被确定为使得保持所要回放的信号样值的连续流。

2.如权利要求1所述方法，其中所述时变长度的每个单独的长度进一步依赖于执行信号匹配标准的要求，以至于所述单独的长度和所要处理的数字化声音信号部分的信号特性相匹配。

3.如权利要求1或2所述方法，其中对所接收的信号帧的长度的处理的分辨率是所述数字化声音信号的两个样值间时间的分数部分，因此当执行所述时间扩展或所述时间压缩时，能够改善信号匹配质量。

4.如权利要求1所述的方法，其中基于该判定在实时观察和来自抖动缓冲器的统计上进行时间扩展和时间压缩，其中，所述抖动缓冲器存储所接收的要被解码成为信号帧的数据分组。

5.如权利要求4所述方法，其中如果抖动缓冲器的监控表明缓冲器下溢状态，即数据分组后至或者一个或多个数据分组丢失，对于现在播放的信号帧的结尾部分执行时间扩展，其中，如果所述时间扩展未能把所述抖动缓冲器恢复到其正常工作状态，执行附加的重复扩展以把所述抖动缓冲器恢复到其正常工作状态。

6.如权利要求5所述方法，其中如果抖动缓冲器监控指示在正常情况应该跟随当前播放的信号帧的下一信号帧不存在或确实没有在应到的时间被接收，所述结尾部分的所述时间扩展将组成替代帧，因此为所述下一信号帧提供丢失帧替代，此后时间扩展的当前播放的信号帧与接收的未来信号帧合并，时间扩展的长度以及这种替代帧的长度选择成实现到所述未来信号帧的平滑过渡。

7.如权利要求6所述方法，其中所述时间扩展包括在合并两个帧之前，除了时间扩展所述当前播放的信号帧外，时间扩展所述未来信号帧的头部分，由此改善丢失帧替代。

8.如权利要求4所述方法，其中通过来自抖动缓冲器的实时统计触发时间压缩，并且当两个连续数据分组在抖动缓冲器中存在时，执行时间压缩，其中当合并两个帧时，两个相邻帧之间平滑过渡的度量控制作为结果的压缩信号帧的长度。

9.如权利要求8所述方法，其中由两个帧的所述合并产生的所述压缩的信号帧以与所述两个帧的所述合并同样方式与另一个相邻信号帧合并。

10.如权利要求8所述方法，其中两个信号帧的所述合并包括通过重叠相加合并两个信号段，其中所述两个信号段指的是一个帧的尾段和另一个帧的头段，其中使用具有开头段的帧的时移，用于最优化两个段的叠加部分的匹配。

11.如权利要求10所述方法，其中具有头段的帧的所述时移具有两个样值间时间的分数部分的分辨率。

12.如权利要求11所述方法，其中所述头段与合适的增益相乘，以进一步最优化在叠加部分的所述尾段的匹配，此后执行平滑过渡回到一致增益，以便避免声音信号的不连续。

13.如权利要求1所述的方法，其中当处理所述接收的信号帧的长度时，使用振荡器模型，用于提取使用的信号段，振荡器模型包括电码本，在所述电码本中样值的向量形成不同状态或记录项的电码本，该电码本存储每个状态相应的信号段。

14.如权利要求13所述方法，其中信号帧的所述时间扩展通过匹配真实状态而执行，即考虑中的信号帧的结尾部分具有所述电码本中的所述状态，以及从对应于已经与所述真实状态匹配的状态的所述电码本读出信号段。

15.如权利要求13所述方法，其中所述电码本的所述信号段具有可变长度，每个信号段形成信号帧的结尾部分，由此使得可以从时间扩展信号帧连续过渡到相邻信号帧。

16.如权利要求13所述的方法，其中在所述电码本中的所述状态间的时间延迟是具有两个样值间时间的分数部分的分辨率的增量延迟。

17.如权利要求14所述的方法，其中所述电码本中的所述状态和所述电码本的相应段是按比例的，以便改善与所述真实状态的匹配。

18.如权利要求14所述的方法，其中所述真实状态的合并是使用所述电码本的匹配状态来执行的。

19.如权利要求14所述的方法，其中所述时间扩展还包括执行与时间扩展信号帧相邻的信号帧的头部分的相应的操作。

20.如权利要求1所述的方法，其中所接收的一个信号帧的长度将要通过时间扩展或时间压缩来操纵，所述信号帧是起于数据分组的完全解码操作的声音信号帧，或者是起于数据分组的部分解码操作的中间时域信号帧。

21.用于从分组交换网络接收数字化声音信号的装置，该装置包括：

存储装置，用于存储接收的数字化声音信号的样值向量以及相应的信号段；和

处理器装置，包括一个控制器，所述控制器用于执行如权利要求1-20中任意一个所述的方法。