CN100593339C

CN100593339C - 在多层结构中有效压缩运动向量的方法和装置

Info

Publication number: CN100593339C
Application number: CN200580017471A
Authority: CN
Inventors: 河昊振; 车尚昌; 韩宇镇
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-03-31
Filing date: 2005-03-23
Publication date: 2010-03-03
Anticipated expiration: 2025-03-23
Also published as: US20120039387A1; US8559520B2; US20050220190A1; US8040950B2; KR20050096790A; KR100631777B1; CN1961582A

Abstract

公开了一种用于提升运动向量的压缩效率的方法和装置，其通过利用在采用多层结构的视频编码方法中的基层的运动向量有效地预测增强层的运动向量而实现。运动向量压缩装置包括：下采样模块，用于对原始帧进行下采样，以便具有在每层中帧的大小；运动向量搜索模块，用于获得对于下采样的帧最小化误差或成本函数的运动向量；参考向量生成模块，用于利用对应于在预定增强层中的预定块的较低层的块、以及在该块周围的块中的运动向量来生成在预定增强层中的参考运动向量；以及运动差模块，用于计算在所获得的运动向量和所述参考运动向量之间的差。

Description

在多层结构中有效压缩运动向量的方法和装置

技术领域

本发明涉及一种视频压缩方法，特别涉及一种方法和装置，其通过利用在采用多层结构的视频编码方法中的基层运动向量来有效地预测增强层的运动向量，以提升运动向量(MV)压缩效率。

背景技术

随着包括因特网的信息和通信技术的发展，图像通信以及文本和语音通信已经越来越多。现有的基于文本的通信方法不能满足客户的各种需求。因此，多媒体服务就越来越多，这种服务能够提供各种类型的信息，如文本、图像、或声音。而且，由于多媒体数据的量很大，对于这样的数据需要大容量的存储介质和较宽的传输带宽。因此，为了传输包括文本、图像和音频的多媒体数据，需要使用压缩编码方法。

压缩数据的基本原理是消除数据冗余(redundancy of data)。也就是，可以通过消除诸如图像中相同颜色或对象的重复的空间冗余、诸如动态帧中无变化的相邻帧或音频中相同声音的连续重复的时间冗余、或者考虑到高频对人的视觉和感觉难以察觉的可视冗余来压缩数据。

当前，大多数视频编码标准是基于运动补偿预测编码方法。也就是，通过基于运动补偿的时间过滤(temporal filtering)来消除时间冗余，以及通过空间变换来消除空间冗余。

为了传输在消除数据冗余之后生成的多媒体数据，需要传输介质。这里，传输性能根据传输介质而变化。当前使用的传输介质具有各种传输速度，从能够以每秒几十兆字节(Mbytes)的速度传输数据的超高速通信网络到具有每秒384千位(kbits)的传输速度的移动通信网络。

在这种环境下，为了支持具有各种传输速度的传输介质，或者为了以适合传输环境的传输速率来传输多媒体数据，具有可扩缩性(scalability)的数据编码方法就更加合适。

这种可扩缩性是这样一种编码方案，其允许解码器或预解码器根据诸如位速率、误差率、或系统资源等条件对一个压缩位流(bit stream)执行空间解码。该解码器或预解码器能够提取用具有这种可扩缩性的编码方法编码的一部分位流，并恢复具有不同画面质量、分辨率、或帧速率的多媒体序列(sequence)。

同时，对于可扩缩(scalable)视频编码的标准化工作正在由移动图像专家组-21(MPEG-21)part-13进行当中，而在空间转换方法中的基于小波(wavelet)的方案也被认为是一种强大的方法。此外，Philips，Co.，Ltd的公布专利申请(美国公布号2003/0202599A1)所提出的一种技术也得到了相当的关注。

此外，即使一种编码方案不使用诸如传统MPEG 4或H.264的基于小波的压缩方法，其也能够通过采用多层结构(multi-layer structure)来实现空间和时间上的可扩缩性。

实施为单层(single layer)的可扩缩视频具有之集中在单层上的可扩缩特征。相反，在采用多层结构的可扩缩性中，该可扩缩性能够被设计来针对每一层获得最佳的性能。例如，当以基层、第一增强层和第二增强层来形成一个多层结构时，可以根据1/4公共中间格式(quarter common intermediateformat)(以下称为QCIF)、公共中间格式(以下称为CIF)或2CIF来相互区别所述层。而且，可以在每一层中实现SNR可扩缩性和时间可扩缩性。

但是，由于每一层都具有运动向量(MV)来消除时间冗余性，与一层结构相比具有相当地增加的运动向量的位预算(bit budget)。因此，在每一层所使用的运动向量的数量占据了(takes)分配给整个压缩的位预算的很大一部分。也就是，有效地消除每一层的运动向量的冗余性对于视频的整体质量具有很大的影响。

图1是表示使用多层结构的可扩缩视频编解码器的一个示例的视图。首先，基层定义为QCIF、15Hz(帧速率)，第一增强层定义为CIF、30Hz，而第二增强层定义为标准定义(standard definition，SD)，60Hz。当需要CIF 0.5M流(stream)时，在的第一增强层的CIF_30Hz_0.7M中只由0.5M控制SNR。这样，能够实现空间可扩缩性、时间可扩缩性和SNR可扩缩性。如图1所示，由于运动向量的数量增加，并且因此出现了与采用一个层的现有可扩缩性的开销的大约两倍的开销，所以通过基层的运动预测就十分重要。

然而，在多层结构中传统的通过基层的运动预测采用压缩在每层中获得的运动向量的差的方法。以下，将参考图2说明该传统方法。在具有低位速率的视频传输中，当相对于运动向量、执行运动预测的可变块的大小和位置、以及根据这样的可变块确定的关于运动预测的信息(以下称为运动信息)等保存了位(a bit)时，并且这个保存的位被分配给纹理(texture)信息，可以提高画面质量。因此，当在运动预测之后也将运动信息分层，并且传输分层的信息，可以提高画面质量。

在利用可变块大小的运动预测中，16×16的宏块(macroblock)可以被用作预测的基础单元。这里，每个宏块可以由16×16、16×8、8×16、8×8、8×4、4×8以及4×4的组合构成。而且，根据各种像素精度(pixel accuracy)获得相应的运动向量，诸如1像素精度、1/2像素精度、或1/4像素精度。这样的运动向量可以被分层并根据以下步骤实现。

第一，根据1像素精度执行16×16块大小的运动搜索。所生成的运动向量成为运动向量的基层。图2示出在基层中宏块的运动向量1。

第二，根据1/2像素精度执行16×16块大小和8×8块大小的运动搜索。在通过运动搜索而搜索到的运动向量与基层的运动向量之间的差就是第一增强层的运动向量差，并且这个值然后被传输给解码器。如图2所示的运动向量11到14是通过确定在第一增强层中的可变块大小，以及找到所确定的块大小的运动向量而获得的。然而，实际传输的值是通过从运动向量11到14中减去基层的运动向量1而获得的差。也就是，参考图3，第一增强层的运动向量差成为向量15到18。

第三，根据1/4像素精度执行所有子块大小的运动搜索。在通过将基层的运动向量1和第一增强层的运动向量差相加而获得的值与通过运动搜索而搜索到的运动向量之间的差称为第二增强层的运动向量差，并且传输这个值。例如，在宏块A中的运动向量差是通过从差向量142中减去差向量14而获得的，并且这个值等于通过从差向量142中减去差向量18与差向量1的和而获得的值。

最后，分别编码三个层的运动信息。

如图2所示，原始运动向量被划分为三个层的向量。如上所述，具有运动向量的帧被划分为基层和增强层的帧。因此，如图1所示，整个运动向量信息被组织为组。这样，基层成为具有最高优先级的运动向量信息，并且它也是最有必要传输的成分。

因此，基层的位速率必须小于或等于网络所支持的最小带宽，并且全部基层和增强层的传输位速率必须小于或等于网络所支持的最大带宽。

为了确保较宽范围的空间分辨率和位速率，当采用前述方法时，根据空间分辨率确定适当的向量精度，由此实现运动信息的可扩缩性。

如上所述，为了有效地压缩增强向量的运动向量，利用基层的运动向量来执行运动预测。由于这个预测是用于减少用在运动向量中的位的重要因素，因此对压缩性能有重要的影响。

然而，传统方法没有利用在相邻运动向量的相关性，只是简单地获得与较低层的运动向量的差，并编码所获得的差。因此，预测执行的不好，并且增强层中的运动向量的这种差增加，由此对压缩性能产生负面影响。

发明内容

因此，由于在现有技术中出现的上述问题而做出了本发明，本发明的目的在于提供一种从基层的运动向量中有效预测增强层的运动向量的方法。

本发明的另一个目的在于提供一种当预测了增强层的运动向量时，不仅考虑相应的运动向量，还考虑在基层中该运动向量周围的运动向量的方法。

为了实现上述目的，根据本发明的一个方面，提供了一种用在支持多层结构的运动向量的视频编码器中的运动向量压缩装置，该运动向量压缩装置包括：下采样模块，用于对原始帧进行下采样，以便具有在每层中帧的大小；运动向量搜索模块，用于获得对于下采样的帧最小化误差或成本函数(costfunction)的运动向量；参考向量生成模块，用于利用对应于在预定增强层中的预定块的较低层的块、以及在该块周围的块中的运动向量来生成在预定增强层中的参考运动向量；运动差模块，用于计算在所获得的运动向量和参考运动向量之间的差。

最好但不是必须的，该运动向量压缩装置还包括过滤器模块，用于提供将应用到用于生成参考运动向量的内插(interpolation)处理的预定过滤器。

最好但不是必须的，该参考运动向量是通过指定具有与预定块的区域相关性的块作为较低层的参考块、并利用该预定过滤器内插参考块来生成的。

最好但不是必须的，通过与区域相关性成比例地将不同的反射比率(reflection ratio)施加到参考块来执行所述内插。

最好但不是必须的，该参考运动向量是通过以下方式生成的：指定具有与固定大小的块的区域相关性的块作为较低层的参考块，利用预定过滤器内插参考块，获得临时参考运动向量，以及利用预定过滤器下采样包含在通过成本函数的应用具有固定大小的块中发生合并(merging)的块中的临时参考运动向量。

为了实现上述目的，根据本发明一个方面，提供了一种支持多层结构的运动向量的视频编码器，该视频编码器包括：运动向量压缩模块，用于获得对于在每层中的帧的运动向量，获得在多层结构的预定增强层中的参考运动向量，以及计算所获得的运动向量和参考运动向量之间的差；时间过滤模块，用于利用所获得的运动向量在时间轴方向上过滤帧，由此减少时间冗余；空间转换模块，用于对消除了时间冗余的帧施加空间转换，以便消除空间冗余，并因此生成转换系数；以及量化模块，用于量化所生成的转换系数。

最好但不是必须的，所述空间转换使用离散余弦变换和小波变换之一。

最好但不是必须的，所述视频编码器还包括熵(entropy)编码模块，用于无损地编码所量化的所述转换系数、所述运动向量中的基层的运动向量、以及所述差，并且输出输出的位流。

最好但不是必须的，所述运动向量压缩模块包括：下采样模块，用于下采样原始帧，以便具有每层中帧的大小；运动向量搜索模块，用于获得对于下采样的帧最小化误差或成本函数的运动向量；参考向量生成模块，用于利用对应于在多层结构的预定增强层中的预定块的较低层中的块、以及在该块周围的块中的运动向量来生成在预定增强层中的参考运动向量；过滤器模块，用于提供将要应用到用于生成参考运动向量的内插处理的预定过滤器；以及运动差模块，用于计算在所获得的运动向量和参考运动向量之间的差。

为了实现上述目的，根据本发明的一个方面，提供了一种支持多层结构的运动向量的视频解码器，该视频解码器包括：熵解码模块，用于分析(analyzing)输入的位流以提取纹理信息和运动信息；运动向量恢复模块，用于分析所提取的运动信息以计算相对于预定增强层的参考运动向量，相加(adding)包含在运动信息中的运动差和所计算的参考运动向量，并因此恢复运动向量；反向(inverse)量化模块，用于对纹理信息执行反向量化以输出转换系数；反向空间转换模块，用于执行反向空间转换，将转换系数变换为空间域的转换系数；以及反向时间过滤模块，用于利用所恢复的运动向量对转换系数执行反向时间过滤，由此恢复组成视频序列的帧。

在视频解码器中，运动向量恢复模块包括：参考向量计算模块，用于利用对应于在预定增强层中的预定块的较低层的块、以及在该块周围的块中的运动向量生成在预定增强层中的参考运动向量；过滤器模块，用于提供应用到用于生成参考运动向量的内插处理的预定过滤器；以及运动相加模块，用于相加所获得的参考运动向量和运动向量差，并因此生成运动向量。

为了实现上述目的，根据本发明的一个方面，提供了一种用于压缩多层结构的运动向量的方法，该方法包括以下步骤：对原始帧进行下采样，以便具有基层中帧的大小，并获得用于基层的运动向量；当需要时对原始帧进行下采样，并获得用于增强层的运动向量；利用对应于在增强层中的预定块的基层的块、以及在该块周围的块中的运动向量生成在增强层中的参考运动向量；以及计算在所获得的运动向量和参考运动向量之间的差。

为了实现上述目的，根据本发明的一个方面，提供了一种多层视频编码方法，包括以下步骤：a)利用基层的运动向量获得增强层中的参考运动向量，并计算在增强层的运动向量和参考运动向量之间的差；b)利用所获得的运动向量在时间轴方向上过滤帧，由此减少时间冗余；c)对消除了时间冗余的帧施加空间转换，以便消除空间冗余，由此生成转换系数；以及d)量化所生成的转换系数。

最好但不是必须的，多层视频编码方法还包括无损地编码所量化的所述转换系数、所述基层的运动向量、以及所述差，由此输出输出的位流的步骤。

在多层视频编码方法中，步骤a)可以包括以下子步骤：对原始帧进行下采样，以便具有每层中帧的大小；获得对于下采样的帧最小化误差或成本函数的运动向量；利用对应于在增强层中的预定块的基层中的块、以及在该块周围的块中的运动向量来生成在增强层中的参考运动向量；计算在所获得的增强层中的运动向量和参考运动向量之间的差。

为了实现上述目的，根据本发明的一个方面，提供了一种多层视频解码方法，包括以下步骤：a)分析输入的位流以提取纹理信息和运动信息；b)分析所提取的运动信息以计算相对于预定增强层的参考运动向量，相加包含在运动信息中的运动差和所计算的参考运动向量，由此恢复运动向量；c)对纹理信息执行反向量化以输出转换系数；d)执行反向空间转换，将转换系数变换为空间域的转换系数；以及e)利用所恢复的运动向量对转换系数执行反向时间过滤，由此恢复组成视频序列的帧。

在多层视频解码方法中，步骤b)可以包括以下子步骤：利用对应于在预定增强层中的预定块的基层的块、以及在该块周围的块中的运动向量生成在预定增强层中的参考运动向量；以及相加所获得的参考运动向量和运动向量差，由此生成运动向量。

附图说明

通过下面参考附图的详细说明，本发明的上述和其它目的、特征和优点将更加清楚，其中：

图1是示出利用多层结构的可缩放视频编解码器的一个例子的视图；

图2是说明用在获得多层运动向量中使用的原理的视图；

图3是示出在图2中的第一增强层的例子的视图；

图4是示出视频/图像编码系统的整体结构的框图；

图5是示出根据本发明的编码器的结构的框图；

图6是示出运动向量压缩向量的结构的框图；

图7是说明运动向量压缩向量的操作的流程图；

图8是说明其中固定块大小和可变块大小被用于第一增强层的情况的视图；

图9是示出在运动向量、参考帧和运动向量差之间的关系的视图；

图10是说明根据本发明的第一实施例和第二实施例的视图；

图11是说明根据本发明的第三实施例的视图；

图12是示出根据本发明的实施例的解码器的结构的框图；

图13是示出示例的向量恢复模块的结构的框图；

图14是说明向量恢复模块的操作的流程图；

图15是示意地示出了位流的整体结构的视图；

图16是示出每个GOP字段的详细结构的视图；以及

图17是示出MV字段的详细结构的视图。

具体实施方式

以下，将参考附图详细说明本发明的实施例。

通过对结合附图的实施例的详细描述，本发明的优点和特征、及其实现方法对本领域技术人员来讲将更加清楚。然而，本发明的范围并不局限于说明书中所公开的实施例，并且本发明也可以以各种其他形式来实现。所描述的这些实施例仅仅是为了完整公开本发明以及帮助本领域的技术人员完全地理解本发明的范围而展示的，而本发明只由权利要求书的范围来定义。此外，在说明书和附图中相同的参考标号被用来指代相同的元件。

以下，将参考图4描述视频/图像编码系统的整体结构。首先，编码器100对输入的视频/图像10进行编码，以生成位流20。而且，预解码器200采用与解码器300的通信环境或者在解码器300端的考虑到设备性能等条件(例如，位速率、分辨率、帧速率)作为提取条件，切分(slice)从编码器100接收的位流20，并且能够提取各种位流25。

解码器300从所提取的位流25恢复输出视频/图像30。在这里，根据提取条件，所述位流并不总是由预解码器200提取的，而是可以由解码器300来提取。此外，预解码器200和解码器300也可以都提取位流。

图5是示出视频/图像编码系统的编码器的结构的框图。编码器100可以包括分段模块110、运动向量压缩模块120、时间过滤模块130、空间转换模块140、量化模块150、以及熵(entropy)编码模块160。

首先，输入视频10被分段模块110划分为画面组(group of pictures)(以下称为GOP)，即，编码的基础单元。

运动向量压缩模块120提取输入的GOP，对GOP中存在的帧进行下采样，以获得每层中的运动向量，获得在预定增强层中的参考运动向量，并计算在所获得的运动向量和参考运动向量之间的差。

如图6所示，运动向量压缩模块120可以包括下采样模块121、运动向量搜索模块122、参考向量生成模块123、过滤器模块124、以及运动差模块125。

下采样模块121对原始帧进行下采样以具有每层中帧的大小。

而且，运动向量搜索模块122获得运动向量，在该运动向量中或是在下采样的帧和在时间过滤的过程中比较的帧之间的像素值的差(以下称为误差)被最小化，或是成本函数被最小化。该成本函数将参考稍后描述的公式1来说明。

参考向量生成模块123利用对应于在预定增强层中的预定块的较低层的块、以及在该块周围的块中的运动向量来生成在预定增强层中的参考运动向量。

过滤器模块124提供了将要应用到用于生成参考运动向量的内插处理的预定过滤器，而运动差模块125计算在所获得的运动向量和参考运动向量之间的差。

以下将参考图7详细描述运动向量压缩模块120的操作。

首先，运动向量压缩模块120利用下采样模块121下采样原始帧到基层(S10)。当多层结构包括基层和两个增强层，第二增强层被设置为具有与原始帧相同的分辨率，第一增强层被设置为具有对应于该分辨率的1/2的分辨率，而基层被设置为具有对应于分辨率的1/4的分辨率。在这里，下采样展示了这样一个处理，通过该处理各个像素被组合成一个像素，并且由过滤器模块124提供的预定过滤器被用在该处理中。预定购滤器可以包括平均过滤器、中值过滤器、双库比特(bi-cubit)过滤器、二次(quadratic)过滤器等。

接下来，运动向量压缩模块120搜索下采样的帧的运动向量，即，基层的运动向量MV₀(S20)。通常，在用于搜索运动向量的方法中，当前图像被划分为具有预定像素大小的宏块，比较当前帧的宏块与其它帧到预定像素精度(1像素或低于1像素的精度)，并且具有最小误差的向量被选择为相应宏块的运动向量。在这里，运动向量的搜索范围可以提前用参数指定。当搜索范围很窄时，减少搜索时间。而且，当搜索范围中存在运动向量时，搜索显示较好的性能。然而，当图像的运动太快并且图像脱离了搜索范围时，则预测的精度降低。因此，必须根据图像的特性适当地确定搜索范围。而且，由于本发明在基层中的运动向量对在另一层中的运动向量的搜索的精度和效率有影响，所以对基层的运动向量进行全区域搜索。

同时，除了如上所述使用具有固定大小的宏块的运动预测方法以外，还有使用具有可变大小的块的方法。在稍后描述的步骤S50的说明中将详细描述使用可变块大小的方法。

这里，利用可变块大小，即使对基层也可以执行运动向量搜索。然而，在本发明中，根据实施例，固定块大小用于基层，而固定块大小或可变块大小用于增强层。增强层基于基层，并且在基层中的误差会在增强层中累积。因此，由于需要对基层执行精确搜索，所以在基层中对具有预定的固定大小(例如，4×4；以下称为基础大小)的块搜索运动向量。

在运动向量压缩模块120通过如上所述的处理搜索了基层的运动向量之后(S20)，运动向量压缩模块120下采样原始帧到第一增强层(S30)，并搜索第一增强层的运动向量MV₁(S40)。在搜索第一增强层的运动向量中，如图8所示有两种方法：使用固定块大小的方法和使用可变块大小的方法。首先，当使用固定块大小时，基础大小可以被完整地使用。因此，基层中的一个块对应于第一增强层中的四个块。

而且，当使用可变块大小时，可变块大小包括基础大小，并且根据其中最小化成本函数的条件来确定。在这里，在四个块之间可能会发生合并(merging)，也可能在四个块之间没有合并的发生。因此，可变块可以包括如图10所述的四个块，诸如具有基础大小的块g1、水平合并块f1、垂直合并块g2、以及双向合并块k1。

以这种方式，通过成本函数来确定块的大小。而且，成本函数可以用以下公式来表达。

i＝E+λ×R

上述公式被用在确定可变块的大小。在公式中，E表示用在编码帧差中的位数，而R表示用在编码预测的运动向量中的位数。

在执行一定区域的运动预测中，从具有基础大小的块、水平合并块、垂直合并块、以及双向合并块中选择能够最小化成本函数的块。实际上，块大小的确定和根据相应块大小的运动向量的确定并不是分开执行的。也就是，在允许最小化成本函数的过程中，块大小与根据块大小的运动向量的成分被一起确定。

同时，在第一增强层的运动向量的搜索中，在基层中找到的运动向量和该运动向量周围的区域被用作搜索区域，然后执行运动向量搜索。从而，当与在基层中执行的相比较时，可以执行更有效的搜索。

接着，运动向量压缩模块120利用基层运动向量MV₀和关于该运动向量MV₀周围的运动向量的信息生成第一增强层的参考运动向量MV_0r(S50)。

为了帮助对本发明的理解，图9示出了在每层中的运动向量之间的相关性、用于获得差的参考帧、以及存储在每层中的运动向量差。基本上，运动向量压缩模块120从较低层获得运动向量MV₀，利用预定内插方法生成虚拟(virtual)参考运动向量MV_0r，计算在第一层的运动向量MV₁和参考运动向量MV_0r之间的差D₁，并存储该差D₁(S60)。

如上所述相同的方式也被应用到第二层。也就是，运动向量压缩模块120搜索第二增强层的运动向量MV₂(S70)，参考第一增强层的运动向量MV₁和该运动向量(MV₁)周围的运动向量生成参考运动向量MV_1r(S80)。而且，运动向量压缩模块120计算在运动向量(MV₂)和参考运动向量(MV_1r)之间的差D₂，并存储该差D₂(S90)。

参考图9，当使用预定内插方法时，运动向量(MV₀)和运动向量(MV₁)分别移动向量21和向量23(by a vector 21and vector 23)。在这里，在现有技术中，存储运动向量和较低层的运动向量之间的差，即，存储第一增强层中的向量22和第二增强层中的向量24。但是，根据本发明，存储差D₁和D₂，所以减少运动向量所需的位预算。

为了所述减少，首先，必须通过读取基层的运动信息而没有分离的附加信息来执行用于生成参考运动向量MV_0r和MV_1r的过程。其次，参考运动向量必须被设置为具有相当接近于当前层的运动向量的值。

以下，将参考图10和11描述利用预定内插方法生成虚拟参考运动向量的步骤(S50)。为了生成虚拟参考运动向量，本发明采用了获得对于固定块大小的参考运动向量的第一方法(以下称为第一实施例)，以及获得对于固定块大小的参考运动向量然后使用所获得的对于固定块大小的参考运动向量、利用内插获得对于其中发生合并的块的参考运动向量的第二方法(以下称为第二实施例)。此外，还有只利用基层的运动向量获得对于其中发生合并的块的参考运动向量的第三方法(以下称为第三实施例)。

用于获得这种参考运动向量的固定块或可变块的大小等于在图7中通过步骤S40和S70所获得的大小，并且参考向量的数量也等于在图7中通过步骤S40和S70所获得的数量。

以下，将参考图10描述用于获得对于固定块大小的参考运动向量的第一实施例。首先，基层中的一个块对应于第一增强层中的四个固定块。例如，块f对应包括块f5到f8的区域。为了使用用于获得参考运动向量的预定内插方法，必须确定基层中要参考的块(以下称为参考块)的范围。而且，当需要时还必须确定参考块的反射比率。

例如，块f5的参考运动向量指定块b、e和f作为基层的参考块，因为块f5占据了(occupies)从区域观点上对应块f的区域中左上部分的1/4，并且与基层中的块b、e和f具有相当的区域相关性。如上所述，在确定了参考块的范围之后，对该范围应用过滤器，并执行内插。这个过滤器由过滤器模块124提供，并且该过滤器可以包括平均过滤器、中值过滤器、双库(bi-cubit)比特过滤器、二次(quadratic)过滤器等。例如，当使用平均过滤器时，通过将块b、e和f的运动向量互相相加并将运动向量的总合划分为1/3(dividing thesum of motion vectors by 1/3)来获得块f5的参考运动向量MVf5。

而且，参考块的范围可以包括块a以及块b、e和f，并且每个块的反射比率都互相不同。例如，块b的反射比率为25％，块e的反射比率为25％，块a的反射比率为10％，而块f的反射比率为40％。此外，本领域技术人员很清楚可以由各种方法来指定参考块的区域。例如，参考块的区域可以指定为不仅包括与该参考块相邻的块，还包括离该参考块一个块的间隔的每个块。

以如上所述相同的方式，块f8的参考运动向量可以指定块f、g和j(或者块f、g、j和k)作为基层的参考块。

以下，将参考图10描述用于获得对于可变块大小的参考运动向量的第二实施例。首先，利用关于从第一实施例获得的参考运动向量的信息，可以获得合并块，诸如块f1、块f2、或块k1。相反，通过从第一实施例获得的方法提前确定其中没有发生合并的块g1。

通过将过滤器应用到已经计算的块f5的参考运动向量MV_f5和块f6的参考运动向量MV_f6来计算块f1中的参考运动向量MV_f1。例如，当使用平均过滤器时，参考运动向量MV_f1具有参考运动向量MV_f5和参考运动向量MV_f6的平均值。在这里，用于代替平均过滤器或者除了平均过滤器以外，还可以使用其它的过滤器。

通过将过滤器应用到已经计算的块g6的参考运动向量MV_g6和块g8的参考运动向量MV_g8来计算块g2中的参考运动向量MV_g2。而且，通过将过滤器应用到已经计算的块k5到k8的参考运动向量来计算块k1中的MV_k1。

因此，类似获得对于块g1、f1、g2和k1的参考运动向量的方法，可以获得对于所有剩余的可变块的参考运动向量。

以下，将参考图11描述本发明的第三实施例。第三实施例涉及使用可变块大小的运动向量搜索方法，以及从基层的运动信息获得关于可变块的信息。

在运动向量搜索方法中，具有与固定大小的块的区域相关性的块被指定为基层的参考块，并利用预定过滤器对参考块进行内插，由此获得临时参考运动向量。然后，利用预定过滤器对在具有固定大小的块中、根据成本函数包括在合并块中的临时参考运动向量进行下采样。

具体来讲，参考运动向量(以下成为临时参考运动向量)是在图10描述中的通过使用固定块大小的方法而获得的。

接下来，对与在具有可变大小的块中发生合并的块相对应的临时参考运动向量进行下采样，由此获得对于其中发生合并的块的参考运动向量。

由于在块g1中没有发生合并，因此相应的临时参考运动向量成为参考运动向量。

由于从区域观点上块f1的参考运动向量MV_f1占据了对应块f的区域中的上半部，具有区域相关性的块b、e、f和g被指定为基层的参考块，并将过滤器应用到参考块。即使在这种情况下，也可以采用不同的反射比率。例如，块b的反射比率为30％，块e的反射比率为15％，块f的反射比率为40％，而块g的反射比率为15％。

以如上所述相同的方式，由于从区域观点上块g2中的参考运动向量MV_g2占据了对应块g的区域中的右半部，具有区域相关性的块c、g、h和k被指定为基层的参考块，并将过滤器应用到参考块。

而且，由于从区域观点上块k1中的参考运动向量MV_k1占据了对应块k的整个区域，具有区域相关性的块c、f、g、h和k被指定为基层的块，并将过滤器应用到参考块。

在通过如上所述的图10或图11的处理获得参考运动向量的过程中，当在编码器100和解码器300之间已经确定了用于指定参考块的方法(当反射比率单独存在时，含有比率)和将要使用的过滤器时，通过读取基层的运动信息可以简单地执行编码器100生成参考运动向量的处理和解码器300计算参考运动向量的处理。因此，不需要编码器100将单独的附加信息传输给解码器300。

而且，在较低层中的运动向量示出了对于在较高层中的运动向量的显著区别。但是，当使用在本发明中的运动向量的空间相关性时，可以显著地减少所述差。

同时，在生成参考运动向量之后(S50)，运动向量压缩模块120从第一增强层的运动向量MV₁减去第一增强层的参考运动向量MV_0r，以获得在第一增强层中的运动向量差，并存储该运动向量差(S60)。

再次参考图5，时间过滤模块130利用由运动向量压缩模块120获得的运动向量在时间轴方向上将帧划分为低频帧和高频帧，由此减少时间冗余。在这里，时间过滤方法可以包括运动补偿时间过滤(MCTF)、无约束MCTF(UMCTF)等。

空间转换模块140对所述帧应用离散余弦变换(DCT)或小波变换，从中由时间过滤模块130消除时间冗余，由此来消除空间冗余。在这里，通过这样的空间转换获得的系数被称为转换系数。

量化模块150对空间转换模块140获得的转换系数进行量化。在这里，在量化中，转换系数不由随机实数值(real value)来表达，丢弃了转换系数的预定数量的数字(ciphers)，以便转换系数具有离散值，具有离散值的转换系数与预定指数(index)相匹配。具体来讲，当在空间转换中使用小波变换时，常常用到嵌入的量化。这样的嵌入的量化包括嵌入零树小波算法(embedded zerotrees wavelet，EZW)、层级树中的集合划分(set partitioning inhierarchical trees，SPIHT)、嵌入零块编码(embedded zeroblock coding，EZBC)等。

最后，熵编码模块160无损地编码由量化模块150量化的转换系数，以及通过运动向量压缩模块120生成的运动信息，并输出输出位流20。

图12是示出了视频编码系统的解码器的结构的框图。

解码器300可以包括熵解码模块310、反向量化模块320、反向空间转换模块330、反向时间过滤模块340和运动向量恢复模块350。

首先，熵解码模块310是用于执行与熵编码反向的功能的模块，并分析输入的位流20，以便从位流20中提取纹理信息(编码的帧数据)和运动信息。

运动向量恢复模块350分析由熵解码模块310提取的运动信息，计算对于预定增强层的参考运动向量，并相加包含在运动信息中的运动差和所计算的参考运动向量，由此恢复运动向量。

以下，将参考图13详细描述运动向量恢复模块350的结构。运动向量恢复模块350包括参考向量计算模块351、过滤器模块352和运动相加模块353。

参考向量计算模块351利用对应于在预定增强层中的预定块的较低层的块，以及在该块周围的块中的运动向量生成在预定增强层中的参考运动向量。

过滤器模块352提供应用到用于生成参考运动向量的内插处理的预定过滤器。而且，运动相加模块353相加所获得的参考运动向量和运动向量差，由此生成运动向量。

以下，将参考图14详细描述运动向量恢复模块350的操作。首先，运动向量恢复模块350从所提取的运动信息中读取基层的运动向量MV₀和块大小信息(S110)。当运动向量恢复模块350想要(intends to)恢复基层的序列时(S120)，则过程结束。在这里，由于编码器100使得基层的块具有固定大小，所以所有的块都具有相同的块大小信息。

相反，当运动向量恢复模块350不想要恢复基层的序列时，运动向量恢复模块350从所提取的运动信息中读取第一增强层的运动向量的差D1和块大小信息(S130)。当使用可变块时，由于块的大小可以根据每个运动向量差D1而改变，所以运动向量恢复模块350根据运动向量差D1读取块的大小。

然后，运动向量恢复模块350利用基层的运动向量MV₀计算第一增强层的参考运动向量MV_0r(S140)。这个用于计算参考运动向量的过程等于编码器100生成参考运动向量的过程(图7中的S50)。这里，通过参考块的范围、参考块的反射比率、要使用的过滤器的种类、以及在编码器100和解码器300之间安排的方法来执行所述处理。而且，编码器100将含有关于这样的安排的信息的预定保留的位传输给已经从编码器100或预解码器200接收到位流的解码器300，读取该信息以理解所述安排。这里，编码器100和解码器300必须预先知道含有关于该安排的信息的位。

如上所述，在计算参考运动向量MV_0r中，由于解码器300只须读取必要地包含在位流中的基层的运动信息，所以就不需要编码器100将参考运动向量装载到位流上，并将位流发送给解码器300。

然后，运动向量恢复模块350相加第一增强层的参考运动向量MV_0r和第一增强层的运动向量差D1，并计算第一增强层的运动向量MV₁(S150)。通过这些处理，运动向量MV₁被完全地恢复。接下来，当运动向量恢复模块350想要恢复第一增强层的系列时(S160)，过程结束，并将恢复的运动向量MV₁提供给反向时间过滤模块340。

相反，当运动向量恢复模块350不想要恢复第一增强层的序列时，运动向量恢复模块350读取第二增强层的运动向量差D2和块大小信息(S170)。当使用可变块时，由于块大小可以根据每个运动向量差D2而改变，所以运动向量恢复模块350根据运动向量差D2读取块大小。

然后，运动向量恢复模块350利用第一增强层的运动向量MV₁计算第一增强层的参考运动向量MV_1r(S180)。本领域技术人员很清楚这一过程可以通过类似S140的处理来执行。

接下来，运动向量恢复模块350相加第一增强层的参考运动向量MV_1r和第二增强层的运动向量差D2，并计算第二增强层的运动向量MV₂(S190)。通过这些处理，运动向量MV₂被完全恢复，并且恢复的运动向量MV₂被提供给反向时间过滤模块340。

同时，反向量化模块320对所提取的纹理信息执行反向量化以输出转换系数。这个反向量化处理是用于找到量化的系数的处理，该系数与已经由预定指数表达然后由编码器100传送的值相匹配。这里，从编码器100发送表示在指数和量化系数之间的关系的表。

反向空间转换模块330执行反向空间转换，并将该转换系数变换为空间域的转换系数。例如，在离散余弦变换方法的情况下，转换系数从频域反向变换(inverse-converted)为空间域。在小波方法的情况下，转换系数从小波域反向变换为空间域。

反向时间过滤模块340对在空间域中的转换系数(即，时间差图像)执行反向时间过滤，并恢复组成视频序列的帧。对于反向时间过滤，反向时间过滤模块340使用从运动向量恢复模块350提供的运动向量。

在本说明书中所使用的术语“模块”表示软件元素或硬件元素，诸如FPGA或ASIC，并且模块执行预定的角色(role)。但是，模块并不局限于软件或硬件。而且，模块还可以被构成为存在于可寻址的存储模块中，或者再现(reproduce)一个或多个处理器。例如，模块包括元素(例如，软件元素、面向对象的软件元素、类别元素和任务元素)、处理器、功能、属性、过程、子例程(subroutines)、方程序代码的分段、驱动器、固件、微码、电路、数据、数据库、数据结构、表、阵列、以及变量等。在这里，由元素和模块提供的功能可以由少量的组合的较大元素和组合的较大模块来提供，或者由大量的分割的较小元素和分割的较小模块来提供。此外，元素和模块可以被实现为操作通信系统中的一个或多个计算机。

图15到17是示出根据本发明的实施例的位流400的结构的视图，并且图15示意地示出了位流400的整体结构。

位流400包括序列首标(header)字段410和数据字段420，并且数据字段420可以包括一个或多个GOP字段430到450。

序列首标字段410记录图像的特征，诸如帧的水平大小(2字节)和垂直大小(2字节)，GOP的大小(1字节)、帧速率(1字节)等。

数据字段420记录整个图像信息和附加图像的恢复所需的信息(运动向量、参考帧数)。

图16示出每个GOP字段的详细结构。GOP字段430可以包括GOP首标字段460、T(0)字段470、用于记录一组运动向量的MV字段480、以及“其它T”字段490。在这里，T(0)字段470根据第一时间过滤序列记录第一帧(没有参考另一个帧而编码的帧)的信息。“其它T”字段490记录除第一帧以外的帧的信息(参考另一个帧编码的帧)。

与序列首标字段410相反，GOP首标字段460记录限制到相应GOP的图像的特征，而不是整个图像的特征。并且，GOP首标字段460可以记录时间过滤序列或时间级(temporal level)。

图17示出了MV字段480的详细结构。

对应于可变块的数量的可变块的大小信息、位置信息、运动向量信息被分别记录在MV(1)字段到MV(n-1)字段。而且，多对可变块信息(大小和位置)和运动向量信息被记录在MV字段480中。这样的运动向量信息成为在基层情况下的运动向量，并且其成为在增强层情况下的运动向量差。

工业适用性

如上所述，根据本发明，可以更有效地压缩多层结构的运动向量。

而且，根据本发明，可以提高具有相同位流的图像的画面质量。

为了说明目的已经描述了本发明的公开的实施例，本领域技术人员应当理解在不脱离如所附权利要求书中所公开的本发明的范围和精神的情况下可以有各种修改、增加和替换。

Claims

1.一种用在支持多层运动向量的视频编码器中的运动向量压缩装置，所述运动向量压缩装置包括：

下采样模块，用于对原始帧进行下采样，以便成为在多层帧结构的每层中的帧；

运动向量搜索模块，用于获得对于下采样的帧最小化误差或成本函数的运动向量；

参考向量生成模块，用于利用对应于在预定增强层中的预定块的较低层的块、以及在该较低层的块周围的块中的运动向量来生成在预定增强层中的参考运动向量；以及

运动差模块，用于计算在所获得的运动向量和所述参考运动向量之间的差。

2.如权利要求1所述的运动向量压缩装置，还包括过滤器模块，用于提供将应用到用于生成参考运动向量的内插处理的预定过滤器。

3.如权利要求1所述的运动向量压缩装置，其中，通过指定与预定块具有区域相关性的块作为较低层的参考块，以及利用预定过滤器内插参考块来生成所述参考运动向量。

4.如权利要求3所述的运动向量压缩装置，其中，通过与区域相关性成比例地将不同的反射比率施加到所述参考块来执行所述内插。

5.如权利要求1所述的运动向量压缩装置，其中，所述参考运动向量是通过以下方式生成的：指定与具有固定大小的块具有区域相关性的块作为较低层的参考块，利用预定过滤器内插所述参考块，获得临时参考运动向量，以及利用预定过滤器对在通过成本函数的应用而具有固定大小的块中的发生合并的块中所包含的临时参考运动向量进行下采样。

6.一种支持多层结构的运动向量的视频编码器，所述视频编码器包括：

运动向量压缩模块，用于获得对于在每层中的帧的运动向量，利用对应于在预定增强层中的预定块的较低层的块的运动向量以及在该较低层的块周围的块中的运动向量获得在多层结构的预定增强层中的参考运动向量，以及计算在所获得的运动向量和所述参考运动向量之间的差；

时间过滤模块，用于利用所获得的运动向量在时间轴方向上过滤帧，由此减少时间冗余；

空间转换模块，用于对所过滤的帧进行空间转换，以生成转换系数；以及

量化模块，用于量化所生成的转换系数。

7.如权利要求6所述的视频编码器，其中，所述空间转换使用离散余弦变换和小波变换之一。

8.如权利要求6所述的视频编码器，还包括熵编码模块，用于无损地编码所量化的所述转换系数、所述运动向量中的基层的运动向量、以及所述差，并且输出输出的位流。

9.如权利要求6所述的视频编码器，其中，所述运动向量压缩模块包括：

参考向量生成模块，用于利用对应于在多层结构的预定增强层中的预定块的较低层中的块、以及在较低层的该块周围的块中的运动向量来生成在预定增强层中的参考运动向量；

过滤器模块，用于提供将要应用到用于生成参考运动向量的内插处理的预定过滤器；以及

10.如权利要求9所述的视频编码器，其中，通过指定与预定块具有区域相关性的块作为较低层的参考块，以及利用预定过滤器内插参考块来生成所述参考运动向量。

11.一种支持多层结构的运动向量的视频解码器，所述视频解码器包括：

熵解码模块，用于分析输入的位流以提取纹理信息和运动信息；

运动向量恢复模块，用于分析所提取的运动信息以利用对应于在预定增强层中的预定块的较低层的块的运动向量以及在该较低层的块周围的块中的运动向量计算相对于预定增强层的参考运动向量，相加包含在所述运动信息中的运动向量差和所计算的参考运动向量，并因此恢复运动向量；

反向量化模块，用于对所述纹理信息执行反向量化以输出转换系数；

反向空间转换模块，用于执行反向空间转换，以便将所述转换系数变换为空间域的转换系数；以及

反向时间过滤模块，用于利用所恢复的运动向量对空间域的转换系数执行反向时间过滤，由此恢复组成视频序列的帧。

12.如权利要求11所述的视频解码器，其中，所述运动向量恢复模块包括：

参考向量计算模块，用于利用对应于在预定增强层中的预定块的较低层的块、以及在较低层的该块周围的块中的运动向量生成在预定增强层中的参考运动向量；

过滤器模块，用于提供应用到用于生成所述参考运动向量的内插处理的预定过滤器；以及

运动相加模块，用于相加所获得的参考运动向量和运动向量差，并因此生成运动向量。

13.一种用于压缩多层结构的运动向量的方法，所述方法包括：

对原始帧进行下采样，以便具有基层中帧的大小，并获得基层的运动向量；

当需要时对原始帧进行下采样，并获得增强层的运动向量；

利用对应于在增强层中的预定块的基层的块、以及在该基层的块周围的块中的运动向量来生成在增强层中的参考运动向量；以及

计算在所获得的增强层的运动向量和所生成的增强层中的参考运动向量之间的差。

14.如权利要求13所述的方法，其中，通过指定与预定块具有区域相关性的块作为基层的参考块，并利用预定过滤器内插所述参考块来生成所述参考运动向量。

15.如权利要求14所述的方法，其中，通过与区域相关性成比例地将不同的反射比率施加到所述参考块来执行所述内插。

16.如权利要求13所述的方法，其中，所述参考运动向量是通过以下方式生成的：指定与具有固定大小的块具有区域相关性的块作为基层的参考块，利用预定过滤器内插所述参考块，获得临时参考运动向量，以及利用预定过滤器对在通过成本函数的应用而具有固定大小的块中的发生合并的块中所包含的临时参考运动向量进行下采样。

17.一种多层视频编码方法，包括以下步骤：

a)对原始帧进行下采样，以便成为在多层帧结构的每层中的帧；获得对于下采样的帧最小化误差或成本函数的运动向量；利用对应于在增强层中的预定块的基层中的块、以及在该基层的块周围的块中的运动向量来生成在增强层中的参考运动向量；以及计算在所获得的增强层中的运动向量和参考运动向量之间的差；

b)利用所获得的运动向量在时间轴方向上过滤帧，由此减少时间冗余；

c)对减少了时间冗余的帧施加空间转换，以便减少空间冗余，由此生成转换系数；以及

d)量化所生成的转换系数。

18.如权利要求17所述的多层视频编码方法，其中，所述空间转换使用离散余弦变换和小波变换之一。

19.如权利要求17所述的多层视频编码方法，还包括无损地编码所量化的转换系数、基层的运动向量、以及所述差，由此输出输出的位流的步骤。

20.如权利要求17所述的多层视频编码方法，其中通过指定与预定块具有区域相关性的块作为基层的参考块，并利用预定过滤器内插所述参考块来生成所述参考运动向量。

21.如权利要求20所述的多层视频编码方法，其中，通过与区域相关性成比例地将不同的反射比率施加到所述参考块来执行所述内插。

22.如权利要求17所述的多层视频编码方法，其中，所述参考运动向量是通过以下方式生成的：指定与具有固定大小的块具有区域相关性的块作为基层的参考块，利用预定过滤器内插所述参考块，获得临时参考运动向量，以及利用预定过滤器对在通过成本函数的应用而具有固定大小的块中的发生合并的块中所包含的临时参考运动向量进行下采样。

23.一种多层视频解码方法，包括：

a)分析输入的位流以提取纹理信息和运动信息；

b)分析所提取的运动信息以利用对应于在预定增强层中的预定块的基层的块的运动向量以及在该基层的块周围的块中的运动向量计算相对于预定增强层的参考运动向量，相加包含在运动信息中的运动向量差和所计算的参考运动向量，由此恢复运动向量；

c)对纹理信息执行反向量化以输出转换系数；

d)执行反向空间转换，以将转换系数变换为空间域的转换系数；以及

e)利用所恢复的运动向量对空间域的转换系数执行反向时间过滤，由此恢复组成视频序列的帧。