CN1226786A

CN1226786A - 用于立体视频编码的视图偏移估算

Info

Publication number: CN1226786A
Application number: CN98125816A
Authority: CN
Inventors: 陈学敏
Original assignee: General Instrument Corp
Current assignee: Arris Technology Inc
Priority date: 1997-11-07
Filing date: 1998-11-09
Publication date: 1999-08-25
Also published as: NO985170L; JPH11262032A; DE69829931D1; EP0915433A3; KR19990045067A; US6043838A; CA2252324A1; EP0915433A2; CA2252324C; TW426835B; MX9809262A; DE69829931T2; NO985170D0; EP0915433B1

Abstract

使用较低层图象不等预测加强层图象的立体视频传送系统通过将较低层图象右移位以补偿人眼摄象物镜的间隔使较低层图象与加强层图象更匹配。在编码器处根据加强层和较低层图象间的最小平均误差或最小平均平方误差确定加强层和较低层图象间的最佳偏移x。较低层图象的x个最右象素列被删除,较低层图象的x个最左列被填充以右移较低层图象x个象素而获得不等预测中的基准图象。在译码器处,如果可得到,偏移值x被恢复和并重建基准帧。

Description

用于立体视频编码的视图偏移估算

本发明涉及一种用于编码立体视频数据的装置和方法。特别是，本发明表示了一种用于估算在相同暂时参考点处的右和左频道之间景物最佳偏移的系统。所述系统减少了不均匀性(即跨频道或跨层)预测的运动矢量搜索范围，从而改善了编码效率。

由于数字技术能够传送比模拟技术更高质量的信号，所以，数字技术使向消费者传送视频和音频服务产生了革命性的变化，并能够提供以前所不能得到的特性。数字系统对于经过电缆电视网络或经过卫星向电缆电视分支机构和/或直接向家庭卫星接收机传送的信号是特别有益的。在这种系统中，用户经过接收机接收所述数字数据并经过解扰器解压缩和译码所述数字数据，以便重新结构原来的视频和音频信号。所述数字接收机包括在这个处理中使用的一个微机和多个存储器存储元件。

提供低成本接收机的同时还要提供高质量视频和音频需要限制被处理数据的数量。此外，可以得到的用于传送数字信号的带宽也可能受到实际约束、现存通信协议和政府调节的限制。因此，必须研制各种帧内数据压缩方案以取得在特定视频图象(例如帧)中相邻象素中空间相关性的优点。

此外，帧间压缩方案通过使运动补偿数据和块匹配运动估算算法采用在连续帧相应区域之间的暂时相关性的优点。在这种情况下，通过识别在最接近模拟所述当前块的在前块中的一个块，确定用于在一个图象的当前图象中每个块的运动矢量。然后，通过将表示相应块对之间差别的数据和识别相应块对所需的运动矢量一起传送，能够在译码器处重新结构所述整个当前图象。当与诸如离散余弦变换(DCT)的以块为基础的空间压缩技术相结合时，块匹配运动估算算法是特别有效的。

因此，对诸如在1995年12月在ISO/IEC JTC1/SC29/WG11 N1088(ITU-Treconmmendation H.262)文本中描述、名称为“对13818-2“多级视图文件”的建议绘图修正”的运动图象专家组(MPEG)MPEG-2多视图轮廓(MVP)系统以及在1996年7月的文本ISO/IEC JTC1/SC29/WG11 N1277中描述的MPEG-4验证模型(VM)版本3.0的建议立体视频传送格式越来越感兴趣。上述两种文本在这里都作为参考。立体视频提供同一图象的轻度偏移以便产生具有较大场深度的组合图象，借此，建立三维(3D)效果。在这种系统中，两个摄象机可以被置于相距2.5英寸或65mm的位置处以在两个分离的视频信号上记录一个事件。所述摄象机的间隔近似等于人眼左和右之间的距离，即眼部之间的间隔。此外，利用立体视频摄象记录器，两个物镜被设置在一个摄象记录头上和因此例如当扫视一个图象时两个物镜同步运动。两个视频信号可以被传送和在一个接收机处重新组合，以产生具有相当于普通人类视觉的场深度的图象。此外还可以提供其他的效果。

MPEG MVP系统包括以多路复用信号形式传送的两个视频层。第一，基础(例如较低)层表示三维目标的左视图，第二，增强(例如辅助或较高)层表示所述目标的右视图。由于右和左视图具有同一图象的特性和彼此相对稍有偏移，所以，在基础层和增强层的视频图象之间具有很大程度的相关性。所述相关性能够被用于相对于所述基层压缩增强层数据，借此减少在增强层中需要被传送的数据量，以保持给定的图象质量。所述图象质量通常对应于视频数据的量化级。

所述MPEG MVP系统包括三种视频图象，具体地说是帧内编码图象(I-图象)、预测编码图象(P-图象)和双向预测编码图象(B-图象)。另外，当基础帧调节帧或场结构视频顺序时，所述增强层仅调节帧结构。一个I-图象完全描述一个单一的视频图象而部参考任何其他图象。对于经过改进的误差隐蔽，运动矢量能够包括一个I-图象。由于在基础层中的P-图象和B-图象都是根据I-图象预测的，所以，在所述I-图象中的误差具有对显示视频有较大影响的电位。此外，在增强层中的图象能够根据在基础层中的图象利用已知是不均匀性预性的跨层预测处理进行预测。根据一帧到一层内另一帧的预测已知是暂时预测。

在基础层内，在在前I或P图象的基础上预测P图象。所述参考是从较早的I-图象或P-图象到未来的P-图象并已知是正向预测。所述B-图象是根据前面最接近的I或P图象和后面最接近的I或P图象预测的

在所述增强层中，一个P-图象可以根据(a)在所述增强层中的最接近译码图象、(b)根据显示顺序的最接近基础层图象、(c)根据显示顺序的下一个较低层图象被预测。通常当根据显示顺序的最接近基础层图象是一个I-图象时，使用情况(b)。

此外，在增强层中的B-图象可以使用(d)用于正向预测的最接近译码增强层图象和按照显示顺序的最接近较低层图象、(e)用于正向预测的最接近译码增强层图象和用于反相预测的按照显示顺序的下一个较低层图象、或(c)用于正向预测并按照显示顺序的最接近较低层图象和用于反相预测并按照显示顺序的下一个较低层图象进行预测。当按照显示顺序的最接近较低层图象是一个I-图象时，只有那个I-图象被用于预测编码(例如，将不是正向预测)。

注意，只有预测模式(a)、(b)和(d)被包含在所述MPEG MVP系统内。所述MVP系统是MPEG暂时扩充编码的子集，它包含模式(a)-(f)中的每一个。

在一个任选的结构中，所述增强层只具有P和B图象，而没有I-图象。对未来图象(即还没有被显示的图象)的参考被称之为反向预测。注意，在增强层内没有反向预测发生。因此，所述增强层图象以显示顺序传送。在增加压缩速率的情况下，反相预测是非常有用的。例如，在开门的情况下，当前图象可以在其中所述门已经被打开的未来图象的基础上预测在门后面有甚麽东西。

B-图象发生更多的压缩，同时也存在更多的误差。为了删除误差传播，B-图象决不能根据在所述基础层内的其他B-图象进行预测。P-图象发生很少的误差和很少的压缩。I-图象发生最少的压缩，但能够提供随机存取。

例如，对于不等预测，无论是较低层自己本身还是与增强层参考图象相结合，较低层图象都被用做与增强层图象相关的参考图象。通过搜索预定搜索区域在所述参考图象中发现最佳匹配图象对所述增强层图象进行运动补偿，使用所述参考图象最佳匹配图象的象素对增强层图象进行微分编码。利用微分编码的象素数据传送用于规定相对于编码增强层区域的最佳匹配图象相对位移的运动矢量，以允许在一个译码器处重新结构所述增强层图象。所述处理可以在逐个宏数据块的基础上发生。

但是，当所述运动矢量搜索区域增加时，所述处理和对不等预测的存储器存储要求是增加的。因此，出现了无效变量长度编码(例如，霍夫曼编码)这导致了更加昂贵和/或更慢的编码和译码装置。因此，利用一个系统改善立体视频系统中不等预测增强层图象的编码效率是有益的。所述系统应当计及立体视频摄象机人眼距离，以提供一个与所述增强层图象最匹配的移动的较低层图象。所述系统应当与各种图象尺寸、包括矩形以及任意形状图象相兼容。

所述系统还应当与诸如MPEG-1、MPEG-2、MPEG-4、H.261和H.263等各种现存和建议的视频编码标准相兼容。

所述系统还应当在重新结构一个参考帧的过程中提供由一个译码器使用的偏移值的传送。所述系统还应当对那些不允许通过在所述译码器处减少矢量搜索范围传送偏移值的视频标准生效。所述技术应当适用于静止图象和所述图象的顺序。

本发明提供一种具有上述和其他优点的系统。

根据本发明，提供了一种方法和系统，用于通过补偿人眼之间摄象机物镜距离改善立体视频传送系统的编码效率。

用于使用在较低层中的较低层图象预测立体视频信号增强层中增强层图象的方法包括根据最小平均误差或最小平均平方误差确定在所述增强层图象和所述较低层图象之间的最佳偏移x和根据所述最佳偏移移动所述较低层图象以获得一个在不等预测增强层图象中使用的参考图象的步骤。所述移动是通过根据预先存在的第一象素列(移动之前的最左列)删除所述较低层图象的最后(例如最右)x个象素列和填充第一(例如最左)x个象素列实现的。

所述上增强层图象是根据所述参考图象使用运动补偿进行不等预测的，并使用相对于没有移动的较低层图象搜索范围被减少的一个搜索范围在所述参考图象中获得诸如宏数据块的最匹配图象。

可以根据摄象机聚焦参数和人眼间的距离确定所估算的偏移，在这种情况下，可以在由所述估算的偏移确定的范围内搜索所述较低层图象，以发现所述最佳偏移。所述增强层图象和较低层图象可以包括多个视频目标平面或其他任意形状的图象以及矩形图象(例如帧)。

当检测到与较低层图象相关的景象变化时，可以确定一个新的最佳偏移x。如果没有检测到所述的景象变化，来自较低层中先前图象的一个偏移可以被作为最佳偏移x。可选择的，一个新的最佳偏移x可以被确定用于所述较低层中一组新的图象。

所述最佳偏移x可以以立体视频信号的形式传送以便在重新建立所述参考图象的过程中由译码器使用。

关于最小平均误差，如下确定最小的所述最佳偏移值x，

Dist_L^{1} (x) = \frac{1}{h (w - x)} Σ_{i = 0}^{(w - x - 1)} Σ_{j = 0}^{(h - 1)} | {y_{L} (i + x, j) - y_{E} (i, j) |

其中，y_L、y_E分别表示较低和增强层图象的亮度象素值，i和j分别表示水平和垂直笛卡儿坐标，在所述较低和增强层图象中，h是较低层图象的高度，w是所述较低层图象的宽度，所述较低层图象是左视图图象和增强层图象是右视图图象。

关于最小平均平方误差，如下确定所述最佳偏移值x

Dist_L^{2} (x) = \frac{1}{h (w - x)} Σ_{i = 0}^{(w - x - 1)} Σ_{j = 0}^{(h - 1)} {y_{L} (i + x, j) - y_{E} (i, j)}^{2}

关于色度数据的偏移是用于4∶2∶0视频的[x/2]。

相应的装置和译码器也是存在的。

图1的方框图示出了用于立体视频的编码器译码器结构；

图2示出了立体视频摄象机的模型；

图3示出了用于增强层中P-图象的不等预测模式；

图4示出了用于B-图象的增强层预测模式；

图5示出了根据本发明左视图象的处理；

图6示出了根据本发明的编码器处理流程；

图7示出了根据本发明的译码器处理流程；

图8示出了根据本发明的不等预测和运动矢量搜索；

图9示出了根据本发明的运动矢量搜索；

图10的方框图示出了根据本发明的一个增强层译码器结构。

提供用于估算在立体视频系统中右和左频道视图之间景象最佳偏移的装置和方法。

图1的方框图示出了用于立体视频的编码器/译码器结构。所述MPEG MVP标准和类似的系统包括对两个视频层的编码，所述两个视频层包括一个较低层和一个增强或较高层。对于这种应用，所述较低层被指定为右视图，而所述增强层被指定为左视图。在图1所示的所述编码器/译码器(例如编码译码器)结构中，所述较低层和增强层视频序列被一个暂时重新多路复用器(remux)105接收。使用时分多路复用(DTMX)，增强层视频被提供给一个增强层编码器110，而所述基础层视频被提供给一个较低编码器115。注意，所述较低层视频数据可以被提供给所述增强编码器110，以用于不等预测。

然后编码的增强和基础层被提供给一个系统多路复用器120，以作为传送流传送给通常以标号122表示的译码器。传送路径通常是连结到电缆系统头端器的卫星或直接经过卫星到到消费者家里。在译码器122处，所述传送流在系统去多路复用器125处被去多路复用。被编码的增强层数据被提供给一个增强译码器130，而被编码的较低层数据被提供给一个较低译码器135。注意，最好以并行处理结构并行执行较低和增强层的译码。另外，所述增强译码器130和较低译码器135可以共享一个公共的处理硬件，在这种情况下，可以一次一个图象地顺序执行所述译码。

被译码的较低层数据作为一个单独的数据流从所述较低译码器135输出，和被提供给一个暂时重新复用器140。在所述暂时重新复用器140中，被译码的基础层数据和被译码的增强层数据相互结合以提供如所示的增强层输出信号。所述增强层和较低层输出信号然后被提供给一个显示装置以便观看。

图2示出了一个立体视频摄象机模型。通常以标号100表示的摄象机装置包括相对于各自轴125和115的右视图物镜120和左无视图物镜110，这两个物镜相隔人眼的距离δ(130)，通常是65mm。所述轴115和125贯穿摄象机平面140。摄象机装置100包括两个相同的摄象机，其中的每一个都具有各自的物镜，这样可以获得两单独的景象记录。所述摄象机利用并行轴和诸如电荷耦合装置(CCD)的共面图象传感器定位。这样，在给定瞬时处一个景象的两个图象的的距离(不等性)主要是水平的，并且是由物镜110和120的水平距离建立的。

立体视频系统复制人的视力系统以提供两个景象视图。通过在与观察者的左和右眼适当对应的显示器上表示适当的图象，在每个视网膜上形成稍有不同的立体视频。然后大脑将这些图象聚焦成一个图象，所述观察者得到立体观察(立立体视频觉)的感觉，这种感觉经过深度感知器提供附加的真实性。

为了有效地传送立体视频数据，两个视图的图象编码必须是有效的。立体视频的有效编码不仅取决于运动补偿，而且还取决于不等(例如跨频道或跨层)预测。通过减少与在左和右视图之间的不等预测相关的运动矢量搜索范围，可以形成一个低复杂程度的编码器。这是通过最优估算在相同暂时基准点处两个视图的图象之间的景象全程位移实现的。

这里所描述的系统可以使用与立体视频编码不等预测相关的MPEG-2多视图文件(MVP)和MPEG-4视频验证模型(VM)(版本3.0和以上)测试相关的性能加强选择。所述MVP(或MVPEG-4MV 3.0)包括两层、即较低或基础层和加强层编码。对于立体视频编码，较低层被指定给左视图，而加强层被指定给右视图。在MVP中用于P-和B-图象的所述加强层的不等估算/预测模式由以宏数据块为基础的块匹配技术组成。在MVP译码器中，这些预测模式如图3、4和8所示。

利用立体视频编码，由于试点偏移，所以期望用于每个不等预测宏数据块的水平不等矢量。实际上，这引起这些不等矢量的无效变长(霍夫曼)编码(VLC)。本发明针对如何确定立体视频偏移以，从而使所估算的不等矢量变成更加有效的问题。

根据本发明，左视图图象被偏移适当数量的象素，从而使被偏移的左视图图象和右视图图象之间的距离能够被减小。以这个新图象对为基础的不等预测因此变得更加有效。

图3示出了一个用于加强层中P-图象的不等预测模式。这里，使用所述较低层中的暂时重合I-图象对所述加强层中的P-图象310进行不等预测。

图4示出了用于B-图象的加强层预测模式。这里。使用正向预测和不等预测对所述加强层中的B-图象进行预测。特别是，使用是最近被译码的加强层图象的另一个B-图象420和是最近较低层图象的I-图象400按照显示顺序正向预测所述B-图象410。

图5示出了根据本发明对左视图图象的处理。本发明的全程水平位置偏移技术改善了编码效率，同时保持了与现存立体视频编码标准的兼容性。所述全程水平位置偏移方法获得所述左视图图象的水平位移，从而使(被移位的)左视图图象和相应右视图图象之间的失真最小。这种技术被应用于诸如在MPEG-4标准中所描述的视频目标平面(VOP)的任意形状图象以及例如在MPEG-2MVP标准中使用的视频帧或图象或其子部分的矩形波图象。具体地说，是通过删除在所述VOP上垂直延伸、即在所述VOP最左沿处的X个最左象素和从所述VOP的最右沿开始填充X个象素向右移动左视图图象中的VOP。由此，所述最右沿被水平延伸X个象素。由此，所述VOP的位置被相对于其被置位的左视图帧以及右视图帧中的相应VOP被移动。通常，如果所述VOP没有延伸到所述帧的边界，那么，所述左视图帧的最右和最左位置不变。

在图5中，示出了所述的左视图图象500和右视图图象510。参数h和w分别表示与两个图象相关的高度和宽度。例如，对于NTSC视频，h=480和w=704；对于PAL视频，h=576和w=704。参数Y_L(i、j)和参数Y_R(i、j)分别表示左(或较低)和右视图图象的亮度象素值。参数Y_R(i、j)可以被称之为Y_E(i、j)，其中，下标“E”表示加强层。

所讨论的技术假设左视图图象位于较低层和右视图图象位于加强层。但是，所述技术可以很容易地被用于其中右视图图象位于所述较低层和左视图图象位于所述加强层中的一个立体视频系统。

左视图图象500包括特征505，而右视图图象510在所述帧内的不同相对位置处包括同样的一个特征515。特别是，图象500被相对图象510的左侧偏移距离x。在第一步骤，所述值x是一个将被确定的水平偏移，并被假设在一个预先指定或预先确定的范围X内、即0≤x≤X下降。

国家本发明第一实施例的全程水平位移技术被用于发现所述水平偏移整数值x，从而使

Dist_L^{2} (x) = \frac{1}{h (w - x)} Σ_{i = 0}^{(w - x - 1)} Σ_{j = 0}^{(h - 1)} {y_{L} (i + x, j) - y_{E} (i, j)}^{2}

最小，其中。Y_L和Y_E分别表示较低和加强层图象的亮度象素值，i和j分别表示水平和垂直笛卡儿坐标，在所述较低和加强层图象中，h是每个图象的高度，w是每个图象的宽度。这种技术使用加强和较低层图象象素值之间的最小平均平方误差。注意，h(w-x)表示相乘，而不是h的函数。在0≤x≤X范围内执行穷举搜索以发现x，从而使Dist-L²最小。

在本发明的另一个实施例中，发现所述偏移值x，从而使

Dist_L^{1} (x) = \frac{1}{h (w - x)} Σ_{i = 0}^{(w - x - 1)} Σ_{j = 0}^{(h - 1)} | {y_{L} (i + x, j) - y_{E} (i, j) |

最小。使用加强和较低层图象象素值之间最小平均误差的技术可以在减少计算要求的情况下执行。

在本发明的另一个实施例中，使用摄象机聚焦参数和人眼之间间隔δ估算水平偏移x_est。例如，可以使用10个象素的估算偏移(例如，+/-5)。然后对max{x_est-5,0}≤i≤{x_est+5}执行穷举水平搜索，以发现所述偏移x，从而使Dist-L²(x)或Dist-L²(x)最小。

用于不等估算和预测的左视图参考帧被如下获得：

在所述编码器中确定水平偏移x之后，根据用于不等估算和预测右视图图象的原始和重新结构的左视图图象结构一个参考帧。如果所述视频标准允许将所述偏移值x传送给一个译码器，则在该译码器处提取所述偏移值x，和根据用于不等预测/补偿右视图图象的译码左视图图象重新结构所述参考帧。例如，可以在一个图形标题的用户数据中传送所述偏移。

在第二个步骤中通过删除所述左视图图象的最后x个列实现与亮度象素相关的所述参考帧的结构处理。在所述编码器处，使用所述原始左视图图象，而在所述译码器处，使用被译码的左视图图象。参考左视图图象535，在所述图象535的右手侧处的最后x个列520被删除。

在第三步骤，对于左视图图象540的每个行，利用所述行的第一象素值从所述行开始填充x个象素。所述填充处理(例如插入)可以如MPEG-4所描述的实现。在所述图象540的左手侧处示出了填充区域530。作为前述步骤的结果，可以获得更接近匹配于相应右视图图象的偏移或被移位的左视图图象。

对于色度象素数据，与不等预测相关的所述参考帧的结构处理除了利用[X/2]、即向下舍入到整数的[X/2]的水平偏移之外与上述给出的步骤相同。这假定一个4∶2∶0视频格式。所述偏移可以被修改以用于所需的其他格式。

图6示出了一个根据本发明的编码器处理流程。所示处理对应于所述水平偏移值X能够被传送给一个译码器的情况。对于例如利用MPEG-2MVP标准能够传送所述水平偏移的情况，所述水平偏移值X仍然能够如结合图8和9所讨论的那样被用于减少编码器中不等矢量搜索的复杂性。

可以根据各种协议确定所述偏移值X。例如，可以按视频顺序计算和存储用于每个连续图象的X。但是，这种计算可能是非常烦琐和不必要的。另外，当无论是在甚麽时候检测到景象变化或者是在开始一组新图形(GOP)的地方，都可以确定所述偏移x。一组图形(GOP)指出一个或多个不需要参考其它GOP中的图形就能够被译码的连续图形。重新计算所述偏移x的最佳标准应当以执行的复杂性和视频的特性为基础。

如果没有重新计算与当前图象相关的偏移x，可以使用在先存储的偏移。左视图图象被提供给框610，在这里，它确定是否检测到一个景象变化或是否是一个新GOP。如果是，那么，在框620处，将偏移搜索范围X(其中0≤x≤X)加载到例如由微机所使用的存储器中。如果不是，那么，在框600，使用根据最后景象确定的水平偏移x。

在框630，使用前面讨论的最小平均误差或最小平均平方误差确定所述偏移x。右视图图象数据被用于这个处理。在框640，使用结合土5所述的处理结构所述参考帧。右视图图象数据仍被用于该项处理。

在框650，搜索重新结构的参考帧，以确定最佳匹配宏数据块。即，搜索范围被规定在参考帧范围之内，在这个范围内，每个宏数据块都与当前正在被编码的右视图宏数据块进行比较，以确定与当前正在被编码的右视图宏数据块最为匹配的一个参考帧宏数据块。由于所述参考帧相对于原始左视图图象偏移，所以，它与所述右视图图象最为类似，并且，减小的搜索范围可以被用于获得最佳匹配宏数据块。/例如，如在下面结合图9所描述的，搜索范围例如被从64×64个象素减少到8×8个象素。

在框660，使用诸如在MVP标准中所披露的公知技术编码所述的右视图图象。在框670，如结合图7所描述的，例如利用卫星广播CATV网络将编码数据和偏移x传送给一个译码器。某些视频通信标准不可以被提供用于传送偏移x，在这种情况下，只有在所述编码器处使用所述偏移以减小搜索范围。

图7示出了根据本发明的译码器处理流程。在这种情况下，假设偏移x被随同编码流中的视频数据一起传送。在框700处，从所述编码流中提取水平偏移。在框710处，以传统方式译码左视图图象。在框720处，使用偏移x结构所述参考帧。在框730处，使用编码的右视图图象数据和所述参考帧不等预测所述右视图图象。偏移x和运动矢量被用于识别所述参考帧的最匹配宏数据块，使用最匹配宏数据块和微分编码的右视图图象数据恢复整个右视图图象。

对于不能利用例如MPEG-2 MVP标准传送水平偏移的情况，所述水平偏移仍然能够例如通过减小运动矢量搜索范围被用于减少所述编码器中不等矢量搜索的复杂性。

图11示出了根据本发明的不等预测和运动矢量搜索。所述加强层包括一个P-图形850、一个B-图形820和一个B-图形830，而较低层包括一个I-图形840、一个P-图形850和一个P-图形860。预测是由箭头方向指出的，而所述箭头是从参考帧指向被预测图象的。例如，使用在所述I-图形840中的相应最匹配宏数据块预测在所述P-图形850中的每个宏数据块。

对于每第i个宏数据块，运动矢量(v_x、v_y)指出最匹配宏数据块与所述预测宏数据块的相对距离。对于较低层预测，所述估算被集中在每个宏数据块的未偏移位置处。例如，每个被预测宏数据块的左上手象素可以被取作为未偏移坐标(0,0)。

使用较低层中的P-图形850不等预测和使用加强层中的P-图形810暂时预测所述B-图形820。关于不等预测，如所讨论的确定水平偏移x。接着，通过将最匹配宏数据块置位在所述P-图形850中不等预测B-图形820中的宏数据块。其中，所述不等估算/预测被集中在(x,0)而不是(0,0)。即所述估算被向右移位x个象素。

所述不等矢量(v_x,v_y)指出在基础层和加强层象素的相应宏数据块之间的位置差，并被用于在一个译码器处重新结构被不等预测的加强层图形。特别是，利用用于在所述加强层中搜索窗口宏数据块的象素坐标(x_s,y_s)，和用于在基础层中相应参考窗口宏数据块的象素坐标(x_r,y_r)，不等矢量是v=(v_x-x_r)。因此，所述不等矢量是搜索窗口和参考窗口之间的置位或变换量度。在重新结构译码器处的不等预测加强层图形的过程中，所述不等矢量可以在右视图频道数据流中传送。

此外，使用P-图形810对B-图形820的暂时预测被集中在用于每第i个宏数据块的(v_x,v_y)处。

可以参考图9进一步理解不等预测和运动矢量搜索处理。如结合图8所描述的，矢量(v_x,v_y)规定I-图形840中的一个最匹配宏数据块920以用于P-图形850中的第i个宏数据块900。所述矢量指出在两个图形之间一个图象的暂时运动量。搜索范围910被用于发现最匹配宏数据块920。所述搜索范围可以具有对应于用于16×16宏数据块900的64×64个变量的82×64个象素的总尺寸。

对于在加强层B-图形820中的宏数据块的不等预测，第i个宏数据块930被集中在(x,0)处，并与在较小搜索范围940中例如具有总尺寸为24×24个象素的宏数据块进行比较，从而使其对应于用于16×16宏数据块的8×8的变量。由于用于微分编码宏数据块930的最匹配宏数据块位于靠近宏数据块930的较小相邻范围内，所以，所述偏移值x允许一个将被使用的较小搜索范围。因此，可以实现较快的处理时间和减少的存储器需求。

另外，当所述偏移值被传送给所述译码器时，由于每个不等矢量都比较小，所以，可以实现更加有效的不等矢量变长编码(例如霍夫曼编码)，借此，减少必须被传送的数据量。

与P-图形850中的宏数据块900位于一处的B-图形820中的宏数据块也可以使用在被集中在由矢量(v_x,v_y)规定的宏数据块920上的P-图形810中的一个较小范围。例如，用于右视图序列的运动矢量搜索范围可以被减少到8×8个变量那么低。由于所述B-图形820和P-图形810之间的相关性特别类似于P-图形850和I-图形840之间的相关性，所以，这一点是完全确实的。

图10的方框图示出了根据本发明的加强层译码器结构。通常以标号130表示的该译码器包括用于接收被压缩加强层数据的输入端1005和用于分析所述数据的传送级语法分析器1010。被分析的数据被提供给存储器管理器1030，该管理器可以包括一个中央处理单元。存储器管理器1030与例如可以包括动态随机存取存储器(DRAM)的存储器1020通信。水平偏移x可以与所述加强层数据或反之在立体视频信号中提供的数据进行通信。使用被译码的较低层数据和偏移x重新结构参考帧。

存储器管理器1030还与解压/预测处理器1040通信，并经过端1050接收可以被暂存在存储器1020中以备处理器1040在译码不等预测的加强层图形中连续使用的译码的较低层数据。

例如，解压/预测处理器1040提供诸如误差检测和校正、运动矢量检测、逆量化、逆离散余弦变换、霍夫曼编码和预测计算等各种处理功能。在利用解压/预测处功能块1040进行这些处理之后，存储器管理器输出被译码的加强层数据。另外，所述被译码的数据换可以经过一个没有示出的装置从解压/预测功能块1040直接输出。

一个模拟结构可以被用于所述较低层。此外，所述加强和较低层译码器可以共享一个公共硬件。例如，存储器1020和处理器1040可以是被共享的。

测试结果证明本发明的视图偏移估算技术能够有效地改善用于立体视频信号的编码效率。所述偏移估算技术在MPEG-2MVP中被执行并经过ISO/IECJTC1/SC29/WG11/MPEG-4的D类视频测试序列和某些其它序列运行。表1示出了具有偏移搜索范围X=20个象素的测试结果的例子。在从2.0到5.2％的位/帧范围中在MVP上编码效率的改善指出峰值信号相对噪声的比值。所有的图形种类都是P-图形。

表1

顺序	量化等级	PSNR	总的编码位	改善(位/帧)	右视图位速率
顺序	量化等级	PSNR	总的编码位	改善(位/帧)	右视图位速率	隧道：(偏移值x=2；帧号.n=第50)	26	31	210,888	2％	3M位/秒
隧道：(偏移值x=2；帧号.n=第50)	33	30	172,011	4％	2M位/秒	隧道：(偏移值x=2；帧号.n=第50)	26	31	210,888	2％	3M位/秒
隧道：(偏移值x=2；帧号.n=第50)	33	30	172,011	4％	2M位/秒	Fun Fair(偏移值x=8；帧号.n=第2)	26	31	223,939	2.3％	3M位/秒
Fun Fair(偏移值x=8；帧号.n=第2)	33	30	181,071	5.2％	2M位/秒	Fun Fair(偏移值x=8；帧号.n=第2)	26	31	223,939	2.3％	3M位/秒

通过使用阈值T使补偿后剩余的宏数据块为零或使某些高频DCT系数为零能够进一步改善所述编码效率。

如所能够看到的，本发明提供了一种系统，用于估算在相同暂时参考点处右和左频道视图之间景象的最佳偏移x。所述系统减少了用于不等(即跨频道或跨层)预测的运动矢量的搜索范围以改善编码效率。当在所述较低层中发生景象变化或存在一组新图形时，可以计算所述偏移。

在编码器处，根据在加强和较低层图象之间的最小平均误差或根据在加强和较低层图象之间最小平均平方误差确定在加强层图象和较低层图象之间的最佳偏移x。利用偏移搜索范围分界所述偏移x。较低层图象的x最右象素列被删除，所述较低层图象的x最左列被填充，以有效地将较低层图象右移x个象素，从而获得在不等预测所述加强层图象中使用的参考图象。对于诸如VOP的任一形状图象，左视图图象中的VOP被通过删除在所述VOP上垂直延伸的x个最左象素右移，并在所述VOP的最右沿处填充x个象素。

搜索所述参考帧以获得最匹配宏数据块，所述右视图数据被进行微分编码。在译码器处，如果变量被用于重新结构与不等预测相关的参考帧，那么，可以恢复所述偏移值x。

虽然已经结合各种特定实施例描述了本发明，但本专业领域内的技术人员很清楚可以做出很多变化和修改而不脱离本发明所附权利要求的精神和范围。

Claims

1、一种使用在立体视频信号的较低层中的较低层图象预测在该立体视频信号的加强层中的加强层图象的方法，包括如下步骤：

根据(a)在所述加强层图象和所述较低层图象的象素值之间的最小平均误差；

(b)在所述加强层图象和所述较低层图象的象素之间的最小平均平方误差之一确定在所述加强层图象和所述较低层图象之间的最佳偏移x；和

根据所述最佳偏移移位所述较低层图象，以获得在不等预测所述加强层图象中使用的一个参考图象。

2、根据权利要求1所述的方法，其中：

从所述参考图象使用运动补偿来不等预测所述加强层图象；和

使用相对于没有所述移位的所述较低层图象搜索范围减小了的一个搜索范围在所述参考图象中获得一个最佳匹配图象。

3、根据权利要求1或2所述的方法，还包括如下步骤：

根据摄象机的聚焦参数和人眼之间间隔的至少一个确定一个估算偏移；和在所述估算偏移确定的范围内的所述较低层图象中搜索以获得所述的最佳偏移。

4、根据前述权利要求中任何一个的方法，还包括下述步骤：

在水平偏移范围X内进行搜索以发现所述最佳偏移x，从而使0≤x≤X。

5、根据前述权利要求中所述任一个的方法，其特征是：

所述加强层图象和所述较低层图象包括一个视频目标平面。

6、根据前述权利要求中任一个的方法，其特征是：

所述加强层图象和所述较低层图象可以是任意形状。

7、根据权利要求6所述的方法，其特征是所述移位步骤包括如下步骤：

删除宽度为x个象素的所述VOP的最左沿区域；和

填充所述VOP的最右沿部分以使所述最右沿部分延伸x个象素的宽度。

8、根据前述权利要求中任一个的方法，其特征是所述移位步骤包括：

删除所述较低层图象的x个最右象素列；和

向所述较低层图象的最左部分填充x个象素列。

9、根据前述权利要求中任一个的方法，其特征是还包括如下步骤：

当检测到与较低层图象相关的景象变化时，确定一个新的最佳偏移x；和

如果没有检测到景象变化，使用来自所述较低层中在前图象的偏移作为所述最佳偏移x。

10、根据前述权利要求任一个的方法，其特征是：

确定一个新的最佳偏移x以用于较低层中的一组新图形。

11．根据前述权利要求任一个的方法，还包括如下步骤：

以立体视频信号的形式传送所述最佳偏移，以供在重建所述基准帧的过程中由一个译码器使用。

12．根据前述权利要求任一个的方法，其特征是：

对于所述最小平均误差，确定所述最佳偏移x，以使

Dist_L^{1} (x) = \frac{1}{h (w - x)} Σ_{i = 0}^{(w - x - 1)} Σ_{j = 0}^{(h - 1)} | {{y}_{L} (i + x, j) - y_{E} (i, j) |

最小，其中，y_L和y_E分别表示较低和加强层图象的亮度象素值，i和j分别是较低和加强层图象中的水平和垂直笛卡儿坐标，h是较低层图象的高度，w是较低层图象的宽度，所述较低层图象是左视图图象，所述加强层图象是右视图图象。

13、根据权利要求12所述的方法，其特征是：

对于所述最小平均平方误差，用于色度象素值的最佳偏移[x/2]。

14、根据权利要求1-11所述的方法，其特征是：

对于所述最小平均误差，确定所述最佳x，以使

Dist_L^{2} (x) = \frac{1}{h (w - x)} Σ_{i = 0}^{(w - x - 1)} Σ_{j = 0}^{(h - 1)} {y_{L} (i + x, j) - y_{E} (i, j)}^{2}

15、根据权利要求14所述的方法，其特征是：

对于所述最小平均平方误差，用于色度象素值的最佳偏移是[x/2]。

16、一种使用在立体视频信号的较低层中的较低层图象预测在立体视频信号的加强层中的加强层图象的装置，包括：

用于根据(a)在所述加强层图象和所述较低层图象的象素值之间的最小平均误差，和(b)在所述加强层图象和所述较低层图象的象素值之间的最小平均平方误差中的一个确定所述加强层图象和所述较低层图象之间的最佳偏移x的装置；和

根据所述最佳偏移移位所述较低层图象以获得在不等预测所述加强层图象过程中使用的一个参考图象的装置。

17、根据权利要求16所述的装置，其特征是：

根据所述基准图象使用运动补偿对所述加强层图象进行预测；和

使用相对于没有移位的所述较低层图象的搜索范围减小了的一个搜索范围在所述基准图象中获得最佳匹配图象。

18、根据权利要求16或17所述的装置，还包括：

用于根据摄象机聚焦参数和人眼间隔的至少一个确定估算偏移的装置；和

用于在由所述估算偏移确定的范围内在所述较低层图象中进行搜索以发现所述最佳偏移的装置。

19、根据权利要求16到18中任一个所述的装置，还包括：

用于在水平偏移范围X内搜索以发现所述最佳偏移x并使0≤x≤X的装置。

20、根据权利要求16到19中任一个所述的装置，其特征是：

所述加强层图象和所述较低层图象都包括一个视频目标平面。

21、根据权利要求16到20中任一个所述的装置，其特征是：

所述加强层图象和所述较低层图象可以是任意形状。

22、根据权利要求21所述的装置，其特征是所述用于移位的装置删除具有x个象素宽度的所述VOP的最左沿区域，和填充所述VOP的最右沿部分以使所述最右沿部分延伸x个象素宽度。

23、根据权利要求16到22中任一个所述的装置，其特征是所述用于移位的装置删除所述较低层图象的x个最右象素列，和向所述较低层图象的最左部分填充x个象素列。

24、根据权利要求16到23中任一个所述的装置，还包括一个装置，用于：

(a)当检测到一个景象变化时，确定一个新的最佳偏移x以用于所述较低层图象；和

(b)如果没有检测到景象变化，使用来自所述较低层图象中在前图象的一个偏移作为所述最佳偏移x。

25、根据权利要求16到24中任一个所述的装置，其特征是：

确定一个新的最佳偏移x以用于所述较低层中的一组新图形。

26、根据权利要求16到25中任一个所述的装置，还包括：

用于以所述立体视频信号的形式传送所述最佳偏移x以在重建所述基准图象时供一个译码器使用的装置。

27、根据权利要求16所述的装置，其特征是：

对于所述最小平均误差，确定所述最佳偏移值x，以使值

Dist_L^{1} (x) = \frac{1}{h (w - x)} Σ_{i = 0}^{(w - x - 1)} Σ_{j = 0}^{(h - 1)} | {{y}_{L} (i + x, j) - y_{E} (i, j) |

最小，其中，y_L和y_E分别表示较低和加强层图象的亮度值，i和j分别是水平和垂直笛卡儿坐标，在所述较低和加强层图象中，h是较低层图象的高度，w是所述较低层图象的宽度，所述较低层图象是左视图图象，所述加强层图象是右视图图象。

28、根据权利要求27所述的装置，其特征是：

对于所述最小平均误差，用于色度象素值的最佳偏移赳[x/2]。

29、根据权利要求16-25之一所述的装置，其特征是：

对于所述最小平均平方误差，确定所述最佳偏移x，以使值

Dist_L^{2} (x) = \frac{1}{h (w - x)} Σ_{i = 0}^{(w - x - 1)} Σ_{j = 0}^{(h - 1)} {y_{L} (i + x, j) - y_{E} (i, j)}^{2}

30、根据权利要求29所述的装置，其特征是：

31、一种用于使用立体视频信号中较低层中的较低层图象预测在立体视频信号加强层中一个加强层图象的译码器，包括：

用于从所述立体视频信号中恢复所述加强层图象和所述较低层图象之间最佳偏移x的装置；

根据(a)在所述加强层图象和所述较低层图象的象素值之间的最小平均误差，和(b)在所述加强层图象和所述较低层图象的象素值之间的最小平均平方误差中的一个在编码器处确定所述最佳偏移x；和

用于根据所述最佳偏移移位所述较低层图象以获得在不等预测所述加强层图象过程中使用的一个基准图象的装置。

32、根据权利要求31所述的译码器，其特征是；

根据所述基准图象使用运动补偿对所述加强层图象进行不等预测；和使用相对于没有移位的所述较低层图象的搜索范围减小了的一个搜索范围在所述基准图象中获得一个最佳匹配图象。

33、根据权利要求31或32所述的译码器，其特征是：

34、根据权利要求31到33中任一个所述的译码器，其特征是：

所述加强层图象和所述较低层图象可以是任意形状。

35、根据权利要求34所述的译码器，其特征是所述用于移位的装置删除具有x个象素宽度的所述VOP的最左沿部分，并填充所述VOP的最右沿部分以使所述最右沿部分延伸x个象素宽度。

36、根据权利要求31到35中任一个所述的译码器，其特征是：所述用于移位的装置删除所述较低层图象的x个最右象素列，并向所述较低层图象的最左部分填充x个象素列。

37、根据权利要求31到36中任一个所述的译码器，其特征是：

对于所述最小平均误差，确定所述最佳偏移x，以使值

Dist_L^{1} (x) = \frac{1}{h (w - x)} Σ_{i = 0}^{(w - x - 1)} Σ_{j = 0}^{(h - 1)} | {y_{L} (i + x, j) - y_{E} (i, j) |

38、根据权利要求37所述的译码器，其特征是：

39、根据权利要求31到36中任一个所述的译码器，其特征是：

对于所述最小平均平方误差，确定所述最佳偏移值x，以使值

Dist_L^{2} (x) = \frac{1}{h (w - x)} Σ_{i = 0}^{(w - x - 1)} Σ_{j = 0}^{(h - 1)} {y_{L} (i + x, j) - y_{E} (i, j)}^{2}

最小，其中，y_L和y_E分别表示较低和加强层图象的亮度值，i和j分别是水平和垂直笛卡儿坐标，在所述较低和加强层图象中，h是较低层图象的高度，w是所述较低层图象的宽度，所述较低层图象是左视图图象，所述加强层图象是与视图图象。

40、根据权利要求39所述的译码器，其特征是：