DE69829931T2

DE69829931T2 - Schätzung von Sichtverschiebungen zur Kodierung stereoskopischer Videobilder

Info

Publication number: DE69829931T2
Application number: DE69829931T
Authority: DE
Inventors: Xuemin San Diego Chen
Original assignee: Arris Technology Inc; General Instrument Corp
Current assignee: Arris Technology Inc
Priority date: 1997-11-07
Filing date: 1998-11-06
Publication date: 2006-02-23
Anticipated expiration: 2018-11-07
Also published as: CA2252324A1; TW426835B; NO985170L; KR19990045067A; EP0915433B1; EP0915433A3; US6043838A; JPH11262032A; CA2252324C; NO985170D0; CN1226786A; MX9809262A; DE69829931D1; EP0915433A2

Description

ALLGEMEINER STAND DER TECHNIK
Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zum Codieren von stereoskopischen Videodaten. Insbesondere wird ein System zum Schätzen des optimalen Versatzes einer Szene zwischen rechten und linken Kanalansichten an dem gleichen zeitlichen Referenzpunkt präsentiert. Das System reduziert den Bewegungsvektorsuchbereich für Disparitätsprädiktion (d. h. Kreuzkanal- oder Kreuzschichtprädiktion) zum Verbessern der Codiereffizienz.
Die digitale Technologie hat die Lieferung von Video- und Audiodiensten an Kunden revolutioniert, da sie Signale mit viel höherer Qualität als analoge Techniken abliefern und zusätzliche Merkmale, die zuvor nicht verfügbar waren, bereitstellen kann. Digitale Systeme sind besonders für Signale von Vorteil, die über ein Kabelfernsehnetzwerk oder durch Satellit zu Kabelfernsehmitgliedern und/oder direkt zu privaten Satellitenfernsehempfängern rundgesendet werden. In solchen Systemen empfängt ein Teilnehmer den digitalen Datenstrom über einen Empfänger/Entwürfler, der die Daten dekomprimiert und decodiert, um die ursprünglichen Video- und Audiosignale zu rekonstruieren. Der digitale Empfänger umfasst einen Mikrocomputer und Speicherelemente zur Verwendung bei diesem Vorgang.
Die Notwendigkeit, kostengünstige Empfänger bereitzustellen, während gleichzeitig qualitativ hochwertige Video- und Audiosignale bereitgestellt werden, erfordert, dass die verarbeitete Datenmenge begrenzt wird. Darüber hinaus kann die verfügbare Bandbreite zur Übertragung des digitalen Signals außerdem durch physikalische Beschränkungen, bestehende Kommunikationsprotokolle und gesetzliche Regelungen begrenzt sein. Folglich wurden verschiedene Vollbild interne Datenkomprimierungsschemata entwickelt, die die räumliche Korrelation zwischen benachbarten Pixeln in einem bestimmten Videobild (z. B. Vollbild) ausnutzen.
Außerdem nutzen die Vollbild übergreifenden Komprimierungsschemata zeitliche Korrelationen zwischen entsprechenden Gebieten aufeinanderfolgender Vollbilder aus, indem sie Bewegungskompensationsdaten und Blockübereinstimmungs-Bewegungsschätzalgorithmen verwenden. In diesem Fall wird für jeden Block in einem aktuellen Bild einer Abbildung durch Identifizieren eines Blocks in einem vorherigen Bild, das dem aktuellen Block am ähnlichsten ist, ein Bewegungsvektor bestimmt. Das gesamte aktuelle Bild kann dann an einem Decodierer rekonstruiert werden, indem Daten gesendet werden, die den Unterschied zwischen den entsprechenden Blockpaaren darstellen, zusammen mit den Bewegungsvektoren, die erforderlich sind, um die entsprechenden Paare zu identifizieren. Block übereinstimmende Bewegungsschätzalgorithmen sind besonders effektiv, wenn sie mit auf Blöcken basierenden räumlichen Kompressionstechniken, wie etwa der diskreten Cosinus-Transformation (DCT), kombiniert werden.
Zusätzlich besteht zunehmendes Interesse an vorgeschlagenen Formaten für die stereoskopische Videoübertragung, wie zum Beispiel dem System MPEG-2 Multi-View-Profile (MVP) der Motion Picture Experts Group (MPEG), das in Dokument ISO/IEC JTC1/SC29/WG11 N1088 (ITU-T Recommendation H.262) mit dem Titel „Proposed Draft Amendment No. 3 to 13818-2 (Multi-View-Profile)", November 1995, und dessen Änderung 3 sowie dem MPEG-4 Video Verification Model (VM) Version 3.0, das in Dokument ISO/IEC JTC1/SC29/WG11 N1277, Tampere, Finnland, Juli 1996 beschrieben wird.
Stereoskopisches Video stellt etwas versetzte Ansichten derselben Abbildung bereit, um eine kombinierte Abbildung mit größerer Tiefe des Halbbilds zu erzeugen, wodurch ein dreidimensionaler (3D-Effekt) Effekt hergestellt wird. In einem solchen System können duale Kameras etwa 2,5 Inch oder 65 mm voneinander positioniert werden, um ein Ereignis auf zwei getrennten Videosignalen aufzuzeichnen. Der Zwischenraum der Kameras approximiert den Abstand zwischen dem linken und rechten menschlichen Auge, d. h. der interokularen Trennung. Außerdem werden bei manchen stereoskopischen Video-Camcordern die zwei Linsen in einen Camcorderkopf eingebaut und bewegen sich deshalb synchron, wenn zum Beispiel über die Abbildung geschwenkt wird. Die zwei Videosignale können übertragen und an einem Empfänger rekombiniert werden, um eine Abbildung mit einer Tiefe des Halbbilds herzustellen, die dem normalen menschlichen Sehen entspricht. Außerdem können andere Spezialeffekte bereitgestellt werden.
Das MPEG-MVP-System umfasst zwei Videoschichten, die in einem gemultiplexten Signal übertragen werden. Als erstes stellt eine Basisschicht (z. B. untere Schicht) eine linksseitige Ansicht eines dreidimensionalen Objekts dar. Als zweites stellt eine Anreicherungsschicht (z. B. eine Hilfs- oder obere Schicht) eine rechtsseitige Ansicht des Objekts dar. Da die rechtsseitige und die linksseitige Ansicht von demselben Objekt und nur geringfügig voneinander versetzt sind, besteht gewöhnlich ein hoher Korrelationsgrad zwischen den Videoabbildungen der Basis- und Anreicherungsschicht. Diese Korrelation kann zum Komprimieren der Anreicherungsschichtdaten relativ zu der Basisschicht verwendet werden, wodurch die Datenmenge reduziert wird, die in der Anreicherungsschicht übertragen werden muss, um eine gegebene Abbildungsqualität aufrechtzuerhalten. Die Abbildungsqualität entspricht im Allgemeinen dem Quantisierungsgrad der Videodaten.
Das MPEG-MVP-System umfasst drei Arten von Videobildern; spezifisch das intracodierte Bild (I-Bild), das prädiktiv codierte Bild (P-Bild) und das bidirektional prädiktiv codierte Bild (B-Bild). Während die Basisschicht entweder Vollbild- oder Halbbildstrukturvideosequenzen unterbringt, trägt die Anreicherungsschicht ferner nur Vollbildstruktur. Ein I-Bild beschreibt vollständig ein einzelnes Videobild ohne Bezug auf ein anderes Bild. Zur verbesserten Fehlerverschleierung können in ein I-Bild Bewegungsvektoren eingeschlossen werden. Ein Fehler in einem I-Bild hat das Potential, sich stärker auf das angezeigte Video auszuwirken, da sowohl P-Bilder als auch B-Bilder in der Basisschicht aus I-Bildern prädiktiert werden. Bilder in der Anreicherungsschicht können außerdem aus Bildern in der Basisschicht in einem Kreuzschichtprädiktionsvorgang, bekannt als Disparitätsprädiktion, prädiktiert werden. Die Prädiktion von einem Vollbild zu einem anderen innerhalb einer Schicht ist als zeitliche Prädiktion bekannt.
In der Basisschicht werden P-Bilder auf der Grundlage vorheriger I- oder P-Bilder prädiktiert. Der Bezug erfolgt von einem früheren I- oder P-Bild auf ein zukünftiges P-Bild und ist als Vorwärtsprädiktion bekannt. B-Bilder werden aus dem nächsten früheren I- oder P-Bild und dem nächsten späteren I- oder P-Bild prädiktiert.
In der Anreicherungsschicht kann ein P-Bild (a) aus dem zuletzt decodierten Bild in der Anreicherungsschicht, (b) dem letzten Basisschichtbild in der Anzeigeanordnung oder (c) aus dem nächsten Untere-Schicht-Bild in der Anzeigeanordnung prädiktiert werden. Fall (b) wird gewöhnlich verwendet, wenn das letzte Basisschichtbild in der Anzeigeanordnung ein I-Bild ist.
Außerdem kann ein B-Bild in der Anreicherungsschicht unter Verwendung (d) des zuletzt decodierten Anreicherungsschichtbilds zur Vorwärtsprädiktion und des letzten Untere-Schicht-Bilds in der Anzeigeanordnung (e) des zuletzt decodierten Anreicherungsschichtbilds zur Vorwärtsprädiktion und des nächsten Untere-Schicht-Bilds in der Anzeigeanordnung zur Rückwärtsprädiktion oder (f) des letzten Untere-Schicht-Bilds in der Anzeigeanordnung zur Vorwärtsprädiktion und des nächsten Untere-Schicht-Bilds in der Anzeigeanordnung zur Rückwärtsprädiktion prädiktiert werden. Wenn das letzte Untere-Schicht-Bild in der Anzeigeanordnung ein I-Bild ist, wird nur dieses I-Bild für die prädiktive Codierung verwendet (z. B. erfolgt keine Vorwärtsprädiktion).
Zu beachten ist, dass nur die Prädiktionsmodi (a), (b) und (d) in dem MPEG-MVP- System eingeschlossen sind. Das MVP-System ist eine Teilmenge der zeitlichen MPEG-Skalierbarkeitscodierung, die jeden der Modi (a)–(f) einschließt.
Bei einer wahlweisen Konfiguration weist die Anreicherungsschicht nur P- und B-Bilder, aber keine I-Bilder auf. Der Bezug auf ein zukünftiges Bild (d. h. eines, das noch nicht angezeigt worden ist) wird als Rückwärtsprädiktion bezeichnet. Zu beachten ist, dass in der Anreicherungsschicht keine Rückwärtsprädiktion erfolgt. Folglich werden Anreicherungsschichtbilder in der Anzeigeanordnung übertragen. Es gibt Situationen, in denen die Rückwärtsprädiktion beim Vergrößern der Kompressionsrate sehr nützlich ist. Zum Beispiel kann in einer Szene, in der sich eine Tür öffnet, das aktuelle Bild auf der Grundlage eines zukünftigen Bildes, in dem die Tür bereits offen ist, prädiktieren, was sich hinter der Tür befindet.
B-Bilder ergeben am meisten Kompression, enthalten aber auch die meisten Fehler. Um eine Fehlerausbreitung zu beseitigen, dürfen B-Bilder niemals aus anderen B-Bildern in der Basisschicht prädiktiert werden. P-Bilder ergeben weniger Fehler und weniger Kompression. I-Bilder ergeben die geringste Kompression, können aber einen Direktzugriff bereitstellen.
Zur Disparitätsprädiktion, z. B. wenn eine Untere-Schicht-Abbildung als eine Referenzabbildung für eine Anreicherungsschichtabbildung verwendet wird, entweder allein oder in Verbindung mit einer Anreicherungsschichtreferenzabbildung, wird die Anreicherungsschichtabbildung durch das Finden einer Abbildung der besten Übereinstimmung in der Referenzabbildung durch das Suchen eines vorbestimmten Suchbereichs, dann das differentielle Codieren der Pixel der Anreicherungsschichtabbildung unter Verwendung der Pixel der Abbildung der besten Übereinstimmung der Referenzabbildung bewegungskompensiert. Ein Bewegungsvektor, der die relative Verschiebung der Abbildung der besten Übereinstimmung zu dem codierten Anreicherungsschichtgebiet definiert, wird mit den differentiell codierten Pixeldaten übertragen, um die Rekonstruktion der Anreicherungsschichtabbildung an einem Decodierer zu ermöglichen. Das Verarbeiten kann auf einem Makroblock auf Makroblock-Basis geschehen.
US 5652616 offenbart ein optisches Disparitätsschätzungsverfahren für stereoskopisches Videocodieren. Dieses Verfahren involviert das Bereitstellen eines Suchfensters, das mindestens einen Abschnitt der Pixel in dem Anreicherungsschichtbild beinhaltet. Ein Referenzfenster, das mindestens einen Abschnitt der Pixel beinhaltet, ist in einem Referenzbild einer Basisschicht des stereoskopischen Videosignals bereitgestellt. Affine Transformationskoeffizienten des Referenzfensters werden bestimmt, die den kleinsten quadratischen Fehler zwischen Luminanzwerten von Pixeln des Suchfensters und des Referenzfensters minimieren.
Die Verarbeitungs- und Speicherungsanforderungen für die Disparitätsprädiktion werden jedoch erhöht, wenn der Bewegungsvektorsuchbereich erhöht wird. Daraus resultiert zusätzlich ineffizientes Codieren variabler Längen (z. B. Huffman-Codierung) von Disparitätsvektoren. Dies resultiert in einer teureren und/oder langsameren Codier- und Decodiervorrichtung. Demgemäß wäre es vorteilhaft, ein System zum Verbessern der Codiereffizienz von disparitätsprädiktierten Anreicherungsschichtabbildungen in einem stereoskopischen Videosystem zu haben. Das System sollte die interokulare Trennung einer stereoskopischen Videokamera berücksichtigen, um eine verschobene Untere-Schicht-Abbildung bereitzustellen, die eher zu der Anreicherungsschichtabbildung passt. Das System sollte mit verschiedenen Abbildungsgrößen einschließlich rechteckigen sowie willkürlich geformten Abbildungen kompatibel sein.
Das System sollte ferner mit verschiedenen existierenden und vorgeschlagenen Videocodierstandards wie beispielsweise MPEG-1, MPEG-2, MPEG-4, H.261 und H.263 kompatibel sein.
Das System sollte für die Übertragung eines Versatzwerts zur Verwendung durch einen Decodierer beim Rekonstruieren eines Referenzvollbilds sorgen. Das System sollte ebenfalls bei Videostandards wirken, die durch das Reduzieren des Bewegungsvektorsuchbereichs an einem Codierer keine Übertragung eines Versatzwerts ermöglichen. Die Technik sollte sowohl für Festabbildungen als auch für Sequenzen von Abbildungen geeignet sein.
Die vorliegende Erfindung stellt ein System mit den obigen und weiteren Vorteilen bereit.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß der vorliegenden Erfindung werden ein Verfahren und eine Vorrichtung zum Verbessern der Codiereffizienz in einem stereoskopischen Videoübertragungssystem durch das Ausgleichen der interokularen Trennung der Kameralinse dargestellt.
Ein Verfahren zum Prädiktieren einer Anreicherungsschichtabbildung in einer Anreicherungsschicht eines stereoskopischen Videosignals unter Verwendung einer Untere-Schicht-Abbildung in einer unteren Schicht davon beinhaltet die Schritte des Bestimmens eines optimalen Versatzes x zwischen der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung gemäß entweder einem kleinsten mittleren Fehler oder einem kleinsten mittleren quadratischen Fehler und das Verschieben der Untere-Schicht-Abbildung gemäß dem optimalen Versatz, um eine Referenzabbildung zur Verwendung beim Disparitätsprädiktieren der Anreicherungsschichtabbildung zu erhalten. Das Verschieben wird durch das Löschen der letzten (z. B. am weitesten rechts liegenden) x Pixelspalten der Untere-Schicht-Abbildung und das Auffüllen dar ersten (z. B. am weitesten links liegenden) x Pixelspalten gemäß der vorher existierenden Pixelspalte (d. h. der am weitesten links liegenden Spalte vor dem Verschieben) erzielt.
Die Anreicherungsschichtabbildung wird von der Referenzabbildung unter Verwendung von Bewegungskompensation disparitätsprädiktiert, und eine Abbildung der besten Übereinstimmung wie beispielsweise ein Makroblock wird in der Referenzabbildung unter Verwendung eines Suchbereichs, der relativ zu einem Suchbereich der Untere-Schicht-Abbildung ohne das Verschieben reduziert ist, erhalten.
Ein geschätzter Versatz kann gemäß einem Kamerafokusparameter und einer interokularen Trennung bestimmt werden, in welchem Fall die Untere-Schicht-Abbildung in einem durch den geschätzten Versatz bestimmten Bereich gesucht werden kann, um den optimalen Versatz zu finden.
Die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung können Video-Objektebenen oder andere willkürlich geformte Abbildungen sowie rechteckige Abbildungen (z. B. Vollbilder) beinhalten.
Ein neuer optimaler Versatz x kann bestimmt werden, wenn ein Szenenwechsel für die Untere-Schicht-Abbildung erkannt wird. Wenn kein Szenenwechsel erkannt wird, kann ein Versatz von einer vorherigen Abbildung in der unteren Schicht als optimaler Versatz x verwendet werden. Wahlweise kann ein neuer optimaler Versatz x für eine neue Bildsequenz in der unteren Schicht bestimmt werden.
Der optimale Versatz x kann in dem stereoskopischen Videosignal zur Verwendung durch einen Decodierer beim Wiedererzeugen der Referenzabbildung übertragen werden.
Für den kleinsten mittleren Fehler wird der optimale Versatz x so bestimmt, dass der Wert
minimiert wird, wobei y_L und y_E Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine linksseitige Ansicht der Abbildung ist und die Anreicherungsschichtabbildung eine rechtsseitige Ansicht der Abbildung ist.
Für den kleinsten mittleren quadratischen Fehler wird der optimale Versatz x so bestimmt, dass der Wert
Der Versatz für Chrominanzdaten ist ⌊x/2⌋ für 4:2:0 Video.
Eine entsprechende Vorrichtung und ein entsprechender Decodieren sind ebenfalls dargestellt.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockschaltbild einer Codierer-/Decodiererstruktur für stereoskopisches Video.
2 ist ein schematisches Diagramm eines stereoskopischen Videokameramodells.
3 ist eine Veranschaulichung eines Disparitätsprädiktionsmodus für P-Bilder in der Anreicherungsschicht.
4 ist eine Veranschaulichung eines Anreicherungsschichtprädiktionsmodus für B-Bilder.
5 veranschaulicht das Verarbeiten eines Bilds der linksseitigen Ansicht gemäß der vorliegenden Erfindung.
6 veranschaulicht einen Codiererablauf gemäß der vorliegenden Erfindung.
7 veranschaulicht einen Decodiererablauf gemäß der vorliegenden Erfindung.
8 veranschaulicht Disparitätsprädiktion und Bewegungsvektorsuchen gemäß der vorliegenden Erfindung.
9 veranschaulicht Bewegungsvektorsuchen gemäß der vorliegenden Erfindung.
10 ist ein Blockschaltbild einer Anreicherungsschichtdecodiererstruktur gemäß der vorliegenden Erfindung.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Ein Verfahren und eine Vorrichtung zum Schätzen des optimalen Versatzes einer Szene zwischen einer rechten und linken Kanalansicht in einem stereoskopischen Videosystem werden dargestellt.
1 ist ein Blockschaltbild einer Codierer-/Decodiererstruktur für stereoskopisches Video. Der MPEG-MVP-Standard und ähnliche Systeme involvieren die Codierung zweier Videoschichten, einschließlich einer unteren Schicht und einer Anreicherungsschicht oder einer oberen Schicht. Bei einer solchen Anwendung wird die untere Schicht einer linksseitigen Ansicht zugewiesen, während die Anreicherungsschicht einer rechtsseitigen Ansicht zugewiesen wird. In der Codierer-/Decodiererstruktur (z. B. Codec-Struktur) von 1 werden die Videosequenzen der unteren Schicht und der Anreicherungsschicht von einem zeitlichen Remultiplexer (Remuxer) 105 empfangen. Unter Verwendung des Zeitmultiplexverfahrens (TDMX) wird einem Anreicherungscodierer 110 das Anreicherungsschichtvideo bereitgestellt, während einem unteren Codierer 115 das Basisschichtvideo bereitgestellt wird. Es ist zu beachten, dass dem Anreicherungscodierer 110 zur Disparitätsprädiktion die Videodaten der unteren Schicht bereitgestellt werden können.
Einem Systemmultiplexer 120 werden dann die codierte Anreicherungs- und Basisschicht zur Übertragung zu einem Decodierer, allgemein bei 122 gezeigt, als ein Transportstrom bereitgestellt. Der Übertragungsweg ist typischerweise eine Satellitenverbindung zu einer Kopfstelle einer Kabelanlage oder direkt über Satellit zu der Wohnung eines Verbrauchers. Am Decodierer 122 wird der Transportstrom an einem Systemdemultiplexer 125 demultiplexiert. Einem Anreicherungsdecodierer 130 werden die codierten Anreicherungsschichtdaten bereitgestellt, während einem unteren Decodierer 135 die codierten Daten der unteren Schicht bereitgestellt werden. Es ist zu beachten, dass die Decodierung vorzugsweise gleichzeitig mit der unteren und der Anreicherungsschicht in einer parallelen Verarbeitungskonfiguration ausgeführt wird. Als Alternative können sich der Anreicherungsdecodierer 130 und der untere Decodierer 135 gemeinsame Verarbeitungshardware teilen, und in diesem Fall kann die Decodierung sequentiell mit jeweils einem Bild ausgeführt werden.
Die decodierten Daten der unteren Schicht werden aus dem unteren Decodierer 135 als ein separater Datenstrom ausgegeben und ebenfalls einem zeitlichen Remultiplexer 140 bereitgestellt. An dem zeitlichen Remultiplexer 140 werden die decodierten Basisschichtdaten und die decodierten Anreicherungsschichtdaten kombiniert, um wie gezeigt ein Anreicherungsschichtausgangssignal bereitzustellen. Die Ausgangssignale der Anreicherungs- und der unteren Schicht werden dann einer Anzeigevorrichtung zur Betrachtung bereitgestellt.
2 ist ein schematisches Diagramm eines stereoskopischen Videokameramodells. Die Kameravorrichtung, im Allgemeinen bei 100 gezeigt, umfasst eine Linse 120 der rechtsseitigen Ansicht und eine Linse 110 der linksseitigen Ansicht mit jeweiligen Achsen 125 und 115, die durch einen interokularen Abstand δ (130), typischerweise 65 mm, getrennt sind. Die Achsen 115 und 125 schneiden eine Kameraebene 140. Die Kameravorrichtung 100 umfasst zwei identische Kameras, jede mit einer entsprechenden Linse, so dass zwei unterschiedliche Aufzeichnungen einer Szene erhalten werden. Die Kameras sind mit parallelen Achsen und koplanaren Abbildungssensoren, wie beispielsweise ladungsgekoppelte Schaltungen (CCD), ausgerichtet. Die Verschiebung (Disparität) von zwei Abbildungen einer Szene in einem gegebenen Moment ist daher hauptsächlich horizontal und wird durch die horizontale Trennung der Linsen 110 und 120 erzeugt.
Ein stereoskopisches Bildaufbereitungssystem repliziert das Prinzip des Systems des menschlichen Sehens, um zwei Ansichten einer Szene bereitzustellen. Durch das Präsentieren der angemessenen Ansichten auf einer geeigneten Anzeige gegenüber dem entsprechenden linken und rechten Auge eines Betrachters werden zwei leicht unterschiedliche Perspektivansichten der Szene auf jeder Retina abgebildet. Das Gehirn vereinigt diese Abbildungen dann in einer Ansicht, und der Betrachter erlebt das Gefühl der Stereopsis (stereoskopisches Sehen), die durch verbesserte Tiefenwahrnehmung zusätzlichen Realismus bereitstellt.
Um stereoskopische Videodaten effizient zu übertragen, muss das Codieren (z. B. die Komprimierung) der Abbildungen der zwei Ansichten effizient sein. Das effiziente Codieren eines stereoskopischen Videos hängt nicht nur von der Bewegungskompensation ab, sondern auch von Disparitätsprädiktion (z. B. Kreuzkanal- oder Kreuzschichtprädiktion). Durch das Reduzieren eines Bewegungsvektorsuchbereichs zur Disparitätsprädiktion zwischen Bildern der linksseitigen und rechtsseitigen Ansicht kann ein Codierer niedriger Komplexität implementiert werden. Dies wird durch das optimale Schätzen des globalen Standortversatzes einer Szene zwischen Bildern zweier Ansichten an dem gleichen zeitlichen Referenzpunkt erreicht.
Das hier präsentierte System kann als eine Leistungsverbesserungsoption der Experimente mit MPEG-2 Multi-View-Profile (MVP) und MPEG-4 Video Verification Model (VM) (Version 3.0 und darüber) zur Disparitätsprädiktion von stereoskopischer Videocodierung verwendet werden. MVP (oder MPEG-4 MV 3.0) involviert zweischichtiges Codieren, und zwar eine untere Schicht oder eine Basisschicht und eine Anreicherungsschicht. Beim stereoskopischen Videocodieren wird die untere Schicht der linksseitigen Ansicht zugewiesen, während die Anreicherungsschicht der rechtsseitigen Ansicht zugewiesen wird. Die Disparitätsschätzungs-/Prädiktionsmodi der Anreicherungsschicht in MVP für P- und B-Bilder bestehen aus einer auf einem Makroblock basierenden Blockanpassungstechnik. In einem MVP-Decodierer werden diese Prädiktionsmodi in 3, 4 und 8 gezeigt.
Beim stereoskopischen Videocodieren wird wegen der Versetzung der Ansichtspunkte ein horizontaler Disparitätsvektor für jeden disparitätsprädiktierten Makroblock erwartet. Dies verursacht tatsächlich ineffizientes Codieren variabler Länge (Huffman Codierung) (VLC) dieser Disparitätsvektoren. Die vorliegende Erfindung widmet sich dem Problem der Bestimmung des horizontalen Versatzes stereoskopischer Ansichten, so dass das Codieren geschätzter Disparitätsvektoren effizienter wird.
Gemäß der vorliegenden Erfindung wird die Abbildung der linksseitigen Ansicht durch eine angemessene Anzahl von Pixeln versetzt, so dass die Verschiebung zwischen dem Versatz der Abbildung der linksseitigen Ansicht und der Abbildung der rechtsseitigen Ansicht reduziert werden kann. Die Disparitätsprädiktion auf der Basis dieses neuen Abbildungspaars ist daher effizienter.
3 ist eine Veranschaulichung eines Disparitätsprädiktionsmodus für P-Bilder in der Anreicherungsschicht. Hier wird ein P-Bild 310 in der Anreicherungsschicht unter Verwendung eines zeitlich zusammentreffenden I-Bilds 300 in der unteren Schicht disparitätsprädiktiert.
4 ist eine Veranschaulichung eines Anreicherungsschichtprädiktionsmodus für B-Bilder. Hier wird ein B-Bild 410 in der Anreicherungsschicht unter Verwendung von sowohl Vorwärtsprädiktion als auch Disparitätsprädiktion prädiktiert. Das B-Bild 410 wird speziell unter Verwendung eines weiteren B-Bilds 420, das das zuletzt decodierte Anreicherungsschichtbild ist, und eines I-Bilds 400, das das letzte Untere-Schicht-Bild in der Anzeigeordnung ist, vorwärtsprädiktiert.
5 veranschaulicht das Verarbeiten eines Bilds der linksseitigen Ansicht gemäß der vorliegenden Erfindung. Eine globale horizontale Positionsversatztechnik der vorliegenden Erfindung verbessert die Codiereffizienz, während die Kompatibilität mit existierenden stereoskopischen Codierstandards aufrechterhalten wird. Die globale horizontale Positionsversatzmethode erhält eine horizontale Positionsverschiebung der Abbildung der linksseitigen Ansicht, so dass die Verzerrung zwischen der (verschobenen) Abbildung der linksseitigen Ansicht und der entsprechenden Abbildung der rechtsseitigen Ansicht minimiert wird. Diese Technik ist auf willkürlich geformte Abbildungen wie beispielsweise Video-Objektebenen (VOP), wie in dem MPEG-4-Standard erörtert, sowie auf rechteckige Abbildungen, z. B. ein Videovollbild oder ein Bild oder ein Unterabschnitt davon, wie in dem MPEG-2-MVP-Standard verwendet, anwendbar. Eine VOP in einer Abbildung der linksseitigen Ansicht wird durch das Löschen der x am weitesten links liegenden Pixel, die sich vertikal auf der VOP erweitern, d. h. auf dem am weitesten links liegenden Rand der VOP und das Auffüllen der x Pixel am am weitesten rechts liegenden Rand der VOP nach rechts verschoben. Der am weitesten rechts liegende Rand wird folglich horizontal durch x Pixel erweitert. Die Position der VOP wird folglich bezüglich des Vollbilds der linksseitigen Ansicht, in dem sie gelegen ist, sowie bezüglich der entsprechenden VOP in der Abbildung der rechtsseitigen Ansicht verschoben. Im Allgemeinen sind die am weitesten rechts liegenden und am weitesten links liegenden Abschnitte des Vollbilds der linksseitigen Ansicht unter der Annahme, dass sich die VOP nicht zu den vertikalen Grenzen des Vollbilds erweitert, unverändert.
In 5 sind eine 500 der linksseitigen Ansicht und eine 510 der rechtsseitigen Ansicht gezeigt. Die Parameter h und w kennzeichnen die Höhe bzw. Breite beider Abbildungen. Zum Beispiel ist für NTSC-Video h = 480 und w = 704, und für PAL-Video h = 576 und w = 704). Die Parameter y_L (i, j) und y_R (i, j) stellen die Luminanzpixelwerte der Abbildungen der linksseitigen (oder unteren) bzw. rechtsseitigen Ansicht dar. Auf die Parameter y_R (i, j) kann mit y_E (i, j) Bezug genommen werden, wobei die Tiefstellung „E" die Anreicherungsschicht kennzeichnet.
Die Technik wird unter der Annahme erörtert, dass sich die Abbildung der linksseitigen Ansicht in der unteren Schicht und die Abbildung der rechtsseitigen Ansicht in der Anreicherungsschicht befindet. Die Technik lässt sich jedoch leicht zur Verwendung in einem stereoskopischen Videosignal anpassen, in dem sich die Abbildung der rechtsseitigen Ansicht in der unteren Schicht und die Abbildung der linksseitigen Ansicht in der Anreicherungsschicht befindet.
Die Abbildung der linksseitigen Ansicht 500 umfasst ein Merkmal 505, während die Abbildung der rechtsseitigen Ansicht 510 das gleiche Merkmal 515 umfasst, aber in unterschiedlicher relativer Position innerhalb des Vollbilds. Genauer ist die 500 zu der linken Seite der 510 um einen Abstand x relativ versetzt. In einem ersten Schritt ist der Wert x der horizontale Versatz, der bestimmt werden soll, und es wird angenommen, dass er in einen vorher zugewiesenen oder vorher bestimmten Bereichs X fällt, das heißt 0 ≤ x ≤ X.
Die globale horizontale Positionsversatztechnik gemäß einer ersten Ausführungsform der vorliegenden Erfindung besteht darin, den ganzzahligen Wert x des horizontalen Versatzes zu finden, so dass:
minimiert wird, wobei y_L und y_E Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung sind, h die Höhe jeder Abbildung ist und w die Breite jeder Abbildung ist. Diese Technik verwendet einen kleinsten mittleren quadratischen Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung. Zu beachten ist, dass h (w – x) Multiplikation kennzeichnet und keine Funktion von h. Eine gründliche Suche wird horizontal nach 0 ≤ x ≤ X durchgeführt, um den Versatz x zu finden, so dass Dist_L² (x) ein Minimum ist.
In einer weiteren Ausführungsform der vorliegenden Erfindung wird der Versatzwert x so gefunden, dass:
ein Minimum ist. Diese Technik, die einen kleinsten mittleren Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung verwendet, kann unter reduzierten Rechneranforderungen implementiert werden.
In einer weiteren Ausführungsform der vorliegenden Erfindung wird ein horizontaler Versatz x_est durch das Verwenden eines Kamerafokusparameters und der interokularen Trennung δ geschätzt. Ein geschätzter Versatz von zehn Pixeln (z. B. +/–5) kann zum Beispiel verwendet werden. Dann wird eine gründliche horizontale Suche nach max {x_est –5, 0} ≤ i ≤ {x_est + 5} durchgeführt, um den Versatz x zu finden, so dass Dist_L¹(x) oder Dist_L²(x) ein Minimum ist.
Ein Referenzvollbild der linken Ansicht zur Disparitätsschätzung und -prädiktion wird wie folgt erhalten. Nach dem Bestimmen des horizontalen Versatzes x in dem Codierer wird ein Referenzvollbild aus den ursprünglichen und rekonstruierten Abbildungen der linksseitigen Ansicht zur Disparitätsschätzung/-prädiktion der Abbildung der rechtsseitigen Ansicht konstruiert. Wenn der Videostandard das Übertragen des Versatzwerts x auf einen Decodierer ermöglicht, wird der Versatz x an dem Decodierer extrahiert, und das Referenzvollbild wird aus der decodierten Abbildung der linksseitigen Ansicht zur Disparitätsprädiktion/-kompensation der Abbildung der rechtsseitigen Ansicht rekonstruiert. Der Versatz kann zum Beispiel in dem Benutzerdatenabschnitt eines Bildanfangsblocks übertragen werden.
Der Konstruktionsvorgang des Referenzvollbilds für Luminanzpixel wird in einem zweiten Schritt durch das Löschen der letzten x Spalten der Abbildung der linksseitigen Ansicht erreicht. An dem Codierer wird die ursprüngliche Abbildung der linksseitigen Ansicht verwendet, während an dem Decodierer die decodierte Abbildung der linksseitigen Ansicht verwendet wird. Unter Bezugnahme auf die 535 der linksseitigen Ansicht werden die letzten x Spalten 520 auf der rechten Seite der 535 gelöscht.
In einem dritten Schritt werden für jede Reihe der 540 der linksseitigen Ansicht x Pixel an dem Anfang der Reihe mit dem ersten Pixelwert der Reihe gefüllt. Der Füllungsvorgang (z. B. Auffüllungsvorgang) kann wie im MPEG-4-Standard beschrieben erzielt werden. Das aufgefüllte Gebiet 530 wird auf der linken Seite der 540 gezeigt. Infolge der vorangehenden Schritte wird ein Versatz oder eine verschobene 540 der linksseitigen Ansicht erhalten, die der entsprechenden Abbildung der rechtsseitigen Ansicht eher entspricht.
Für die Chrominanzpixeldaten besteht der Konstruktionsvorgang des Referenzvollbilds zur Disparitätsprädiktion aus den gleichen gegebenen Schritten, jedoch mit einem horizontalen Versatz von ⌊x/2⌋, das heisst x/2 mit dem Abrunden auf die nächste Ganzzahl. Dies setzt ein 4:2:0 Videoformat voraus. Der Versatz kann wie erforderlich für andere Formate modifiziert werden.
6 veranschaulicht einen Codiererablauf gemäß der vorliegenden Erfindung. Der gezeigte Vorgang entspricht dem Fall, in dem der horizontale Versatzwert x auf einen Decodierer übertragen werden kann. Für den Fall, dass der horizontale Versatz nicht übertragen werden kann, z. B. bei dem MPEG-2 MVP-Standard, kann der horizontale Versatzwert x immer noch verwendet werden, um die Komplexität des Disparitätsvektorsuchens in dem Codierer zu reduzieren, wie in Verbindung mit 8 und 9 erörtert.
Der Versatzwert x kann gemäß verschiedenen Protokollen bestimmt werden. x kann zum Beispiel für jede aufeinanderfolgende Abbildung in einer Videosequenz berechnet und gespeichert werden. Dies könnte computertechnisch jedoch beschwerlich und unnötig sein. Der Versatz x kann alternativ dann bestimmt werden, wann immer ein Szenenwechsel erkannt wird, oder zu Beginn einer neuen Bildsequenz (GOP). Eine Bildsequenz (GOP) gibt eines oder mehrere aufeinanderfolgende Bilder an, die ohne Bezug auf Bilder in einer anderen GOP decodiert werden können. Die Auswahl eines optimalen Kriteriums zum Rekalkulieren des Versatzes x sollte auf Implementierungskomplexität und Videocharakteristiken basieren.
Wenn der Versatz x für die aktuelle Abbildung nicht neu rekalkuliert wird, kann der vorherige gespeicherte Versatz verwendet werden.
Einem Feld 610 wird die Abbildung der linken Ansicht bereitgestellt, in dem bestimmt wird, ob ein Szenenwechsel oder eine neue GOP erkannt wird. Falls dies bei Feld 620 zutrifft, wird der Versatzsuchbereich X (wo 0 ≤ x ≤ X) z. B. zur Verwendung durch einen Mikrocomputer in den Speicher geladen. Falls dies nicht zutrifft, wird bei Feld 600 der horizontale Versatz x, der von der letzten Szene bestimmt wurde, verwendet.
Bei Feld 630 wird der Versatz x entweder unter Verwendung des kleinsten mittleren Fehlers oder des vorher erörterten kleinsten mittleren quadratischen Fehlers bestimmt. Die Daten der Abbildung der rechtsseitigen Ansicht werden für diese Verfahrensweise verwendet. Bei Feld 640 wird das Referenzvollbild unter Verwendung der in Verbindung mit 5 erörterten Verfahrensweise konstruiert. Die Daten der Abbildung der rechtsseitigen Ansicht werden ebenfalls für diese Verfahrensweise verwendet.
Bei Feld 650 wird das neu konstruierte Referenzvollbild durchsucht, um Makroblöcke der besten Übereinstimmung zu bestimmen. Das heißt, das ein Suchbereich in dem Referenzvollbild definiert wird, über dem ein Makroblock mit einem Makroblock der rechtsseitigen Ansicht verglichen wird, der gegenwärtig codiert wird, um den einen Referenzvollbildmakroblock zu bestimmen, der am besten zu dem Makroblock der rechtsseitigen Ansicht, der gegenwärtig codiert wird, passt. Da das Referenzvollbild relativ zu der ursprünglichen Abbildung der linksseitigen Ansicht versetzt ist, ähnelt er eher der Abbildung der rechtsseitigen Ansicht, und ein reduzierter Suchbereich kann verwendet werden, um den Makroblock der besten Übereinstimmung zu erhalten. Zum Beispiel kann, wie unten in Verbindung mit 9 erörtert, der Suchbereich zum Beispiel von 64 × 48 Pixel auf 8 × 8 Pixel reduziert werden.
Die Abbildung der rechtsseitigen Ansicht ist bei Feld 660 unter Verwendung von bekannten Techniken wie beispielsweise den in dem MVP-Standard erörterten codiert. Bei Feld 670 werden die codierten Daten und der Versatz x z. B. in einem Satellitenrundfunk CATV-Netz übertragen, wie in Verbindung mit 7 erörtert, auf einen Decodierer. Es kann sein, dass manche Videokommunikationsstandards nicht die Übertragung des Versatzwerts x vorsehen, in welchem Fall der Versatz nur an dem Codierer verwendet werden kann, um den Suchbereich zu reduzieren.
7 veranschaulicht einen Decodiererablauf gemäß der vorliegenden Erfindung. In diesem Fall wird angenommen, dass der Versatz x mit den Videodaten in einem codierten Bitstrom übertragen wird. Bei Feld 700 wird der horizontale Versatz aus dem codierten Bitstrom extrahiert. Bei Feld 710 wird die Abbildung der linksseitigen Ansicht auf eine herkömmliche Weise decodiert. Bei Feld 720 wird das Referenzvollbild unter Verwendung des Versatzes x konstruiert. Bei Feld 730 wird die Abbildung der rechtsseitigen Ansicht unter Verwendung der codierten Daten der Abbildung der rechtsseitigen Ansicht und des Referenzvollbilds disparitätsprädiktiert. Der Versatz x und die Bewegungsvektoren werden verwendet, um die Makroblöcke der besten Übereinstimmung des Referenzvollbilds zu identifizieren, und die Abbildung der vollen rechtsseitigen Ansicht wird unter Verwendung der Summe der Pixeldaten der Makroblöcke der besten Übereinstimmung und der differentiell codierten Daten der Abbildung der rechtsseitigen Ansicht wiedererlangt.
Für den Fall, dass der horizontale Versatz nicht übertragen werden kann, z. B. bei dem MPEG-2-MVP-Standard, kann der horizontale Versatz trotzdem noch verwendet werden, um die Komplexität des Disparitätsvektorsuchens in dem Codierer zu reduzieren, z. B. durch das Reduzieren des Bewegungsvektorsuchbereichs.
8 veranschaulicht Disparitätsprädiktion und Bewegungsvektorsuchen gemäß der vorliegenden Erfindung. Die Anreicherungsschicht umfasst ein P-Bild 810, ein B-Bild 820 und ein B-Bild 830, während die untere Schicht ein I-Bild 840, ein P-Bild 850 und ein P-Bild 860 umfasst. Prädiktion wird durch die Richtung der Pfeile angezeigt, so dass der Pfeil von der Referenzabbildung zu der prädiktierten Abbildung zeigt. Jeder Makroblock in dem P-Bild 850 wird zum Beispiel unter Verwendung entsprechender Makroblöcke der besten Übereinstimmung in dem I-Bild 840 prädiktiert.
Ein Bewegungsvektor (v_x, v_y) gibt die relative Verschiebung des Makroblocks der besten Übereinstimmung zu dem prädiktierten Makroblock in jedem iten Makroblock an. Für die Prädiktion der unteren Schicht wird die Schätzung an einer Nicht-Versatz-Position jedes Makroblocks zentriert. Das obere linke Pixel jedes prädiktierten Makroblocks kann zum Beispiel als die Nicht-Versatz-Koordinate (0, 0) genommen werden.
Das B-Bild 820 wird unter Verwendung des P-Bilds 850 in der unteren Schicht disparitätsprädiktiert und unter Verwendung des P-Bilds 810 in der Anreicherungsschicht zeitlich prädiktiert. Der horizontale Versatz x wird wie erörtert zur Disparitätsprädiktion bestimmt. Als nächstes werden Makroblöcke in dem B-Bild 820 durch das Anordnen von Makroblöcken der besten Übereinstimmung in dem P-Bild 850 disparitätsprädiktiert, wobei die Disparitätsschätzung/-prädiktion eher auf (x, 0) als auf (0, 0) zentriert ist. Das heißt, die Schätzung wird um x Pixel nach rechts verschoben.
Der Disparitätsvektor (v_x, v_y) zeigt die Positionierungsdifferenz zwischen entsprechenden Makroblöcken von Pixeln der Basisschicht und der Anreicherungsschicht an, und wird für die Rekonstruktion des disparitätsprädiktierten Anreicherungsschichtbilds an einem Decodierer verwendet. Wenn die Pixelkoordinaten für einen Suchfenstermakroblock in der Anreicherungsschicht (x_s, y_s) sind und die Pixelkoordinaten für einen entsprechenden Referenzfenstermakroblock in der Basisschicht (x_r, y_r) sind, ist der Disparitätsvektor, genauer v = (v_x, v_y) = (x_s – x_r, y_s – y_r). Der Disparitätsvektor ist daher ein Maß für eine Positionierungs- oder Translationsdifferenz zwischen dem Suchfenster und dem Referenzfenster. Die Disparitätsvektoren können in dem Kanaldatenstrom der rechtsseitigen Ansicht zur Verwendung beim Rekonstruieren des disparitätsprädiktierten Anreicherungsschichtbilds an einem Decodierer übertragen werden.
Des Weiteren ist die zeitliche Prädiktion des B-Bilds 820 unter Verwendung des P-Bilds 810 bei (v_x, v_y) für jeden iten Makroblock zentriert.
Die Disparitätsprädiktion und der Bewegungsvektorsuchvorgang kann ferner unter Bezugnahme auf 9 verstanden werden.
9 veranschaulicht Bewegungsvektorsuchen gemäß der vorliegenden Erfindung. Wie in Verwendung mit 8 erörtert, definiert ein Vektor (v_x, v_y) einen Makroblock 920 der besten Übereinstimmung in dem I-Bild 840 für einen iten Makroblock 900 in dem P-Bild 850. Der Vektor zeigt die Menge der zeitlichen Bewegung einer Abbildung zwischen den zwei Bildern an. Ein Suchbereich 910 wird verwendet, um den Makroblock 920 der besten Übereinstimmung zu finden. Der Suchbereich kann eine Gesamtgröße von 82 × 64 Pixeln, entsprechend einer Variation von 64 × 48 für den 16 × 16 Makroblock 900, aufweisen.
Für die Disparitätsprädiktion von Makroblöcken in dem B-Bild 820 in der Anreicherungsschicht ist der ite Makroblock 930 bei (x, 0) zentriert und wird mit Makroblöcken in einem kleineren Suchbereich 940, zum Beispiel mit einer Gesamtgröße von 24 × 24 Pixeln, entsprechend einer Variation von 8 × 8 für einen 16 × 16 Makroblock, verglichen. Der Versatzwert x ermöglicht die Verwendung eines kleineren Suchbereichs, da es wahrscheinlich ist, dass sich der Makroblock der besten Übereinstimmung zum differentiellen Codieren des Makroblocks 930 in einer kleineren Umgebung von Pixeln in der Nähe des Makroblocks 930 befindet. Dementsprechend können eine schnellere Verarbeitungszeit und reduzierte Speicheranforderungen realisiert werden.
Wenn der Versatzwert auf die Decodierer übertragen wird, resultiert daraus zusätzlich das effizientere Codieren variabler Längen (z. B. Huffman-Codierung) von Disparitätsvektoren, da jeder Disparitätsvektor kleiner ist, wodurch die Datenmenge, die übertragen werden muss, reduziert wird.
Ein Makroblock in dem B-Bild 820, das in dem P-Bild 850 neben dem Makroblock 900 liegt, kann ebenfalls einen kleineren Suchbereich in dem P-Bild 810 verwenden, das auf dem durch den Vektor (v_x, v_y) definierten Makroblock 920 zentriert ist. Der Bewegungsvektorsuchbereich für die Sequenz der rechtsseitigen Ansicht kann zum Beispiel ebenfalls auf so wenig wie eine 8 × 8 Variation reduziert werden. Dies trifft zu, da es wahrscheinlich ist, dass die Korrelation zwischen dem B-Bild 820 und dem P-Bild 810 der Korrelation zwischen dem P-Bild 850 und dem I-Bild 840 ähnlich ist.
10 ist ein Blockschaltbild einer Anreicherungsschichtdecodiererstruktur gemäß der vorliegenden Erfindung. Der allgemein bei 130 gezeigte Decodierer umfasst ein Eingabeterminal 1005 zum Empfangen der komprimierten Anreicherungsschichtdaten und einen Syntaxanalysierer 1010 der Transportebene zum Analysieren der Daten. Einem Speicherverwalter 1030 werden die analysierten Daten bereitgestellt, der eine zentrale Verarbeitungseinheit beinhalten kann. Der Speicherverwalter 1030 kommuniziert mit einem Speicher 1020, der zum Beispiel einen dynamischen Direktzugriffsspeicher (DRAM) beinhalten kann. Der horizontale Versatz x kann mit den Anreicherungsschichtdaten verbunden werden oder ansonsten in dem stereoskopischen Videosignal bereitgestellt werden. Ein Referenzvollbild wird unter Verwendung der decodierten Untere-Schicht-Daten und des Versatzes x konstruiert.
Der Speicherverwalter 1030 kommuniziert außerdem mit einem Dekompressions-/Prädiktionsprozessor 1040 und empfängt decodierte Daten der unteren Ebene über das Terminal 1050, die zur nachfolgenden Verwendung durch den Prozessor 1040 bei der Decodierung von disparitätsprädiktierten Anreicherungsschichtbildern vorübergehend in dem Speicher 1020 gespeichert werden können.
Der Dekompressions-/Prädiktionsprozessor 1040 stellt eine Vielzahl von Verarbeitungsfunktionen bereit, wie zum Beispiel Fehlererkennung und -korrektur, Bewegungsvektordecodierung, Invers-Quantisierung, inverse diskrete Kosinustransformation, Huffman-Decodierung und Prädiktionskalkulationen. Nachdem sie durch die Dekompressions-/Prädiktionsfunktion 1040 verarbeitet wurden, werden decodierte Anreicherungsschichtdaten von dem Speicherverwalter ausgegeben. Als Alternative können die decodierten Daten direkt über nicht gezeigte Mittel aus der Dekompressions-/Prädiktionsfunktion 1040 ausgegeben werden.
Eine analoge Struktur kann für die untere Schicht verwendet werden. Außerdem können sich die Decodierer der Anreicherungs- und der unteren Schicht gemeinsame Hardware teilen. Zum Beispiel können der Speicher 1020 und der Prozessor 1040 geteilt werden.
Testergebnisse bestätigen, dass die Ansichtversatzschätzungstechnik der vorliegenden Erfindung die Codiereffizienz für stereoskopische Videosignale effizient verbessern kann. Die Versatzschätzungstechnik wurde in einem MPEG-2-MVP-Programm implementiert und durch die D-Betrieb-Videotestsequenzen von ISO/IEC JTC1/SC29/WG11/MPEG-4 und einiger anderer Sequenzen laufen gelassen. Beispiele von Testergebnissen mit einem Versatzsuchbereich von X = 20 Pixeln sind in Tabelle 1 gezeigt. Die Verbesserung der Codiereffizienz gegenüber MVP in Bits/Vollbild reicht von 2,0 bis 5,2%. PSNR gibt den Spitzen-Signal-Rauschabstand (PSNR) an. Alle Bildarten sind P-Bilder.
TABELLE 1
Weitere Verbesserungen der Codiereffizienz können durch die Verwendung einer Schwelle T, um den restlichen Makroblock nach der Kompensation auf Null zu setzen, oder um einige Hochfrequenz-DCT- Koeffizienten auf Null zu setzen, erreicht werden.
Wie ersichtlich ist, stellt die vorliegende Erfindung ein System zum Schätzen des optimalen Versatzes x einer Szene zwischen rechts- und linksseitigen Kanalansichten an dem gleichen zeitlichen Referenzpunkt bereit. Das System reduziert den Bewegungsvektorsuchbereich für Disparitätsprädiktion (d. h. Kreuzkanal- oder Kreuzschichtprädiktion) zum Verbessern der Codiereffizienz. Der Versatz kann rekalkuliert werden, wenn es einen Szenenwechsel oder eine neue Bildsequenz in der unteren Schicht gibt.
An einem Codierer wird der optimale Versatz x zwischen der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung gemäß entweder einem kleinsten mittleren Fehler zwischen der Anreicherungsabbildung und der Untere-Schicht-Abbildung oder einem kleinsten mittleren quadratischen Fehler zwischen der Anreicherungsabbildung und der Untere-Schicht-Abbildung bestimmt. Der Versatz x wird durch einen Versatzsuchbereich X gebunden. Die x am weitesten rechts liegenden Pixelspalten der Untere-Schicht-Abbildung werden gelöscht, und die x am weitesten links liegenden Spalten der Untere-Schicht-Abbildung werden aufgefüllt, um die Untere-Schicht-Abbildung durch x Pixel effizient nach rechts zu verschieben, um die Referenzabbildung zur Verwendung beim Disparitätsprädiktieren der Anreicherungsschichtabbildung zu erhalten. Für willkürlich geformte Abbildungen wie beispielsweise VOP wird ein VOP in einer Abbildung der linksseitigen Ansicht durch das Löschen der x am weitesten links liegenden Pixel, die sich vertikal auf der VOP erweitern, und das Auffüllen der x Pixel beginnend an dem am weitesten rechts liegenden Rand des VOP, nach rechts verschoben.
Das Referenzvollbild wird durchsucht, um Makroblocks der besten Übereinstimmung zu erhalten, und die Daten der rechten Ansicht werden differentiell codiert. An einem Decodierer wird der Versatzwert x, falls verfügbar, wiedererlangt und verwendet, um das Referenzvollbild zur Disparitätsprädiktion zu rekonstruieren.
Obwohl die Erfindung in Verbindung mit verschiedenen spezifischen Ausführungsformen beschrieben worden ist, versteht der Fachmann, dass daran zahlreiche Anpassungen und Modifikationen vorgenommen werden können, ohne von dem Bereich der Erfindung, wie er in den Ansprüchen dargelegt ist, abzuweichen.

Claims

Ein Verfahren zum Disparitätsprädiktieren einer Anreicherungsschichtabbildung in einer Anreicherungsschicht eines stereoskopischen Videosignals unter Verwendung einer Untere-Schicht-Abbildung in einer unteren Schicht davon, gekennzeichnet durch die folgenden Schritte: Bestimmen eines optimalen Versatzes x zwischen der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung gemäß entweder (a) einem kleinsten mittleren Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung oder (b) einem kleinsten mittleren quadratischen Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung; und Verschieben der Untere-Schicht-Abbildung gemäß dem optimalen Versatz, um eine Referenzabbildung zur Verwendung beim Disparitätsprädiktieren der Anreicherungsschichtabbildung zu erhalten.
Verfahren gemäß Anspruch 1, wobei: die Anreicherungsschichtabbildung von der Referenzabbildung unter Verwendung von Bewegungskompensation disparitätsprädiktiert wird; und in der Referenzabbildung unter Verwendung eines Suchbereichs, der relativ zu einem Suchbereich der Untere-Schicht-Abbildung ohne das Verschieben reduziert ist, eine Abbildung der besten Übereinstimmung erhalten wird.
Verfahren gemäß Anspruch 1, das die folgenden weiteren Schritte beinhaltet: Bestimmen eines geschätzten Versatzes gemäß mindestens entweder einem Kamerafokusparameter oder einer interokularen Trennung; und Suchen innerhalb der Untere-Schicht-Abbildung in einem durch den geschätzten Versatz bestimmten Bereich, um den optimalen Versatz zu finden.
Verfahren gemäß Anspruch 1, das den folgenden weiteren Schritt beinhaltet: Suchen innerhalb eines horizontalen Versatzbereichs X, um den optimalen Versatz x zu finden, so dass 0 ≤ x ≤ X ist.
Verfahren gemäß Anspruch 1, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung eine Video-Objektebene beinhalten.
Verfahren gemäß Anspruch 1, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung willkürlich geformt sind.
Verfahren gemäß Anspruch 6, wobei der Verschiebeschritt die folgenden Schritte beinhaltet: Löschen eines am weitesten links liegenden Randgebiets einer Video-Objektebene mit einer Breite von x Pixeln; und Auffüllen eines am weitesten rechts liegenden Randabschnitts der Video-Objektebene, um den am weitesten rechts liegenden Randabschnitt um eine Breite von x Pixeln zu erweitern.
Verfahren gemäß Anspruch 1, wobei der Verschiebeschritt die folgenden Schritte beinhaltet: Löschen von x am weitesten rechts liegenden Pixelspalten der Untere-Schicht-Abbildung; und Auffüllen eines am weitesten links liegenden Abschnitts der Untere-Schicht-Abbildung mit x Pixelspalten.
Verfahren gemäß Anspruch 1, das die folgenden weiteren Schritte beinhaltet: Bestimmen eines neuen optimalen Versatzes x, wenn ein Szenenwechsel für die Untere-Schicht-Abbildung erkannt wird; und wenn kein Szenenwechsel erkannt wird, das Verwenden eines Versatzes von einer vorherigen Abbildung in der unteren Schicht als optimaler Versatz x.
Verfahren gemäß Anspruch 1, wobei: ein neuer optimaler Versatz x für eine neue Bildsequenz in der unteren Schicht bestimmt wird.
Verfahren gemäß Anspruch 1, das den folgenden weiteren Schritt beinhaltet: Übertragen des optimalen Versatzes x in dem stereoskopischen Videosignal zur Verwendung durch einen Decodierer beim Wiederherstellen der Referenzabbildung.
Verfahren gemäß Anspruch 1, wobei: der optimale Versatz x für den kleinsten mittleren Fehler so bestimmt wird, dass der Wert
minimiert wird, wobei y_L und y_E Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linksseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtsseitigen Ansicht ist.
Verfahren gemäß Anspruch 12, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren Fehler ⌊x/2⌋ ist.
Verfahren gemäß Anspruch 1, wobei: der optimale Versatz x für den kleinsten mittleren quadratischen Fehler so bestimmt wird, dass der Wert
minimiert wird, wobei y_L und y_E die Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, und w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linksseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtsseitigen Ansicht ist.
Verfahren gemäß Anspruch 14, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren quadratischen Fehler ⌊x/2⌋ ist.
Eine Vorrichtung zum Disparitätsprädiktieren einer Anreicherungsschichtabbildung in einer Anreicherungsschicht eines stereoskopischen Videosignals unter Verwendung einer Untere-Schicht-Abbildung in einer unteren Schicht davon, gekennzeichnet durch: Mittel zum Bestimmen eines optimalen Versatzes x zwischen der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung gemäß entweder (a) einem kleinsten mittleren Fehler zwischen den Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung oder (b) eines kleinsten mittleren quadratischen Fehlers zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung; und Mittel zum Verschieben der Untere-Schicht-Abbildung gemäß dem optimalen Versatz, um eine Referenzabbildung zur Verwendung beim Disparitätsprädiktieren der Anreicherungsschichtabbildung zu erhalten.
Vorrichtung gemäß Anspruch 16, wobei: die Anreicherungsschichtabbildung von der Referenzabbildung unter Verwendung von Bewegungskompensation disparitätsprädiktiert wird; und in der Referenzabbildung unter Verwendung eines Suchbereichs, der relativ zu einem Suchbereich der Untere-Schicht-Abbildung ohne das Verschieben reduziert ist, eine Abbildung der besten Übereinstimmung erhalten wird.
Vorrichtung gemäß Anspruch 16, die ferner Folgendes beinhaltet: Mittel zum Bestimmen eines geschätzten Versatzes gemäß mindestens entweder einem Kamerafokusparameter_[RFH1] oder einer interokularen Trennung; und Mittel zum Suchen innerhalb der Untere-Schicht-Abbildung in einem durch den geschätzten Versatz bestimmten Bereich, um den optimalen Versatz zu finden.
Vorrichtung gemäß Anspruch 16, die ferner Folgendes beinhaltet: Mittel zum Suchen innerhalb eines horizontalen Versatzbereichs X, um den optimalen Versatz x zu finden, so dass 0 ≤ x ≤ X ist.
Vorrichtung gemäß Anspruch 16, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung eine Video-Objektebene beinhalten.
Vorrichtung gemäß Anspruch 16, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung willkürlich geformt sind.
Vorrichtung gemäß Anspruch 21, wobei das Mittel zum Verschieben ein am weitesten links liegendes Randgebiet einer Video-Objektebene, die eine Breite von x Pixeln aufweist, löscht, und einen am weitesten rechts liegenden Randabschnitt der Video-Objektebene auffüllt, um den am weitesten rechts liegenden Randabschnitt um eine Breite von x Pixeln zu erweitern.
Vorrichtung gemäß Anspruch 16, wobei das Mittel zum Verschieben x am weitesten rechts liegende Pixelspalten der Untere-Schicht-Abbildung löscht und einen am weitesten links liegenden Abschnitt der Untere-Schicht-Abbildung mit x Pixelspalten auffüllt.
Vorrichtung gemäß Anspruch 16, die ferner Mittel für Folgendes beinhaltet: (a) Bestimmen eines neuen optimalen Versatzes x, wenn ein Szenenwechsel für die Untere-Schicht-Abbildung erkannt wird; und (b) wenn kein Szenenwechsel erkannt wird, das Verwenden eines Versatzes von einer vorherigen Abbildung in der unteren Schicht als optimaler Versatz x.
Vorrichtung gemäß Anspruch 16, wobei: ein neuer optimaler Versatz x für eine neue Bildsequenz in der unteren Schicht bestimmt wird.
Vorrichtung gemäß Anspruch 16, die ferner Folgendes beinhaltet: Mittel zum Übertragen des optimalen Versatzes x in dem stereoskopischen Videosignal zur Verwendung durch einen Decodierer beim Wiederherstellen der Referenzabbildung.
Vorrichtung gemäß Anspruch 16, wobei: der optimale Versatz x für den kleinsten mittleren Fehler so bestimmt wird, dass der Wert
minimiert wird, wobei y_L und y_E Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linksseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtseitigen Ansicht ist.
Vorrichtung gemäß Anspruch 27, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren Fehler ⌊x/2⌋ ist.
Vorrichtung gemäß Anspruch 16, wobei: der optimale Versatz x für den kleinsten mittleren quadratischen Fehler so bestimmt wird, dass der Wert
minimiert wird, wobei y_L und y_E die Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, und w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linksseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtsseitigen Ansicht ist.
Vorrichtung gemäß Anspruch 29, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren quadratischen Fehler ⌊x/2⌋ ist.
Ein Decodierer zum Disparitätsprädiktieren einer Anreicherungsschichtabbildung in einer Anreicherungsschicht eines stereoskopischen Videosignals unter Verwendung einer Untere-Schicht-Abbildung in einer unteren Schicht davon, gekennzeichnet durch: Mittel zum Wiedergewinnen eines optimalen Versatzes x zwischen der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung aus dem stereoskopischen Videosignal; wobei der optimale Versatz x an einem Codierer gemäß entweder (a) einem kleinsten mittleren Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung oder (b) einem kleinsten mittleren quadratischen Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung bestimmt wird; und Mittel zum Verschieben der Untere-Schicht-Abbildung gemäß dem optimalen Versatz, um eine Referenzabbildung zur Verwendung beim Disparitätsprädiktieren der Anreicherungsschichtabbildung zu erhalten.
Decodierer gemäß Anspruch 31, wobei: die Anreicherungsschichtabbildung von der Referenzabbildung unter Verwendung von Bewegungskompensation disparitätsprädiktiert wird; und in der Referenzabbildung unter Verwendung eines Suchbereichs, der relativ zu einem Suchbereich der Untere-Schicht-Abbildung ohne das Verschieben reduziert ist, eine Abbildung der besten Übereinstimmung erhalten wird.
Decodierer gemäß Anspruch 31, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung eine Video-Objektebene beinhalten.
Decodierer gemäß Anspruch 31, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung willkürlich geformt sind.
Decodierer gemäß Anspruch 34, wobei das Mittel zum Verschieben ein am weitesten links liegendes Randgebiet einer Video-Objektebene, die eine Breite von x Pixeln aufweist, löscht, und einen am weitesten rechts liegenden Randabschnitt der Video-Objektebene auffüllt, um den am weitesten rechts liegenden Randabschnitt um eine Breite von x Pixeln zu erweitern.
Decodierer gemäß Anspruch 31, wobei das Mittel zum Verschieben x am weitesten rechts liegende Pixelspalten der Untere-Schicht-Abbildung löscht und einen am weitesten links liegenden Abschnitt der Untere-Schicht-Abbildung mit x Pixelspalten auffüllt.
Decodierer gemäß Anspruch 31, wobei: der optimale Versatz x für den kleinsten mittleren Fehler so bestimmt wird, dass der Wert
minimiert wird, wobei y_L und y_E Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linksseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtsseitigen Ansicht ist.
Decodierer gemäß Anspruch 37, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren Fehler ⌊x/2⌋ ist.
Decodierer gemäß Anspruch 31, wobei: der optimale Versatz x für den kleinsten mittleren quadratischen Fehler so bestimmt wird, dass der Wert
minimiert wird, wobei y_L und y_E Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, und w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linkseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtsseitigen Ansicht ist.
Decodierer gemäß Anspruch 39, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren quadratischen Fehler ⌊x/2⌋ ist.