DE69829931T2 - Schätzung von Sichtverschiebungen zur Kodierung stereoskopischer Videobilder - Google Patents

Schätzung von Sichtverschiebungen zur Kodierung stereoskopischer Videobilder Download PDF

Info

Publication number
DE69829931T2
DE69829931T2 DE69829931T DE69829931T DE69829931T2 DE 69829931 T2 DE69829931 T2 DE 69829931T2 DE 69829931 T DE69829931 T DE 69829931T DE 69829931 T DE69829931 T DE 69829931T DE 69829931 T2 DE69829931 T2 DE 69829931T2
Authority
DE
Germany
Prior art keywords
image
map
offset
layer
enhancement layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69829931T
Other languages
English (en)
Other versions
DE69829931D1 (de
Inventor
Xuemin San Diego Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Arris Technology Inc
Original Assignee
Arris Technology Inc
General Instrument Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Arris Technology Inc, General Instrument Corp filed Critical Arris Technology Inc
Application granted granted Critical
Publication of DE69829931D1 publication Critical patent/DE69829931D1/de
Publication of DE69829931T2 publication Critical patent/DE69829931T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Description

  • ALLGEMEINER STAND DER TECHNIK
  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zum Codieren von stereoskopischen Videodaten. Insbesondere wird ein System zum Schätzen des optimalen Versatzes einer Szene zwischen rechten und linken Kanalansichten an dem gleichen zeitlichen Referenzpunkt präsentiert. Das System reduziert den Bewegungsvektorsuchbereich für Disparitätsprädiktion (d. h. Kreuzkanal- oder Kreuzschichtprädiktion) zum Verbessern der Codiereffizienz.
  • Die digitale Technologie hat die Lieferung von Video- und Audiodiensten an Kunden revolutioniert, da sie Signale mit viel höherer Qualität als analoge Techniken abliefern und zusätzliche Merkmale, die zuvor nicht verfügbar waren, bereitstellen kann. Digitale Systeme sind besonders für Signale von Vorteil, die über ein Kabelfernsehnetzwerk oder durch Satellit zu Kabelfernsehmitgliedern und/oder direkt zu privaten Satellitenfernsehempfängern rundgesendet werden. In solchen Systemen empfängt ein Teilnehmer den digitalen Datenstrom über einen Empfänger/Entwürfler, der die Daten dekomprimiert und decodiert, um die ursprünglichen Video- und Audiosignale zu rekonstruieren. Der digitale Empfänger umfasst einen Mikrocomputer und Speicherelemente zur Verwendung bei diesem Vorgang.
  • Die Notwendigkeit, kostengünstige Empfänger bereitzustellen, während gleichzeitig qualitativ hochwertige Video- und Audiosignale bereitgestellt werden, erfordert, dass die verarbeitete Datenmenge begrenzt wird. Darüber hinaus kann die verfügbare Bandbreite zur Übertragung des digitalen Signals außerdem durch physikalische Beschränkungen, bestehende Kommunikationsprotokolle und gesetzliche Regelungen begrenzt sein. Folglich wurden verschiedene Vollbild interne Datenkomprimierungsschemata entwickelt, die die räumliche Korrelation zwischen benachbarten Pixeln in einem bestimmten Videobild (z. B. Vollbild) ausnutzen.
  • Außerdem nutzen die Vollbild übergreifenden Komprimierungsschemata zeitliche Korrelationen zwischen entsprechenden Gebieten aufeinanderfolgender Vollbilder aus, indem sie Bewegungskompensationsdaten und Blockübereinstimmungs-Bewegungsschätzalgorithmen verwenden. In diesem Fall wird für jeden Block in einem aktuellen Bild einer Abbildung durch Identifizieren eines Blocks in einem vorherigen Bild, das dem aktuellen Block am ähnlichsten ist, ein Bewegungsvektor bestimmt. Das gesamte aktuelle Bild kann dann an einem Decodierer rekonstruiert werden, indem Daten gesendet werden, die den Unterschied zwischen den entsprechenden Blockpaaren darstellen, zusammen mit den Bewegungsvektoren, die erforderlich sind, um die entsprechenden Paare zu identifizieren. Block übereinstimmende Bewegungsschätzalgorithmen sind besonders effektiv, wenn sie mit auf Blöcken basierenden räumlichen Kompressionstechniken, wie etwa der diskreten Cosinus-Transformation (DCT), kombiniert werden.
  • Zusätzlich besteht zunehmendes Interesse an vorgeschlagenen Formaten für die stereoskopische Videoübertragung, wie zum Beispiel dem System MPEG-2 Multi-View-Profile (MVP) der Motion Picture Experts Group (MPEG), das in Dokument ISO/IEC JTC1/SC29/WG11 N1088 (ITU-T Recommendation H.262) mit dem Titel „Proposed Draft Amendment No. 3 to 13818-2 (Multi-View-Profile)", November 1995, und dessen Änderung 3 sowie dem MPEG-4 Video Verification Model (VM) Version 3.0, das in Dokument ISO/IEC JTC1/SC29/WG11 N1277, Tampere, Finnland, Juli 1996 beschrieben wird.
  • Stereoskopisches Video stellt etwas versetzte Ansichten derselben Abbildung bereit, um eine kombinierte Abbildung mit größerer Tiefe des Halbbilds zu erzeugen, wodurch ein dreidimensionaler (3D-Effekt) Effekt hergestellt wird. In einem solchen System können duale Kameras etwa 2,5 Inch oder 65 mm voneinander positioniert werden, um ein Ereignis auf zwei getrennten Videosignalen aufzuzeichnen. Der Zwischenraum der Kameras approximiert den Abstand zwischen dem linken und rechten menschlichen Auge, d. h. der interokularen Trennung. Außerdem werden bei manchen stereoskopischen Video-Camcordern die zwei Linsen in einen Camcorderkopf eingebaut und bewegen sich deshalb synchron, wenn zum Beispiel über die Abbildung geschwenkt wird. Die zwei Videosignale können übertragen und an einem Empfänger rekombiniert werden, um eine Abbildung mit einer Tiefe des Halbbilds herzustellen, die dem normalen menschlichen Sehen entspricht. Außerdem können andere Spezialeffekte bereitgestellt werden.
  • Das MPEG-MVP-System umfasst zwei Videoschichten, die in einem gemultiplexten Signal übertragen werden. Als erstes stellt eine Basisschicht (z. B. untere Schicht) eine linksseitige Ansicht eines dreidimensionalen Objekts dar. Als zweites stellt eine Anreicherungsschicht (z. B. eine Hilfs- oder obere Schicht) eine rechtsseitige Ansicht des Objekts dar. Da die rechtsseitige und die linksseitige Ansicht von demselben Objekt und nur geringfügig voneinander versetzt sind, besteht gewöhnlich ein hoher Korrelationsgrad zwischen den Videoabbildungen der Basis- und Anreicherungsschicht. Diese Korrelation kann zum Komprimieren der Anreicherungsschichtdaten relativ zu der Basisschicht verwendet werden, wodurch die Datenmenge reduziert wird, die in der Anreicherungsschicht übertragen werden muss, um eine gegebene Abbildungsqualität aufrechtzuerhalten. Die Abbildungsqualität entspricht im Allgemeinen dem Quantisierungsgrad der Videodaten.
  • Das MPEG-MVP-System umfasst drei Arten von Videobildern; spezifisch das intracodierte Bild (I-Bild), das prädiktiv codierte Bild (P-Bild) und das bidirektional prädiktiv codierte Bild (B-Bild). Während die Basisschicht entweder Vollbild- oder Halbbildstrukturvideosequenzen unterbringt, trägt die Anreicherungsschicht ferner nur Vollbildstruktur. Ein I-Bild beschreibt vollständig ein einzelnes Videobild ohne Bezug auf ein anderes Bild. Zur verbesserten Fehlerverschleierung können in ein I-Bild Bewegungsvektoren eingeschlossen werden. Ein Fehler in einem I-Bild hat das Potential, sich stärker auf das angezeigte Video auszuwirken, da sowohl P-Bilder als auch B-Bilder in der Basisschicht aus I-Bildern prädiktiert werden. Bilder in der Anreicherungsschicht können außerdem aus Bildern in der Basisschicht in einem Kreuzschichtprädiktionsvorgang, bekannt als Disparitätsprädiktion, prädiktiert werden. Die Prädiktion von einem Vollbild zu einem anderen innerhalb einer Schicht ist als zeitliche Prädiktion bekannt.
  • In der Basisschicht werden P-Bilder auf der Grundlage vorheriger I- oder P-Bilder prädiktiert. Der Bezug erfolgt von einem früheren I- oder P-Bild auf ein zukünftiges P-Bild und ist als Vorwärtsprädiktion bekannt. B-Bilder werden aus dem nächsten früheren I- oder P-Bild und dem nächsten späteren I- oder P-Bild prädiktiert.
  • In der Anreicherungsschicht kann ein P-Bild (a) aus dem zuletzt decodierten Bild in der Anreicherungsschicht, (b) dem letzten Basisschichtbild in der Anzeigeanordnung oder (c) aus dem nächsten Untere-Schicht-Bild in der Anzeigeanordnung prädiktiert werden. Fall (b) wird gewöhnlich verwendet, wenn das letzte Basisschichtbild in der Anzeigeanordnung ein I-Bild ist.
  • Außerdem kann ein B-Bild in der Anreicherungsschicht unter Verwendung (d) des zuletzt decodierten Anreicherungsschichtbilds zur Vorwärtsprädiktion und des letzten Untere-Schicht-Bilds in der Anzeigeanordnung (e) des zuletzt decodierten Anreicherungsschichtbilds zur Vorwärtsprädiktion und des nächsten Untere-Schicht-Bilds in der Anzeigeanordnung zur Rückwärtsprädiktion oder (f) des letzten Untere-Schicht-Bilds in der Anzeigeanordnung zur Vorwärtsprädiktion und des nächsten Untere-Schicht-Bilds in der Anzeigeanordnung zur Rückwärtsprädiktion prädiktiert werden. Wenn das letzte Untere-Schicht-Bild in der Anzeigeanordnung ein I-Bild ist, wird nur dieses I-Bild für die prädiktive Codierung verwendet (z. B. erfolgt keine Vorwärtsprädiktion).
  • Zu beachten ist, dass nur die Prädiktionsmodi (a), (b) und (d) in dem MPEG-MVP- System eingeschlossen sind. Das MVP-System ist eine Teilmenge der zeitlichen MPEG-Skalierbarkeitscodierung, die jeden der Modi (a)–(f) einschließt.
  • Bei einer wahlweisen Konfiguration weist die Anreicherungsschicht nur P- und B-Bilder, aber keine I-Bilder auf. Der Bezug auf ein zukünftiges Bild (d. h. eines, das noch nicht angezeigt worden ist) wird als Rückwärtsprädiktion bezeichnet. Zu beachten ist, dass in der Anreicherungsschicht keine Rückwärtsprädiktion erfolgt. Folglich werden Anreicherungsschichtbilder in der Anzeigeanordnung übertragen. Es gibt Situationen, in denen die Rückwärtsprädiktion beim Vergrößern der Kompressionsrate sehr nützlich ist. Zum Beispiel kann in einer Szene, in der sich eine Tür öffnet, das aktuelle Bild auf der Grundlage eines zukünftigen Bildes, in dem die Tür bereits offen ist, prädiktieren, was sich hinter der Tür befindet.
  • B-Bilder ergeben am meisten Kompression, enthalten aber auch die meisten Fehler. Um eine Fehlerausbreitung zu beseitigen, dürfen B-Bilder niemals aus anderen B-Bildern in der Basisschicht prädiktiert werden. P-Bilder ergeben weniger Fehler und weniger Kompression. I-Bilder ergeben die geringste Kompression, können aber einen Direktzugriff bereitstellen.
  • Zur Disparitätsprädiktion, z. B. wenn eine Untere-Schicht-Abbildung als eine Referenzabbildung für eine Anreicherungsschichtabbildung verwendet wird, entweder allein oder in Verbindung mit einer Anreicherungsschichtreferenzabbildung, wird die Anreicherungsschichtabbildung durch das Finden einer Abbildung der besten Übereinstimmung in der Referenzabbildung durch das Suchen eines vorbestimmten Suchbereichs, dann das differentielle Codieren der Pixel der Anreicherungsschichtabbildung unter Verwendung der Pixel der Abbildung der besten Übereinstimmung der Referenzabbildung bewegungskompensiert. Ein Bewegungsvektor, der die relative Verschiebung der Abbildung der besten Übereinstimmung zu dem codierten Anreicherungsschichtgebiet definiert, wird mit den differentiell codierten Pixeldaten übertragen, um die Rekonstruktion der Anreicherungsschichtabbildung an einem Decodierer zu ermöglichen. Das Verarbeiten kann auf einem Makroblock auf Makroblock-Basis geschehen.
  • US 5652616 offenbart ein optisches Disparitätsschätzungsverfahren für stereoskopisches Videocodieren. Dieses Verfahren involviert das Bereitstellen eines Suchfensters, das mindestens einen Abschnitt der Pixel in dem Anreicherungsschichtbild beinhaltet. Ein Referenzfenster, das mindestens einen Abschnitt der Pixel beinhaltet, ist in einem Referenzbild einer Basisschicht des stereoskopischen Videosignals bereitgestellt. Affine Transformationskoeffizienten des Referenzfensters werden bestimmt, die den kleinsten quadratischen Fehler zwischen Luminanzwerten von Pixeln des Suchfensters und des Referenzfensters minimieren.
  • Die Verarbeitungs- und Speicherungsanforderungen für die Disparitätsprädiktion werden jedoch erhöht, wenn der Bewegungsvektorsuchbereich erhöht wird. Daraus resultiert zusätzlich ineffizientes Codieren variabler Längen (z. B. Huffman-Codierung) von Disparitätsvektoren. Dies resultiert in einer teureren und/oder langsameren Codier- und Decodiervorrichtung. Demgemäß wäre es vorteilhaft, ein System zum Verbessern der Codiereffizienz von disparitätsprädiktierten Anreicherungsschichtabbildungen in einem stereoskopischen Videosystem zu haben. Das System sollte die interokulare Trennung einer stereoskopischen Videokamera berücksichtigen, um eine verschobene Untere-Schicht-Abbildung bereitzustellen, die eher zu der Anreicherungsschichtabbildung passt. Das System sollte mit verschiedenen Abbildungsgrößen einschließlich rechteckigen sowie willkürlich geformten Abbildungen kompatibel sein.
  • Das System sollte ferner mit verschiedenen existierenden und vorgeschlagenen Videocodierstandards wie beispielsweise MPEG-1, MPEG-2, MPEG-4, H.261 und H.263 kompatibel sein.
  • Das System sollte für die Übertragung eines Versatzwerts zur Verwendung durch einen Decodierer beim Rekonstruieren eines Referenzvollbilds sorgen. Das System sollte ebenfalls bei Videostandards wirken, die durch das Reduzieren des Bewegungsvektorsuchbereichs an einem Codierer keine Übertragung eines Versatzwerts ermöglichen. Die Technik sollte sowohl für Festabbildungen als auch für Sequenzen von Abbildungen geeignet sein.
  • Die vorliegende Erfindung stellt ein System mit den obigen und weiteren Vorteilen bereit.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung werden ein Verfahren und eine Vorrichtung zum Verbessern der Codiereffizienz in einem stereoskopischen Videoübertragungssystem durch das Ausgleichen der interokularen Trennung der Kameralinse dargestellt.
  • Ein Verfahren zum Prädiktieren einer Anreicherungsschichtabbildung in einer Anreicherungsschicht eines stereoskopischen Videosignals unter Verwendung einer Untere-Schicht-Abbildung in einer unteren Schicht davon beinhaltet die Schritte des Bestimmens eines optimalen Versatzes x zwischen der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung gemäß entweder einem kleinsten mittleren Fehler oder einem kleinsten mittleren quadratischen Fehler und das Verschieben der Untere-Schicht-Abbildung gemäß dem optimalen Versatz, um eine Referenzabbildung zur Verwendung beim Disparitätsprädiktieren der Anreicherungsschichtabbildung zu erhalten. Das Verschieben wird durch das Löschen der letzten (z. B. am weitesten rechts liegenden) x Pixelspalten der Untere-Schicht-Abbildung und das Auffüllen dar ersten (z. B. am weitesten links liegenden) x Pixelspalten gemäß der vorher existierenden Pixelspalte (d. h. der am weitesten links liegenden Spalte vor dem Verschieben) erzielt.
  • Die Anreicherungsschichtabbildung wird von der Referenzabbildung unter Verwendung von Bewegungskompensation disparitätsprädiktiert, und eine Abbildung der besten Übereinstimmung wie beispielsweise ein Makroblock wird in der Referenzabbildung unter Verwendung eines Suchbereichs, der relativ zu einem Suchbereich der Untere-Schicht-Abbildung ohne das Verschieben reduziert ist, erhalten.
  • Ein geschätzter Versatz kann gemäß einem Kamerafokusparameter und einer interokularen Trennung bestimmt werden, in welchem Fall die Untere-Schicht-Abbildung in einem durch den geschätzten Versatz bestimmten Bereich gesucht werden kann, um den optimalen Versatz zu finden.
  • Die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung können Video-Objektebenen oder andere willkürlich geformte Abbildungen sowie rechteckige Abbildungen (z. B. Vollbilder) beinhalten.
  • Ein neuer optimaler Versatz x kann bestimmt werden, wenn ein Szenenwechsel für die Untere-Schicht-Abbildung erkannt wird. Wenn kein Szenenwechsel erkannt wird, kann ein Versatz von einer vorherigen Abbildung in der unteren Schicht als optimaler Versatz x verwendet werden. Wahlweise kann ein neuer optimaler Versatz x für eine neue Bildsequenz in der unteren Schicht bestimmt werden.
  • Der optimale Versatz x kann in dem stereoskopischen Videosignal zur Verwendung durch einen Decodierer beim Wiedererzeugen der Referenzabbildung übertragen werden.
  • Für den kleinsten mittleren Fehler wird der optimale Versatz x so bestimmt, dass der Wert
    Figure 00090001
    minimiert wird, wobei yL und yE Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine linksseitige Ansicht der Abbildung ist und die Anreicherungsschichtabbildung eine rechtsseitige Ansicht der Abbildung ist.
  • Für den kleinsten mittleren quadratischen Fehler wird der optimale Versatz x so bestimmt, dass der Wert
  • Figure 00100001
  • Der Versatz für Chrominanzdaten ist ⌊x/2⌋ für 4:2:0 Video.
  • Eine entsprechende Vorrichtung und ein entsprechender Decodieren sind ebenfalls dargestellt.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockschaltbild einer Codierer-/Decodiererstruktur für stereoskopisches Video.
  • 2 ist ein schematisches Diagramm eines stereoskopischen Videokameramodells.
  • 3 ist eine Veranschaulichung eines Disparitätsprädiktionsmodus für P-Bilder in der Anreicherungsschicht.
  • 4 ist eine Veranschaulichung eines Anreicherungsschichtprädiktionsmodus für B-Bilder.
  • 5 veranschaulicht das Verarbeiten eines Bilds der linksseitigen Ansicht gemäß der vorliegenden Erfindung.
  • 6 veranschaulicht einen Codiererablauf gemäß der vorliegenden Erfindung.
  • 7 veranschaulicht einen Decodiererablauf gemäß der vorliegenden Erfindung.
  • 8 veranschaulicht Disparitätsprädiktion und Bewegungsvektorsuchen gemäß der vorliegenden Erfindung.
  • 9 veranschaulicht Bewegungsvektorsuchen gemäß der vorliegenden Erfindung.
  • 10 ist ein Blockschaltbild einer Anreicherungsschichtdecodiererstruktur gemäß der vorliegenden Erfindung.
  • DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
  • Ein Verfahren und eine Vorrichtung zum Schätzen des optimalen Versatzes einer Szene zwischen einer rechten und linken Kanalansicht in einem stereoskopischen Videosystem werden dargestellt.
  • 1 ist ein Blockschaltbild einer Codierer-/Decodiererstruktur für stereoskopisches Video. Der MPEG-MVP-Standard und ähnliche Systeme involvieren die Codierung zweier Videoschichten, einschließlich einer unteren Schicht und einer Anreicherungsschicht oder einer oberen Schicht. Bei einer solchen Anwendung wird die untere Schicht einer linksseitigen Ansicht zugewiesen, während die Anreicherungsschicht einer rechtsseitigen Ansicht zugewiesen wird. In der Codierer-/Decodiererstruktur (z. B. Codec-Struktur) von 1 werden die Videosequenzen der unteren Schicht und der Anreicherungsschicht von einem zeitlichen Remultiplexer (Remuxer) 105 empfangen. Unter Verwendung des Zeitmultiplexverfahrens (TDMX) wird einem Anreicherungscodierer 110 das Anreicherungsschichtvideo bereitgestellt, während einem unteren Codierer 115 das Basisschichtvideo bereitgestellt wird. Es ist zu beachten, dass dem Anreicherungscodierer 110 zur Disparitätsprädiktion die Videodaten der unteren Schicht bereitgestellt werden können.
  • Einem Systemmultiplexer 120 werden dann die codierte Anreicherungs- und Basisschicht zur Übertragung zu einem Decodierer, allgemein bei 122 gezeigt, als ein Transportstrom bereitgestellt. Der Übertragungsweg ist typischerweise eine Satellitenverbindung zu einer Kopfstelle einer Kabelanlage oder direkt über Satellit zu der Wohnung eines Verbrauchers. Am Decodierer 122 wird der Transportstrom an einem Systemdemultiplexer 125 demultiplexiert. Einem Anreicherungsdecodierer 130 werden die codierten Anreicherungsschichtdaten bereitgestellt, während einem unteren Decodierer 135 die codierten Daten der unteren Schicht bereitgestellt werden. Es ist zu beachten, dass die Decodierung vorzugsweise gleichzeitig mit der unteren und der Anreicherungsschicht in einer parallelen Verarbeitungskonfiguration ausgeführt wird. Als Alternative können sich der Anreicherungsdecodierer 130 und der untere Decodierer 135 gemeinsame Verarbeitungshardware teilen, und in diesem Fall kann die Decodierung sequentiell mit jeweils einem Bild ausgeführt werden.
  • Die decodierten Daten der unteren Schicht werden aus dem unteren Decodierer 135 als ein separater Datenstrom ausgegeben und ebenfalls einem zeitlichen Remultiplexer 140 bereitgestellt. An dem zeitlichen Remultiplexer 140 werden die decodierten Basisschichtdaten und die decodierten Anreicherungsschichtdaten kombiniert, um wie gezeigt ein Anreicherungsschichtausgangssignal bereitzustellen. Die Ausgangssignale der Anreicherungs- und der unteren Schicht werden dann einer Anzeigevorrichtung zur Betrachtung bereitgestellt.
  • 2 ist ein schematisches Diagramm eines stereoskopischen Videokameramodells. Die Kameravorrichtung, im Allgemeinen bei 100 gezeigt, umfasst eine Linse 120 der rechtsseitigen Ansicht und eine Linse 110 der linksseitigen Ansicht mit jeweiligen Achsen 125 und 115, die durch einen interokularen Abstand δ (130), typischerweise 65 mm, getrennt sind. Die Achsen 115 und 125 schneiden eine Kameraebene 140. Die Kameravorrichtung 100 umfasst zwei identische Kameras, jede mit einer entsprechenden Linse, so dass zwei unterschiedliche Aufzeichnungen einer Szene erhalten werden. Die Kameras sind mit parallelen Achsen und koplanaren Abbildungssensoren, wie beispielsweise ladungsgekoppelte Schaltungen (CCD), ausgerichtet. Die Verschiebung (Disparität) von zwei Abbildungen einer Szene in einem gegebenen Moment ist daher hauptsächlich horizontal und wird durch die horizontale Trennung der Linsen 110 und 120 erzeugt.
  • Ein stereoskopisches Bildaufbereitungssystem repliziert das Prinzip des Systems des menschlichen Sehens, um zwei Ansichten einer Szene bereitzustellen. Durch das Präsentieren der angemessenen Ansichten auf einer geeigneten Anzeige gegenüber dem entsprechenden linken und rechten Auge eines Betrachters werden zwei leicht unterschiedliche Perspektivansichten der Szene auf jeder Retina abgebildet. Das Gehirn vereinigt diese Abbildungen dann in einer Ansicht, und der Betrachter erlebt das Gefühl der Stereopsis (stereoskopisches Sehen), die durch verbesserte Tiefenwahrnehmung zusätzlichen Realismus bereitstellt.
  • Um stereoskopische Videodaten effizient zu übertragen, muss das Codieren (z. B. die Komprimierung) der Abbildungen der zwei Ansichten effizient sein. Das effiziente Codieren eines stereoskopischen Videos hängt nicht nur von der Bewegungskompensation ab, sondern auch von Disparitätsprädiktion (z. B. Kreuzkanal- oder Kreuzschichtprädiktion). Durch das Reduzieren eines Bewegungsvektorsuchbereichs zur Disparitätsprädiktion zwischen Bildern der linksseitigen und rechtsseitigen Ansicht kann ein Codierer niedriger Komplexität implementiert werden. Dies wird durch das optimale Schätzen des globalen Standortversatzes einer Szene zwischen Bildern zweier Ansichten an dem gleichen zeitlichen Referenzpunkt erreicht.
  • Das hier präsentierte System kann als eine Leistungsverbesserungsoption der Experimente mit MPEG-2 Multi-View-Profile (MVP) und MPEG-4 Video Verification Model (VM) (Version 3.0 und darüber) zur Disparitätsprädiktion von stereoskopischer Videocodierung verwendet werden. MVP (oder MPEG-4 MV 3.0) involviert zweischichtiges Codieren, und zwar eine untere Schicht oder eine Basisschicht und eine Anreicherungsschicht. Beim stereoskopischen Videocodieren wird die untere Schicht der linksseitigen Ansicht zugewiesen, während die Anreicherungsschicht der rechtsseitigen Ansicht zugewiesen wird. Die Disparitätsschätzungs-/Prädiktionsmodi der Anreicherungsschicht in MVP für P- und B-Bilder bestehen aus einer auf einem Makroblock basierenden Blockanpassungstechnik. In einem MVP-Decodierer werden diese Prädiktionsmodi in 3, 4 und 8 gezeigt.
  • Beim stereoskopischen Videocodieren wird wegen der Versetzung der Ansichtspunkte ein horizontaler Disparitätsvektor für jeden disparitätsprädiktierten Makroblock erwartet. Dies verursacht tatsächlich ineffizientes Codieren variabler Länge (Huffman Codierung) (VLC) dieser Disparitätsvektoren. Die vorliegende Erfindung widmet sich dem Problem der Bestimmung des horizontalen Versatzes stereoskopischer Ansichten, so dass das Codieren geschätzter Disparitätsvektoren effizienter wird.
  • Gemäß der vorliegenden Erfindung wird die Abbildung der linksseitigen Ansicht durch eine angemessene Anzahl von Pixeln versetzt, so dass die Verschiebung zwischen dem Versatz der Abbildung der linksseitigen Ansicht und der Abbildung der rechtsseitigen Ansicht reduziert werden kann. Die Disparitätsprädiktion auf der Basis dieses neuen Abbildungspaars ist daher effizienter.
  • 3 ist eine Veranschaulichung eines Disparitätsprädiktionsmodus für P-Bilder in der Anreicherungsschicht. Hier wird ein P-Bild 310 in der Anreicherungsschicht unter Verwendung eines zeitlich zusammentreffenden I-Bilds 300 in der unteren Schicht disparitätsprädiktiert.
  • 4 ist eine Veranschaulichung eines Anreicherungsschichtprädiktionsmodus für B-Bilder. Hier wird ein B-Bild 410 in der Anreicherungsschicht unter Verwendung von sowohl Vorwärtsprädiktion als auch Disparitätsprädiktion prädiktiert. Das B-Bild 410 wird speziell unter Verwendung eines weiteren B-Bilds 420, das das zuletzt decodierte Anreicherungsschichtbild ist, und eines I-Bilds 400, das das letzte Untere-Schicht-Bild in der Anzeigeordnung ist, vorwärtsprädiktiert.
  • 5 veranschaulicht das Verarbeiten eines Bilds der linksseitigen Ansicht gemäß der vorliegenden Erfindung. Eine globale horizontale Positionsversatztechnik der vorliegenden Erfindung verbessert die Codiereffizienz, während die Kompatibilität mit existierenden stereoskopischen Codierstandards aufrechterhalten wird. Die globale horizontale Positionsversatzmethode erhält eine horizontale Positionsverschiebung der Abbildung der linksseitigen Ansicht, so dass die Verzerrung zwischen der (verschobenen) Abbildung der linksseitigen Ansicht und der entsprechenden Abbildung der rechtsseitigen Ansicht minimiert wird. Diese Technik ist auf willkürlich geformte Abbildungen wie beispielsweise Video-Objektebenen (VOP), wie in dem MPEG-4-Standard erörtert, sowie auf rechteckige Abbildungen, z. B. ein Videovollbild oder ein Bild oder ein Unterabschnitt davon, wie in dem MPEG-2-MVP-Standard verwendet, anwendbar. Eine VOP in einer Abbildung der linksseitigen Ansicht wird durch das Löschen der x am weitesten links liegenden Pixel, die sich vertikal auf der VOP erweitern, d. h. auf dem am weitesten links liegenden Rand der VOP und das Auffüllen der x Pixel am am weitesten rechts liegenden Rand der VOP nach rechts verschoben. Der am weitesten rechts liegende Rand wird folglich horizontal durch x Pixel erweitert. Die Position der VOP wird folglich bezüglich des Vollbilds der linksseitigen Ansicht, in dem sie gelegen ist, sowie bezüglich der entsprechenden VOP in der Abbildung der rechtsseitigen Ansicht verschoben. Im Allgemeinen sind die am weitesten rechts liegenden und am weitesten links liegenden Abschnitte des Vollbilds der linksseitigen Ansicht unter der Annahme, dass sich die VOP nicht zu den vertikalen Grenzen des Vollbilds erweitert, unverändert.
  • In 5 sind eine 500 der linksseitigen Ansicht und eine 510 der rechtsseitigen Ansicht gezeigt. Die Parameter h und w kennzeichnen die Höhe bzw. Breite beider Abbildungen. Zum Beispiel ist für NTSC-Video h = 480 und w = 704, und für PAL-Video h = 576 und w = 704). Die Parameter yL (i, j) und yR (i, j) stellen die Luminanzpixelwerte der Abbildungen der linksseitigen (oder unteren) bzw. rechtsseitigen Ansicht dar. Auf die Parameter yR (i, j) kann mit yE (i, j) Bezug genommen werden, wobei die Tiefstellung „E" die Anreicherungsschicht kennzeichnet.
  • Die Technik wird unter der Annahme erörtert, dass sich die Abbildung der linksseitigen Ansicht in der unteren Schicht und die Abbildung der rechtsseitigen Ansicht in der Anreicherungsschicht befindet. Die Technik lässt sich jedoch leicht zur Verwendung in einem stereoskopischen Videosignal anpassen, in dem sich die Abbildung der rechtsseitigen Ansicht in der unteren Schicht und die Abbildung der linksseitigen Ansicht in der Anreicherungsschicht befindet.
  • Die Abbildung der linksseitigen Ansicht 500 umfasst ein Merkmal 505, während die Abbildung der rechtsseitigen Ansicht 510 das gleiche Merkmal 515 umfasst, aber in unterschiedlicher relativer Position innerhalb des Vollbilds. Genauer ist die 500 zu der linken Seite der 510 um einen Abstand x relativ versetzt. In einem ersten Schritt ist der Wert x der horizontale Versatz, der bestimmt werden soll, und es wird angenommen, dass er in einen vorher zugewiesenen oder vorher bestimmten Bereichs X fällt, das heißt 0 ≤ x ≤ X.
  • Die globale horizontale Positionsversatztechnik gemäß einer ersten Ausführungsform der vorliegenden Erfindung besteht darin, den ganzzahligen Wert x des horizontalen Versatzes zu finden, so dass:
    Figure 00170001
    minimiert wird, wobei yL und yE Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung sind, h die Höhe jeder Abbildung ist und w die Breite jeder Abbildung ist. Diese Technik verwendet einen kleinsten mittleren quadratischen Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung. Zu beachten ist, dass h (w – x) Multiplikation kennzeichnet und keine Funktion von h. Eine gründliche Suche wird horizontal nach 0 ≤ x ≤ X durchgeführt, um den Versatz x zu finden, so dass Dist_L2 (x) ein Minimum ist.
  • In einer weiteren Ausführungsform der vorliegenden Erfindung wird der Versatzwert x so gefunden, dass:
    Figure 00180001
    ein Minimum ist. Diese Technik, die einen kleinsten mittleren Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung verwendet, kann unter reduzierten Rechneranforderungen implementiert werden.
  • In einer weiteren Ausführungsform der vorliegenden Erfindung wird ein horizontaler Versatz xest durch das Verwenden eines Kamerafokusparameters und der interokularen Trennung δ geschätzt. Ein geschätzter Versatz von zehn Pixeln (z. B. +/–5) kann zum Beispiel verwendet werden. Dann wird eine gründliche horizontale Suche nach max {xest –5, 0} ≤ i ≤ {xest + 5} durchgeführt, um den Versatz x zu finden, so dass Dist_L1(x) oder Dist_L2(x) ein Minimum ist.
  • Ein Referenzvollbild der linken Ansicht zur Disparitätsschätzung und -prädiktion wird wie folgt erhalten. Nach dem Bestimmen des horizontalen Versatzes x in dem Codierer wird ein Referenzvollbild aus den ursprünglichen und rekonstruierten Abbildungen der linksseitigen Ansicht zur Disparitätsschätzung/-prädiktion der Abbildung der rechtsseitigen Ansicht konstruiert. Wenn der Videostandard das Übertragen des Versatzwerts x auf einen Decodierer ermöglicht, wird der Versatz x an dem Decodierer extrahiert, und das Referenzvollbild wird aus der decodierten Abbildung der linksseitigen Ansicht zur Disparitätsprädiktion/-kompensation der Abbildung der rechtsseitigen Ansicht rekonstruiert. Der Versatz kann zum Beispiel in dem Benutzerdatenabschnitt eines Bildanfangsblocks übertragen werden.
  • Der Konstruktionsvorgang des Referenzvollbilds für Luminanzpixel wird in einem zweiten Schritt durch das Löschen der letzten x Spalten der Abbildung der linksseitigen Ansicht erreicht. An dem Codierer wird die ursprüngliche Abbildung der linksseitigen Ansicht verwendet, während an dem Decodierer die decodierte Abbildung der linksseitigen Ansicht verwendet wird. Unter Bezugnahme auf die 535 der linksseitigen Ansicht werden die letzten x Spalten 520 auf der rechten Seite der 535 gelöscht.
  • In einem dritten Schritt werden für jede Reihe der 540 der linksseitigen Ansicht x Pixel an dem Anfang der Reihe mit dem ersten Pixelwert der Reihe gefüllt. Der Füllungsvorgang (z. B. Auffüllungsvorgang) kann wie im MPEG-4-Standard beschrieben erzielt werden. Das aufgefüllte Gebiet 530 wird auf der linken Seite der 540 gezeigt. Infolge der vorangehenden Schritte wird ein Versatz oder eine verschobene 540 der linksseitigen Ansicht erhalten, die der entsprechenden Abbildung der rechtsseitigen Ansicht eher entspricht.
  • Für die Chrominanzpixeldaten besteht der Konstruktionsvorgang des Referenzvollbilds zur Disparitätsprädiktion aus den gleichen gegebenen Schritten, jedoch mit einem horizontalen Versatz von ⌊x/2⌋, das heisst x/2 mit dem Abrunden auf die nächste Ganzzahl. Dies setzt ein 4:2:0 Videoformat voraus. Der Versatz kann wie erforderlich für andere Formate modifiziert werden.
  • 6 veranschaulicht einen Codiererablauf gemäß der vorliegenden Erfindung. Der gezeigte Vorgang entspricht dem Fall, in dem der horizontale Versatzwert x auf einen Decodierer übertragen werden kann. Für den Fall, dass der horizontale Versatz nicht übertragen werden kann, z. B. bei dem MPEG-2 MVP-Standard, kann der horizontale Versatzwert x immer noch verwendet werden, um die Komplexität des Disparitätsvektorsuchens in dem Codierer zu reduzieren, wie in Verbindung mit 8 und 9 erörtert.
  • Der Versatzwert x kann gemäß verschiedenen Protokollen bestimmt werden. x kann zum Beispiel für jede aufeinanderfolgende Abbildung in einer Videosequenz berechnet und gespeichert werden. Dies könnte computertechnisch jedoch beschwerlich und unnötig sein. Der Versatz x kann alternativ dann bestimmt werden, wann immer ein Szenenwechsel erkannt wird, oder zu Beginn einer neuen Bildsequenz (GOP). Eine Bildsequenz (GOP) gibt eines oder mehrere aufeinanderfolgende Bilder an, die ohne Bezug auf Bilder in einer anderen GOP decodiert werden können. Die Auswahl eines optimalen Kriteriums zum Rekalkulieren des Versatzes x sollte auf Implementierungskomplexität und Videocharakteristiken basieren.
  • Wenn der Versatz x für die aktuelle Abbildung nicht neu rekalkuliert wird, kann der vorherige gespeicherte Versatz verwendet werden.
  • Einem Feld 610 wird die Abbildung der linken Ansicht bereitgestellt, in dem bestimmt wird, ob ein Szenenwechsel oder eine neue GOP erkannt wird. Falls dies bei Feld 620 zutrifft, wird der Versatzsuchbereich X (wo 0 ≤ x ≤ X) z. B. zur Verwendung durch einen Mikrocomputer in den Speicher geladen. Falls dies nicht zutrifft, wird bei Feld 600 der horizontale Versatz x, der von der letzten Szene bestimmt wurde, verwendet.
  • Bei Feld 630 wird der Versatz x entweder unter Verwendung des kleinsten mittleren Fehlers oder des vorher erörterten kleinsten mittleren quadratischen Fehlers bestimmt. Die Daten der Abbildung der rechtsseitigen Ansicht werden für diese Verfahrensweise verwendet. Bei Feld 640 wird das Referenzvollbild unter Verwendung der in Verbindung mit 5 erörterten Verfahrensweise konstruiert. Die Daten der Abbildung der rechtsseitigen Ansicht werden ebenfalls für diese Verfahrensweise verwendet.
  • Bei Feld 650 wird das neu konstruierte Referenzvollbild durchsucht, um Makroblöcke der besten Übereinstimmung zu bestimmen. Das heißt, das ein Suchbereich in dem Referenzvollbild definiert wird, über dem ein Makroblock mit einem Makroblock der rechtsseitigen Ansicht verglichen wird, der gegenwärtig codiert wird, um den einen Referenzvollbildmakroblock zu bestimmen, der am besten zu dem Makroblock der rechtsseitigen Ansicht, der gegenwärtig codiert wird, passt. Da das Referenzvollbild relativ zu der ursprünglichen Abbildung der linksseitigen Ansicht versetzt ist, ähnelt er eher der Abbildung der rechtsseitigen Ansicht, und ein reduzierter Suchbereich kann verwendet werden, um den Makroblock der besten Übereinstimmung zu erhalten. Zum Beispiel kann, wie unten in Verbindung mit 9 erörtert, der Suchbereich zum Beispiel von 64 × 48 Pixel auf 8 × 8 Pixel reduziert werden.
  • Die Abbildung der rechtsseitigen Ansicht ist bei Feld 660 unter Verwendung von bekannten Techniken wie beispielsweise den in dem MVP-Standard erörterten codiert. Bei Feld 670 werden die codierten Daten und der Versatz x z. B. in einem Satellitenrundfunk CATV-Netz übertragen, wie in Verbindung mit 7 erörtert, auf einen Decodierer. Es kann sein, dass manche Videokommunikationsstandards nicht die Übertragung des Versatzwerts x vorsehen, in welchem Fall der Versatz nur an dem Codierer verwendet werden kann, um den Suchbereich zu reduzieren.
  • 7 veranschaulicht einen Decodiererablauf gemäß der vorliegenden Erfindung. In diesem Fall wird angenommen, dass der Versatz x mit den Videodaten in einem codierten Bitstrom übertragen wird. Bei Feld 700 wird der horizontale Versatz aus dem codierten Bitstrom extrahiert. Bei Feld 710 wird die Abbildung der linksseitigen Ansicht auf eine herkömmliche Weise decodiert. Bei Feld 720 wird das Referenzvollbild unter Verwendung des Versatzes x konstruiert. Bei Feld 730 wird die Abbildung der rechtsseitigen Ansicht unter Verwendung der codierten Daten der Abbildung der rechtsseitigen Ansicht und des Referenzvollbilds disparitätsprädiktiert. Der Versatz x und die Bewegungsvektoren werden verwendet, um die Makroblöcke der besten Übereinstimmung des Referenzvollbilds zu identifizieren, und die Abbildung der vollen rechtsseitigen Ansicht wird unter Verwendung der Summe der Pixeldaten der Makroblöcke der besten Übereinstimmung und der differentiell codierten Daten der Abbildung der rechtsseitigen Ansicht wiedererlangt.
  • Für den Fall, dass der horizontale Versatz nicht übertragen werden kann, z. B. bei dem MPEG-2-MVP-Standard, kann der horizontale Versatz trotzdem noch verwendet werden, um die Komplexität des Disparitätsvektorsuchens in dem Codierer zu reduzieren, z. B. durch das Reduzieren des Bewegungsvektorsuchbereichs.
  • 8 veranschaulicht Disparitätsprädiktion und Bewegungsvektorsuchen gemäß der vorliegenden Erfindung. Die Anreicherungsschicht umfasst ein P-Bild 810, ein B-Bild 820 und ein B-Bild 830, während die untere Schicht ein I-Bild 840, ein P-Bild 850 und ein P-Bild 860 umfasst. Prädiktion wird durch die Richtung der Pfeile angezeigt, so dass der Pfeil von der Referenzabbildung zu der prädiktierten Abbildung zeigt. Jeder Makroblock in dem P-Bild 850 wird zum Beispiel unter Verwendung entsprechender Makroblöcke der besten Übereinstimmung in dem I-Bild 840 prädiktiert.
  • Ein Bewegungsvektor (vx, vy) gibt die relative Verschiebung des Makroblocks der besten Übereinstimmung zu dem prädiktierten Makroblock in jedem iten Makroblock an. Für die Prädiktion der unteren Schicht wird die Schätzung an einer Nicht-Versatz-Position jedes Makroblocks zentriert. Das obere linke Pixel jedes prädiktierten Makroblocks kann zum Beispiel als die Nicht-Versatz-Koordinate (0, 0) genommen werden.
  • Das B-Bild 820 wird unter Verwendung des P-Bilds 850 in der unteren Schicht disparitätsprädiktiert und unter Verwendung des P-Bilds 810 in der Anreicherungsschicht zeitlich prädiktiert. Der horizontale Versatz x wird wie erörtert zur Disparitätsprädiktion bestimmt. Als nächstes werden Makroblöcke in dem B-Bild 820 durch das Anordnen von Makroblöcken der besten Übereinstimmung in dem P-Bild 850 disparitätsprädiktiert, wobei die Disparitätsschätzung/-prädiktion eher auf (x, 0) als auf (0, 0) zentriert ist. Das heißt, die Schätzung wird um x Pixel nach rechts verschoben.
  • Der Disparitätsvektor (vx, vy) zeigt die Positionierungsdifferenz zwischen entsprechenden Makroblöcken von Pixeln der Basisschicht und der Anreicherungsschicht an, und wird für die Rekonstruktion des disparitätsprädiktierten Anreicherungsschichtbilds an einem Decodierer verwendet. Wenn die Pixelkoordinaten für einen Suchfenstermakroblock in der Anreicherungsschicht (xs, ys) sind und die Pixelkoordinaten für einen entsprechenden Referenzfenstermakroblock in der Basisschicht (xr, yr) sind, ist der Disparitätsvektor, genauer v = (vx, vy) = (xs – xr, ys – yr). Der Disparitätsvektor ist daher ein Maß für eine Positionierungs- oder Translationsdifferenz zwischen dem Suchfenster und dem Referenzfenster. Die Disparitätsvektoren können in dem Kanaldatenstrom der rechtsseitigen Ansicht zur Verwendung beim Rekonstruieren des disparitätsprädiktierten Anreicherungsschichtbilds an einem Decodierer übertragen werden.
  • Des Weiteren ist die zeitliche Prädiktion des B-Bilds 820 unter Verwendung des P-Bilds 810 bei (vx, vy) für jeden iten Makroblock zentriert.
  • Die Disparitätsprädiktion und der Bewegungsvektorsuchvorgang kann ferner unter Bezugnahme auf 9 verstanden werden.
  • 9 veranschaulicht Bewegungsvektorsuchen gemäß der vorliegenden Erfindung. Wie in Verwendung mit 8 erörtert, definiert ein Vektor (vx, vy) einen Makroblock 920 der besten Übereinstimmung in dem I-Bild 840 für einen iten Makroblock 900 in dem P-Bild 850. Der Vektor zeigt die Menge der zeitlichen Bewegung einer Abbildung zwischen den zwei Bildern an. Ein Suchbereich 910 wird verwendet, um den Makroblock 920 der besten Übereinstimmung zu finden. Der Suchbereich kann eine Gesamtgröße von 82 × 64 Pixeln, entsprechend einer Variation von 64 × 48 für den 16 × 16 Makroblock 900, aufweisen.
  • Für die Disparitätsprädiktion von Makroblöcken in dem B-Bild 820 in der Anreicherungsschicht ist der ite Makroblock 930 bei (x, 0) zentriert und wird mit Makroblöcken in einem kleineren Suchbereich 940, zum Beispiel mit einer Gesamtgröße von 24 × 24 Pixeln, entsprechend einer Variation von 8 × 8 für einen 16 × 16 Makroblock, verglichen. Der Versatzwert x ermöglicht die Verwendung eines kleineren Suchbereichs, da es wahrscheinlich ist, dass sich der Makroblock der besten Übereinstimmung zum differentiellen Codieren des Makroblocks 930 in einer kleineren Umgebung von Pixeln in der Nähe des Makroblocks 930 befindet. Dementsprechend können eine schnellere Verarbeitungszeit und reduzierte Speicheranforderungen realisiert werden.
  • Wenn der Versatzwert auf die Decodierer übertragen wird, resultiert daraus zusätzlich das effizientere Codieren variabler Längen (z. B. Huffman-Codierung) von Disparitätsvektoren, da jeder Disparitätsvektor kleiner ist, wodurch die Datenmenge, die übertragen werden muss, reduziert wird.
  • Ein Makroblock in dem B-Bild 820, das in dem P-Bild 850 neben dem Makroblock 900 liegt, kann ebenfalls einen kleineren Suchbereich in dem P-Bild 810 verwenden, das auf dem durch den Vektor (vx, vy) definierten Makroblock 920 zentriert ist. Der Bewegungsvektorsuchbereich für die Sequenz der rechtsseitigen Ansicht kann zum Beispiel ebenfalls auf so wenig wie eine 8 × 8 Variation reduziert werden. Dies trifft zu, da es wahrscheinlich ist, dass die Korrelation zwischen dem B-Bild 820 und dem P-Bild 810 der Korrelation zwischen dem P-Bild 850 und dem I-Bild 840 ähnlich ist.
  • 10 ist ein Blockschaltbild einer Anreicherungsschichtdecodiererstruktur gemäß der vorliegenden Erfindung. Der allgemein bei 130 gezeigte Decodierer umfasst ein Eingabeterminal 1005 zum Empfangen der komprimierten Anreicherungsschichtdaten und einen Syntaxanalysierer 1010 der Transportebene zum Analysieren der Daten. Einem Speicherverwalter 1030 werden die analysierten Daten bereitgestellt, der eine zentrale Verarbeitungseinheit beinhalten kann. Der Speicherverwalter 1030 kommuniziert mit einem Speicher 1020, der zum Beispiel einen dynamischen Direktzugriffsspeicher (DRAM) beinhalten kann. Der horizontale Versatz x kann mit den Anreicherungsschichtdaten verbunden werden oder ansonsten in dem stereoskopischen Videosignal bereitgestellt werden. Ein Referenzvollbild wird unter Verwendung der decodierten Untere-Schicht-Daten und des Versatzes x konstruiert.
  • Der Speicherverwalter 1030 kommuniziert außerdem mit einem Dekompressions-/Prädiktionsprozessor 1040 und empfängt decodierte Daten der unteren Ebene über das Terminal 1050, die zur nachfolgenden Verwendung durch den Prozessor 1040 bei der Decodierung von disparitätsprädiktierten Anreicherungsschichtbildern vorübergehend in dem Speicher 1020 gespeichert werden können.
  • Der Dekompressions-/Prädiktionsprozessor 1040 stellt eine Vielzahl von Verarbeitungsfunktionen bereit, wie zum Beispiel Fehlererkennung und -korrektur, Bewegungsvektordecodierung, Invers-Quantisierung, inverse diskrete Kosinustransformation, Huffman-Decodierung und Prädiktionskalkulationen. Nachdem sie durch die Dekompressions-/Prädiktionsfunktion 1040 verarbeitet wurden, werden decodierte Anreicherungsschichtdaten von dem Speicherverwalter ausgegeben. Als Alternative können die decodierten Daten direkt über nicht gezeigte Mittel aus der Dekompressions-/Prädiktionsfunktion 1040 ausgegeben werden.
  • Eine analoge Struktur kann für die untere Schicht verwendet werden. Außerdem können sich die Decodierer der Anreicherungs- und der unteren Schicht gemeinsame Hardware teilen. Zum Beispiel können der Speicher 1020 und der Prozessor 1040 geteilt werden.
  • Testergebnisse bestätigen, dass die Ansichtversatzschätzungstechnik der vorliegenden Erfindung die Codiereffizienz für stereoskopische Videosignale effizient verbessern kann. Die Versatzschätzungstechnik wurde in einem MPEG-2-MVP-Programm implementiert und durch die D-Betrieb-Videotestsequenzen von ISO/IEC JTC1/SC29/WG11/MPEG-4 und einiger anderer Sequenzen laufen gelassen. Beispiele von Testergebnissen mit einem Versatzsuchbereich von X = 20 Pixeln sind in Tabelle 1 gezeigt. Die Verbesserung der Codiereffizienz gegenüber MVP in Bits/Vollbild reicht von 2,0 bis 5,2%. PSNR gibt den Spitzen-Signal-Rauschabstand (PSNR) an. Alle Bildarten sind P-Bilder.
  • TABELLE 1
    Figure 00270001
  • Weitere Verbesserungen der Codiereffizienz können durch die Verwendung einer Schwelle T, um den restlichen Makroblock nach der Kompensation auf Null zu setzen, oder um einige Hochfrequenz-DCT- Koeffizienten auf Null zu setzen, erreicht werden.
  • Wie ersichtlich ist, stellt die vorliegende Erfindung ein System zum Schätzen des optimalen Versatzes x einer Szene zwischen rechts- und linksseitigen Kanalansichten an dem gleichen zeitlichen Referenzpunkt bereit. Das System reduziert den Bewegungsvektorsuchbereich für Disparitätsprädiktion (d. h. Kreuzkanal- oder Kreuzschichtprädiktion) zum Verbessern der Codiereffizienz. Der Versatz kann rekalkuliert werden, wenn es einen Szenenwechsel oder eine neue Bildsequenz in der unteren Schicht gibt.
  • An einem Codierer wird der optimale Versatz x zwischen der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung gemäß entweder einem kleinsten mittleren Fehler zwischen der Anreicherungsabbildung und der Untere-Schicht-Abbildung oder einem kleinsten mittleren quadratischen Fehler zwischen der Anreicherungsabbildung und der Untere-Schicht-Abbildung bestimmt. Der Versatz x wird durch einen Versatzsuchbereich X gebunden. Die x am weitesten rechts liegenden Pixelspalten der Untere-Schicht-Abbildung werden gelöscht, und die x am weitesten links liegenden Spalten der Untere-Schicht-Abbildung werden aufgefüllt, um die Untere-Schicht-Abbildung durch x Pixel effizient nach rechts zu verschieben, um die Referenzabbildung zur Verwendung beim Disparitätsprädiktieren der Anreicherungsschichtabbildung zu erhalten. Für willkürlich geformte Abbildungen wie beispielsweise VOP wird ein VOP in einer Abbildung der linksseitigen Ansicht durch das Löschen der x am weitesten links liegenden Pixel, die sich vertikal auf der VOP erweitern, und das Auffüllen der x Pixel beginnend an dem am weitesten rechts liegenden Rand des VOP, nach rechts verschoben.
  • Das Referenzvollbild wird durchsucht, um Makroblocks der besten Übereinstimmung zu erhalten, und die Daten der rechten Ansicht werden differentiell codiert. An einem Decodierer wird der Versatzwert x, falls verfügbar, wiedererlangt und verwendet, um das Referenzvollbild zur Disparitätsprädiktion zu rekonstruieren.
  • Obwohl die Erfindung in Verbindung mit verschiedenen spezifischen Ausführungsformen beschrieben worden ist, versteht der Fachmann, dass daran zahlreiche Anpassungen und Modifikationen vorgenommen werden können, ohne von dem Bereich der Erfindung, wie er in den Ansprüchen dargelegt ist, abzuweichen.

Claims (40)

  1. Ein Verfahren zum Disparitätsprädiktieren einer Anreicherungsschichtabbildung in einer Anreicherungsschicht eines stereoskopischen Videosignals unter Verwendung einer Untere-Schicht-Abbildung in einer unteren Schicht davon, gekennzeichnet durch die folgenden Schritte: Bestimmen eines optimalen Versatzes x zwischen der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung gemäß entweder (a) einem kleinsten mittleren Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung oder (b) einem kleinsten mittleren quadratischen Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung; und Verschieben der Untere-Schicht-Abbildung gemäß dem optimalen Versatz, um eine Referenzabbildung zur Verwendung beim Disparitätsprädiktieren der Anreicherungsschichtabbildung zu erhalten.
  2. Verfahren gemäß Anspruch 1, wobei: die Anreicherungsschichtabbildung von der Referenzabbildung unter Verwendung von Bewegungskompensation disparitätsprädiktiert wird; und in der Referenzabbildung unter Verwendung eines Suchbereichs, der relativ zu einem Suchbereich der Untere-Schicht-Abbildung ohne das Verschieben reduziert ist, eine Abbildung der besten Übereinstimmung erhalten wird.
  3. Verfahren gemäß Anspruch 1, das die folgenden weiteren Schritte beinhaltet: Bestimmen eines geschätzten Versatzes gemäß mindestens entweder einem Kamerafokusparameter oder einer interokularen Trennung; und Suchen innerhalb der Untere-Schicht-Abbildung in einem durch den geschätzten Versatz bestimmten Bereich, um den optimalen Versatz zu finden.
  4. Verfahren gemäß Anspruch 1, das den folgenden weiteren Schritt beinhaltet: Suchen innerhalb eines horizontalen Versatzbereichs X, um den optimalen Versatz x zu finden, so dass 0 ≤ x ≤ X ist.
  5. Verfahren gemäß Anspruch 1, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung eine Video-Objektebene beinhalten.
  6. Verfahren gemäß Anspruch 1, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung willkürlich geformt sind.
  7. Verfahren gemäß Anspruch 6, wobei der Verschiebeschritt die folgenden Schritte beinhaltet: Löschen eines am weitesten links liegenden Randgebiets einer Video-Objektebene mit einer Breite von x Pixeln; und Auffüllen eines am weitesten rechts liegenden Randabschnitts der Video-Objektebene, um den am weitesten rechts liegenden Randabschnitt um eine Breite von x Pixeln zu erweitern.
  8. Verfahren gemäß Anspruch 1, wobei der Verschiebeschritt die folgenden Schritte beinhaltet: Löschen von x am weitesten rechts liegenden Pixelspalten der Untere-Schicht-Abbildung; und Auffüllen eines am weitesten links liegenden Abschnitts der Untere-Schicht-Abbildung mit x Pixelspalten.
  9. Verfahren gemäß Anspruch 1, das die folgenden weiteren Schritte beinhaltet: Bestimmen eines neuen optimalen Versatzes x, wenn ein Szenenwechsel für die Untere-Schicht-Abbildung erkannt wird; und wenn kein Szenenwechsel erkannt wird, das Verwenden eines Versatzes von einer vorherigen Abbildung in der unteren Schicht als optimaler Versatz x.
  10. Verfahren gemäß Anspruch 1, wobei: ein neuer optimaler Versatz x für eine neue Bildsequenz in der unteren Schicht bestimmt wird.
  11. Verfahren gemäß Anspruch 1, das den folgenden weiteren Schritt beinhaltet: Übertragen des optimalen Versatzes x in dem stereoskopischen Videosignal zur Verwendung durch einen Decodierer beim Wiederherstellen der Referenzabbildung.
  12. Verfahren gemäß Anspruch 1, wobei: der optimale Versatz x für den kleinsten mittleren Fehler so bestimmt wird, dass der Wert
    Figure 00330001
    minimiert wird, wobei yL und yE Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linksseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtsseitigen Ansicht ist.
  13. Verfahren gemäß Anspruch 12, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren Fehler ⌊x/2⌋ ist.
  14. Verfahren gemäß Anspruch 1, wobei: der optimale Versatz x für den kleinsten mittleren quadratischen Fehler so bestimmt wird, dass der Wert
    Figure 00340001
    minimiert wird, wobei yL und yE die Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, und w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linksseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtsseitigen Ansicht ist.
  15. Verfahren gemäß Anspruch 14, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren quadratischen Fehler ⌊x/2⌋ ist.
  16. Eine Vorrichtung zum Disparitätsprädiktieren einer Anreicherungsschichtabbildung in einer Anreicherungsschicht eines stereoskopischen Videosignals unter Verwendung einer Untere-Schicht-Abbildung in einer unteren Schicht davon, gekennzeichnet durch: Mittel zum Bestimmen eines optimalen Versatzes x zwischen der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung gemäß entweder (a) einem kleinsten mittleren Fehler zwischen den Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung oder (b) eines kleinsten mittleren quadratischen Fehlers zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung; und Mittel zum Verschieben der Untere-Schicht-Abbildung gemäß dem optimalen Versatz, um eine Referenzabbildung zur Verwendung beim Disparitätsprädiktieren der Anreicherungsschichtabbildung zu erhalten.
  17. Vorrichtung gemäß Anspruch 16, wobei: die Anreicherungsschichtabbildung von der Referenzabbildung unter Verwendung von Bewegungskompensation disparitätsprädiktiert wird; und in der Referenzabbildung unter Verwendung eines Suchbereichs, der relativ zu einem Suchbereich der Untere-Schicht-Abbildung ohne das Verschieben reduziert ist, eine Abbildung der besten Übereinstimmung erhalten wird.
  18. Vorrichtung gemäß Anspruch 16, die ferner Folgendes beinhaltet: Mittel zum Bestimmen eines geschätzten Versatzes gemäß mindestens entweder einem Kamerafokusparameter[RFH1] oder einer interokularen Trennung; und Mittel zum Suchen innerhalb der Untere-Schicht-Abbildung in einem durch den geschätzten Versatz bestimmten Bereich, um den optimalen Versatz zu finden.
  19. Vorrichtung gemäß Anspruch 16, die ferner Folgendes beinhaltet: Mittel zum Suchen innerhalb eines horizontalen Versatzbereichs X, um den optimalen Versatz x zu finden, so dass 0 ≤ x ≤ X ist.
  20. Vorrichtung gemäß Anspruch 16, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung eine Video-Objektebene beinhalten.
  21. Vorrichtung gemäß Anspruch 16, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung willkürlich geformt sind.
  22. Vorrichtung gemäß Anspruch 21, wobei das Mittel zum Verschieben ein am weitesten links liegendes Randgebiet einer Video-Objektebene, die eine Breite von x Pixeln aufweist, löscht, und einen am weitesten rechts liegenden Randabschnitt der Video-Objektebene auffüllt, um den am weitesten rechts liegenden Randabschnitt um eine Breite von x Pixeln zu erweitern.
  23. Vorrichtung gemäß Anspruch 16, wobei das Mittel zum Verschieben x am weitesten rechts liegende Pixelspalten der Untere-Schicht-Abbildung löscht und einen am weitesten links liegenden Abschnitt der Untere-Schicht-Abbildung mit x Pixelspalten auffüllt.
  24. Vorrichtung gemäß Anspruch 16, die ferner Mittel für Folgendes beinhaltet: (a) Bestimmen eines neuen optimalen Versatzes x, wenn ein Szenenwechsel für die Untere-Schicht-Abbildung erkannt wird; und (b) wenn kein Szenenwechsel erkannt wird, das Verwenden eines Versatzes von einer vorherigen Abbildung in der unteren Schicht als optimaler Versatz x.
  25. Vorrichtung gemäß Anspruch 16, wobei: ein neuer optimaler Versatz x für eine neue Bildsequenz in der unteren Schicht bestimmt wird.
  26. Vorrichtung gemäß Anspruch 16, die ferner Folgendes beinhaltet: Mittel zum Übertragen des optimalen Versatzes x in dem stereoskopischen Videosignal zur Verwendung durch einen Decodierer beim Wiederherstellen der Referenzabbildung.
  27. Vorrichtung gemäß Anspruch 16, wobei: der optimale Versatz x für den kleinsten mittleren Fehler so bestimmt wird, dass der Wert
    Figure 00370001
    minimiert wird, wobei yL und yE Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linksseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtseitigen Ansicht ist.
  28. Vorrichtung gemäß Anspruch 27, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren Fehler ⌊x/2⌋ ist.
  29. Vorrichtung gemäß Anspruch 16, wobei: der optimale Versatz x für den kleinsten mittleren quadratischen Fehler so bestimmt wird, dass der Wert
    Figure 00380001
    minimiert wird, wobei yL und yE die Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, und w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linksseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtsseitigen Ansicht ist.
  30. Vorrichtung gemäß Anspruch 29, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren quadratischen Fehler ⌊x/2⌋ ist.
  31. Ein Decodierer zum Disparitätsprädiktieren einer Anreicherungsschichtabbildung in einer Anreicherungsschicht eines stereoskopischen Videosignals unter Verwendung einer Untere-Schicht-Abbildung in einer unteren Schicht davon, gekennzeichnet durch: Mittel zum Wiedergewinnen eines optimalen Versatzes x zwischen der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung aus dem stereoskopischen Videosignal; wobei der optimale Versatz x an einem Codierer gemäß entweder (a) einem kleinsten mittleren Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung oder (b) einem kleinsten mittleren quadratischen Fehler zwischen Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung bestimmt wird; und Mittel zum Verschieben der Untere-Schicht-Abbildung gemäß dem optimalen Versatz, um eine Referenzabbildung zur Verwendung beim Disparitätsprädiktieren der Anreicherungsschichtabbildung zu erhalten.
  32. Decodierer gemäß Anspruch 31, wobei: die Anreicherungsschichtabbildung von der Referenzabbildung unter Verwendung von Bewegungskompensation disparitätsprädiktiert wird; und in der Referenzabbildung unter Verwendung eines Suchbereichs, der relativ zu einem Suchbereich der Untere-Schicht-Abbildung ohne das Verschieben reduziert ist, eine Abbildung der besten Übereinstimmung erhalten wird.
  33. Decodierer gemäß Anspruch 31, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung eine Video-Objektebene beinhalten.
  34. Decodierer gemäß Anspruch 31, wobei: die Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung willkürlich geformt sind.
  35. Decodierer gemäß Anspruch 34, wobei das Mittel zum Verschieben ein am weitesten links liegendes Randgebiet einer Video-Objektebene, die eine Breite von x Pixeln aufweist, löscht, und einen am weitesten rechts liegenden Randabschnitt der Video-Objektebene auffüllt, um den am weitesten rechts liegenden Randabschnitt um eine Breite von x Pixeln zu erweitern.
  36. Decodierer gemäß Anspruch 31, wobei das Mittel zum Verschieben x am weitesten rechts liegende Pixelspalten der Untere-Schicht-Abbildung löscht und einen am weitesten links liegenden Abschnitt der Untere-Schicht-Abbildung mit x Pixelspalten auffüllt.
  37. Decodierer gemäß Anspruch 31, wobei: der optimale Versatz x für den kleinsten mittleren Fehler so bestimmt wird, dass der Wert
    Figure 00410001
    minimiert wird, wobei yL und yE Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linksseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtsseitigen Ansicht ist.
  38. Decodierer gemäß Anspruch 37, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren Fehler ⌊x/2⌋ ist.
  39. Decodierer gemäß Anspruch 31, wobei: der optimale Versatz x für den kleinsten mittleren quadratischen Fehler so bestimmt wird, dass der Wert
    Figure 00410002
    minimiert wird, wobei yL und yE Luminanzpixelwerte der Untere-Schicht-Abbildung bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist, und w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung eine Abbildung der linkseitigen Ansicht ist und die Anreicherungsschichtabbildung eine Abbildung der rechtsseitigen Ansicht ist.
  40. Decodierer gemäß Anspruch 39, wobei: ein optimaler Versatz für Chrominanzpixelwerte für den kleinsten mittleren quadratischen Fehler ⌊x/2⌋ ist.
DE69829931T 1997-11-07 1998-11-06 Schätzung von Sichtverschiebungen zur Kodierung stereoskopischer Videobilder Expired - Lifetime DE69829931T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US966277 1997-11-07
US08/966,277 US6043838A (en) 1997-11-07 1997-11-07 View offset estimation for stereoscopic video coding

Publications (2)

Publication Number Publication Date
DE69829931D1 DE69829931D1 (de) 2005-06-02
DE69829931T2 true DE69829931T2 (de) 2006-02-23

Family

ID=25511147

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69829931T Expired - Lifetime DE69829931T2 (de) 1997-11-07 1998-11-06 Schätzung von Sichtverschiebungen zur Kodierung stereoskopischer Videobilder

Country Status (9)

Country Link
US (1) US6043838A (de)
EP (1) EP0915433B1 (de)
JP (1) JPH11262032A (de)
KR (1) KR19990045067A (de)
CN (1) CN1226786A (de)
CA (1) CA2252324C (de)
DE (1) DE69829931T2 (de)
NO (1) NO985170L (de)
TW (1) TW426835B (de)

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351563B1 (en) * 1997-07-09 2002-02-26 Hyundai Electronics Ind. Co., Ltd. Apparatus and method for coding/decoding scalable shape binary image using mode of lower and current layers
JP4056154B2 (ja) * 1997-12-30 2008-03-05 三星電子株式会社 2次元連続映像の3次元映像変換装置及び方法並びに3次元映像の後処理方法
EP1418766A3 (de) * 1998-08-28 2010-03-24 Imax Corporation Méthode et appareil pour le traitement d'images
US6269175B1 (en) * 1998-08-28 2001-07-31 Sarnoff Corporation Method and apparatus for enhancing regions of aligned images using flow estimation
KR100334722B1 (ko) * 1999-06-05 2002-05-04 강호석 Mpeg 데이터를 이용한 입체영상생성방법 및 그 장치
EP1243141B1 (de) * 1999-12-14 2011-10-19 Scientific-Atlanta, LLC System und verfahren für die adaptive dekodierung eines videosignal mit koordinierter zuteilung von resourcen
KR100830355B1 (ko) * 2000-03-31 2008-05-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 2개의 상관된 데이터 시퀀스들의 인코딩 및 디코딩을 위한 방법, 인코더, 디코더, 및 멀티플렉스
US6493387B1 (en) * 2000-04-10 2002-12-10 Samsung Electronics Co., Ltd. Moving picture coding/decoding method and apparatus having spatially scalable architecture and signal-to-noise ratio scalable architecture together
JP2002010251A (ja) * 2000-06-19 2002-01-11 Matsushita Electric Ind Co Ltd 映像信号符号化装置および映像信号復号化装置
EP1185112B1 (de) * 2000-08-25 2005-12-14 Fuji Photo Film Co., Ltd. Vorrichtung zur Parallaxbildaufnahme und Parallaxbildverarbeitung
JP2004515132A (ja) * 2000-11-23 2004-05-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオ符号化方法及び対応するエンコーダ
JP2004531925A (ja) * 2001-03-05 2004-10-14 インタービデオインコーポレイテッド 圧縮されたビデオビットストリームにおける冗長な動きベクトルを符号化し復号するシステム及び方法
US6925120B2 (en) * 2001-09-24 2005-08-02 Mitsubishi Electric Research Labs, Inc. Transcoder for scalable multi-layer constant quality video bitstreams
US7274857B2 (en) * 2001-12-31 2007-09-25 Scientific-Atlanta, Inc. Trick modes for compressed video streams
US7319720B2 (en) * 2002-01-28 2008-01-15 Microsoft Corporation Stereoscopic video
CA2380105A1 (en) * 2002-04-09 2003-10-09 Nicholas Routhier Process and system for encoding and playback of stereoscopic video sequences
US7391807B2 (en) * 2002-04-24 2008-06-24 Mitsubishi Electric Research Laboratories, Inc. Video transcoding of scalable multi-layer videos to single layer video
US7454123B2 (en) * 2002-06-06 2008-11-18 Intel Corporation Personal video recorder having reduced overscan coding
EP1527613B1 (de) * 2002-07-31 2014-09-10 Koninklijke Philips N.V. Verfahren und vorrichtung zur kodierung eines digitalen videosignals
KR100565791B1 (ko) * 2003-08-04 2006-03-29 삼성전자주식회사 모션백터 추정장치 및 모션백터 추정방법
US7778328B2 (en) 2003-08-07 2010-08-17 Sony Corporation Semantics-based motion estimation for multi-view video coding
US7966642B2 (en) * 2003-09-15 2011-06-21 Nair Ajith N Resource-adaptive management of video storage
US20050100098A1 (en) * 2003-10-23 2005-05-12 Gong-Sheng Lin Highly integrated mpeg-4 video decoding unit
EP1727090A1 (de) * 2004-02-27 2006-11-29 Tdvision Corporation S.A. DE C.V. Verfahren und system zum digitalen decodieren von stereoskopischen 3d-videobildern
CN1926576A (zh) * 2004-02-27 2007-03-07 Td视觉有限公司 用于数字编码3d立体视频图像的方法和系统
US8600217B2 (en) * 2004-07-14 2013-12-03 Arturo A. Rodriguez System and method for improving quality of displayed picture during trick modes
KR100688383B1 (ko) * 2004-08-13 2007-03-02 경희대학교 산학협력단 파노라마 영상의 움직임 추정 및 보상
US7623682B2 (en) * 2004-08-13 2009-11-24 Samsung Electronics Co., Ltd. Method and device for motion estimation and compensation for panorama image
TWI268715B (en) * 2004-08-16 2006-12-11 Nippon Telegraph & Telephone Picture encoding method, picture decoding method, picture encoding apparatus, and picture decoding apparatus
WO2006080739A1 (en) * 2004-10-12 2006-08-03 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding multi-view video using image stitching
KR100636785B1 (ko) * 2005-05-31 2006-10-20 삼성전자주식회사 다시점 입체 영상 시스템 및 이에 적용되는 압축 및 복원방법
WO2007004633A1 (ja) * 2005-07-05 2007-01-11 Sanyo Electric Co., Ltd. 立体画像処理方法及び立体画像処理装置及びプログラム及びプログラムが格納された記録媒体
KR100762783B1 (ko) * 2005-07-11 2007-10-05 (주)블루비스 다시점 영상 부호화 및 복호화 장치
US8644386B2 (en) * 2005-09-22 2014-02-04 Samsung Electronics Co., Ltd. Method of estimating disparity vector, and method and apparatus for encoding and decoding multi-view moving picture using the disparity vector estimation method
US8902977B2 (en) * 2006-01-09 2014-12-02 Thomson Licensing Method and apparatus for providing reduced resolution update mode for multi-view video coding
US8456515B2 (en) * 2006-07-25 2013-06-04 Qualcomm Incorporated Stereo image and video directional mapping of offset
CN101166271B (zh) * 2006-10-16 2010-12-08 华为技术有限公司 一种多视点视频编码中的视点差补偿方法
US20100266042A1 (en) * 2007-03-02 2010-10-21 Han Suh Koo Method and an apparatus for decoding/encoding a video signal
US8155461B2 (en) * 2007-03-27 2012-04-10 Samsung Electronics Co., Ltd. Methods and apparatuses for encoding and decoding multi-view image
WO2008133455A1 (en) * 2007-04-25 2008-11-06 Lg Electronics Inc. A method and an apparatus for decoding/encoding a video signal
WO2008140190A1 (en) * 2007-05-14 2008-11-20 Samsung Electronics Co, . Ltd. Method and apparatus for encoding and decoding multi-view image
KR101381601B1 (ko) * 2007-05-14 2014-04-15 삼성전자주식회사 다시점 영상 부호화 및 복호화 장치
US20090033791A1 (en) * 2007-07-31 2009-02-05 Scientific-Atlanta, Inc. Video processing systems and methods
MX2011000728A (es) * 2008-07-21 2011-03-29 Thomson Licensing Dispositivo de codificacion multiestandar para señales de video en 3d.
US8300696B2 (en) * 2008-07-25 2012-10-30 Cisco Technology, Inc. Transcoding for systems operating under plural video coding specifications
US8300089B2 (en) 2008-08-14 2012-10-30 Reald Inc. Stereoscopic depth mapping
US9251621B2 (en) * 2008-08-14 2016-02-02 Reald Inc. Point reposition depth mapping
JP5202190B2 (ja) * 2008-08-28 2013-06-05 キヤノン株式会社 画像処理方法及び画像処理装置
US8610726B2 (en) * 2008-09-26 2013-12-17 Apple Inc. Computer systems and methods with projected display
US7881603B2 (en) 2008-09-26 2011-02-01 Apple Inc. Dichroic aperture for electronic imaging device
US20100079653A1 (en) * 2008-09-26 2010-04-01 Apple Inc. Portable computing system with a secondary image output
WO2010038365A1 (ja) * 2008-09-30 2010-04-08 パナソニック株式会社 3d映像に係る記録媒体、再生装置、システムlsi、再生方法、眼鏡、表示装置
EP2340534B1 (de) * 2008-10-03 2013-07-24 RealD Inc. Optimaltiefenabbildung
KR20100089705A (ko) * 2009-02-04 2010-08-12 삼성전자주식회사 3차원 영상 부호화/복호화 장치 및 방법
US8428122B2 (en) * 2009-09-16 2013-04-23 Broadcom Corporation Method and system for frame buffer compression and memory resource reduction for 3D video
JP4875127B2 (ja) 2009-09-28 2012-02-15 パナソニック株式会社 三次元画像処理装置
US8619128B2 (en) * 2009-09-30 2013-12-31 Apple Inc. Systems and methods for an imaging system using multiple image sensors
US9602814B2 (en) 2010-01-22 2017-03-21 Thomson Licensing Methods and apparatus for sampling-based super resolution video encoding and decoding
WO2011090798A1 (en) 2010-01-22 2011-07-28 Thomson Licensing Data pruning for video compression using example-based super-resolution
US8878913B2 (en) * 2010-03-12 2014-11-04 Sony Corporation Extended command stream for closed caption disparity
FR2958824A1 (fr) 2010-04-09 2011-10-14 Thomson Licensing Procede de traitement d'images stereoscopiques et dispositif correspondant
WO2012033972A1 (en) 2010-09-10 2012-03-15 Thomson Licensing Methods and apparatus for pruning decision optimization in example-based data pruning compression
CN103141092B (zh) * 2010-09-10 2016-11-16 汤姆逊许可公司 针对视频压缩使用运动补偿的基于示例的超分辨率来编码视频信号的方法和设备
KR101640404B1 (ko) * 2010-09-20 2016-07-18 엘지전자 주식회사 휴대 단말기 및 그 동작 제어방법
US8538132B2 (en) 2010-09-24 2013-09-17 Apple Inc. Component concentricity
LU91745B1 (en) * 2010-10-15 2012-04-16 Iee Sarl Range image pixel matching method
JP2014500674A (ja) * 2010-12-08 2014-01-09 トムソン ライセンシング 適応的な両眼差をもつ3dディスプレイのための方法およびシステム
EP2667614A4 (de) * 2011-01-21 2013-11-27 Panasonic Corp Vorrichtung zur kodierung bewegter bilder und verfahren zur kodierung bewegter bilder
US9628769B2 (en) * 2011-02-15 2017-04-18 Thomson Licensing Dtv Apparatus and method for generating a disparity map in a receiving device
KR101763944B1 (ko) * 2011-02-18 2017-08-01 엘지디스플레이 주식회사 영상표시장치
JP2012257198A (ja) * 2011-05-17 2012-12-27 Canon Inc 立体画像符号化装置、その方法、および立体画像符号化装置を有する撮像装置
US9485518B2 (en) 2011-05-27 2016-11-01 Sun Patent Trust Decoding method and apparatus with candidate motion vectors
EP3614665B1 (de) * 2011-05-27 2022-03-23 Sun Patent Trust Vorrichtung, verfahren, und programm zur dekodierung von bewegtbildern
TW201304552A (zh) 2011-05-31 2013-01-16 Panasonic Corp 動態圖像編碼方法、動態圖像編碼裝置、動態圖像解碼方法、動態圖像解碼裝置、及動態圖像編碼解碼裝置
CN105049864A (zh) 2011-06-28 2015-11-11 三星电子株式会社 根据像素分类使用偏移调整的视频解码方法及其设备
IN2014CN00729A (de) 2011-08-03 2015-04-03 Panasonic Corp
TWI456975B (zh) 2011-08-23 2014-10-11 Acer Inc 立體影像處理裝置與方法
CN102984538B (zh) * 2011-09-05 2015-02-25 宏碁股份有限公司 立体图像处理装置与方法
CN102984548B (zh) * 2011-09-05 2014-12-31 中国移动通信集团公司 3d立体视频编码传输方法及装置
CN108881903B (zh) 2011-10-19 2022-01-04 太阳专利托管公司 图像编码方法及装置、图像解码方法及装置、编解码装置
US9098908B2 (en) 2011-10-21 2015-08-04 Microsoft Technology Licensing, Llc Generating a depth map
TWI461066B (zh) * 2011-11-03 2014-11-11 Ind Tech Res Inst 彈性調整估算搜尋範圍的移動估算方法及視差估算方法
WO2013109112A1 (ko) * 2012-01-19 2013-07-25 삼성전자 주식회사 시점 변환을 위한 다시점 비디오 예측 방법 및 그 장치, 시점 변환을 위한 다시점 비디오 예측 복원 방법 및 그 장치
WO2014000154A1 (en) * 2012-06-26 2014-01-03 Intel Corporation Cross-layer cross-channel sample prediction
WO2014000168A1 (en) * 2012-06-27 2014-01-03 Intel Corporation Cross-layer cross-channel residual prediction
KR20140080884A (ko) * 2012-12-20 2014-07-01 주식회사 팬택 계층적 비디오 코딩에서 색차 블록의 화면 내 예측 모드를 복호화하는 방법 및 이러한 방법을 사용하는 장치
US20140241612A1 (en) * 2013-02-23 2014-08-28 Microsoft Corporation Real time stereo matching
US9998750B2 (en) 2013-03-15 2018-06-12 Cisco Technology, Inc. Systems and methods for guided conversion of video from a first to a second compression format
CA2909550C (en) * 2013-07-15 2018-04-24 Mediatek Singapore Pte. Ltd. Method of disparity derived depth coding in 3d video coding
US9356061B2 (en) 2013-08-05 2016-05-31 Apple Inc. Image sensor with buried light shield and vertical gate
US9537779B2 (en) * 2013-10-11 2017-01-03 Huawei Technologies Co., Ltd. System and method for real-time traffic delivery
CN105215098B (zh) * 2015-10-27 2017-10-13 安徽哈科数控机床制造有限公司 一种折弯机及其使用方法
CN117917077A (zh) * 2021-08-19 2024-04-19 联发科技股份有限公司 用于视频编解码系统中硬件友好模板匹配的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619256A (en) * 1995-05-26 1997-04-08 Lucent Technologies Inc. Digital 3D/stereoscopic video compression technique utilizing disparity and motion compensated predictions
US5612735A (en) * 1995-05-26 1997-03-18 Luncent Technologies Inc. Digital 3D/stereoscopic video compression technique utilizing two disparity estimates
US5652616A (en) * 1996-08-06 1997-07-29 General Instrument Corporation Of Delaware Optimal disparity estimation for stereoscopic video coding
US5886736A (en) * 1996-10-24 1999-03-23 General Instrument Corporation Synchronization of a stereoscopic video sequence

Also Published As

Publication number Publication date
CA2252324A1 (en) 1999-05-07
TW426835B (en) 2001-03-21
NO985170L (no) 1999-05-10
KR19990045067A (ko) 1999-06-25
EP0915433B1 (de) 2005-04-27
EP0915433A3 (de) 2000-02-23
US6043838A (en) 2000-03-28
JPH11262032A (ja) 1999-09-24
CA2252324C (en) 2005-09-27
NO985170D0 (no) 1998-11-05
CN1226786A (zh) 1999-08-25
MX9809262A (es) 2007-02-27
DE69829931D1 (de) 2005-06-02
EP0915433A2 (de) 1999-05-12

Similar Documents

Publication Publication Date Title
DE69829931T2 (de) Schätzung von Sichtverschiebungen zur Kodierung stereoskopischer Videobilder
DE69726508T2 (de) Optimale Disparitätsschätzung zur Kodierung stereoskopischer Videosignale
DE69736537T2 (de) Ratenregelung für stereoskopische digitale Videokodierung
DE60015566T2 (de) Verfahren und vorrichtung zur komprimierung eines bewegungsvektorfeldes
DE69920429T2 (de) Bewegungsschätzungssystem und -verfahren
DE69530336T2 (de) Bewegungskompensation für digitale Videosignale mit Zeilensprung
DE4305578B4 (de) Fehlerverdeckung in decodierten Videosignalen
DE112011103365B4 (de) Tonwertumsetzung von Videosignalen mit hohem Dynamikumfang
DE69725186T2 (de) Sprite-gestütztes videocodiersystem
EP2059053A2 (de) Verfahren und Vorrichtung zur Erzeugung eines Tiefenbildes mithilfe eines Referenzbildes, Verfahren zur Verschlüsselung / Entschlüsselung des Tiefenbildes und Codierer bzw. Decodierer dafür
HUE029776T2 (en) Tiling in video encoding and decoding
Daribo et al. Motion vector sharing and bitrate allocation for 3D video-plus-depth coding
DE69834901T2 (de) Bewegungskompensierte prädiktive bildcodierung und -decodierung
EP1025708B1 (de) Verfahren und vorrichtung zur verarbeitung eines digitalisierten bildes
DE102014211612A1 (de) Methode und Vorrichtung zur Erzeugung, Speicherung, Übertragung, zum Empfang und zur Wiedergabe von Tiefenkarten unter Nutzung der Farbkomponenten eines Bildes, das Teil eines dreidimensionalen Videostroms ist
EP0850539B1 (de) Stereoskopische bildcodierung
KR100775871B1 (ko) 영상합성기반 다시점 동영상 부호화 및 복호화를 수행하기위한 방법 및 장치
DE19816898B4 (de) Vorrichtung und Verfahren zum adaptiven Codieren eines Bildsignals
Siegel et al. Compression and interpolation of 3d stereoscopic and multiview video
AT513369A2 (de) Verfahren zum Erzeugen, Übertragen und Empfangen stereoskopischer Bilder, und zugehörige Geräte
EP1829378B1 (de) Bildencodierverfahren, sowie dazugehöriges bilddecodierverfahren, encodiervorrichtung und decodiervorrichtung
DE60310128T2 (de) Verfahren zur wavelet-bildcodierung und entsprechendes decodierungsverfahren
Sethuraman Stereoscopic image sequence compression using multiresolution and quadtree decomposition-based disparity-and motion-adaptive segmentation
DE19749604A1 (de) Verfahren zum Kodieren eines Modus beim Kodieren binärer Formen
Forman et al. Compression of integral 3D TV pictures

Legal Events

Date Code Title Description
8364 No opposition during term of opposition