-
ALLGEMEINER
STAND DER TECHNIK
-
Die
vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein
Verfahren zum Codieren von stereoskopischen Videodaten. Insbesondere
wird ein System zum Schätzen
des optimalen Versatzes einer Szene zwischen rechten und linken
Kanalansichten an dem gleichen zeitlichen Referenzpunkt präsentiert.
Das System reduziert den Bewegungsvektorsuchbereich für Disparitätsprädiktion
(d. h. Kreuzkanal- oder
Kreuzschichtprädiktion)
zum Verbessern der Codiereffizienz.
-
Die
digitale Technologie hat die Lieferung von Video- und Audiodiensten
an Kunden revolutioniert, da sie Signale mit viel höherer Qualität als analoge
Techniken abliefern und zusätzliche
Merkmale, die zuvor nicht verfügbar
waren, bereitstellen kann. Digitale Systeme sind besonders für Signale
von Vorteil, die über
ein Kabelfernsehnetzwerk oder durch Satellit zu Kabelfernsehmitgliedern
und/oder direkt zu privaten Satellitenfernsehempfängern rundgesendet
werden. In solchen Systemen empfängt
ein Teilnehmer den digitalen Datenstrom über einen Empfänger/Entwürfler, der
die Daten dekomprimiert und decodiert, um die ursprünglichen
Video- und Audiosignale zu rekonstruieren. Der digitale Empfänger umfasst
einen Mikrocomputer und Speicherelemente zur Verwendung bei diesem
Vorgang.
-
Die
Notwendigkeit, kostengünstige
Empfänger
bereitzustellen, während
gleichzeitig qualitativ hochwertige Video- und Audiosignale bereitgestellt
werden, erfordert, dass die verarbeitete Datenmenge begrenzt wird.
Darüber
hinaus kann die verfügbare
Bandbreite zur Übertragung
des digitalen Signals außerdem
durch physikalische Beschränkungen, bestehende
Kommunikationsprotokolle und gesetzliche Regelungen begrenzt sein.
Folglich wurden verschiedene Vollbild interne Datenkomprimierungsschemata
entwickelt, die die räumliche
Korrelation zwischen benachbarten Pixeln in einem bestimmten Videobild
(z. B. Vollbild) ausnutzen.
-
Außerdem nutzen
die Vollbild übergreifenden
Komprimierungsschemata zeitliche Korrelationen zwischen entsprechenden
Gebieten aufeinanderfolgender Vollbilder aus, indem sie Bewegungskompensationsdaten
und Blockübereinstimmungs-Bewegungsschätzalgorithmen
verwenden. In diesem Fall wird für
jeden Block in einem aktuellen Bild einer Abbildung durch Identifizieren
eines Blocks in einem vorherigen Bild, das dem aktuellen Block am ähnlichsten
ist, ein Bewegungsvektor bestimmt. Das gesamte aktuelle Bild kann
dann an einem Decodierer rekonstruiert werden, indem Daten gesendet
werden, die den Unterschied zwischen den entsprechenden Blockpaaren
darstellen, zusammen mit den Bewegungsvektoren, die erforderlich
sind, um die entsprechenden Paare zu identifizieren. Block übereinstimmende
Bewegungsschätzalgorithmen
sind besonders effektiv, wenn sie mit auf Blöcken basierenden räumlichen
Kompressionstechniken, wie etwa der diskreten Cosinus-Transformation
(DCT), kombiniert werden.
-
Zusätzlich besteht
zunehmendes Interesse an vorgeschlagenen Formaten für die stereoskopische
Videoübertragung,
wie zum Beispiel dem System MPEG-2 Multi-View-Profile (MVP) der
Motion Picture Experts Group (MPEG), das in Dokument ISO/IEC JTC1/SC29/WG11
N1088 (ITU-T Recommendation H.262) mit dem Titel „Proposed
Draft Amendment No. 3 to 13818-2 (Multi-View-Profile)", November 1995,
und dessen Änderung
3 sowie dem MPEG-4 Video Verification Model (VM) Version 3.0, das
in Dokument ISO/IEC JTC1/SC29/WG11 N1277, Tampere, Finnland, Juli
1996 beschrieben wird.
-
Stereoskopisches
Video stellt etwas versetzte Ansichten derselben Abbildung bereit,
um eine kombinierte Abbildung mit größerer Tiefe des Halbbilds zu
erzeugen, wodurch ein dreidimensionaler (3D-Effekt) Effekt hergestellt
wird. In einem solchen System können
duale Kameras etwa 2,5 Inch oder 65 mm voneinander positioniert
werden, um ein Ereignis auf zwei getrennten Videosignalen aufzuzeichnen.
Der Zwischenraum der Kameras approximiert den Abstand zwischen dem
linken und rechten menschlichen Auge, d. h. der interokularen Trennung.
Außerdem
werden bei manchen stereoskopischen Video-Camcordern die zwei Linsen
in einen Camcorderkopf eingebaut und bewegen sich deshalb synchron,
wenn zum Beispiel über
die Abbildung geschwenkt wird. Die zwei Videosignale können übertragen
und an einem Empfänger
rekombiniert werden, um eine Abbildung mit einer Tiefe des Halbbilds
herzustellen, die dem normalen menschlichen Sehen entspricht. Außerdem können andere
Spezialeffekte bereitgestellt werden.
-
Das
MPEG-MVP-System umfasst zwei Videoschichten, die in einem gemultiplexten
Signal übertragen werden.
Als erstes stellt eine Basisschicht (z. B. untere Schicht) eine
linksseitige Ansicht eines dreidimensionalen Objekts dar. Als zweites
stellt eine Anreicherungsschicht (z. B. eine Hilfs- oder obere Schicht)
eine rechtsseitige Ansicht des Objekts dar. Da die rechtsseitige
und die linksseitige Ansicht von demselben Objekt und nur geringfügig voneinander
versetzt sind, besteht gewöhnlich
ein hoher Korrelationsgrad zwischen den Videoabbildungen der Basis-
und Anreicherungsschicht. Diese Korrelation kann zum Komprimieren
der Anreicherungsschichtdaten relativ zu der Basisschicht verwendet
werden, wodurch die Datenmenge reduziert wird, die in der Anreicherungsschicht übertragen
werden muss, um eine gegebene Abbildungsqualität aufrechtzuerhalten. Die Abbildungsqualität entspricht
im Allgemeinen dem Quantisierungsgrad der Videodaten.
-
Das
MPEG-MVP-System umfasst drei Arten von Videobildern; spezifisch
das intracodierte Bild (I-Bild), das prädiktiv codierte Bild (P-Bild)
und das bidirektional prädiktiv
codierte Bild (B-Bild). Während
die Basisschicht entweder Vollbild- oder Halbbildstrukturvideosequenzen
unterbringt, trägt
die Anreicherungsschicht ferner nur Vollbildstruktur. Ein I-Bild
beschreibt vollständig
ein einzelnes Videobild ohne Bezug auf ein anderes Bild. Zur verbesserten
Fehlerverschleierung können
in ein I-Bild Bewegungsvektoren eingeschlossen werden. Ein Fehler
in einem I-Bild hat das Potential, sich stärker auf das angezeigte Video
auszuwirken, da sowohl P-Bilder als auch B-Bilder in der Basisschicht
aus I-Bildern prädiktiert
werden. Bilder in der Anreicherungsschicht können außerdem aus Bildern in der Basisschicht
in einem Kreuzschichtprädiktionsvorgang,
bekannt als Disparitätsprädiktion,
prädiktiert
werden. Die Prädiktion
von einem Vollbild zu einem anderen innerhalb einer Schicht ist
als zeitliche Prädiktion
bekannt.
-
In
der Basisschicht werden P-Bilder auf der Grundlage vorheriger I-
oder P-Bilder prädiktiert.
Der Bezug erfolgt von einem früheren
I- oder P-Bild auf ein zukünftiges
P-Bild und ist als Vorwärtsprädiktion
bekannt. B-Bilder werden aus dem nächsten früheren I- oder P-Bild und dem
nächsten
späteren
I- oder P-Bild prädiktiert.
-
In
der Anreicherungsschicht kann ein P-Bild (a) aus dem zuletzt decodierten
Bild in der Anreicherungsschicht, (b) dem letzten Basisschichtbild
in der Anzeigeanordnung oder (c) aus dem nächsten Untere-Schicht-Bild
in der Anzeigeanordnung prädiktiert
werden. Fall (b) wird gewöhnlich
verwendet, wenn das letzte Basisschichtbild in der Anzeigeanordnung
ein I-Bild ist.
-
Außerdem kann
ein B-Bild in der Anreicherungsschicht unter Verwendung (d) des
zuletzt decodierten Anreicherungsschichtbilds zur Vorwärtsprädiktion
und des letzten Untere-Schicht-Bilds in der Anzeigeanordnung (e)
des zuletzt decodierten Anreicherungsschichtbilds zur Vorwärtsprädiktion
und des nächsten
Untere-Schicht-Bilds in der Anzeigeanordnung zur Rückwärtsprädiktion
oder (f) des letzten Untere-Schicht-Bilds
in der Anzeigeanordnung zur Vorwärtsprädiktion
und des nächsten
Untere-Schicht-Bilds in der Anzeigeanordnung zur Rückwärtsprädiktion
prädiktiert
werden. Wenn das letzte Untere-Schicht-Bild in der Anzeigeanordnung ein I-Bild
ist, wird nur dieses I-Bild für
die prädiktive
Codierung verwendet (z. B. erfolgt keine Vorwärtsprädiktion).
-
Zu
beachten ist, dass nur die Prädiktionsmodi
(a), (b) und (d) in dem MPEG-MVP- System eingeschlossen sind. Das
MVP-System ist eine Teilmenge der zeitlichen MPEG-Skalierbarkeitscodierung,
die jeden der Modi (a)–(f)
einschließt.
-
Bei
einer wahlweisen Konfiguration weist die Anreicherungsschicht nur
P- und B-Bilder,
aber keine I-Bilder auf. Der Bezug auf ein zukünftiges Bild (d. h. eines,
das noch nicht angezeigt worden ist) wird als Rückwärtsprädiktion bezeichnet. Zu beachten
ist, dass in der Anreicherungsschicht keine Rückwärtsprädiktion erfolgt. Folglich werden
Anreicherungsschichtbilder in der Anzeigeanordnung übertragen.
Es gibt Situationen, in denen die Rückwärtsprädiktion beim Vergrößern der
Kompressionsrate sehr nützlich
ist. Zum Beispiel kann in einer Szene, in der sich eine Tür öffnet, das
aktuelle Bild auf der Grundlage eines zukünftigen Bildes, in dem die
Tür bereits
offen ist, prädiktieren,
was sich hinter der Tür
befindet.
-
B-Bilder
ergeben am meisten Kompression, enthalten aber auch die meisten
Fehler. Um eine Fehlerausbreitung zu beseitigen, dürfen B-Bilder
niemals aus anderen B-Bildern in der Basisschicht prädiktiert
werden. P-Bilder
ergeben weniger Fehler und weniger Kompression. I-Bilder ergeben die
geringste Kompression, können
aber einen Direktzugriff bereitstellen.
-
Zur
Disparitätsprädiktion,
z. B. wenn eine Untere-Schicht-Abbildung als eine Referenzabbildung
für eine
Anreicherungsschichtabbildung verwendet wird, entweder allein oder
in Verbindung mit einer Anreicherungsschichtreferenzabbildung, wird
die Anreicherungsschichtabbildung durch das Finden einer Abbildung
der besten Übereinstimmung
in der Referenzabbildung durch das Suchen eines vorbestimmten Suchbereichs, dann
das differentielle Codieren der Pixel der Anreicherungsschichtabbildung
unter Verwendung der Pixel der Abbildung der besten Übereinstimmung
der Referenzabbildung bewegungskompensiert. Ein Bewegungsvektor,
der die relative Verschiebung der Abbildung der besten Übereinstimmung
zu dem codierten Anreicherungsschichtgebiet definiert, wird mit
den differentiell codierten Pixeldaten übertragen, um die Rekonstruktion der
Anreicherungsschichtabbildung an einem Decodierer zu ermöglichen.
Das Verarbeiten kann auf einem Makroblock auf Makroblock-Basis geschehen.
-
US 5652616 offenbart ein
optisches Disparitätsschätzungsverfahren
für stereoskopisches
Videocodieren. Dieses Verfahren involviert das Bereitstellen eines
Suchfensters, das mindestens einen Abschnitt der Pixel in dem Anreicherungsschichtbild
beinhaltet. Ein Referenzfenster, das mindestens einen Abschnitt
der Pixel beinhaltet, ist in einem Referenzbild einer Basisschicht
des stereoskopischen Videosignals bereitgestellt. Affine Transformationskoeffizienten
des Referenzfensters werden bestimmt, die den kleinsten quadratischen
Fehler zwischen Luminanzwerten von Pixeln des Suchfensters und des
Referenzfensters minimieren.
-
Die
Verarbeitungs- und Speicherungsanforderungen für die Disparitätsprädiktion
werden jedoch erhöht,
wenn der Bewegungsvektorsuchbereich erhöht wird. Daraus resultiert
zusätzlich
ineffizientes Codieren variabler Längen (z. B. Huffman-Codierung)
von Disparitätsvektoren.
Dies resultiert in einer teureren und/oder langsameren Codier- und
Decodiervorrichtung. Demgemäß wäre es vorteilhaft,
ein System zum Verbessern der Codiereffizienz von disparitätsprädiktierten
Anreicherungsschichtabbildungen in einem stereoskopischen Videosystem
zu haben. Das System sollte die interokulare Trennung einer stereoskopischen
Videokamera berücksichtigen,
um eine verschobene Untere-Schicht-Abbildung bereitzustellen, die
eher zu der Anreicherungsschichtabbildung passt. Das System sollte
mit verschiedenen Abbildungsgrößen einschließlich rechteckigen sowie
willkürlich
geformten Abbildungen kompatibel sein.
-
Das
System sollte ferner mit verschiedenen existierenden und vorgeschlagenen
Videocodierstandards wie beispielsweise MPEG-1, MPEG-2, MPEG-4,
H.261 und H.263 kompatibel sein.
-
Das
System sollte für
die Übertragung
eines Versatzwerts zur Verwendung durch einen Decodierer beim Rekonstruieren
eines Referenzvollbilds sorgen. Das System sollte ebenfalls bei
Videostandards wirken, die durch das Reduzieren des Bewegungsvektorsuchbereichs
an einem Codierer keine Übertragung
eines Versatzwerts ermöglichen.
Die Technik sollte sowohl für
Festabbildungen als auch für
Sequenzen von Abbildungen geeignet sein.
-
Die
vorliegende Erfindung stellt ein System mit den obigen und weiteren
Vorteilen bereit.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Gemäß der vorliegenden
Erfindung werden ein Verfahren und eine Vorrichtung zum Verbessern
der Codiereffizienz in einem stereoskopischen Videoübertragungssystem
durch das Ausgleichen der interokularen Trennung der Kameralinse
dargestellt.
-
Ein
Verfahren zum Prädiktieren
einer Anreicherungsschichtabbildung in einer Anreicherungsschicht eines
stereoskopischen Videosignals unter Verwendung einer Untere-Schicht-Abbildung
in einer unteren Schicht davon beinhaltet die Schritte des Bestimmens
eines optimalen Versatzes x zwischen der Anreicherungsschichtabbildung
und der Untere-Schicht-Abbildung
gemäß entweder
einem kleinsten mittleren Fehler oder einem kleinsten mittleren
quadratischen Fehler und das Verschieben der Untere-Schicht-Abbildung
gemäß dem optimalen
Versatz, um eine Referenzabbildung zur Verwendung beim Disparitätsprädiktieren
der Anreicherungsschichtabbildung zu erhalten. Das Verschieben wird
durch das Löschen
der letzten (z. B. am weitesten rechts liegenden) x Pixelspalten
der Untere-Schicht-Abbildung und das Auffüllen dar ersten (z. B. am weitesten
links liegenden) x Pixelspalten gemäß der vorher existierenden
Pixelspalte (d. h. der am weitesten links liegenden Spalte vor dem
Verschieben) erzielt.
-
Die
Anreicherungsschichtabbildung wird von der Referenzabbildung unter
Verwendung von Bewegungskompensation disparitätsprädiktiert, und eine Abbildung
der besten Übereinstimmung
wie beispielsweise ein Makroblock wird in der Referenzabbildung
unter Verwendung eines Suchbereichs, der relativ zu einem Suchbereich
der Untere-Schicht-Abbildung
ohne das Verschieben reduziert ist, erhalten.
-
Ein
geschätzter
Versatz kann gemäß einem
Kamerafokusparameter und einer interokularen Trennung bestimmt werden,
in welchem Fall die Untere-Schicht-Abbildung in einem durch den
geschätzten
Versatz bestimmten Bereich gesucht werden kann, um den optimalen
Versatz zu finden.
-
Die
Anreicherungsschichtabbildung und die Untere-Schicht-Abbildung können Video-Objektebenen oder
andere willkürlich
geformte Abbildungen sowie rechteckige Abbildungen (z. B. Vollbilder)
beinhalten.
-
Ein
neuer optimaler Versatz x kann bestimmt werden, wenn ein Szenenwechsel
für die
Untere-Schicht-Abbildung erkannt wird. Wenn kein Szenenwechsel erkannt
wird, kann ein Versatz von einer vorherigen Abbildung in der unteren
Schicht als optimaler Versatz x verwendet werden. Wahlweise kann
ein neuer optimaler Versatz x für
eine neue Bildsequenz in der unteren Schicht bestimmt werden.
-
Der
optimale Versatz x kann in dem stereoskopischen Videosignal zur
Verwendung durch einen Decodierer beim Wiedererzeugen der Referenzabbildung übertragen
werden.
-
Für den kleinsten
mittleren Fehler wird der optimale Versatz x so bestimmt, dass der
Wert
minimiert
wird, wobei y
L und y
E Luminanzpixelwerte
der Untere-Schicht-Abbildung
bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale
bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung und der
Anreicherungsschichtabbildung sind, h die Höhe der Untere-Schicht-Abbildung ist,
w die Breite der Untere-Schicht-Abbildung ist, die Untere-Schicht-Abbildung
eine linksseitige Ansicht der Abbildung ist und die Anreicherungsschichtabbildung
eine rechtsseitige Ansicht der Abbildung ist.
-
Für den kleinsten
mittleren quadratischen Fehler wird der optimale Versatz x so bestimmt,
dass der Wert
-
-
Der
Versatz für
Chrominanzdaten ist ⌊x/2⌋ für 4:2:0 Video.
-
Eine
entsprechende Vorrichtung und ein entsprechender Decodieren sind
ebenfalls dargestellt.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
ein Blockschaltbild einer Codierer-/Decodiererstruktur für stereoskopisches
Video.
-
2 ist
ein schematisches Diagramm eines stereoskopischen Videokameramodells.
-
3 ist
eine Veranschaulichung eines Disparitätsprädiktionsmodus für P-Bilder
in der Anreicherungsschicht.
-
4 ist
eine Veranschaulichung eines Anreicherungsschichtprädiktionsmodus
für B-Bilder.
-
5 veranschaulicht
das Verarbeiten eines Bilds der linksseitigen Ansicht gemäß der vorliegenden Erfindung.
-
6 veranschaulicht
einen Codiererablauf gemäß der vorliegenden
Erfindung.
-
7 veranschaulicht
einen Decodiererablauf gemäß der vorliegenden
Erfindung.
-
8 veranschaulicht
Disparitätsprädiktion
und Bewegungsvektorsuchen gemäß der vorliegenden Erfindung.
-
9 veranschaulicht
Bewegungsvektorsuchen gemäß der vorliegenden
Erfindung.
-
10 ist
ein Blockschaltbild einer Anreicherungsschichtdecodiererstruktur
gemäß der vorliegenden Erfindung.
-
DETAILLIERTE
BESCHREIBUNG DER ERFINDUNG
-
Ein
Verfahren und eine Vorrichtung zum Schätzen des optimalen Versatzes
einer Szene zwischen einer rechten und linken Kanalansicht in einem
stereoskopischen Videosystem werden dargestellt.
-
1 ist
ein Blockschaltbild einer Codierer-/Decodiererstruktur für stereoskopisches
Video. Der MPEG-MVP-Standard und ähnliche Systeme involvieren
die Codierung zweier Videoschichten, einschließlich einer unteren Schicht
und einer Anreicherungsschicht oder einer oberen Schicht. Bei einer
solchen Anwendung wird die untere Schicht einer linksseitigen Ansicht
zugewiesen, während
die Anreicherungsschicht einer rechtsseitigen Ansicht zugewiesen
wird. In der Codierer-/Decodiererstruktur
(z. B. Codec-Struktur) von 1 werden
die Videosequenzen der unteren Schicht und der Anreicherungsschicht
von einem zeitlichen Remultiplexer (Remuxer) 105 empfangen.
Unter Verwendung des Zeitmultiplexverfahrens (TDMX) wird einem Anreicherungscodierer 110 das
Anreicherungsschichtvideo bereitgestellt, während einem unteren Codierer 115 das Basisschichtvideo
bereitgestellt wird. Es ist zu beachten, dass dem Anreicherungscodierer 110 zur
Disparitätsprädiktion
die Videodaten der unteren Schicht bereitgestellt werden können.
-
Einem
Systemmultiplexer 120 werden dann die codierte Anreicherungs- und Basisschicht
zur Übertragung
zu einem Decodierer, allgemein bei 122 gezeigt, als ein
Transportstrom bereitgestellt. Der Übertragungsweg ist typischerweise
eine Satellitenverbindung zu einer Kopfstelle einer Kabelanlage
oder direkt über
Satellit zu der Wohnung eines Verbrauchers. Am Decodierer 122 wird
der Transportstrom an einem Systemdemultiplexer 125 demultiplexiert.
Einem Anreicherungsdecodierer 130 werden die codierten
Anreicherungsschichtdaten bereitgestellt, während einem unteren Decodierer 135 die
codierten Daten der unteren Schicht bereitgestellt werden. Es ist
zu beachten, dass die Decodierung vorzugsweise gleichzeitig mit
der unteren und der Anreicherungsschicht in einer parallelen Verarbeitungskonfiguration
ausgeführt
wird. Als Alternative können
sich der Anreicherungsdecodierer 130 und der untere Decodierer 135 gemeinsame
Verarbeitungshardware teilen, und in diesem Fall kann die Decodierung
sequentiell mit jeweils einem Bild ausgeführt werden.
-
Die
decodierten Daten der unteren Schicht werden aus dem unteren Decodierer 135 als
ein separater Datenstrom ausgegeben und ebenfalls einem zeitlichen
Remultiplexer 140 bereitgestellt. An dem zeitlichen Remultiplexer 140 werden
die decodierten Basisschichtdaten und die decodierten Anreicherungsschichtdaten kombiniert,
um wie gezeigt ein Anreicherungsschichtausgangssignal bereitzustellen.
Die Ausgangssignale der Anreicherungs- und der unteren Schicht werden dann
einer Anzeigevorrichtung zur Betrachtung bereitgestellt.
-
2 ist
ein schematisches Diagramm eines stereoskopischen Videokameramodells.
Die Kameravorrichtung, im Allgemeinen bei 100 gezeigt,
umfasst eine Linse 120 der rechtsseitigen Ansicht und eine
Linse 110 der linksseitigen Ansicht mit jeweiligen Achsen 125 und 115,
die durch einen interokularen Abstand δ (130), typischerweise
65 mm, getrennt sind. Die Achsen 115 und 125 schneiden
eine Kameraebene 140. Die Kameravorrichtung 100 umfasst
zwei identische Kameras, jede mit einer entsprechenden Linse, so
dass zwei unterschiedliche Aufzeichnungen einer Szene erhalten werden.
Die Kameras sind mit parallelen Achsen und koplanaren Abbildungssensoren,
wie beispielsweise ladungsgekoppelte Schaltungen (CCD), ausgerichtet.
Die Verschiebung (Disparität)
von zwei Abbildungen einer Szene in einem gegebenen Moment ist daher
hauptsächlich
horizontal und wird durch die horizontale Trennung der Linsen 110 und 120 erzeugt.
-
Ein
stereoskopisches Bildaufbereitungssystem repliziert das Prinzip
des Systems des menschlichen Sehens, um zwei Ansichten einer Szene
bereitzustellen. Durch das Präsentieren
der angemessenen Ansichten auf einer geeigneten Anzeige gegenüber dem
entsprechenden linken und rechten Auge eines Betrachters werden
zwei leicht unterschiedliche Perspektivansichten der Szene auf jeder
Retina abgebildet. Das Gehirn vereinigt diese Abbildungen dann in
einer Ansicht, und der Betrachter erlebt das Gefühl der Stereopsis (stereoskopisches
Sehen), die durch verbesserte Tiefenwahrnehmung zusätzlichen
Realismus bereitstellt.
-
Um
stereoskopische Videodaten effizient zu übertragen, muss das Codieren
(z. B. die Komprimierung) der Abbildungen der zwei Ansichten effizient
sein. Das effiziente Codieren eines stereoskopischen Videos hängt nicht
nur von der Bewegungskompensation ab, sondern auch von Disparitätsprädiktion
(z. B. Kreuzkanal- oder Kreuzschichtprädiktion). Durch das Reduzieren
eines Bewegungsvektorsuchbereichs zur Disparitätsprädiktion zwischen Bildern der
linksseitigen und rechtsseitigen Ansicht kann ein Codierer niedriger
Komplexität
implementiert werden. Dies wird durch das optimale Schätzen des
globalen Standortversatzes einer Szene zwischen Bildern zweier Ansichten
an dem gleichen zeitlichen Referenzpunkt erreicht.
-
Das
hier präsentierte
System kann als eine Leistungsverbesserungsoption der Experimente
mit MPEG-2 Multi-View-Profile (MVP) und MPEG-4 Video Verification
Model (VM) (Version 3.0 und darüber)
zur Disparitätsprädiktion
von stereoskopischer Videocodierung verwendet werden. MVP (oder
MPEG-4 MV 3.0) involviert zweischichtiges Codieren, und zwar eine
untere Schicht oder eine Basisschicht und eine Anreicherungsschicht.
Beim stereoskopischen Videocodieren wird die untere Schicht der
linksseitigen Ansicht zugewiesen, während die Anreicherungsschicht
der rechtsseitigen Ansicht zugewiesen wird. Die Disparitätsschätzungs-/Prädiktionsmodi
der Anreicherungsschicht in MVP für P- und B-Bilder bestehen
aus einer auf einem Makroblock basierenden Blockanpassungstechnik.
In einem MVP-Decodierer werden diese Prädiktionsmodi in 3, 4 und 8 gezeigt.
-
Beim
stereoskopischen Videocodieren wird wegen der Versetzung der Ansichtspunkte
ein horizontaler Disparitätsvektor
für jeden
disparitätsprädiktierten
Makroblock erwartet. Dies verursacht tatsächlich ineffizientes Codieren
variabler Länge
(Huffman Codierung) (VLC) dieser Disparitätsvektoren. Die vorliegende
Erfindung widmet sich dem Problem der Bestimmung des horizontalen
Versatzes stereoskopischer Ansichten, so dass das Codieren geschätzter Disparitätsvektoren
effizienter wird.
-
Gemäß der vorliegenden
Erfindung wird die Abbildung der linksseitigen Ansicht durch eine
angemessene Anzahl von Pixeln versetzt, so dass die Verschiebung
zwischen dem Versatz der Abbildung der linksseitigen Ansicht und
der Abbildung der rechtsseitigen Ansicht reduziert werden kann.
Die Disparitätsprädiktion auf
der Basis dieses neuen Abbildungspaars ist daher effizienter.
-
3 ist
eine Veranschaulichung eines Disparitätsprädiktionsmodus für P-Bilder
in der Anreicherungsschicht. Hier wird ein P-Bild 310 in
der Anreicherungsschicht unter Verwendung eines zeitlich zusammentreffenden
I-Bilds 300 in der unteren Schicht disparitätsprädiktiert.
-
4 ist
eine Veranschaulichung eines Anreicherungsschichtprädiktionsmodus
für B-Bilder.
Hier wird ein B-Bild 410 in der Anreicherungsschicht unter
Verwendung von sowohl Vorwärtsprädiktion
als auch Disparitätsprädiktion
prädiktiert.
Das B-Bild 410 wird speziell unter Verwendung eines weiteren
B-Bilds 420, das das zuletzt decodierte Anreicherungsschichtbild
ist, und eines I-Bilds 400, das das letzte Untere-Schicht-Bild in der Anzeigeordnung
ist, vorwärtsprädiktiert.
-
5 veranschaulicht
das Verarbeiten eines Bilds der linksseitigen Ansicht gemäß der vorliegenden Erfindung.
Eine globale horizontale Positionsversatztechnik der vorliegenden
Erfindung verbessert die Codiereffizienz, während die Kompatibilität mit existierenden
stereoskopischen Codierstandards aufrechterhalten wird. Die globale
horizontale Positionsversatzmethode erhält eine horizontale Positionsverschiebung
der Abbildung der linksseitigen Ansicht, so dass die Verzerrung
zwischen der (verschobenen) Abbildung der linksseitigen Ansicht
und der entsprechenden Abbildung der rechtsseitigen Ansicht minimiert
wird. Diese Technik ist auf willkürlich geformte Abbildungen
wie beispielsweise Video-Objektebenen (VOP), wie in dem MPEG-4-Standard erörtert, sowie
auf rechteckige Abbildungen, z. B. ein Videovollbild oder ein Bild
oder ein Unterabschnitt davon, wie in dem MPEG-2-MVP-Standard verwendet,
anwendbar. Eine VOP in einer Abbildung der linksseitigen Ansicht
wird durch das Löschen
der x am weitesten links liegenden Pixel, die sich vertikal auf
der VOP erweitern, d. h. auf dem am weitesten links liegenden Rand
der VOP und das Auffüllen
der x Pixel am am weitesten rechts liegenden Rand der VOP nach rechts
verschoben. Der am weitesten rechts liegende Rand wird folglich
horizontal durch x Pixel erweitert. Die Position der VOP wird folglich
bezüglich
des Vollbilds der linksseitigen Ansicht, in dem sie gelegen ist,
sowie bezüglich
der entsprechenden VOP in der Abbildung der rechtsseitigen Ansicht
verschoben. Im Allgemeinen sind die am weitesten rechts liegenden
und am weitesten links liegenden Abschnitte des Vollbilds der linksseitigen
Ansicht unter der Annahme, dass sich die VOP nicht zu den vertikalen
Grenzen des Vollbilds erweitert, unverändert.
-
In 5 sind
eine 500 der linksseitigen Ansicht
und eine 510 der rechtsseitigen Ansicht gezeigt.
Die Parameter h und w kennzeichnen die Höhe bzw. Breite beider Abbildungen.
Zum Beispiel ist für NTSC-Video
h = 480 und w = 704, und für
PAL-Video h = 576 und w = 704). Die Parameter yL (i,
j) und yR (i, j) stellen die Luminanzpixelwerte
der Abbildungen der linksseitigen (oder unteren) bzw. rechtsseitigen
Ansicht dar. Auf die Parameter yR (i, j)
kann mit yE (i, j) Bezug genommen werden,
wobei die Tiefstellung „E" die Anreicherungsschicht
kennzeichnet.
-
Die
Technik wird unter der Annahme erörtert, dass sich die Abbildung
der linksseitigen Ansicht in der unteren Schicht und die Abbildung
der rechtsseitigen Ansicht in der Anreicherungsschicht befindet.
Die Technik lässt
sich jedoch leicht zur Verwendung in einem stereoskopischen Videosignal
anpassen, in dem sich die Abbildung der rechtsseitigen Ansicht in
der unteren Schicht und die Abbildung der linksseitigen Ansicht
in der Anreicherungsschicht befindet.
-
Die
Abbildung der linksseitigen Ansicht 500 umfasst ein Merkmal 505,
während
die Abbildung der rechtsseitigen Ansicht 510 das gleiche
Merkmal 515 umfasst, aber in unterschiedlicher relativer
Position innerhalb des Vollbilds. Genauer ist die 500 zu
der linken Seite der 510 um einen
Abstand x relativ versetzt. In einem ersten Schritt ist der Wert
x der horizontale Versatz, der bestimmt werden soll, und es wird
angenommen, dass er in einen vorher zugewiesenen oder vorher bestimmten
Bereichs X fällt,
das heißt
0 ≤ x ≤ X.
-
Die
globale horizontale Positionsversatztechnik gemäß einer ersten Ausführungsform
der vorliegenden Erfindung besteht darin, den ganzzahligen Wert
x des horizontalen Versatzes zu finden, so dass:
minimiert
wird, wobei y
L und y
E Luminanzpixelwerte
der Untere-Schicht-Abbildung
bzw. der Anreicherungsschichtabbildung darstellen, i und j horizontale
bzw. vertikale kartesische Koordinaten in der Untere-Schicht-Abbildung bzw. der
Anreicherungsschichtabbildung sind, h die Höhe jeder Abbildung ist und
w die Breite jeder Abbildung ist. Diese Technik verwendet einen
kleinsten mittleren quadratischen Fehler zwischen Pixelwerten der
Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung. Zu beachten
ist, dass h (w – x)
Multiplikation kennzeichnet und keine Funktion von h. Eine gründliche
Suche wird horizontal nach 0 ≤ x ≤ X durchgeführt, um
den Versatz x zu finden, so dass Dist_L
2 (x)
ein Minimum ist.
-
In
einer weiteren Ausführungsform
der vorliegenden Erfindung wird der Versatzwert x so gefunden, dass:
ein Minimum
ist. Diese Technik, die einen kleinsten mittleren Fehler zwischen
Pixelwerten der Anreicherungsschichtabbildung und der Untere-Schicht-Abbildung
verwendet, kann unter reduzierten Rechneranforderungen implementiert
werden.
-
In
einer weiteren Ausführungsform
der vorliegenden Erfindung wird ein horizontaler Versatz xest durch das Verwenden eines Kamerafokusparameters
und der interokularen Trennung δ geschätzt. Ein
geschätzter Versatz
von zehn Pixeln (z. B. +/–5)
kann zum Beispiel verwendet werden. Dann wird eine gründliche
horizontale Suche nach max {xest –5, 0} ≤ i ≤ {xest + 5} durchgeführt, um den Versatz x zu finden,
so dass Dist_L1(x) oder Dist_L2(x)
ein Minimum ist.
-
Ein
Referenzvollbild der linken Ansicht zur Disparitätsschätzung und -prädiktion
wird wie folgt erhalten. Nach dem Bestimmen des horizontalen Versatzes
x in dem Codierer wird ein Referenzvollbild aus den ursprünglichen
und rekonstruierten Abbildungen der linksseitigen Ansicht zur Disparitätsschätzung/-prädiktion der
Abbildung der rechtsseitigen Ansicht konstruiert. Wenn der Videostandard
das Übertragen
des Versatzwerts x auf einen Decodierer ermöglicht, wird der Versatz x
an dem Decodierer extrahiert, und das Referenzvollbild wird aus
der decodierten Abbildung der linksseitigen Ansicht zur Disparitätsprädiktion/-kompensation der
Abbildung der rechtsseitigen Ansicht rekonstruiert. Der Versatz
kann zum Beispiel in dem Benutzerdatenabschnitt eines Bildanfangsblocks übertragen
werden.
-
Der
Konstruktionsvorgang des Referenzvollbilds für Luminanzpixel wird in einem
zweiten Schritt durch das Löschen
der letzten x Spalten der Abbildung der linksseitigen Ansicht erreicht.
An dem Codierer wird die ursprüngliche
Abbildung der linksseitigen Ansicht verwendet, während an dem Decodierer die
decodierte Abbildung der linksseitigen Ansicht verwendet wird. Unter
Bezugnahme auf die 535 der linksseitigen
Ansicht werden die letzten x Spalten 520 auf der rechten
Seite der 535 gelöscht.
-
In
einem dritten Schritt werden für
jede Reihe der 540 der linksseitigen
Ansicht x Pixel an dem Anfang der Reihe mit dem ersten Pixelwert
der Reihe gefüllt.
Der Füllungsvorgang
(z. B. Auffüllungsvorgang) kann
wie im MPEG-4-Standard beschrieben erzielt werden. Das aufgefüllte Gebiet 530 wird
auf der linken Seite der 540 gezeigt.
Infolge der vorangehenden Schritte wird ein Versatz oder eine verschobene 540 der linksseitigen Ansicht erhalten,
die der entsprechenden Abbildung der rechtsseitigen Ansicht eher
entspricht.
-
Für die Chrominanzpixeldaten
besteht der Konstruktionsvorgang des Referenzvollbilds zur Disparitätsprädiktion
aus den gleichen gegebenen Schritten, jedoch mit einem horizontalen
Versatz von ⌊x/2⌋, das heisst x/2 mit dem Abrunden
auf die nächste
Ganzzahl. Dies setzt ein 4:2:0 Videoformat voraus. Der Versatz kann
wie erforderlich für
andere Formate modifiziert werden.
-
6 veranschaulicht
einen Codiererablauf gemäß der vorliegenden
Erfindung. Der gezeigte Vorgang entspricht dem Fall, in dem der
horizontale Versatzwert x auf einen Decodierer übertragen werden kann. Für den Fall,
dass der horizontale Versatz nicht übertragen werden kann, z. B.
bei dem MPEG-2 MVP-Standard, kann der horizontale Versatzwert x
immer noch verwendet werden, um die Komplexität des Disparitätsvektorsuchens
in dem Codierer zu reduzieren, wie in Verbindung mit 8 und 9 erörtert.
-
Der
Versatzwert x kann gemäß verschiedenen
Protokollen bestimmt werden. x kann zum Beispiel für jede aufeinanderfolgende
Abbildung in einer Videosequenz berechnet und gespeichert werden.
Dies könnte computertechnisch
jedoch beschwerlich und unnötig
sein. Der Versatz x kann alternativ dann bestimmt werden, wann immer
ein Szenenwechsel erkannt wird, oder zu Beginn einer neuen Bildsequenz
(GOP). Eine Bildsequenz (GOP) gibt eines oder mehrere aufeinanderfolgende
Bilder an, die ohne Bezug auf Bilder in einer anderen GOP decodiert
werden können.
Die Auswahl eines optimalen Kriteriums zum Rekalkulieren des Versatzes
x sollte auf Implementierungskomplexität und Videocharakteristiken
basieren.
-
Wenn
der Versatz x für
die aktuelle Abbildung nicht neu rekalkuliert wird, kann der vorherige
gespeicherte Versatz verwendet werden.
-
Einem
Feld 610 wird die Abbildung der linken Ansicht bereitgestellt,
in dem bestimmt wird, ob ein Szenenwechsel oder eine neue GOP erkannt
wird. Falls dies bei Feld 620 zutrifft, wird der Versatzsuchbereich
X (wo 0 ≤ x ≤ X) z. B.
zur Verwendung durch einen Mikrocomputer in den Speicher geladen.
Falls dies nicht zutrifft, wird bei Feld 600 der horizontale
Versatz x, der von der letzten Szene bestimmt wurde, verwendet.
-
Bei
Feld 630 wird der Versatz x entweder unter Verwendung des
kleinsten mittleren Fehlers oder des vorher erörterten kleinsten mittleren
quadratischen Fehlers bestimmt. Die Daten der Abbildung der rechtsseitigen
Ansicht werden für
diese Verfahrensweise verwendet. Bei Feld 640 wird das
Referenzvollbild unter Verwendung der in Verbindung mit 5 erörterten
Verfahrensweise konstruiert. Die Daten der Abbildung der rechtsseitigen
Ansicht werden ebenfalls für
diese Verfahrensweise verwendet.
-
Bei
Feld 650 wird das neu konstruierte Referenzvollbild durchsucht,
um Makroblöcke
der besten Übereinstimmung
zu bestimmen. Das heißt,
das ein Suchbereich in dem Referenzvollbild definiert wird, über dem ein
Makroblock mit einem Makroblock der rechtsseitigen Ansicht verglichen
wird, der gegenwärtig
codiert wird, um den einen Referenzvollbildmakroblock zu bestimmen,
der am besten zu dem Makroblock der rechtsseitigen Ansicht, der
gegenwärtig
codiert wird, passt. Da das Referenzvollbild relativ zu der ursprünglichen
Abbildung der linksseitigen Ansicht versetzt ist, ähnelt er
eher der Abbildung der rechtsseitigen Ansicht, und ein reduzierter
Suchbereich kann verwendet werden, um den Makroblock der besten Übereinstimmung
zu erhalten. Zum Beispiel kann, wie unten in Verbindung mit 9 erörtert, der
Suchbereich zum Beispiel von 64 × 48 Pixel auf 8 × 8 Pixel
reduziert werden.
-
Die
Abbildung der rechtsseitigen Ansicht ist bei Feld 660 unter
Verwendung von bekannten Techniken wie beispielsweise den in dem
MVP-Standard erörterten
codiert. Bei Feld 670 werden die codierten Daten und der
Versatz x z. B. in einem Satellitenrundfunk CATV-Netz übertragen,
wie in Verbindung mit 7 erörtert, auf einen Decodierer.
Es kann sein, dass manche Videokommunikationsstandards nicht die Übertragung
des Versatzwerts x vorsehen, in welchem Fall der Versatz nur an
dem Codierer verwendet werden kann, um den Suchbereich zu reduzieren.
-
7 veranschaulicht
einen Decodiererablauf gemäß der vorliegenden
Erfindung. In diesem Fall wird angenommen, dass der Versatz x mit
den Videodaten in einem codierten Bitstrom übertragen wird. Bei Feld 700 wird
der horizontale Versatz aus dem codierten Bitstrom extrahiert. Bei Feld 710 wird
die Abbildung der linksseitigen Ansicht auf eine herkömmliche
Weise decodiert. Bei Feld 720 wird das Referenzvollbild
unter Verwendung des Versatzes x konstruiert. Bei Feld 730 wird
die Abbildung der rechtsseitigen Ansicht unter Verwendung der codierten
Daten der Abbildung der rechtsseitigen Ansicht und des Referenzvollbilds
disparitätsprädiktiert.
Der Versatz x und die Bewegungsvektoren werden verwendet, um die
Makroblöcke
der besten Übereinstimmung
des Referenzvollbilds zu identifizieren, und die Abbildung der vollen
rechtsseitigen Ansicht wird unter Verwendung der Summe der Pixeldaten
der Makroblöcke
der besten Übereinstimmung
und der differentiell codierten Daten der Abbildung der rechtsseitigen
Ansicht wiedererlangt.
-
Für den Fall,
dass der horizontale Versatz nicht übertragen werden kann, z. B.
bei dem MPEG-2-MVP-Standard, kann der horizontale Versatz trotzdem
noch verwendet werden, um die Komplexität des Disparitätsvektorsuchens
in dem Codierer zu reduzieren, z. B. durch das Reduzieren des Bewegungsvektorsuchbereichs.
-
8 veranschaulicht
Disparitätsprädiktion
und Bewegungsvektorsuchen gemäß der vorliegenden Erfindung.
Die Anreicherungsschicht umfasst ein P-Bild 810, ein B-Bild 820 und
ein B-Bild 830,
während
die untere Schicht ein I-Bild 840, ein P-Bild 850 und
ein P-Bild 860 umfasst. Prädiktion wird durch die Richtung
der Pfeile angezeigt, so dass der Pfeil von der Referenzabbildung
zu der prädiktierten
Abbildung zeigt. Jeder Makroblock in dem P-Bild 850 wird
zum Beispiel unter Verwendung entsprechender Makroblöcke der
besten Übereinstimmung
in dem I-Bild 840 prädiktiert.
-
Ein
Bewegungsvektor (vx, vy)
gibt die relative Verschiebung des Makroblocks der besten Übereinstimmung
zu dem prädiktierten
Makroblock in jedem iten Makroblock an. Für die Prädiktion der unteren Schicht wird
die Schätzung
an einer Nicht-Versatz-Position jedes Makroblocks zentriert. Das
obere linke Pixel jedes prädiktierten
Makroblocks kann zum Beispiel als die Nicht-Versatz-Koordinate (0,
0) genommen werden.
-
Das
B-Bild 820 wird unter Verwendung des P-Bilds 850 in
der unteren Schicht disparitätsprädiktiert und
unter Verwendung des P-Bilds 810 in der Anreicherungsschicht
zeitlich prädiktiert.
Der horizontale Versatz x wird wie erörtert zur Disparitätsprädiktion
bestimmt. Als nächstes
werden Makroblöcke
in dem B-Bild 820 durch das Anordnen von Makroblöcken der
besten Übereinstimmung
in dem P-Bild 850 disparitätsprädiktiert, wobei die Disparitätsschätzung/-prädiktion
eher auf (x, 0) als auf (0, 0) zentriert ist. Das heißt, die
Schätzung wird
um x Pixel nach rechts verschoben.
-
Der
Disparitätsvektor
(vx, vy) zeigt die
Positionierungsdifferenz zwischen entsprechenden Makroblöcken von
Pixeln der Basisschicht und der Anreicherungsschicht an, und wird
für die
Rekonstruktion des disparitätsprädiktierten
Anreicherungsschichtbilds an einem Decodierer verwendet. Wenn die
Pixelkoordinaten für einen
Suchfenstermakroblock in der Anreicherungsschicht (xs,
ys) sind und die Pixelkoordinaten für einen
entsprechenden Referenzfenstermakroblock in der Basisschicht (xr, yr) sind, ist
der Disparitätsvektor,
genauer v = (vx, vy)
= (xs – xr, ys – yr). Der Disparitätsvektor ist daher ein Maß für eine Positionierungs-
oder Translationsdifferenz zwischen dem Suchfenster und dem Referenzfenster.
Die Disparitätsvektoren
können
in dem Kanaldatenstrom der rechtsseitigen Ansicht zur Verwendung
beim Rekonstruieren des disparitätsprädiktierten
Anreicherungsschichtbilds an einem Decodierer übertragen werden.
-
Des
Weiteren ist die zeitliche Prädiktion
des B-Bilds 820 unter Verwendung des P-Bilds 810 bei
(vx, vy) für jeden
iten Makroblock zentriert.
-
Die
Disparitätsprädiktion
und der Bewegungsvektorsuchvorgang kann ferner unter Bezugnahme
auf 9 verstanden werden.
-
9 veranschaulicht
Bewegungsvektorsuchen gemäß der vorliegenden
Erfindung. Wie in Verwendung mit 8 erörtert, definiert
ein Vektor (vx, vy)
einen Makroblock 920 der besten Übereinstimmung in dem I-Bild 840 für einen
iten Makroblock 900 in dem P-Bild 850. Der Vektor
zeigt die Menge der zeitlichen Bewegung einer Abbildung zwischen
den zwei Bildern an. Ein Suchbereich 910 wird verwendet,
um den Makroblock 920 der besten Übereinstimmung zu finden. Der
Suchbereich kann eine Gesamtgröße von 82 × 64 Pixeln,
entsprechend einer Variation von 64 × 48 für den 16 × 16 Makroblock 900,
aufweisen.
-
Für die Disparitätsprädiktion
von Makroblöcken
in dem B-Bild 820 in der Anreicherungsschicht ist der ite
Makroblock 930 bei (x, 0) zentriert und wird mit Makroblöcken in
einem kleineren Suchbereich 940, zum Beispiel mit einer
Gesamtgröße von 24 × 24 Pixeln,
entsprechend einer Variation von 8 × 8 für einen 16 × 16 Makroblock, verglichen.
Der Versatzwert x ermöglicht
die Verwendung eines kleineren Suchbereichs, da es wahrscheinlich
ist, dass sich der Makroblock der besten Übereinstimmung zum differentiellen
Codieren des Makroblocks 930 in einer kleineren Umgebung
von Pixeln in der Nähe
des Makroblocks 930 befindet. Dementsprechend können eine
schnellere Verarbeitungszeit und reduzierte Speicheranforderungen
realisiert werden.
-
Wenn
der Versatzwert auf die Decodierer übertragen wird, resultiert
daraus zusätzlich
das effizientere Codieren variabler Längen (z. B. Huffman-Codierung)
von Disparitätsvektoren,
da jeder Disparitätsvektor kleiner
ist, wodurch die Datenmenge, die übertragen werden muss, reduziert
wird.
-
Ein
Makroblock in dem B-Bild 820, das in dem P-Bild 850 neben
dem Makroblock 900 liegt, kann ebenfalls einen kleineren
Suchbereich in dem P-Bild 810 verwenden, das auf dem durch
den Vektor (vx, vy)
definierten Makroblock 920 zentriert ist. Der Bewegungsvektorsuchbereich
für die
Sequenz der rechtsseitigen Ansicht kann zum Beispiel ebenfalls auf
so wenig wie eine 8 × 8
Variation reduziert werden. Dies trifft zu, da es wahrscheinlich
ist, dass die Korrelation zwischen dem B-Bild 820 und dem
P-Bild 810 der Korrelation zwischen dem P-Bild 850 und
dem I-Bild 840 ähnlich
ist.
-
10 ist
ein Blockschaltbild einer Anreicherungsschichtdecodiererstruktur
gemäß der vorliegenden Erfindung.
Der allgemein bei 130 gezeigte Decodierer umfasst ein Eingabeterminal 1005 zum
Empfangen der komprimierten Anreicherungsschichtdaten und einen
Syntaxanalysierer 1010 der Transportebene zum Analysieren
der Daten. Einem Speicherverwalter 1030 werden die analysierten
Daten bereitgestellt, der eine zentrale Verarbeitungseinheit beinhalten
kann. Der Speicherverwalter 1030 kommuniziert mit einem
Speicher 1020, der zum Beispiel einen dynamischen Direktzugriffsspeicher
(DRAM) beinhalten kann. Der horizontale Versatz x kann mit den Anreicherungsschichtdaten
verbunden werden oder ansonsten in dem stereoskopischen Videosignal
bereitgestellt werden. Ein Referenzvollbild wird unter Verwendung
der decodierten Untere-Schicht-Daten und des Versatzes x konstruiert.
-
Der
Speicherverwalter 1030 kommuniziert außerdem mit einem Dekompressions-/Prädiktionsprozessor 1040 und
empfängt
decodierte Daten der unteren Ebene über das Terminal 1050,
die zur nachfolgenden Verwendung durch den Prozessor 1040 bei
der Decodierung von disparitätsprädiktierten
Anreicherungsschichtbildern vorübergehend
in dem Speicher 1020 gespeichert werden können.
-
Der
Dekompressions-/Prädiktionsprozessor 1040 stellt
eine Vielzahl von Verarbeitungsfunktionen bereit, wie zum Beispiel
Fehlererkennung und -korrektur, Bewegungsvektordecodierung, Invers-Quantisierung, inverse
diskrete Kosinustransformation, Huffman-Decodierung und Prädiktionskalkulationen.
Nachdem sie durch die Dekompressions-/Prädiktionsfunktion 1040 verarbeitet
wurden, werden decodierte Anreicherungsschichtdaten von dem Speicherverwalter
ausgegeben. Als Alternative können
die decodierten Daten direkt über
nicht gezeigte Mittel aus der Dekompressions-/Prädiktionsfunktion 1040 ausgegeben
werden.
-
Eine
analoge Struktur kann für
die untere Schicht verwendet werden. Außerdem können sich die Decodierer der
Anreicherungs- und der unteren Schicht gemeinsame Hardware teilen.
Zum Beispiel können
der Speicher 1020 und der Prozessor 1040 geteilt
werden.
-
Testergebnisse
bestätigen,
dass die Ansichtversatzschätzungstechnik
der vorliegenden Erfindung die Codiereffizienz für stereoskopische Videosignale
effizient verbessern kann. Die Versatzschätzungstechnik wurde in einem
MPEG-2-MVP-Programm implementiert und durch die D-Betrieb-Videotestsequenzen
von ISO/IEC JTC1/SC29/WG11/MPEG-4 und einiger anderer Sequenzen
laufen gelassen. Beispiele von Testergebnissen mit einem Versatzsuchbereich
von X = 20 Pixeln sind in Tabelle 1 gezeigt. Die Verbesserung der Codiereffizienz
gegenüber
MVP in Bits/Vollbild reicht von 2,0 bis 5,2%. PSNR gibt den Spitzen-Signal-Rauschabstand (PSNR)
an. Alle Bildarten sind P-Bilder.
-
-
Weitere
Verbesserungen der Codiereffizienz können durch die Verwendung einer
Schwelle T, um den restlichen Makroblock nach der Kompensation auf
Null zu setzen, oder um einige Hochfrequenz-DCT- Koeffizienten auf Null zu setzen, erreicht
werden.
-
Wie
ersichtlich ist, stellt die vorliegende Erfindung ein System zum
Schätzen
des optimalen Versatzes x einer Szene zwischen rechts- und linksseitigen
Kanalansichten an dem gleichen zeitlichen Referenzpunkt bereit.
Das System reduziert den Bewegungsvektorsuchbereich für Disparitätsprädiktion
(d. h. Kreuzkanal- oder Kreuzschichtprädiktion) zum Verbessern der
Codiereffizienz. Der Versatz kann rekalkuliert werden, wenn es einen
Szenenwechsel oder eine neue Bildsequenz in der unteren Schicht
gibt.
-
An
einem Codierer wird der optimale Versatz x zwischen der Anreicherungsschichtabbildung
und der Untere-Schicht-Abbildung gemäß entweder einem kleinsten
mittleren Fehler zwischen der Anreicherungsabbildung und der Untere-Schicht-Abbildung
oder einem kleinsten mittleren quadratischen Fehler zwischen der Anreicherungsabbildung
und der Untere-Schicht-Abbildung bestimmt. Der Versatz x wird durch
einen Versatzsuchbereich X gebunden. Die x am weitesten rechts liegenden
Pixelspalten der Untere-Schicht-Abbildung werden gelöscht, und
die x am weitesten links liegenden Spalten der Untere-Schicht-Abbildung
werden aufgefüllt, um
die Untere-Schicht-Abbildung
durch x Pixel effizient nach rechts zu verschieben, um die Referenzabbildung zur
Verwendung beim Disparitätsprädiktieren
der Anreicherungsschichtabbildung zu erhalten. Für willkürlich geformte Abbildungen
wie beispielsweise VOP wird ein VOP in einer Abbildung der linksseitigen
Ansicht durch das Löschen
der x am weitesten links liegenden Pixel, die sich vertikal auf
der VOP erweitern, und das Auffüllen
der x Pixel beginnend an dem am weitesten rechts liegenden Rand
des VOP, nach rechts verschoben.
-
Das
Referenzvollbild wird durchsucht, um Makroblocks der besten Übereinstimmung
zu erhalten, und die Daten der rechten Ansicht werden differentiell
codiert. An einem Decodierer wird der Versatzwert x, falls verfügbar, wiedererlangt
und verwendet, um das Referenzvollbild zur Disparitätsprädiktion
zu rekonstruieren.
-
Obwohl
die Erfindung in Verbindung mit verschiedenen spezifischen Ausführungsformen
beschrieben worden ist, versteht der Fachmann, dass daran zahlreiche
Anpassungen und Modifikationen vorgenommen werden können, ohne
von dem Bereich der Erfindung, wie er in den Ansprüchen dargelegt
ist, abzuweichen.