DE10310023A1

DE10310023A1 - Verfahren und Anordnung zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium

Info

Publication number: DE10310023A1
Application number: DE10310023A
Authority: DE
Inventors: Bela Dipl.-Ing. Makai; Patrick Dipl.-Ing. Ndjiki-Nya; Heiko Dr.-Ing. Schwarz; Aljoscha Dr.-Ing. Smolic; Thomas Dr.-Ing. Wiegand
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2003-02-28
Filing date: 2003-02-28
Publication date: 2004-09-16
Also published as: JP2010011470A; DE502004008490D1; US20060039617A1; JP4450828B2; EP1599835A1; DK1599835T3; JP5063648B2; ATE415052T1; PT1599835E; WO2004077360A1; EP1635578B1; JP2006519533A; ES2318402T3; EP1599835B1; EP1635578A3; EP1635578A2; DE502004002904D1; ES2280947T3; ATE354143T1; US7949053B2

Abstract

Die Erfindung betrifft ein Verfahren und eine Anordnung zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium. Die Erfindung ist insbesondere einsetzbar zur Reduktion der Datenrate bei der Übertragung von Videodaten. DOLLAR A Hierfür wird vorgeschlagen, daß DOLLAR A - encoderseitig eine Texturanalyse von Videoszenen erfolgt zur Ermittlung von Bereichen synthetisierbarer Textur, unter Verwendung von Informationen über ermittelte Bereiche synthetisierbarer Textur und von Informationen über die Textur dieser Bereiche eine Codierung der Videoszenen durchgeführt und Meta-Daten zur Beschreibung der ermittelten Bereiche und zur Beschreibung der synthetisierbaren Textur erzeugt und DOLLAR A - decoderseitig codierte Daten und Meta-Daten ausgewertet und die Videoszenen rekonstruiert werden, indem durch Auswertung der Meta-Daten für ermittelte Bereiche Texturen synthetisch generiert werden.

Description

Die Erfindung betrifft ein Verfahren und eine Anordnung zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium. Die Erfindung ist insbesondere einsetzbar zur Reduktion der Datenrate bei der Übertragung von Videodaten.
Viele Videoszenen enthalten typische Texturen wie Wasser, Gras, Bäume, Wolken, Sand usw. Diese Texturen sind in der Regel detailreich und deshalb sehr aufwendig zu codieren. Die exakte Rekonstruktion dieser Texturen kann allerdings als unwichtig erachtet werden, wenn sie mit einer geringen örtlichen Auflösung dargestellt sind. Es ist deshalb unnötig, zuerst eine rechenaufwendige Codierung solcher Texturbereiche durchzuführen, die dabei entstehende (große) Datenmenge zu übertragen, um schließlich die Textur MSE-basiert (MSE = Mean Squared Error) zu rekonstruieren. Der Betrachter muss lediglich die dargestellte detailirrelevante Textur erkennen können, was selbst bei der so durchgeführten Rekonstruktion oft nicht der Fall ist, wenn ein Vorfilter eingesetzt wird, da hierdurch die Textur verfälscht wird.
Die Aufgabe der Erfindung besteht deshalb darin, ein Verfahren und eine Anordnung zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium bereitzustellen, welche die genannten Nachteile der bekannten Lösungen vermeiden und insbesondere eine Wiedergabe von Texturen ohne visuellen Qualitätsverlust bei gleichzeitiger Reduktion der zu übertragenden Videodaten ermöglichen.
Diese Aufgabe wird erfindungsgemäß durch die Merkmale in den Ansprüchen 1, 16, 18 sowie 19 gelöst. Zweckmäßige Ausgestaltungen der Erfindung sind in den Unteransprüchen enthalten.
Ein besonderer Vorteil des Verfahrens zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, besteht darin, daß die Datenrate der zu übertragenden Videodaten reduziert wird, indem encoderseitig eine Texturanalyse von Videoszenen erfolgt zur Ermittlung von Bereichen synthetisierbarer Textur, unter Verwendung von Informationen über ermittelte Bereiche synthetisierbarer Textur und von Informationen über die Textur dieser Bereiche eine Kodierung der Videoszenen durchgeführt und Meta-Daten zur Beschreibung der ermittelten Bereiche und zur Beschreibung der synthetisierbaren Textur erzeugt und decoderseitig kodierte Daten und Meta-Daten ausgewertet und die Videoszenen rekonstruiert werden, indem durch Auswertung der Meta-Daten für ermittelte Bereiche Texturen synthetisch generiert werden.
In einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens ist vorgesehen, daß Bereiche synthetisierbarer Textur durch eine Split-and-Merge-Segmentierung ermittelt werden, wobei Bilder unter Verwendung eines Multiresolutionquadtrees in Teilbilder (Blöcke) aufgeteilt werden. Es hat sich dabei als vorteilhaft erwiesen, daß die Aufteilung eines Blockes (Ausgangsblock) abgebrochen wird, wenn die durch den nächsten Aufteilungsschritt entstehenden Subblöcke ähnliche Farb- und/oder Textureigenschaften wie der Ausgangsblock aufweisen oder die Größe von Blöcken des letzten Aufteilungsschrittes einen vorgegebenen Wert unterschreitet. Es ist darüber hinaus vorteilhaft, daß Blöcke, deren Aufteilung aufgrund ähnlicher Farb- und/oder Textureigenschaften abgebrochen wurde, als homogene Blöcke und die nach erfolgter Aufteilung des Bildes von den homogenen Blöcken verschiedenen Blöcke als unklassifizierbare Blöcke gekennzeichnet werden. Zur Reduzierung der Anzahl der Blöcke, ist in einer Ausführungsform vorgesehen, daß nach der Aufteilung eines Bildes für die homogenen Blöcke eine Ähnlichkeitsbewertung erfolgt und ähnliche Blöcke zu synthetisierbaren Bereichen zusammengefasst werden. Eine spezielle Ausführungsform des erfindungsgemäßen Verfahrens sieht dabei vor, daß die Ähnlichkeit von Blöcken auf Basis der MPEG-7-Deskriptoren „Edge Histogram"-Textur-Deskriptor (EH) und/oder „SCalable Color"-Deskriptor (SCC) bewertet wird.
Eine andere bevorzugte Ausführungsform sieht vor, dass ermittelte Bereiche synthetisierbarer Textur eines Bildes mit Bereichen synthetisierbarer Textur vorangegangener Bilder der Videosequenz abgeglichen werden.
Es ist weiter von Vorteil, wenn das erste und letzte Bild (die sog. Keyframes) einer „Group of Frames" (GoF) auf Basis eines Mean Squared Error-Verfahrens (MSE-basiert) co diert und dazwischenliegende B-Bilder mit ermittelten synthetisierbaren Bereichen partiell synthetisiert werden.
In einer weiteren bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens ist vorgesehen, dass die zeitliche Konsistenz der Erkennung synthetisierbarer Texturen einer „Group of Frames" (GoF) mittels eines Texturkatalogs sichergestellt wird.
Eine andere bevorzugte Ausführungsform sieht vor, dass synthetisierbare Bereiche in den partiell synthetisierten Bildern an entsprechende Texturbereiche in den Keyframes durch geeignete Verzerrungen (Warping) angepasst werden. Es ist dabei insbesondere vorgesehen, daß das Warping mit Hilfe eines durch folgende Gleichungen beschriebenen planaren perspektivischen Bewegungsmodells durchgeführt wird: x' = [(a1 + a3x + a4y)/(1 + a7x + a8y)] + x, y' = [(a2 + a5x + a6y)/(1 + a7x + a8y)] + y,
(x, y) die Koordinaten des Ausgangspunktes,
(x', y') die transformierten Koordinaten des Ausgangs-punktes und
a₁, ..., a₈ Modellparameter
darstellen.
Besonders gute Ergebnisse der Textursynthese werden erreicht, wenn durch das Warping die Textur des ersten oder letzten Bildes des aktuellen GoF in Richtung des ermittelten synthetisierbaren Texturbereiches verzerrt wird, wobei jedem solchen Texturbereich ein Bewegungsparametersatz und ein Kontrollparameter zugeordnet wird, wobei der Kontrollparameter angibt, ob das erste oder das letzte Bild eines GoF für die Textursynthese verwendet wird. Hierfür ist speziell vorgesehen, daß für die Textursynthese das Bild eines GoF verwendet wird, für welches ein kleineres Differenzsignal zwischen der synthetisierten und der Originaltexturregion ermittelt wird.
In einer weiteren bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Videocodierung ist vorgesehen, daß als Meta-Daten von Bereichen mit synthetisierbarer Textur pro Texturbereich eine Segmentierungsmaske, ein Bewegungsparametersatz und/oder ein Kontrollparameter übertragen werden.
Darüber hinaus erweist es sich als vorteilhaft, wenn beim Decodieren alle zu einer synthetisierbaren Textur gehörende Makroblöcke als „Skipped"-Makroblöcke behandelt werden.
Eine Anordnung nach der Erfindung weist mindestens einen Chip und/oder Prozessor auf, der (die) derart eingerichtet ist (sind), dass ein Verfahren zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, ausführbar ist, wobei ein Element angeordnet ist zur Ausführung eines Verfahrens zur Videocodierung mit foldenden Schritten:

– encoderseitig Durchführung einer Texturanalyse von Videoszenen zur Ermittlung von Bereichen synthetisierbarer Textur, unter Verwendung von Informationen über ermittelte Bereiche synthetisierbarer Textur und von Informationen über die Textur dieser Bereiche Kodierung der Videoszenen und Erzeugung von Meta-Daten zur Beschreibung der ermittelte Bereiche und zur Beschreibung der synthetisierbaren Textur und
– decoderseitig Auswertung von kodierten Daten und Meta-Daten und Rekonstruktion der Videoszenen, indem durch Auswertung der Meta-Daten für ermittelte Bereiche Texturen synthetisch generiert werden.

In einer bevorzugten Ausführungsform der erfindungsgemäßen Anordnung ist vorgesehen, dass die Anordnung einen Video-Encoder, einen Textur-Analyzer (TA), einen Video-Decoder und einen Textur-Synthesizer (TS) umfasst, wobei Video- Encoder und Textur-Analyzer (TA) jeweils einen Video-In-Eingang und der Video-Decoder einen Video-Out-Ausgang aufweisen, der Ausgang des Textur-Analyzers (TA) mit einem zweiten Eingang des Video-Encoders und der Ausgang des Video-Encoders mit dem Eingang des Video-Decoders verbunden sind, und zusätzlich ein zweiter Ausgang des Video-Encoders mit dem Eingang des Textur-Synthesizer (TS) verbunden ist.
Es erweist sich als vorteilhaft, zur Ausführung der erfindungsgemäßen Videocodierung ein Computerprogramm einzusetzen, das es einem Computer ermöglicht, nachdem es in den Speicher des Computers geladen worden ist, ein Verfahren zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, auszuführen, wobei das Computerprogramm Programmcode umfasst zur Ausführung eines Verfahrens zur Videocodierung mit foldenden Schritten:

Alternativ dazu kann es sich als vorteilhaft erweisen, wenn ein computerlesbares Speichermedium genutzt wird, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in den Speicher des Computers geladen worden ist, ein Verfahren zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, auszuführen, wobei das Computerprogramm Programmcode umfasst zur Ausführung eines Verfahrens zur Videocodierung mit foldenden Schritten:

Die Erfindung wird nachfolgend unter Bezugnahme auf die Figuren der Zeichnungen an einem Ausführungsbeispiel näher erläutert. Es zeigen:
1 Videocodierung unter Verwendung eines Textur-Analyzers (TA) und eines Textur-Synthesizers (TS);
2 Segmentiertes Einzelbild nach der "Split"-Stufe (links) und nach der "Merge"-Stufe (rechts);
3 Warping eines Texturbereichs des Referenzbildes in Richtung des aufzufüllenden Bildbereichs im aktuellen Frame;
4 Codierergebnisse für die Testsequenz „Flowergarden";
a) Oben links: Originalbild (Bild Nr. 6 der „Flowergarden"-Sequenz);
b) Unten links: Decodiertes Bild mit synthetisierten Texturregionen;
c) Oben rechts: Differenzsignal (Verstärkungsfaktor 3);
d) Unten rechts: Konservative bewegungskompensierte Maske;
5 Einsparung der Datenrate (bitrate savings) in Abhängigkeit vom Quantisierungsparameter QP.
Bei dem im folgenden beschriebenen Ausführungsbeispiel wird der Ansatz verfolgt, eine verbesserte Wiedergabe von Texturen zu realisieren, indem durch den Einsatz des erfindungsgemäßen Verfahrens zur Vodeocodierung eine senderseitige Texturanalyse und eine decoderseitige Textursynthese durchgeführt werden (vgl. 1).
Der Textur-Analyzer identifiziert detail-irrelevante Texturregionen, erzeugt entsprechende grobe Masken und signalisiert diese dem Decoder als Seiteninformation für den Textur-Synthesizer. Letzterer ersetzt die identifizierten Texturen, unter Ausnutzung der Seiteninformation, durch synthetisch erzeugte Texturen.
Diese Vorgehensweise basiert auf der Erkenntnis, dass für die identifizierten detail-irrelevanten Texturen, gängige objektive Gütekriterien wie beispielsweise der mittlere quadratische Fehler (Mean Squared Error – MSE) für eine effiziente Codierung nicht geeignet sind, da u.U. irrelevante Details übertragen und rekonstruiert werden. Unsere Untersuchungen zeigen, dass ein MPEG-7-Ähnlichkeitsmaß oft ausreicht, die Güte rekonstruierter, detail-irrelevanter Texturen zu erfassen (vgl. ISO/IEC JTC1/SC29/WG11/N4358: „Text of ISO/IEC 15938-3/FDIS Informationstechnology – Multimedia content description Interface – Part 3 Visual", Sydney, Australia, July 2001; ISO/IEC JTC1/SC29/WG11/N4362: „MPEG-7 Visual part of experimentation Model Version 11.0", Sydney, Australia, July 2001.). Das Verwenden von MPEG-7-Ähnlichkeitskriterien hat zur Folge, dass die rekonstruierten Texturen unterschiedliche Details im Vergleich zur Originaltextur aufweisen können. Diese Unterschiede sind kaum wahrnehmbar, wenn die örtliche Auflösung der Texturen nach der Rekonstruktion erhalten bleibt, und sind weit weniger störend als die entsprechenden Artefakte bei der Codierung des Differenzsignals mit einer der Seiteninformation entsprechenden Bitrate.
Im folgenden sollen die verwendeten Algorithmen zur senderseitigen Texturanalyse und zur empfängerseitigen Textursynthese, sowie die Systemintegration in einen H.264/AVC-Codec beschrieben werden.
Encoderseitige Texturanalyse
Bei der Texturanalyse wird für jedes Bild einer Sequenz eine „Split and Merge" Segmentierung durchgeführt. Dabei wird im ersten Schritt (Aufteilungs- bzw. „Split"-Stufe) jedes Bild unter Verwendung eines Multiresolutionsquadtrees in Blöcke aufgeteilt und analysiert (vgl. J. Malki et al.: „Region Queries without Segmentation for Image Retrieval by Content", VISUAL'99, pp. 115–122, 1999.). Das Multiresolutionsquadtree umfasst mehrere Ebenen, wobei die erste (Level 0) dem Originalbild entspricht. Die Anzahl der Blöcke auf der L-ten Ebene beträgt 2^2L. Jeder Block auf der Ebene (L-1) wird auf der nächsthöheren Ebene (Level L) in 4 Blöcke aufgeteilt, so dass die Anzahl der Blöcke eines Bildes horizontal und vertikal immer gleich bleibt (z.B. 4 Blöcke horizontal und vertikal auf der zweiten Ebene (L = 2)) .
Ein Block auf der Ebene (L-1) enthält eine homogene Textur, wenn seine vier Sub-Blöcke auf der L-ten Ebene ähnliche Farb- bzw. Textureigenschaften aufweisen, wie der Block selbst. Hierbei wird die Ähnlichkeit durch entsprechende MPEG-7-Deskriptoren ermittelt, wie weiter unten erläutert werden wird. Nur die inhomogenen Blöcke werden in der nächsthöheren Ebene weiter unterteilt. Blöcke, die selbst nach Erreichen der maximalen Unterteilungsebene noch inhomogen sind, werden als unklassifizierbar eingestuft. Das Ergebnis der „Split"-Stufe ist typischerweise ein übersegmentiertes Bild, das in der Zusammenfassung- bzw. „Merge"-Stufe nachbearbeitet werden muss, indem ein Teil der Blöcke eines übersegmentierten Bildes zusammengefasst wird.
Dazu werden in der „Merge"-Stufe homogene Blöcke paarweise verglichen und bei ausreichender Ähnlichkeit zu einem Cluster zusammengefasst. 2 zeigt ein Beispiel eines segmentierten Einzelbildes nach der „Split"-Stufe und nach der „Merge"-Stufe. Regionen, die als unklassifizierbar gelten, sind durch einen schwarzen Rand gekennzeichnet, während die klassifizierten Regionen durch nichtschwarze Ränder markiert sind.
Es ist deutlich erkennbar, dass sich die Anzahl der homogenen Regionen durch die nachgeschaltete „Merge"-Stufe deutlich reduziert hat.
Die Ähnlichkeitsbewertung zwischen zwei Blöcken erfolgt auf der Basis von zwei MPEG-7 Deskriptoren (vgl. ISO/IEC JTC1/SC29/WG11/N4358: „Text of ISO/IEC 15938-3/FDIS Informationstechnology – Multimedia content description interface – Part 3 Visual", Sydney, Australia, July 2001; ISO/IEC JTC1/SC29/WG11/N4362: „MPEG-7 Visual part of experimentation Model Version 11.0", Sydney, Australia, July 2001.). Es handelt sich dabei zum Einen um den „Edge Histogram"-Textur-Deskriptor (EH), der die räumliche Verteilung von vier gerichteten Kanten (eine horizontale, eine vertikale und zwei diagonale) und einer ungerichteten Kante für 16 lokale, nicht überlappende Regionen eines Bildes darstellt. Die Häufigkeit des Auftretens der einzelnen Kantenklassen wird für jede lokale Region getrennt ermittelt. Der EH-Merkmalsvektor hat damit die Dimension 80 (16 Regionen mal fünf Kantenklassen). Der zweite verwendete MPEG-7-Deskriptor ist der „SCalable Color"-Deskriptor (SCC). Er stellt ein Farbhistogramm im HSV-Farbraum dar, wobei HSV einen dreidimensionalen Farbraum mit den Komponenten Hue (Färbung), Saturation (Sättigung) und Value (Helligkeit) repräsentiert. Der verwendete SCC-Merkmalsvektor hat die Dimension 256.
Zwei Blöcke werden als ähnlich eingestuft, wenn der Abstand zwischen den entsprechenden Merkmalsvektoren unter einem vorgegebenen Schwellwert liegt. Der Schwellwert wird dabei auf den maximal möglichen Abstand bezogen. Letzterer hängt von der gewählten Metrik (l₁, l₂, EMD) und dem aktuellen MPEG-7 Deskriptor (SCC oder EH) ab. Der Schwellwert Null weist darauf hin, dass zwei Blöcke nur bei hundertprozentiger Übereinstimmung ihrer Merkmalsvektoren als ähnlich eingestuft werden können, während der Schwellwert 1 bedeutet, dass zwei beliebige Blöcke immer ähnlich sind, da der Abstand zwischen ihren Merkmalsvektoren nicht größer sein kann als der größtmögliche Abstand. Der Ähnlichkeitsschwellwert wird für jede Sequenz manuell gesetzt und bleibt konstant über die ganze Sequenz.
Die „Split and Merge"-Segmentierung behandelt jedes Bild unabhängig von den anderen Bildern einer Sequenz. Es entstehen dabei unvermeidbare zeitliche Inkonsistenzen bzgl. der bildübergreifenden Texturerkennung. Daher werden die identifizierten Texturbereiche eines aktuellen Bildes mit den Texturbereichen der vorangegangenen Bilder abgeglichen. Für die angestrebte Anwendung ist wichtig, dass die zeitliche Konsistenz der Erkennung identifizierter Texturen für jedes „Group of Frames" (GoF) der betrachteten Sequenz gegeben ist. Ein GoF besteht dabei aus zwei Keyframes (das erste und das letzte Bild eines GoF) und mehreren dazwischenliegenden partiell synthetisierten Frames. Keyframes sind entweder I- oder P-Bilder, die ausschließlich MSE-basiert codiert werden.
Die zeitliche Konsistenz der Erkennung identifizierter detail-irrelevanten Texturen eines GoF wird mittels eines Texturkatalogs sichergestellt. In diesem Texturkatalog werden die in der betrachteten Sequenz vorhandenen detailirrelevanten Texturen gespeichert. Der Texturkatalog wird mit den Merkmalsvektoren der detail-irrelevanten Texturen initialisiert, die im ersten Bild mit detail-irrelevanten Texturen auftreten. Die identifizierten Texturen der folgenden Bilder werden mit den Eintragungen im Texturkatalog verglichen und bei vorhandener Übereinstimmung dem entsprechenden Eintrag zugewiesen. Bei mangelnder Übereinstimmung werden die betroffenen, unregistrierten, detail-irrelevanten Texturen in den Texturkatalog eingetragen.
Die Zuverlässigkeit der farb- bzw. texturbasierten Identifikation synthetisierbarer Texturbereiche eines GoF lässt sich steigern, wenn die detail-irrelevanten Texturbereiche in den partiell synthetisierten Bildern an die entsprechenden Texturbereiche in den Keyframes durch geeignete Verzerrungen (Warping) angepasst werden. Die detail-irrelevanten Texturbereiche eines Bildes werden daher in Richtung der korrespondierenden Keyframes (erstes und letztes Bild im GoF) verzerrt. Das Warping wird mit Hilfe des planaren perspektivischen Bewegungsmodells, wie vom MPEG-7 Parametric Motion Deskriptor (vgl. ISO/IEC JTC1/SC29/WG11/N4358: „Text of ISO/IEC 15938-3/FDIS Informationstechnology – Multimedia content description Interface – Part 3 Visual", Sydney, Australia, July 2001; ISO/IEC JTC1/SC29/WG11/N4362: „MPEG-7 Visual part of experimentation Model Version 11.0", Sydney, Austrlia, July 2001.) definiert, durchgeführt. Das perspektivische Bewegungsmodell wird durch folgende Gleichungen beschrieben: x' =[(a1 + a3x + a4y)/(1 + a7x + a8y)] + x y' =[(a2 + a5x + a6y)/(1 + a7x + a8y)] + y
Die Koordinaten (x', y') stellen die transformierten Koordinaten des Ausgangspunktes (x, y) dar. Die acht Modellparameter werden durch a₁, ..., a₈ beschrieben. Das planare perspektivische Modell kann beliebige Bewegungen beliebiger starrer Körper beschreiben, falls sich die Kameraoperationen auf reine Rotation und Zoom beschränken. Bei planaren starren Körpern sind beliebige Kameraoperationen zulässig. In der Praxis sind diese Bedingungen für die kurze Zeitspanne eines GoF in der Regel erfüllt. Die Bewegungsparameter (a₁, ..., a₈) der identifizierten detail-irrelevanten Texturbereiche in Bezug auf korrespondierende Texturbereiche der entsprechenden Keyframes werden, wie in (vgl. A. Smolic and J.-R. Ohm: „Robust Global Motion Estimation Using a Simplified M-Estimator Approach", Proc. ICIP2000, IEEE International Conference on Image Processing, Vancouver, Canada, September 2000.) dargestellt, geschätzt. Das Warping kann nur durchgeführt werden, wenn entsprechende Texturbereiche im ersten oder im letzten Bild des GoF vorhanden sind bzw. identifiziert wurden. Nur diejenigen Punkte des transformierten Texturbereichs, die innerhalb des korrespondierenden Texturbereichs des ersten Bildes des GoF liegen, können für die Synthese verwendet werden. Die übrigen Punkte werden im aktuellen Bild als unklassifizierbar markiert, wodurch sich der synthetisierbare Texturbereich verkleinert. Dieses Verfahren wird mit dem letzten Bild des GoF wiederholt. Der Textur-Analyzer liefert somit zwei reduzierte bewegungskompensierte Texturbereiche für jede ursprünglich identifizierte Texturregion (nach der „Merge"-Stufe) eines partiell synthetisierbaren Bildes.
Decoderseitige Textursynthese
Der verwendete Textur-Synthesizer verzerrt („Warping") die Textur des ersten oder letzten Bildes des aktuellen GoF in Richtung der entsprechenden, vom Textur-Analyzer identifizierten, synthetisierbaren, Texturregion (3). Dazu wird für jede, vom Textur-Analyzer identifizierte, synthetisierbare Texturregion ein Bewegungsparametersatz und ein Kontrollparameter benötigt. Der Kontrollparameter bestimmt, ob das erste oder das letzte Bild eines GoF für die Textursynthese verwendet wird. Es wird dabei immer das Referenzbild verwendet, das zur besten Textursynthese führt. Dabei zeichnet sich die bessere Textursynthese durch eine kleineres Differenzsignal zwischen der synthetisierten und der Originaltexturregion aus. Dieser Textur-Synthesizer liefert sehr gute Ergebnisse für starre Körper, sofern die Annahmen des Bewegungsmodells erfüllt sind.
In einer beispielhaften Ausführungsform wurden die beschriebenen Verfahren zur Analyse und Synthese von Texturen in einen H.264/AVC-Codec (Joint Model 2.1) integriert. Dabei werden I- und P-Bilder MSE-basiert codiert und als Keyframes verwendet. B-Bilder können hingegen partiell synthetisiert werden. Für B-Bilder mit identifizierten, synthetisierbaren Texturbereichen sind pro Texturregion eine Segmentierungsmaske, ein Bewegungsparametersatz sowie ein Kontrollparameter als Seiteninformationen zu übertragen.
Beim Decodieren werden alle zu einer synthetisierbaren Textur gehörende Makroblöcke als „Skipped"-Makroblöcke behandelt, d. h. alle zur Decodierung nachfolgender Makroblöcke innerhalb des Slice benötigte Parameter und Variablen (in Decoderreihenfolge) werden, wie für „Skipped"-Makroblöcke spezifiziert, gesetzt (vgl. DRAFT ISO/IEC 14496-10: 2002 (E), Dokument JVT-E146d37: „Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec. H264 | ISO/IEC 14496-10 AVC), Geneva modifications draft 36", Geneva, Switzerland, October 2002.)
Nachdem alle Makroblöcke eines Bildes decodiert wurden, erfolgt der Aufruf des Textur-Synthesizers zum Auffüllen der zu synthetisierenden Texturbereiche.
Das durchgeführte Experiment bestand darin, einen Textur-Analyzer und einen Textur-Synthesizer in einen H.264/AVC video codec (Joint Model 2.1) zu integrieren und anschließend Videosequenzen zu codieren und wieder zu decodieren. Zwei bekannte Testsequenzen („Flowergarden" und „Concrete") wurden hierzu verwendet. Beide Testsequenzen enthalten Texturen, die gut dazu geeignet sind zu demonstrieren, dass eine ungefähre Rekonstruktion bestimmter Texturen ohne merklichen visuellen Qualitätsverlust durchführbar ist.
In einer Ausführungsform der Erfindung wurde der H.264/AVC Codec wie folgt eingestellt:

– 3 B-Bilder,
– 1 Referenzbild,
– CABAC (Entropiecodierverfahren),
– Rate Distortion Optimierung,
– kein Interlace,
– 30 Hz Frame Frequenz,
– Quantisierungsparameter QP = 16, 20, 24, 28 und 32 (5).

Die Ergebnisse waren für die "Flowergarden"-Sequenz von zufriedenstellender subjektiver Bildqualität. 4 zeigt die erzielten Ergebnisse am Beispiel des 6. Bildes der "Flowergarden"-Sequenz. 4c zeigt, dass das Differenzsignal im Bereich des Himmels fast Null ist, während es im Blumenbereich deutlich höher liegt. Beim optischen Vergleich zwischen decodiertem und Originalbild sind dennoch so gut wie keine Unterschiede erkennbar. Hier zeigt sich, dass der PSNR-Wert als Gütemaß für diese Art der Codierung ungeeignet ist.
Um die größtmögliche Datenrateneinsparung abschätzen zu können, wurden die beiden Testsequenzen für die ersten Tests manuell segmentiert. Es folgten weitere Tests mit halbautomatisch generierten Segmentierungsmasken (vgl. oben den Abschnitt „Encoderseitige Texturanalyse").
5 zeigt die für beide Testsequenzen erzielten Bitrateneinsparungen in Abhängigkeit des Quantisierungsparameters (QP). Die größten Einsparungen wurden für die höchste Quantisierungsauflösung (QP=16) gemessen. Einsparungen von 20,29% (Flowergarden) und 23,05% (Concrete) konnten mit handsegmentierten Masken für diese Auflösung gemessen werden. Mit halbautomatisch generierten Masken erhielten wir Einsparungen von 5.6% (Flowergarden) und 18.53% (Concrete) für QP=16. Die Bitrateneinsparung wird mit abnehmender Quantisierungsauflösung bzw. mit steigendem QP-Wert kleiner. Dies ist darauf zurückzuführen, daß die übertragene Seiteninformation unabhängig vom QP konstant bleibt. D. h. der Anteil der Seiteninformation an der Gesamtdatenrate wird mit gröber werdender Quantisierungsauflösung immer größer. Bei Quantisierungsparametern größer als 28 bzw. 32 (5) sind die Datenraten des Standard H264/AVC Video Codecs etwa gleich oder sogar kleiner als die des Codecs mit Texturanalyse und -synthese.
Die Überschneidung der „Concrete"-Kurven (5) beruht auf der Tatsache, dass die Anzahl der detektierten Texturen bei der halbautomatischen Segmentierung, über die gesamte Sequenz gesehen, kleiner war als bei der manuellen Segmentierung, so dass die Seiteninformation, die übertragen werden musste, bei der halbautomatischen Segmentierung geringer war als bei der manuellen. Daher war das Volumen der Seiteninformation im halbautomatischen Fall geringer als im manuellen. Die subjektive Bildqualität der H264/AVC videocodierten und – decodierten Bildsequenzen war für alle QP-Einstellungen vergleichbar mit den Ergebnissen der Codierung mit Texturanalyse und -synthese (vgl. http://bs.hhi.de/~ndjiki/SE.htm).
Die Erfindung beschränkt sich in ihrer Ausführungsform nicht auf die vorstehend angegebenen bevorzugten Ausführungsbeispiele. Vielmehr ist eine Anzahl von Varianten denkbar, die von der erfindungsgemäßen Anordnung und dem erfindungsgemäßen Verfahren auch bei grundsätzlich anders gearteten Ausführungen Gebrauch machen.

1: Encoder
2: Decoder
3: Textur-Analyzer (TA)
4: Textur-Sythesizer (TS)

Claims

Verfahren zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, und – encoderseitig eine Texturanalyse von Videoszenen erfolgt zur Ermittlung von Bereichen synthetisierbarer Textur, unter Verwendung von Informationen über ermittelte Bereiche synthetisierbarer Textur und von Informationen über die Textur dieser Bereiche eine Kodierung der Videoszenen durchgeführt und Meta-Daten zur Beschreibung der ermittelte Bereiche und zur Beschreibung der synthetisierbaren Textur erzeugt und – decoderseitig kodierte Daten und Meta-Daten ausgewertet und die Videoszenen rekonstruiert werden, indem durch Auswertung der Meta-Daten für ermittelte Bereiche Texturen synthetisch generiert werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Bereiche synthetisierbarer Textur durch eine Split-and-Merge-Segmentierung ermittelt werden, wobei Bilder unter Verwendung eines Multiresolutionquadtrees in Teilbilder (Blöcke) aufgeteilt werden.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Aufteilung eines Blockes (Ausgangsblock) abgebrochen wird, wenn – die durch den nächsten Aufteilungsschritt entstehenden Blöcke ähnliche Farb- und/oder Textureigenschaften wie der Ausgangsblock aufweisen oder – die Größe von Blöcken des letzten Aufteilungsschrittes einen vorgegebenen Wert unterschreitet.
Verfahren nach einem der Ansprüche 2 oder 3, dadurch gekennzeichnet, dass Blöcke, deren Aufteilung aufgrund ähnlicher Farb- und/oder Textureigenschaften abgebrochen wurde, als homogene Blöcke und die nach erfolgter Aufteilung des Bildes von den homogenen Blöcken verschiedenen Blöcke als unklassifizierbare Blöcke gekennzeichnet werden.
Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass nach der Aufteilung eines Bildes für die homogenen Blöcke eine Ähnlichkeitsbewertung erfolgt und ähnliche Blöcke zu synthetisierbaren Bereichen zusammengefasst werden.
Verfahren nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass die Ähnlichkeit von Blöcken auf Basis von MPEG-7-Deskriptoren bewertet wird.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Ähnlichkeit von Blöcken auf Basis der MPEG-7-Deskriptoren „Edge Histogram"-Textur-Deskriptor (EH) und/oder „SCalable Color"-Deskriptor (SCC) bewertet wird.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass ermittelte Bereiche synthetisierbarer Textur eines Bildes mit Bereichen synthetisierbarer Textur vorangegangener Bilder der Videosequenz abgeglichen werden.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass das erste und letzte Bild (die sog. Keyframes) einer „Group of Frames" (GoF) auf Basis eines Mean Squared Error-Verfahrens (MSE-basiert) codiert und dazwischenliegende B-Bilder mit ermittelten synthetisierbaren Bereichen partiell synthetisiert werden.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die zeitliche Konsistenz der Erkennung synthetisierbarer Texturen einer „Group of Frames" (GoF) mittels eines Texturkatalogs sichergestellt wird.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass synthetisierbare Bereiche in den partiell synthetisierten Bildern an entsprechende Texturbereiche in den Keyframes durch geeignete Verzerrungen (Warping) angepasst werden.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass das Warping mit Hilfe eines durch folgende Gleichungen beschriebenen planaren perspektivischen Bewegungsmodells durchgeführt wird: x' = [(a1 + a3x + a4y)/(1 + a7x + a8y)] + x, y' = [(a2 + a5x + a6y)/(1 + a7x + a8y) ] + y,wobei (x, y) die Koordinaten des Ausgangspunktes, (x', y') die transformierten Koordinaten des Ausgangs-punktes und a₁,..., a₈ Modellparameter darstellen.
Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass durch das Warping die Textur des ersten oder letzten Bildes des aktuellen GoF in Richtung des ermittelten synthetisierbaren Texturbereiches verzerrt wird, wobei jedem solchen Texturbereich ein Bewegungsparametersatz und ein Kontrollparameter zugeordnet wird, wobei der Kontrollparameter angibt, ob das erste oder das letzte Bild eines GoF für die Textursynthese verwendet wird.
Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass für die Textursynthese das Bild eines GoF verwendet wird, für welches ein kleineres Differenzsignal zwischen der synthetisierten und der Originaltexturregion ermittelt wird.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass als Meta-Daten von Bereichen mit synthetisierbarer Textur pro Texturbereich – eine Segmentierungsmaske, – ein Bewegungsparametersatz und/oder – ein Kontrollparameter übertragen werden.
Anordnung mit mindestens einem Chip und/oder Prozessor, der (die) derart eingerichtet ist (sind), dass ein Verfahren zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, ausführbar ist, wobei ein Element angeordnet ist zur Ausführung eines Verfahrens zur Videocodierung mit foldenden Schritten: – encoderseitig Durchführung einer Texturanalyse von Videoszenen zur Ermittlung von Bereichen synthetisierbarer Textur, unter Verwendung von Informationen über ermittelte Bereiche synthetisierbarer Textur und von Informationen über die Textur dieser Bereiche Kodierung der Videoszenen und Erzeugung von Meta-Daten zur Beschreibung der ermittelte Bereiche und zur Beschreibung der synthetisierbaren Textur und – decoderseitig Auswertung von kodierten Daten und Meta-Daten und Rekonstruktion der Videoszenen, indem durch Auswertung der Meta-Daten für ermittelte Bereiche Texturen synthetisch generiert werden.
Anordnung nach Anspruch 16, dadurch gekennzeichnet, dass sie – einen Video-Encoder, – einen Textur-Analyzer (TA), – einen Video-Decoder und – einen Textur-Synthesizer (TS) umfasst, wobei Video-Encoder und Textur-Analyzer (TA) jeweils einen Video-In-Eingang und der Video-Decoder einen Video-Out-Ausgang aufweisen, der Ausgang des Textur-Analyzers (TA) mit einem zweiten Eingang des Video-Encoders und der Ausgang des Video-Encoders mit dem Eingang des Video-Decoders verbunden sind, und zusätzlich ein zweiter Ausgang des Video-Encoders mit dem Eingang des Textur-Synthesizer (TS) verbunden ist.
Computerprogramm, das es einem Computer ermöglicht, nachdem es in den Speicher des Computers geladen worden ist, ein Verfahren zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, auszuführen, wobei das Computerprogramm Programmcode umfasst zur Ausführung eines Verfahrens zur Videocodierung mit foldenden Schritten: – encoderseitig Durchführung einer Texturanalyse von Videoszenen zur Ermittlung von Bereichen synthetisierbarer Textur, unter Verwendung von Informationen über ermittelte Bereiche synthetisierbarer Textur und von Informationen über die Textur dieser Bereiche Kodierung der Videoszenen und Erzeugung von Meta-Daten zur Beschreibung der ermittelte Bereiche und zur Beschreibung der synthetisierbaren Textur und – decoderseitig Auswertung von kodierten Daten und Meta-Daten und Rekonstruktion der Videoszenen, indem durch Auswertung der Meta-Daten für ermittelte Bereiche Texturen synthetisch generiert werden.
Computerlesbares Speichermedium, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in den Speicher des Computers geladen worden ist, ein Verfahren zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, auszuführen, wobei das Computerprogramm Programmcode umfasst zur Ausführung eines Verfahrens zur Videocodierung mit foldenden Schritten: – encoderseitig Durchführung einer Texturanalyse von Videoszenen zur Ermittlung von Bereichen synthetisierbarer Textur, unter Verwendung von Informationen über ermittelte Bereiche synthetisierbarer Textur und von Informationen über die Textur dieser Bereiche Kodierung der Videoszenen und Erzeugung von Meta-Daten zur Beschreibung der ermittelte Bereiche und zur Beschreibung der synthetisierbaren Textur und – decoderseitig Auswertung von kodierten Daten und Meta-Daten und Rekonstruktion der Videoszenen, indem durch Auswertung der Meta-Daten für ermittelte Bereiche Texturen synthetisch generiert werden.