DE69836696T2

DE69836696T2 - Verfahren und vorrichtung zur durchführung einer hierarchischen bewegungsschätzung unter verwendung einer nicht-linearen pyramide

Info

Publication number: DE69836696T2
Application number: DE69836696T
Authority: DE
Inventors: Xudong Lawrenceville SONG; Ya-Qin Plainsboro ZHANG; Tihao Plainsboro CHIANG
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 1997-05-30
Filing date: 1998-05-29
Publication date: 2007-10-31
Anticipated expiration: 2018-05-30
Also published as: EP1138152B8; EP1138152A2; WO1998054888A3; WO1998054888A2; US6148027A; EP1138152B1; EP1138152A4; JP2002507339A; DE69836696D1; KR20010013198A; KR100563552B1

Description

Die Erfindung betrifft im Allgemeinen eine Vorrichtung und ein begleitendes Verfahren für das Codieren von Bildsequenzen und, genauer gesagt, ein Verfahren für das Reduzieren der Rechenkomplexität bei der Bestimmung von Bewegungsvektoren für die blockbasierte Bewegungsabschätzung und für das Verbessern der Genauigkeit der Bewegungsabschätzungen.
Technischer Hintergrund
Eine Bildsequenz, wie z.B. eine Videobildsequenz, beinhaltet typischerweise eine Sequenz von Bildframes oder Bildern. Um die notwendige Übertragungsbandbreite oder Speicherkapazität zu reduzieren, wird die Einzelbildsequenz komprimiert, so daß redundante Information innerhalb der Sequenz nicht gespeichert oder übertragen wird.
Im Allgemeinen spielt, um eine Bildsequenz zu codieren, die Information, die die Bewegung der Objekte in einer Szene von einem Einzelbild zu dem nächsten betrifft, eine wichtige Rolle im Codierprozeß. Aufgrund der hohen Redundanz, die zwischen aufeinanderfolgenden Einzelbildern innerhalb der meistens Bildsequenzen existiert, kann eine wesentliche Datenkomprimierung erzielt werden unter Verwendung einer Technik, die bekannt ist als Bewegungsschätzung/Kompensation (ebenso bekannt als bewegungskompensierte Interframe prädiktive Videocodierung), die von verschiedenen internationalen Normen übernommen wurde, wie z.B. ITU H.263, ISO MPEG-1 und MPEG-2.
Ein beliebtes Bewegungskompensationsverfahren ist der Blockübereinstimmungsalgorithmus (BMA), der die Verrückungen auf einer Block-per-Block-Basis abschätzt. Für jeden dieser gegenwärtigen Blöcke wird innerhalb eines ausgewählten Suchbereichs im vorherigen Einzelbild eine Suche nach einem Pixelblock durchgeführt, der "am Besten" mit dem gegenwärtigen Block übereinstimmt. Dieser Ansatz, d. h. das Vergleichen jedes gegenwärtigen Blockes mit einem gesamten ausgewählten Suchbereich, ist als der volle Suchansatz oder der gründliche Suchansatz bekannt. Die Bestimmung von Bewegungsvektoren durch den gründlichen Suchansatz ist rechenintensiv, insbesondere wenn der Suchbereich besonders groß ist.
Andere Bewegungsabschätzverfahren beinhalten das Konzept der hierarchischen Bewegungsabschätzung (HME), wo ein Bild in ein Mehrfach-Auflösungs-Framework, d. h. in eine Pyramide, zerlegt wird. Eine hierarchische Bewegungsvektorsuche wird dann durchgeführt, bei der die Suche von der niedrigsten Auflösung zu der höchsten Auflösung der Pyramide fortgesetzt wird. Obgleich HME sich als schnellste und effektivste Bewegungsabschätzmethode erwiesen hat, benötigt die Erzeugung der Pyramide immer noch eine signifikante Menge von Rechenzyklen.
Es besteht daher der Bedarf an einer Vorrichtung und einem begleitenden Verfahren für das Reduzieren der Rechenkomplexität bei der Bestimmung von Bewegungsvektoren.
Die Veröffentlichung "Nonlinear Pyramids for Object Identification" von C.A. Segall et al der Oklahoma State University, präsentiert an der Asilomar Conference on Signals, Systems and Computers, Pacific Grove, Kalifornien, 3.–6. November 1996, eine Untersuchung von Bildpyramiden, die über nichtlineares Filtern und Subsampling bzw. Unterfiltern für die Objektidentifikation konstruiert sind. Zwei nichtlineare Strukturen, eine morphologische Pyramide und eine anistropische Pyramide, werden in grob-zu-fein-Erkennungsalgorithmen verwendet.
Die Veröffentlichung "Motion estimation and compensation for image sequence coding" von Q. Wang et al der Heriot-Watt University, veröffentlicht in Signal Processing Image Communication, 4(1992) April, No. 2, Amsterdam, beschreibt einen Überblick und Experimente über pel-rekursive und Blockanpassungsalgorithmen für die Bewegungskompensation.
Zusammenfassung der Erfindung
Eine Ausführungsform der vorliegenden Erfindung ist eine Vorrichtung und ein Verfahren für das Reduzieren der Berechnungskomplexität bei der Bestimmung von Bewegungsvektoren und für das Verbessern der Genauigkeit der Bewegungsabschätzverfahren. Genauer gesagt zerlegt die vorliegende Erfindung jedes der Einzelbilder in einer Bildsequenz in eine nichtlineare Pyramide. Eine hierarchische Bewegungsvektorsuche wird dann auf der nichtlinearen Pyramide durchgeführt.
Kurze Beschreibung der Figuren
Die Lehren der vorliegenden Erfindung können leicht nachvollzogen werden durch Betrachten der folgenden detaillierten Beschreibung in Verbindung mit den begleitenden Zeichnungen, in denen:
1 ein Blockdiagramm des Codierers der vorliegenden Erfindung darstellt für das Reduzieren der Rechenkomplexität bei der Bestimmung von Bewegungsvektoren,
2 stellt ein Flußdiagramm eines Verfahrens dar für das Reduzieren der Rechenkomplexität bei der Bestimmung von Bewegungsvektoren für die Blockbasierte Bewegungsabschätzung,
3 stellt ein Flußdiagramm eines Verfahrens für das Konstruieren einer nichtlinearen Pyramide dar,
4 stellt ein Blockdiagramm des Anwendens einer Filteroperation auf einem Bild dar unter Verwendung eines 3 × 3 Median Kerns,
5 stellt ein Blockdiagramm des Dezimierungsprozesses auf einem Bild dar, um ein Bild mit niedrigerer Auflösung zu erzeugen,
6 stellt ein Blockdiagramm eines Codiersystems der vorliegenden Erfindung dar, und
7 stellt ein Blockdiagramm des Anwendens einer Filteroperation auf einem Bild unter Verwendung eines 5 × 5 Median Kerns dar.
Um das Verständnis zu erleichtern, wurden identische Bezugszahlen verwendet, wo dies möglich war, um identische Elemente, die in mehreren Figuren enthalten sind, zu bezeichnen.
Detaillierte Beschreibung
1 stellt ein Blockdiagramm der Vorrichtung 100 der vorliegenden Erfindung dar für das Reduzieren der Berechnungskomplexität bei der Bestimmung von Bewegungsvektoren, z.B. wie sie in einer blockbasierten hierarchischen Bewegungsabschätzung verwendet werden. Die bevorzugte Ausführungsform der vorliegenden Erfindung wird unten unter Verwendung eines Codierers beschrieben, es versteht sich jedoch, daß die vorliegende Erfindung an das Bildverarbeitungssystem im Allgemeinen angepaßt werden kann. Weiterhin kann die vorliegende Erfindung bei Codierern eingesetzt werden, die in Übereinstimmung mit verschiedenen Codierstandards sind. Diese Standards bzw. Normen beinhalten, sind jedoch nicht hierauf begrenzt, die Moving Picture Experts Group Standards (z.B. MPEG-1 (11172-*) und MPEG-2 (13818-*), H.261 und H.263.
Die Vorrichtung 100 ist ein Codierer oder ein Abschnitt eines komplexeren blockbasierten bewegungskompensierten Codiersystems. Die Vorrichtung 100 weist ein Bewegungsschätzmodul 140, ein Bewegungskompensationsmodul 150, ein optionales Segmentierungsmodul 150, ein Vorverarbeitungsmodul 120, ein Geschwindigkeitssteuermodul 130, ein Transformationsmodul (z.B. ein DCT Modul) 160, ein Quantisierungsmodul 170, ein Codierer (z.B. ein variables Längencodiermodul) 180, einen Puffer 190, ein inverses Quantisierungsmodul 175, ein inverses Transformationsmodul (z.B. ein inverses DCT Modul) 165, einen Subtrahierer 115 und einen Summierer 155 auf. Obgleich der Codierer eine Mehrzahl von Modulen aufweist, versteht der Fachmann, daß die Funktionen, die von den verschiedenen Modulen durchgeführt werden, nicht in separaten Modulen isoliert sein müssen, wie in 1 gezeigt ist. Der Satz von Modulen, der das Bewegungskompensationsmodul 150, das inverse Quantisierungsmodul 175 und das inverse DCT Modul 165 aufweist, ist allgemein als "eingebetteter Decoder" bekannt.
1 stellt ein Eingangsbild (Bildsequenz) auf dem Pfad 110 dar, das digitalisiert wird und repräsentiert wird als ein Luminanz- und Zweifarbdifferenzsignale (Y, C_r, C_b) in Übereinstimmung mit den MPEG-Normen. Diese Signale werden erweitert unterteilt in eine Mehrzahl von Schichten bzw. Layern, so daß jedes Bild (Einzelbild) durch eine Mehrzahl von Makroblöcken repräsentiert wird. Jeder Makroblock weist Vier (4) Luminanzblöcke, einen C_r Block und einen C_b Block auf, wobei ein Block als eine Acht (8) mal Acht (8) Abfrageanordnung festgelegt ist. Die Aufteilung eines Bildes in Blockeinheiten verbessert die Fähigkeit Änderungen zwischen zwei aufeinanderfolgenden Bildern zu unterscheiden und verbessert die Bildkomprimierung durch die Eliminierung von kleinen amplitudentransformierten Koeffizienten (unten erörtert). Die folgende Beschreibung verwendet die MPEG Standardterminologie, es versteht sich jedoch, daß der Begriff Makroblock oder Block dafür vorgesehen ist, ein Block aus Pixeln irgendeiner Größe oder Form zu beschreiben, der für die Basis der Codierung verwendet wird. Allgemein gesprochen könnte ein "Makroblock" so klein wie ein einzelnes Pixel sein oder so groß wie ein gesamtes Videoeinzelbild.
In der bevorzugten Ausführungsform unterliegt das digitalisierte Eingangsbildsignal ein oder mehreren Vorverarbeitungsschritten in dem Vorverarbeitungsmodul 120. Genauer gesagt weist das Vorverarbeitungsmodul 120 einen nichtlinearen Pyramidengenerator 122 auf. Der nichtlineare Pyramidengenerator 122 setzt ein nichtlineares Filter 123 ein, um jedes Einzelbild in eine Mehrzahl von unterschiedlichen Auflösungen zu zerlegen oder zu filtern unter Verwendung eines nichtlinearen Pyramidenkonstruktionsverfahren, um eine "nichtlineare Pyramide" zu erzeugen, wo die unterschiedlichen Auflösungen der nichtlinearen Pyramide in einer hierarchischen Art korreliert sind, wie unten beschrieben wird. In der bevorzugten Ausführungsform wird die nichtlineare Pyramide unten eingesetzt, um einen hierarchischen Bewegungsschätzprozeß zu implementieren.
Obgleich die vorliegende Erfindung direkt in Verbindung mit einem Bewegungsschätzprozeß implementiert ist, kann die vorliegende Erfindung angepaßt werden an andere Bildverarbeitungsverfahren. Beispielsweise kann ein optionales Blockklassifizierungsmodul 124 von der Information profitieren, die in der nichtlinearen Pyramide der Auflösungen bereitgestellt wird, um schnell Bereiche (Blöcke) als Bereiche hoher Aktivität oder niedriger Aktivität zu klassifizieren, wodurch die Merkmalserfassung innerhalb jedes Einzelbildes erlaubt wird. Die Merkmalserfassungsinformation kann wiederum verwendet werden, um einen Segmentierungsprozeß innerhalb eines optionalen Segmentierungsmoduls 151 zu unterstützen, Bereiche innerhalb jedes Einzelbildes zu segmentieren (oder einfach zu identifizieren), z.B. den Hintergrund vom Vordergrund, oder ein Objekt von einem anderen Objekt, z.B. verschiedene Merkmale eines menschlichen Gesichtes und dergleichen.
In 1 wird das Eingangsbild auf dem Pfad 110 ebenso im Bewegungsschätzmodul 140 empfangen für das Abschätzen von Bewegungsvektoren. Ein Bewegungsvektor ist ein zweidimensionaler Vektor, der von der Bewegungskompensation verwendet wird, um einen Offset-Wert von der Koordinatenposition eines Blockes in dem gegenwärtigen Bild zu den Koordinaten in einem Referenzein zelbild bereitzustellen. Die Verwendung von Bewegungsvektoren verbessert die Bildkomprimierung stark durch Reduzieren der Informationsmenge, die auf einem Kanal übertragen wird, da nur die Veränderungen innerhalb des gegenwärtigen Einzelbildes codiert und transmittiert werden. In der bevorzugten Ausführungsform empfängt das Bewegungsschätzmodul 140 ebenso Informationen von dem Vorverarbeitungsmodul 120, um die Leistung des Bewegungsschätzprozeß zu verbessern.
Die Bewegungsvektoren von dem Bewegungsschätzmodul 140 werden von dem Bewegungskompensationsmodul 150 empfangen für das Verbessern der Effizienz der Vorhersage von Abfragewerten. Die Bewegungskompensation beinhaltet eine Vorhersage, die Bewegungsvektoren verwendet, um Offset-Werte vergangene und/oder zukünftige Referenzeinzelbilder bereitzustellen, die vorher codierte Abfragewerte enthalten, und werden verwendet, um den Vorhersagefehler zu bilden. Das Bewegungskompensationsmodul verwendet nämlich das vorher codierte Einzelbild und die Bewegungsvektoren, um eine Abschätzung (bewegungskompensierte Vorhersage oder vorhergesagtes Bild) des gegenwärtigen Einzelbildes auf dem Pfad 152 zu konstruieren. Diese bewegungskompensierte Vorhersage wird über den Subtrahierer 115 von dem Eingangsbild auf dem Pfad 110 in den gegenwärtigen Makroblöcken subtrahiert, um ein Fehlersignal (e) oder einen vorhergesagten Rest auf dem Pfad 153 zu bilden.
Das prädiktive Restsignal wird zu einem Transformationsmodul geleitet, z.B. einem DCT-Modul 160. Das DCT-Modul legt dann einen diskreten Kosinus-Vorwärtstransformationsprozeß an jeden Block des prädiktiven Restsignals an, um einen Satz von acht (8) mal acht (8) Blöcken aus DCT-Koeffizienten zu erzeugen. Die diskrete Kosinustransformation ist eine invertierbare, diskrete Orthogonaltransformation, bei der die DCT-Koeffizienten die Amplituden eines Satzes von Kosinusbasisfunktionen darstellen.
Der resultierende 8 × 8 Block aus DCT-Koeffizienten wird vom Quantisierungsmodul (Q) 170 empfangen, wo die DCT-Koeffizienten quantisiert werden. Der Prozeß der Quantisierung reduziert die Genauigkeit, mit der die DCT-Koeffizienten dargestellt werden durch Teilen der DCT-Koeffizienten durch einen Satz von Quantisierungswerten oder Skalierung mit geeigneter Rundung, um ganzzahlige Werte zu bilden. Die Quantisierungswerte können einzeln für jeden DCT-Koeffizienten eingestellt werden unter Verwendung von Kriterien basierend auf der Sichtbarkeit der Basisfunktionen (bekannt als visuell gewichtete Quantisierung). Durch Quantisieren der DCT-Koeffizienten mit diesem Wert, werden viele der DCT-Koeffizienten zu Nullen konvertiert, wodurch die Bildkomprimierungseffizienz verbessert wird.
Der resultierende 8 × 8 Block von quantisierten DCT-Koeffizienten wird als nächstes von einem Codierer z. B. einem variablen Längen Codiermodul 180, über die Signalverbindung 171 empfangen, wo der zweidimensionale Block aus quantisierten Koeffizienten in einer "Zick Zack"-Ordnung abgetastet wird, um ihn in einen eindimensionales String aus quantisierten DCT-Koeffizienten umzuwan deln. Das variable-Längen-Codiermodul (VLC) 180 codiert dann den String aus quantisierten DCT-Koeffizienten und alle Seiteninformationen für den Makroblock, wie z.B. den Makroblocktyp und die Bewegungsvektoren. Das VLC Modul 180 führt somit den letzten Schritt des Umwandelns des Eingangsbildes in einen gültigen Datenstrom durch.
Der Datenstrom wird in einem Puffer empfangen, z.B. ein "First In-First Out" (FIFO) Puffer 190. Eine Konsequenz der Nutzung unterschiedlicher Bildtypen und der variablen Längencodierung ist der, daß die Gesamtbitrate variabel ist. Die Anzahl von Bits, die verwendet werden, um jedes Einzelbild zu codieren, kann nämlich unterschiedlich sein. Somit wird in Anwendungen, die einen Kanal mit fester Geschwindigkeit beinhalten, ein FIFO Puffer verwendet, um den Codiererausgang für das Glätten der Bitrate an den Kanal anzupassen. Das Ausgangssignal auf dem Pfad 195 vom FIFO Puffer 190 ist somit eine komprimierte Darstellung des Eingangsbildes 110, wobei es zu einem Speichermedium oder einem Telekommunikationskanal gesendet wird.
Das Geschwindigkeitssteuermodul 130 dient dazu, die Bitrate des Datenstroms, der in den FIFO Puffer 190 eintritt, zu überwachen und einzustellen, um einen Überlauf und Unterlauf auf der Decoderseite (innerhalb eines Empfängers oder einer Zielspeichereinrichtung, nicht gezeigt) nach der Übertragung des Datenstroms zu verhindern. Es wird angenommen, daß ein Kanal mit fester Rate, Bits mit einer konstanten Geschwindigkeit zu einem Eingangspuffer innerhalb des Decoders (nicht gezeigt) transportiert. Bei regelmäßigen Intervallen, die durch die Bitrate bestimmt werden, entfernt der Decoder gleichzeitig alle Bits für das nächste Bild aus seinem Eingangspuffer. Wenn es zu wenige Bits in dem Eingangspuffer gibt, d.h. es wurden noch nicht alle Bits für das nächste Bild erreicht, dann kommt es im Eingangspuffer zu einem Unterlauf, was zu einem Fehler führt. In gleicher Weise, falls es zu viele Bits im Eingangspuffer gibt, d.h. die Kapazität des Eingangspuffers wird überschritten zwischen den Bildstarts, dann kommt es zu einem Überlauf des Eingangspuffer, was zu einem Überlauffehler führt. Es ist somit die Aufgabe des Geschwindigkeitssteuermoduls 130, den Status des Puffers 190 zu überwachen, um die Anzahl von Bits, die von dem Codierer erzeugt werden, zu steuern, wodurch Überlauf- und Unterlaufzustände verhindert werden. Eine Ratensteuermethode kann die Anzahl von Codierbits steuern durch Einstellen der Quantisierungsskalen.
Weiterhin wird der resultierende 8 × 8 Block aus quantisierten DCT-Koeffizienten vom Quantisierungsmodul 170, von dem inversen Quantisierungsmodul 175 und dem inversen DCT-Modul 165 über die Signalverbindung 172 empfangen. Kurz gesagt regeneriert der Codierer auf dieser Stufe I-Frames bzw. I-Einzelbilder und die P-Frames bzw. P-Einzelbilder der Bildsequenz durch Decodieren der Daten, so daß sie als Referenzframes für die nachfolgende Codierung verwendet werden.
2 stellt ein Flußdiagramm eines Verfahrens 200 für das Reduzieren der Rechenkomplexität bei der Bestimmung von Bewegungsvektoren für die blockbasierte Bewegungsabschätzung dar. Das Verfahren 200 verbessert nämlich ein blockbasiertes Bewegungsabschätzverfahren durch schnelles Festlegen eines ursprünglichen Suchbereichs, wo eine Übereinstimmung wahrscheinlich gegeben ist.
Genauer gesagt startet das Verfahren 200 in Schritt 205 und setzt mit Schritt 210 fort, wo eine nichtlineare Pyramide für jedes Einzelbild in der Bildsequenz erzeugt wird. Das Verfahren der Erzeugung der nichtlinearen Pyramide wird unten in Bezug auf die 3–5 und 7 beschrieben. Die nichtlineare Pyramide ist ein spezieller Typ einer hierarchischen Pyramide.
Sobald die nichtlineare Pyramide erzeugt ist, wird die Bewegungsabschätzung in Schritt 220 auf der nichtlinearen Pyramide durchgeführt, wo die Suche in dem niedrigsten Auslösungslevel der nichtlinearen Pyramide startet. Die Information, die von dieser Suche erhalten wird, wird dann benutzt, um die Suche in der nächst höheren Auflösung der nichtlinearen Pyramide zu verbessern usw. bis zum höchsten Auslösungsniveau. Diese Ausbreitung der Suchinformation stellt ein effizientes und schnelles Verfahren der Durchführung einer Bewegungsabschätzung bereit.
Genauer gesagt wird die hierarchische Bewegungsvektorabschätzung rekursiv verwirklicht von einem höheren Niveau (niedrigeres Auflösungslayer) zu einem niedrigeren Niveau (höhere Auflösungslayer) der nichtlinearen Pyramide. Die Rechenkomplexität wird somit signifikant reduziert aufgrund der reduzierten Bildgrößen auf höheren Layern. In der bevorzugten Ausführungsform ist das Übereinstimmungskriterium, das bei der hierarchischen blockbasierten Bewegungsvektorabschätzung verwendet wird:
Wobei I_l,k(i, j) die Intensität des Pixels am Ort (i, j) innerhalb des Blocks im k-ten Einzelbild auf dem l-ten Level ist und die Verschiebung beträgt (x, y). Somit ist I_3,k(i, j) die Intensität des Pixels auf dem Vollauflösungsbild.
M ^ und N ^ sind die Höhe und die Breite eines Subblocks auf dem Niveau l. M und N sind die Höhe und die Breite eines Subblocks auf dem Level 3. Es sei bemerkt, daß
Eine Blockgröße von M ^ × N ^ (M × 2^l-3 × N × 2^l-3) wird in dem Unterbild beim Niveau l verwendet. Mit dieser Struktur ist die Anzahl von Bewegungsblöcken für alle Unterbilder konstant, da ein Block mit einer Auflösung der selben Position und denselben Objekten bei einer anderen Auflösung entspricht.
Die Größe des Blockes variiert weiterhin mit der Auflösung. Ein kleinerer Bewegungsblock korrespondiert zu einer geringeren Auflösung. Der Vorteil dieses variablen Blockgrößenverfahren ist der, daß es die Wichtigkeit von unterschiedlichen Layern geeignet wichtet und die menschliche visuelle Wahrnehmung an verschiedene Frequenzen bei unterschiedlichen Auflösungen anpaßt und Bewegungen für kleine Objekte auf einem höheren Level der Pyramide erfassen kann. Nachdem nichtlineare Pyramiden konstruiert wurden, werden die Bewegungsvektoren auf dem Level 0 als erstes abgeschätzt unter Verwendung einer vollen Suche mit Gleichung (1) und einer Blockgröße von M ^ × N ^. Der Bewegungsvektor, der den kleinsten MAD_l (x, y) bereitstellt, wird als der grobe Bewegungsvektor auf diesem Level ausgewählt und wird an das nächst niedrigere Level weitergeleitet, so daß es als ein ursprünglicher Vektor für die Bewegungsabschätzung auf diesem Level verwendet wird. Der erfaßte Bewegungsvektor auf dem höheren Niveau wird nämlich zu dem niedrigeren Niveau übertragen und führt den Verfeinerungsschritt auf diesem Niveau. Dieser Bewegungsabschätzprozeß wird einmal mehr bis zum Level 3 wiederholt.
Durch die zweimalige Verwendung des Bewegungsvektors auf dem Level l-1 für das Level l als ein Ursprungsvektor, werden die Bewegungsvektoren für das Level l verfeinert durch Verwendung der vollen Suche, jedoch mit einem relativ kleinen Suchbereich. Wenn der Bewegungsvektor auf dem Niveau l-1 durch V_l-1(x–y) dargestellt wird, kann der erfaßte Bewegungsvektor auf dem Level l beschrieben werden als: Vl(x, y) = 2Vl-1(x, y) + ΔVl(δx, δy) l = 1, 2, 3 (2)wobei ΔV(δx, δy) das aktualisierte Inkrement des Bewegungsvektors auf dem Level l ist und ausgedrückt wird durch:
Um den Vorhersagefehler zwischen dem ursprünglichen Bild und dem Bewegungskompensierten Bild weiter zu reduzieren, wird die Halbpixelsuche in dem vorgeschlagenen hierarchischen Bewegungsvektorabschätzalgorithmus implementiert. Das Bild mit der Halbpixelauflösung wird erzeugt unter Verwendung der Interpolation von dem Bild mit der Vollpixelauflösung. Die Werte der räumlich interpolierten Pixel werden berechnet unter Verwendung der Interpolationsgleichung, die von MPEG TM4 empfohlen werden. Die Interpolationsgleichung lautet wie folgt: S(x + 0.5, y) = (S(x, y) + S(x + 1, y))/2 S(x, y + 0.5) = (S(x, y) + S(x, y + 1))/2 S(x + 0.5, y + 0.5) = (S(x, y) + S(x + 1, y) + S (x, y + 1) + S(x + 1, y + 1))/4 (4)wobei x, y die ganzzahligen horizontalen und vertikalen Pixelkoordinaten sind und S der Pixelwert ist. Obgleich die vorliegende Erfindung den Bewegungsabschätzprozeß einsetzt, wie in den Gleichungen (1) bis (4) ausgedrückt ist, versteht es sich, daß die vorliegende Erfindung mit anderen Bewegungsschätzverfahren implementiert werden kann. Die Verwendung der nicht linearen Pyramide kann nämlich mit anderen Bewegungsschätzverfahren verwendet werden.
3 stellt ein Flußdiagramm eines Verfahrens 300 für das Konstruieren einer nicht linearen Pyramide dar. Genauer gesagt startet das Verfahren 300 in Schritt 305 und setzt mit Schritt 310 fort, wo die Initialisierung stattfindet. Das Originalbild X_n (n = Auflösungslevel des Ursprungsbildes) wird gleich einem Bild X_k (k = Auflösungslevel der nicht linearen Bildpyramide) eingestellt, welches als höchster Auflösungslevel (Level 0, d.h. k = 0) der nicht linearen Bildpyramide fungiert.
In Schritt 320 wendet das Verfahren 300 einen nicht linearen Filter H an das Bild X_k an, wo der Ausgang des nicht linearen Filters H dargestellt wird durch H(X_k). Der nicht lineare Filter wendet eine nicht lineare Funktion (oder Kern bzw. kernel) an, wie z.B. eine 3 × 3 Medianfunktion, eine 5 × 5 Medianfunktion, eine gewichtete Median-1-Funktion und eine gewichtete Median-2-Funktion. Diese Funktionen werden unten in Bezug auf die 4 und 7 beschrieben.
Genauer gesagt stellt 4 ein Blockdiagramm des Anwendens einer nicht linearen Filteroperation auf einem Bild 410 dar unter Verwendung eines 3 × 3 Mediankerns, um ein gefiltertes Bild 420 zu erzeugen. In der vorliegenden Erfindung kann der 3 × 3 Mediankern in drei (3) unterschiedlichen Ausführungsformen ausgedrückt werden:
In Funktion wird jeder der Pixelwerte 411 im Bild 410 durch einen der obigen 3 × 3 Mediankerne gefiltert, um einen entsprechenden Pixelwert 422 in dem gefilterten Bild 420 zu erzeugen. Das Bild 410 kann das ursprüngliche Eingangsbild oder ein vorher gefiltertes und dezimiertes Bild der nichtlinearen Pyramide sein.
Zur Darstellung stellt die Gleichung (5) einen nicht gewichteten 3 × 3 Mediankern dar, d.h. jeder Wert in dem Kern ist gleichgewichtet. Um das gefilterte Pixel X_(1,1) 422a (das Pixel ganz oben links) in dem gefilterten Bild 420 zu erzeugen, wird der 3 × 3 Kern (dargestellt durch den Kasten mit der Bezeichnung 412a) an das entsprechende Pixel X_(1,1) in dem Bild 410 angewendet, wo der 3 × 3 Kern auf dem Pixel zentriert ist, das gefiltert wird. Mit anderen Worten wird der Wert des gefilterten Pixels X_(1,1) 422a bestimmt durch Auswählen des Medianes der neun (9) Werte, die von dem 3 × 3 Mediankern abgedeckt werden. Mit dem 3 × 3 Kern zentriert auf dem Pixel X_(1,1), der an der Ecke des Bildes lokalisiert ist, gibt es jedoch nicht genügend Pixelwerte, um die notwendigen neuen Werte bereitzustellen, wie von dem 3 × 3 Kern gefordert wird. Bei solchen "Rand-"pixeln wird das Bild aufgefüllt durch Duplizieren benachbarter "Kanten-"Pixelwerte, um die notwendigen Pixelwerte dem Kern zur Verfügung zu stellen. Diese Kantenauffüllung stellt den Vorteil zur Verfügung des Bewahrens der Information, die an den Kanten des Bildes lokalisiert ist, ohne daß Fehler durch den Filterprozeß eingeführt werden.
Beispielsweise wird innerhalb der Box 412a der Pixelwert 3 × 3 dreimal dupliziert und beide Pixelwerte X_(2,1) und X_(1,2) werden einmal dupliziert. Falls X_(1,1) einen Wert 0 hat, X_(1,2) einen Wert 100 hat, X_(2,1) einen Wert 200 hat und X_(2,2) einen Wert 255 hat, dann wird das gefilterte Pixel X_(1,1) 422a bestimmt durch Auswählen eines Medians aus der Gruppe von Pixelwerten (0,0,0,0,100,100,200,200,255) was 100 ergibt. Das gefilterte Pixel 422b wird in ähnlicher Weise erzeugt unter Verwendung des 3 × 3 Kerns 412b und das gefilterte Pixel 422c wird erzeugt unter Verwendung des 3 × 3 Kerns 412c usw. um das gesamte gefilterte Bild 420 zu bilden.
Alternativ dazu kann der 3 × 3 Mediankern gewichtet sein wie in den Gleichungen (2) und (3) dargestellt. Verschiedene Pixelwerte innerhalb des Kerns werden nämlich gewichtet oder stärker gezählt als andere Pixelwerte. Beispielsweise zeigt Gleichung (6), daß der Pixelwert, der im Kern zentriert ist, dreimal so stark gewertet wird als die umgebenden Pixelwerte. Dieses Gewicht "X" kann als eine Wichtung angesehen werden, wo die entsprechenden Pixelwerte durch das Gewicht X dupliziert werden. Bei Verwendung des gleichen obigen Beispiels, falls ein gewichteter 3 × 3 Median nach Gleichung (6) eingesetzt wird, dann wird das gefilterte Pixel X_(1,1) 422a bestimmt durch Auswählen eines Medians aus der Gruppe von Pixelwerten (0,0,0,0,0,0,100,100,200,200,255), was in diesem Fall 0 sein wird. Der Kern wichtet oder zählt den zentralen Pixelwert X_(1,1) dreimal, wodurch zwei zusätzliche "0"-werte der Gruppe aus Pixelwerten zugefügt wird.
In ähnlicher Weise zeigt Gleichung (7), daß andere Pixelwerte in dem Kern ebenso gewichtet werden können. Aus dem zentralen Pixelwert, der dreimal gewichtet wird, werden nämlich die Pixelwerte, die direkt oberhalb, unterhalb, links und rechts des zentralen Pixelwertes liegen, zweimal mehr als die verbleibenden umgebenden Pixelwerte gewichtet. Erneut unter Verwendung des gleichen obigen Beispiels, falls ein gewichteter 3 × 3 Median nach Gleichung (7) eingesetzt wird, dann wird das gefilterte Pixel X_(1,1) 422a bestimmt durch Auswählen eines Medians aus der Gruppe von Pixelwerten (0,0,0,0,0,0,0,0,100,100,100,200,200,200,255), was in diesem Fall ebenso 0 sein wird.
Es versteht sich, daß andere gewichtete 3 × 3 Mediankerne in der vorliegenden Erfindung eingesetzt werden können. Die Auswahl eines bestimmten gewichteten Mediankerns wird jedoch häufig von der Anwendung und/oder dem Inhalt in den Bildern vorgegeben.
Alternativ dazu zeigt 7 ein Blockdiagramm des Anwendens einer nichtlinearen Filteroperation auf ein Bild 710 unter Verwendung eines 5 × 5 Mediankerns, um ein gefiltertes Bild 720 zu erzeugen.
In der vorliegenden Erfindung kann der 5 × 5 Mediankern ausgedrückt werden als:
Im Betrieb wird jeder der Pixelwerte 711 in dem Bild 710 von einem der obigen 5 × 5 Mediankerne gefiltert, um einen korrespondierenden Pixelwert 722 in dem gefilterten Bild 720 zu erzeugen. Das Bild 710 kann das ursprüngliche Eingangsbild oder ein vorher gefiltertes und dezimiertes Bild der nicht linearen Pyramide sein.
Zur Veranschaulichung stellt Gleichung (8) einen nicht gewichteten 5 × 5 Mediankern dar, d.h. jeder Wert in dem Kern wird gleichgewichtet. Um das gefilterte Pixel X_(1,1) 722a ( das Pixel ganz oben links) in dem gefilterten Bild 720 zu erzeugen, wird der 5 × 5 Kern (dargestellt durch den Kasten mit der Bezeichnung 712a) an das entsprechende X_(1,1) in dem Bild 710 angewendet, wobei der 5 × 5 Kern auf dem Pixel, das gefiltert wird, zentriert ist. Mit anderen Worten wird der Wert des gefilterten Pixels X_(1,1) 722a bestimmt durch Auswählen des Medians der fünfundzwanzig (25) Werte, die von dem 5 × 5 Mediankern abgedeckt werden. Erneut gibt es, wenn der 5 × 5 Kern auf dem Pixel X_(1,1) zentriert ist, das an der Ecke des Bildes lokalisiert ist, nicht genügend Pixelwerte, um die notwendigen fünfundzwanzig Werte bereitzustellen, wie sie von dem 5 × 5 Kern gefordert werden. Bei solchen "Rand-"pixeln, wird das Bild aufgefüllt durch Duplizieren benachbarter "Kanten-"pixelwerte, um die notwendigen Pixelwerte dem Kern bereitzustellen, wie in 7 gezeigt ist.
Beispielsweise wird innerhalb der Box 712a der Pixelwert X_(1,1) achtmal dupliziert und die Pixelwerte X_(2,1), X_(3,1), X_(1,2) und X_(1,3) jeweils zweimal dupliziert. Falls X_(1,1) einen Wert 0 hat, X_(1,2) einen Wert 50 hat, X_(1,3) einen Wert 100 hat, X_(2,1) einen Wert 75 hat, X_(3,1) einen Wert 125 hat, X_(2,2) einen Wert 200 hat, X_(3,1) einen Wert 255 hat, X_(2,3) einen Wert 255 hat und X_(3,3) einen Wert 255 hat, dann wird das gefilterte Pixel X_(1,1) 722a bestimmt durch Auswählen eines Medians aus der Gruppe von Pixelwerten (0,0,0,0,0,0,0,0,0,50,50,50,75,75,75,100,100,100,125,125,125,200,255,255,255), was 75 sein wird. Das gefilterte Pixel 722b wird in ähnlicher Weise erzeugt unter Verwendung des 5 × 5 Kerns 712b und das gefilterte Pixel 722c wird erzeugt unter Verwendung des 5 × 5 Kerns 712c usw., um das gesamte gefilterte Bild 720 zu bilden.
In gleicher Weise wie die 3 × 3 gewichteten Mediankerne kann der 5 × 5 Kern mit Gewichten implementiert werden.
Zurück in 3 dezimiert in Schritt 330 das Verfahren 300 das gefilterte Bild in beiden Richtungen (horizontal und vertikal) um einen vorher festgelegten Faktor, um ein Bild X_(k–1) mit niedrigerer Auflösung für die nichtlineare Pyramide zu erzeugen. 5 stellt ein Blockdiagramm dieses Dezimierungsprozesses auf einem Bild dar, um ein Bild mit niedrigerer Auflösung zu erzeugen. Ein Bild, z.B. das gefilterte Bild 510 wird nämlich reduziert in ein Bild 520 mit niedrigerer Auflösung durch selektives Entfernen von Pixeln aus dem gefilterten Bild. In der bevorzugten Ausführungsform wird der Dezimierungsfaktor auf einen Wert zwei (2) in beiden Richtungen gesetzt, wobei jedes zweite Pixel (horizontal und vertikal) verworfen wird, um das Bild X_(k–1) 520 mit niedrigerer Auflösung zu bilden. Genauer gesagt werden die Pixel 512a, 512d und 512e beibehalten, um die entsprechenden Pixel 522a, 522c bzw. 522b zu bilden in dem Bild 520 mit niedrigerer Auflösung. Die Pixel 512b und 512c werden dem Dezimierungsprozeß verworfen, der fortgesetzt wird, bis das Bild 520 mit niedrigerer Auflösung vollständig gebildet ist. Obgleich die vorliegende Erfindung einen Dezimierungsfaktor von zwei einsetzt, versteht es sich, daß andere Dezimierungsfaktorwerte in der vorliegenden Erfindung eingesetzt werden können.
In Schritt 340 fragt das Verfahren 300 ab, ob zusätzliche Level für die nichtlineare Pyramide zu erzeugen sind. Falls die Abfrage bestätigend beantwortet wird, dann kehrt das Verfahren 300 zu Schritt 320 zurück, wo die Filter- und Dezimierungsschritte wiederholt werden, um das Bild X_k–2 mit der nächst niedrigeren Auflösung zu erzeugen usw. Falls die Abfrage negativ beantwortet wird, dann setzt das Verfahren 300 mit Schritt 350 fort und endet. In der bevorzugten Ausführungsform wird eine nichtlineare Pyramide für jedes Eingangsbild erzeugt, wobei die nichtlineare Pyramide vier Auflösungslevels (Levels 0-3) hat. Es versteht sich jedoch, daß die nichtlineare Pyramide mit irgendeiner Anzahl von Auflösungslevels und/oder unter Verwendung von anderen Dezimierungsfaktoren außer "2" erzeugt werden kann. Allgemein kann die nichtlineare Pyramide in Übereinstimmung mit der Anforderung einer bestimmten Anwendung oder der Spezifikationen des Eingangsbildes, z.B. des, z.B. der Größe des Bildes, dem Inhalt des Bildes usw. erzeugt werden. Beispielsweise kann ein größeres Eingangsbild eine größere nicht lineare Pyramide erfordern.
6 stellt ein Blockdiagramm eines Codiersystems 600 der vorliegenden Erfindung dar. Das Codiersystem weist einen Allzweckcomputer 610 und verschiedene Eingabe/Ausgabegeräte 620 auf. Der Allzweckcomputer weist eine zentrale Verarbeitungseinheit (CPU) 612, einen Speicher 614 und einen Codierer 616 für das Empfangen und Codieren einer Sequenz von Bildern auf.
In der bevorzugten Ausführungsform ist der Codierer 616 der Codierer 100 wie oben erörtert. Der Codierer 616 kann ein physikalisches Gerät sein, das mit der CPU 612 über einen Kommunikationskanal verbunden ist. Alternativ dazu kann der Codierer 616 durch eine Softwareanwendung (oder eine Kombination aus einer Softwareanwendung und Hardware, z.B. über einen Anwendungsspezifischen Schaltkreis (ASIC)) dargestellt werden, wobei die Softwareanwendung von einer Speichervorrichtung geladen wird, z.B. einer magnetischen oder optischen Platte, und im Speicher 612 des Computers residiert. Die CPU 612 dient dazu, die Softwareanwendung, die im Speicher 614 residiert, auszuführen. Im Grunde genommen kann der Codierer 100 der vorliegenden Erfindung auf einem computerlesbaren Medium gespeichert sein.
Der Computer 610 kann mit einer Mehrzahl von Eingabe- und Ausgabegeräten 620, wie z.B. einer Tastatur, einer Maus, einer Kamera, einem Camcorder, einem Videomonitor, irgendeiner Anzahl von Abbildungsgeräten oder Speichergeräten einschließlich jedoch nicht begrenzt auf ein Bandlaufwerk, ein Diskettenlaufwerk, ein Festplattenlaufwerk oder ein CD-Laufwerk sein, sein. Die Eingabegeräte dienen dazu, Eingaben dem Computer zur Verfügung zu stellen für das Erzeugen der codierten Videobitströme oder um die Abfolge von Videobildern von einer Speichervorrichtung oder einer abbildenden Vorrichtung zu empfangen. Schließlich ist eine Kommunikationskanal 630 gezeigt, über den das codierte Signal von dem Codiersystem zu einem Decodiersystem (nicht gezeigt) weitergeleitet wird.
Obgleich verschiedene Ausführungsformen, die die Lehren der vorliegenden Erfindung beinhalten, gezeigt und im Detail hier beschrieben wurden, können Fachleute leicht viele andere variierte Ausführungsformen ableiten, die diese Lehren immer noch beinhalten.

Claims

Verfahren zum Durchführen einer Datenkomprimierung einer Videobildsequenz, wobei jedes Einzelbild in der Videobildsequenz in Blöcke unterteilt wird, wobei das Verfahren die Schritte aufweist: (a) Zerlegen jedes Einzelbildes innerhalb der Bildsequenz in eine nicht-lineare Pyramide und (b) Durchführen einer hierarchischen Bewegungsabschätzung auf der nicht-linearen Pyramide, um einen Bewegungsvektor für einen Block in dem gegenwärtigen Einzelbild relativ zu einer Position des Blockes in einem Referenzeinzelbild abzuschätzen.
Verfahren nach Anspruch 1, bei dem der Zerlegungsschritt (a) die Schritte aufweist: (a') Anlegen eines nicht-linearen Filters an das Bild, um ein gefiltertes Bild zu erzeugen, und (a'') Dezimieren des gefilterten Bildes, um ein Bild mit niedrigerer Auflösung der nichtlinearen Pyramide zu erzeugen.
Verfahren nach Anspruch 2, bei dem das Anwenden von Schritt (a'') den Schritt des Anwendens eines Medianfilters an das Bild aufweist.
Verfahren nach Anspruch 3, bei dem der Medianfilter ein 3 × 3 Medianfilter ist.
Verfahren nach Anspruch 3, bei dem der 3 × 3 Medianfilter ein gewichteter Filter ist.
Verfahren nach Anspruch 1, bei dem Schritt (a) aufweist: (a') Einstellen des Bildes als das Bild höchster Auflösung der nicht-linearen Pyramide, (a'') Anwenden eines Medianfilters an das Bild, um ein gefiltertes Bild zu erzeugen, und (a''') Dezimieren des gefilterten Bildes, um ein Bild mit niedrigerer Auflösung der nichtlinearen Pyramide zu erzeugen.
Verfahren nach Anspruch 6, bei dem der Medianfilter ein 3 × 3 Medianfilter ist.
Verfahren nach Anspruch 6, bei dem Medianfilter ein 5 × 5 Medianfilter ist.
Vorrichtung, die derart konfiguriert ist, daß sie die Datenkompression einer Videobildsequenz durchführt, wobei jedes Einzelbild in der Videobildsequenz in Blöcke unterteilt wird, wobei die Vorrichtung aufweist: Einrichtungen für das Zerlegen jedes Einzelbildes innerhalb der Bildsequenz in eine nichtlineare Pyramide und eine Einrichtung für das Durchführen einer hierarchischen Bewegungsabschätzung auf der nicht-linearen Pyramide, um einen Bewegungsvektor für einen Block in dem gegenwärtigen Einzelbild relativ zu einer Position des Blockes in einem Referenzeinzelbild abzuschätzen.