DE69922898T2

DE69922898T2 - Verfahren zur dreidimensionalen Gesichtsmodellerzeugung aus Gesichtsbildern

Info

Publication number: DE69922898T2
Application number: DE69922898T
Authority: DE
Inventors: Gianluca Francini; Mauro 10900 Montalenghe Quaglia
Original assignee: Telecom Italia SpA
Current assignee: Telecom Italia SpA
Priority date: 1998-10-02
Filing date: 1999-10-01
Publication date: 2005-12-15
Anticipated expiration: 2019-10-02
Also published as: ES2237010T3; EP1424655A3; JP3288353B2; EP0991023B1; EP1424655A2; EP0991023A3; EP1424655B1; ATE286286T1; JP2000113217A; CA2284348A1; DE69943344D1; IT1315446B1; US6532011B1; ITTO980828A1; DE69922898D1; ES2366243T3; EP0991023A2; ATE504896T1; CA2284348C

Description

Die Erfindung betrifft die Technik für die Schaffung von dreidimensionalen Gesichtsmodellen, die beispielsweise für die Implementierung sogenannter Avatare (anthropomorpher Modelle) verwendet werden können, die in virtuellen Umgebungen, bei Videokommunikationsanwendungen, bei Videospielen, TV Produktionen und bei der Schaffung fortgeschrittener Mensch-Maschine-Schnittstellen zu verwenden sind.
Es gibt bereits einige bekannte technische Lösungen für die Schaffung eines dreidimensionalen Modells.
Beispielsweise ist aus der Literaturstelle Yuencheng Lee u. a. "Realistic Modeling for Facial Animation", Computer Graphics Proceedings (SIGGRAPH) – 1995, ein Verfahren zum Schaffen einer realistischen Modellierung menschlicher Gesichter durch Gewinnung von Reflexionsdaten durch eine Laserabtastung des Gesichts des Subjekts oder der Person bekannt. Ein solches Verfahren gewährt den Beginn der Erzeugung realistischer Modelle mit Hilfe von 3D-Informationen, es erfordert jedoch die Verwendung eines "eindringenden" Werkzeugs wie eines Laserstrahls.
Aus Nesi P u. a., "Tracking and Synthesizing Facial Motions with Dynamic Contours", Real-Time Imaging, GB, Academic Press Limited, April 1996, ist ein Verfahren zum Schaffen einer realistischen Modellierung, ausgehend von einer Fotografie des Gesichts einer Person, bekannt. Dieses Verfahren ist ebenso wie das Verfahren gemäß der vorliegenden Erfindung nicht "eindringend", sondern verwendet ein dreidimensionales Modell mit nur einer einzigen Gitterrahmenoberfläche, die entsprechend der Fotografie des Gesichts der Person justiert werden muß.
Hinsichtlich des betroffenen Gegenstands kann darüber hinaus Bezug genommen werden auf beispielsweise das Produkt "Character Creator" der Gesellschaft Darwin 3D (siehe die Internetseite http://www.darwin3d.com) sowie auf das Produkt "Avatar Maker" der Gesellschaft Sven Technologies (siehe die Internetseite http://www.sven-tech.com). Das Produkt "Character Creator" beruht auf der Wahl eines Grundmodells, das der fotografierten Person ähnelt. Das Gesicht der Fotografie wird durch eine Ellipse umrahmt und das Programm verwendet das, was innerhalb der Ellipse liegt, als Gewebetextur des Modells. Beim Produkt "Avatar Maker" wird ein Dutzend Punkte auf dem Gesicht markiert und dann wird ein Grundmodell gewählt, dem die Gewebetextur der Fotografie zugeordnet wird.
Der Hauptnachteil der bekannten Ausführungen ist, daß die Struktur der erzeugten Modelle keine anschließende Animation erlaubt. Die kommt daher, daß das Modell (das üblicherweise erzeugt wird als "Gitterrahmen"-Modell, also ausgehend von einer Maschenstruktur, wie später ersichtlich sein wird) sich nicht genau an die Mundregion angleichen kann, so daß eine Reproduktion der Lippenbewegungen verhindert wird. Das Gleiche trifft auch auf andere signifikante Teile des Gesichts zu, wie die Augen und die Nase.
Die Erfindung zielt darauf, ein Verfahren zu schaffen, das ausgehend von der Fotografie des Gesichts einer Person die Schaffung von Gesichtsmodellen ermöglicht, die realistisch sowohl im statischen Zustand als auch im Zustand der Animation erscheinen können, insbesondere soweit beispielsweise das Öffnen und Schließen der Augenlider und die Möglichkeit der Simulation der Augendrehung betroffen sind.
Gemäß der Erfindung wird dieses Ziel erreicht durch ein Verfahren mit den Charakteristiken, die spezifisch in den anhängenden Ansprüchen genannt sind.
Im wesentlichen beruht das erfindungsgemäße Verfahren auf der Anwendung eines Grundmodells eines Gesichts – typischerweise eines menschlichen Gesichts – mit den physiognomischen Charakteristiken der fotografierten Person. Das Grundmodell (oder die Ausgangsschablone) wird dargestellt durch eine Struktur, vorzugsweise des als "Gitterrahmen" ("wire frame") bezeichneten Typs, die durch eine Mehrzahl von Flächen gebildet wird, die ausgewählt sind aus einer Gruppe von fünf Flächen, nämlich:

– Gesicht,
– rechtes Auge, linkes Auge, und
– obere Zähne und untere Zähne.

Die Augenflächen sind von der Fläche des Gesichts getrennt, um so unter anderem die Schaffung von Öffnungs- und Schließbewegungen der Augenlider und eine leichte Translation, die ein aktuelles Augenverdrehen simuliert, zu ermöglichen. In gleicher Weise ist es durch die Abtrennung der Zahnflächen, die von Standardmodellen genommen sein können, möglich, die Animation des Modells insoweit durchzuführen, als das Sprechen betroffen ist, und zwar durch die Animation der Flächen, die die oberen und die unteren Zähne repräsentieren.
Die Erfindung wird nun anhand eines nicht beschränkenden Beispiels unter Bezugnahme auf die angehängten Zeichnungen beschrieben. Es zeigen:
1A und 1B das typische Aussehen der bei der Ausführungsform der Erfindung verwendeten Modelle, die in der Gitterrahmenart (2A, richtig ist: 1A) bzw. in der durchgehenden Art (2B, richtig ist: 1B) dargestellt sind,
2 das gleiche Modell wie in 1, aber in Hinteransicht, wobei auch in diesem Fall sowohl die Gitterrahmenart (2A) als auch die durchgehende Art (2B) dargestellt ist,
3A bis 3I eine Gruppe von Tafeln, die die charakteristischen Punkte eines Gesichts gemäß der derzeitigen Fassung der Norm MPEG-4 identifizieren, wobei dieses Gesicht für die Durchführung der Erfindung verwendet werden kann,
4 schematisch eine der Phasen des erfindungsgemäßen Verfahrens,
5 schematisch eine weitere Phase des erfindungsgemäßen Verfahrens,
6 in drei Teilen, die mit 6A, 6B bzw. 6C bezeichnet sind, die Entwicklung des Modells im Rahmen des erfindungsgemäßen Verfahrens,
7, die ebenfalls drei Teile umfaßt, im Teil 7A eine Fotografie, die die für die Eichung bei einer möglichen Durchführungsform des Verfahrens gemäß der Erfindung verwendeten charakteristischen Punkten hervorhebt, und in den Teilen 7B und 7C zwei Ansichten des resultierenden Modells komplett mit Gewebetextur,
8 in Form eines Blockschaltplans den Aufbau eines Systems, das zur Durchführung der Erfindung verwendet werden kann,
9 ein Ablaufdiagramm, das eine mögliche Ausführungsform des erfindungsgemäßen Verfahrens betrifft,
10 und 11 in beispielhafter Weise die Aufbringung einer sogenannten Gewebetextur im Rahmen der Erfindung.
Die 1 und 2 zeigen ein Grundmodell M eines menschlichen Gesichts, das in einer möglichen Durchführungsform der Erfindung verwendet werden kann. Das Modell M wird hier sowohl in der Art eines Gitterrahmens als auch in der durchgehenden Art gezeigt. Die letztere unterscheidet sich vom Gitterrahmen im wesentlichen durch eine Hintergrundkolorierung der Dreiecke des Gitterrahmens. Das hier dargestellt Modell M wird durch fünf Flächen gebildet, nämlich:

– ein Gesicht V das – bei der hier dargestellten Ausführungsform – durch 360 Eckpunkte (Winkelscheitel) und 660 Dreiecke gebildet wird, wobei die Bezeich nung "Eckpunkt" hier geometrisch als Winkelscheitel gemeint ist,
– ein rechtes Auge OD und ein linkes Auge OS, die jeweils aus 26 Eckpunkten und 37 Dreiecken bestehen,
– obere Zähne DS und untere Zähne DI, die jeweils aus 70 Eckpunkten und 42 Dreiecken bestehen.

Es ist speziell zu würdigen, daß das Modell M eine hohle Struktur ist, die praktisch einer Art Maske angeglichen sein kann, deren Form dazu entworfen ist, die Eigenschaften des modellierten Gesichts zu reproduzieren. Wenngleich die Zahl der Eckpunkte und Dreiecke, auf die vorher Bezug genommen wurde, einer gegenwärtig bevorzugten Ausführungsform der Erfindung entspricht, hat sie nur einen beispielhaften Charakter und ist in keiner Weise als Fall der Begrenzung des Umfangs der Erfindung anzusehen.
Diese Betrachtungen gelten auch für die Wahl der Verwendung von fünf verschiedenen Flächen zum Implementieren des Grundmodells. Tatsächlich kann die Zahl dieser Flächen kleiner sein (für die Implementierung einfacherer Modelle) oder kann größer sein (für die Implementierung von mehr ins einzelne gehenden und raffinierteren Modellen), in Abhängigkeit von den Erfordernissen der Anwendung. Wichtig ist, daß als Grundmodell ein Modell verwendet wird, das eine Mehrzahl von Flächen umfaßt, und zwar speziell Flächen, die in Abhängigkeit von der Art des zu modellierenden Gesichts (beispielsweise eines menschlichen Gesichts) Formen entsprechen, die allgemein gesprochen im wesentlichen bekannt sind und eine relative Anordnung haben, die insgesamt ebenfalls bekannt ist.
Wenn auch die Typologie des menschlichen Gesichts praktisch unbegrenzt ist, ist es doch eine bekannte Tatsache, daß die Fläche des Gesichts ein allgemein schalenförmiges Aussehen hat, daß die Augenlider eben eine "Augenlidfläche" haben, die zumindest marginal konvex ist, daß die Zahnbögen eine Bogenform haben usw Es ist weiterhin bekannt, daß die Augenlider in der mittleren oberen Region der Gesichtsfläche angeordnet sind, während die Zahnflächen in der unteren Region angeordnet sind.
Außerdem erlaubt die Tatsache der Verwendung getrennter Flächen für die Generierung des Modells, daß man für das Modell Separationsbedingungen anwen det, beispielsweise solche, die es ermöglichen, beispielsweise die gegenseitige Störung der Zahnflächen zu vermeiden, um so den Kongruenzeffekt der Zahnbögen genau zu modulieren.
Diese Charakteristik ist der Hinteransicht von 2 noch besser zu entnehmen.
Das erfindungsgemäße Verfahren ist im wesentlichen begründet auf der Lösung, daß man:

– ein Abbild (typischerweise eine Fotografie von vorne) des zu modellierenden Gesichts abnimmt und
– das Modell oder die Ausgangsschablone durch eine Serie von geometri schen Transformationen so modifiziert, daß ihre Projektion mit einer Gruppe von Punkten übereinstimmt, die auf der als ein Ausgangsbild angenommenen Fotografie identifiziert sind.

Für diese Adaptierung wird Gebrauch gemacht von entsprechenden Gruppen von Punkten, die in Übereinstimmung mit ebensovielen sogenannten "charakteristischen Punkten" ("feature points") gewählt sind: Solche Punkte sind definiert im Abschnitt "Face and body animation" der Norm ISO/IEC 14496-2 (MPEG-4), und sind in den 3A bis 3H wiedergegeben.
Speziell wird bei einer Durchführungsform, wie sie gegenwärtig bevorzugt wird, das erfindungsgemäße Verfahren implementiert durch Verwendung der charakteristischen Punkte, wie sie in der Norm MPEG-4 (wie sie zum Anmeldezeitpunkt der Erfindung definiert war) durch die folgenden Indizes identifiziert sind: 11.4, 2.1, 10.9, 10.10, 8.4, 8.1, 8.3, 8.2, 2.2, 2.3, 9.3, 9.2, 9.1, 4.1, 3.12, 3.8, 3.10, 3.14, 3.11, 3.13, 3.7 und 3.9. Jeder dieser Indizes entspricht einem Winkelscheitel oder Eckpunkt der Modellstruktur.
4 zeigt zusammengefaßt das erfindungsgemäße Verfahren, wie es durch das in 8 dargestellte System durchgeführt werden kann.
Dieses System, das insgesamt mit Ziffer 1 bezeichnet ist, enthält eine Aufnahmeeinheit 2, beispielweise eine digitale Kamera oder eine funktionell äquivalente Einheit wie beispielsweise eine konventionelle Kamera, die Fotografien erzeugen kann, welche nach der Entwicklung und dem Abdruck einem Abtast vorgang unterworfen werden. Ausgehend von einem Subjekt kann somit die Einheit 2 ein ebenes Abbild I des zu modulierenden Gesichts erzeugen: Dieses Abbild ist praktisch ein Bild der in 7A gezeigten Art.
Das so erhaltene Abbild I ist in der Form eines digitalisierten Bilds, d. h. es besteht aus einer Folge von Daten, die Pixel um Pixel die Informationen (Helligkeit, Farbcharakteristiken usw.), die sich auf dieses Abbild beziehen, wiedergeben.
Diese Folge von Daten wird einem Verarbeitungssytem 3 (im wesentlichen einem Computer) eingegeben, das – in Übereinstimmung mit Prinzipien, die einem Fachmann geläufig sind, nachdem die Kriterien der Durchführungsform der Erfindung, wie sie im einzelnen im folgenden angegeben werden, bekannt sind – die nachfolgend aufgelisteten Operationen durchführt:

– Identifizierung und Extrahierung der charakteristischen Punkte des Abbilds I, die dazu bestimmt sind, daß man sie beim Bearbeiten des Modells M verwendet,
– Lesen, aus einem dem Prozessor zugeordneten Speicher oder einer ähnlichen Unterlage 4, der dem Startmodell entsprechenden Daten, die zuvor gespeichert worden sind und, auch in diesem Fall gemäß wohlbekannten Modalitäten, gelesen werden,
– Ausführung der Verarbeitungsoperationen, die für das erfindungsgemäße Verfahren typisch sind, wie noch besser im folgenden beschrieben wird, und
– Generierung des verarbeiteten Ausgangsmodells, auch in diesem Fall in der Form digitaler Daten, die für das dreidimensionale Modell repräsentativ sind; diese Daten können zu einem weiteren Verarbeitungssystem (beispielsweise einem Animationssytem) übertragen und in ihm geladen werden und/oder in eine Speicherunterlage 5 (Floppydisk, CD-ROM usw.) für einen nachfolgenden Gebrauch heruntergeladen werden.

Die Operation der Anpassung des Startmodells M, das oben beschrieben wurde, an das Abbild I beruht auf einer virtuellen optischen Projektion des Modells M bzw. des Abbilds I, wie sie in einem System durchgeführt wird, dessen Brennpunkt im Ursprung O eines dreidimensionalen kartesischen Raums x, y, z liegt, in dem das Modell M im positiven Halbraum entlang der Z-Achse angeordnet wird und das Abbild I im negativen Halbraum angeordnet wird (siehe die schematische Darstellung von 4).
Man kann feststellen, daß die Feinanpassung des Modells M an das Abbild I auf der Annahme beruht, daß das Modell M als Gesamtes in bezug auf die Ebene XY des genannten Systems in einer allgemein gespiegelten Position in bezug auf den Bezug auf das Abbild I ausgerichtet ist. Das Modell M ist also mit einer Frontorientierung angeordnet, wenn eine Anpassung an ein Abbild I mit einer Vorderansicht benötigt wird. Umgekehrt wird das Modell M beispielsweise seitlich ausgerichtet, wenn es erforderlich ist, eine Anpassung an eine Seitenansicht des Kopfs der auf dem Abbild I dargestellten Person durchzuführen.
Dies gilt im wesentlichen auch für den Abstand α zwischen dem Ursprung O und dem Zentrum des Modells M sowie für den Abstand λ zwischen dem Ursprung O und der Ebene des Abbilds I. Zur Vereinfachung des Eichprozesses und um zu vermeiden, daß vom Anwender unbekannte Werte eingeführt werden, wird mindestens der Abstand α auf einen willkürlichen Wert gesetzt (beispielsweise 170 cm), der vorab durch Berechnen des Mittelwertes einer Gruppe von möglichen Fällen berechnet wird. Es muß noch berücksichtigt werden, das der Wert α nicht nur vom Abstand des Subjekts von der Kamera 2 zur Zeit der Aufnahme des Abbilds I abhängt, sondern auch von den Parametern dieser Kamera.
Im wesentlichen besteht das erfindungsgemäße Verfahren aus einer Serie von geometrischen Transformationen, die darauf zielen, die Projektion der interessierenden der charakteristischen Punkte des Modells M mit der homologen Gruppe von homologen Punkten, die am Abbild I identifiziert werden, in Übereinstimmung zu bringen.
Es seien dann (x_i.j, y_i.j, z_i.j) die Raumkoordinaten desjenigen Scheitel- oder Eckpunkts des Modells M, der dem charakteristischen Punkt ij (beispielsweise dem linken Rand des Gesichts) zugeordnet ist, und (x_i.j, y_i.j) die Koordinaten im Abbild I für den selben charakteristischen Punkt (bezogen auf ein örtliches System in der Ebene des Abbilds I, mit dem Ursprung zusammenfallend mit dem oberen Winkel des Abbilds, bei einer möglichen Ausführungsform).
Nach dem Start des Prozesses (Schritt 100 im Ablaufdiagramm von 9) ist der erste Operationsschritt (101 in 9) die Berechnung des Werts λ.
Es seien X₀, Y₀ die Koordinaten des Mittelpunkts des im Abbild I aufgenommenen Gesichts. Diese Koordinaten erhält man durch Auswerten der vier an den Rändern des Gesichts angeordneten Punkte (beispielsweise unter Bezugnahme auf die gegenwärtige Fassung der Norm MPEG-4 die Punkte 10.9 und 10.10: rechter Rand und linker Rand des Gesichts, und 11.4, 2.1: Oberseite des Kopfs und Spitze des Kinns). Es gilt dann die folgende Beziehung:
(in der Patentschrift fehlerhafterweise nach der 2. Gleichung noch die Ziffer "2", Bemerkung des Übersetzers)
Der Abstand λ wird so berechnet, daß die Breite der Projektion des Modells mit der Breite des Gesichts auf der Fotografie übereinstimmt, gemäß der folgenden Beziehung:
Anschließend (Schritt 102) wird die Position des Modells M entlang der Y Achse so verändert, daß seine Projektion vertikal in Übereinstimmung mit dem Inhalt des Abbilds I ist. Ein Wert Δy, berechnet gemäß der Beziehung:
wird zu jedem Eckpunkt hinzuaddiert.
Auf diese Weise wird das Modell in Vertikalrichtung maßlich angepaßt. Nach diesem Vorgang stimmt die Größe seiner Projektion mit der Fläche des im Abbild I wiedergegebenen Kopfs überein.
In einem nachfolgendem Schritt 103 wird jede Koordinate Y der Eckpunkte des Modells M mit einem Koeffizienten c multipliziert, der folgendermaßen berechnet wird:
Zu diesem Zeitpunkt (Schritt 104) wird am Modell eine globale Transformation in der vertikalen Richtung durchgeführt, um die Position einiger charakteristischer Merkmale des Gesichts (beispielsweise der Augenbrauen) mit denen der Person in Übereinstimmung zu bringen. Das Modell wird im wesentlichen entlang der Y Achse verändert, wie in 5 gezeigt ist.
Für die globale Transformation ist eine nichtlineare Transformation zu bevorzugen, vorzugsweise der zweiten Ordnung, und sie beruht höchstvorzugsweise auf einem parabolischen Gesetz, insbesondere von der Art entsprechend einer allgemeinen Parabel (y = az² + bz + c), die durch die drei Punkte der Ebene YZ verläuft:
Speziell in 5 entspricht das in einer liegenden Position und somit in einer horizontalen Richtung gezeigte Modell dem Modell vor der Transformation gemäß der oben beschriebenen parabolischen Funktion, während das in einer vertikalen Position gezeigte Modell das Ergebnis der Transformation ist.
Anschließend (Schritt 105, mit einer im wesentlichen zyklischen Struktur, die definiert wird durch einen Wählschritt 106, der herausfindet, ob die Folge als abgeschlossen angesehen werden kann) wird eine Serie von Transformationen (Verschiebungen, maßliche Anpassungen und affine Transformationen) durchgeführt, die dazu bestimmt sind, die individuellen Merkmale, die für das Gesicht charakteristisch sind, korrekt zu positionieren. Vorzugsweise sind die involvierten Operationen die folgenden:

– die Augenlider und die Augenkonturen werden mit Hilfe von zwei Verschiebungen und vier affinen Transformationen angepaßt;
– die Nase wird zunächst vertikal durch eine maßliche Anpassung angeglichen und dann durch zwei affine Transformationen verformt;
– der Mund wird durch Anwendung von vier affinen Transformationen modifiziert;
– der Bereich zwischen der Nasenbasis und dem oberen Rand des Munds wird verschoben und maßlich angepaßt;
– der Bereich zwischen dem unteren Ende des Munds und der Kinnspitze wird verschoben und maßlich angepaßt.

Vorzugsweise entsprechen die angewandten affinen Transformationen einer Transformation, die gemäß einer Beziehung der folgenden Art angegeben werden kann: x' = c1x +c2y + c3 y' = C4X + C5y + C6 wobei:
Die beschriebenen Formeln drücken eine planare Transformation aus, die durch die Ortsveränderung von drei Punkten bewirkt wird:

– (x₁, y₁), (x₂, y₂), (x₃, y₃) sind die Koordinaten dieser Punkte vor der Transformation,
– ((x'₁, y'₁), (x'₂, y'₂), (x'₃, y'₃) sind die entsprechenden Koordinaten nach der Transformation.

Als die letzten Operationen, die die Geometrie des Modells betreffen, werden zwei Gitterrahmen, die die Augen wiedergeben (Augenliderhaut und Iris), hinter den Augenlidern positioniert, um so deren Schließen zu ermöglichen und ausreichend Raum für eine Verschiebung zu lassen, durch die Bewegungen des Auges simuliert werden (Schritt 107). Dann werden bei dem Modell Standardzähne hinzugefügt, die keine gegenseitige Störung mit den Bewegungen des Munds bewirken (108).
Die in den 6A bis 6C dargestellte Folge zeigt die Entwicklung des Modells M (hier wiedergegeben nach dem Gitterrahmenmodus zur besseren Hervorhebung der Veränderung) in bezug auf die Vorderansicht des Grundmodells (6A), nach den affinen Transformationen (6B) und nach der Vervollständigung durch Augen und Zähne (6C).
An diesem Punkt wird dann das Anbringen der Gewebetextur am Modell durchgeführt (Schritt 109), indem jedem Eckpunkt eine zweidimensionale Koordinate zugeordnet wird, die ihn an einen spezifischen Punkt des Abbilds I bindet, und zwar gemäß eines als "Gewebeaufbringung" ("texture binding") bekannten Prozesses. Die sich auf die Gewebeaufbringung beziehenden Daten werden durch einfache Auswertung der Projektionsparameter α und λ berechnet, die zu Beginn der am Anfang dieser Beschreibung angegebenen Eichung definiert wurden. Die Zähne haben eine Standardtextur, die vorab definiert wurde.
Im Fall, in dem das Modell ausgehend von verschiedenen Abbildern erzeugt wird, wird ein weiterer Schritt, der die Generierung des Gewebes betrifft, durchgeführt. Dieser Schritt ist im Ablaufdiagramm von 9 nicht speziell dargestellt. Tatsächlich wird das das Modellgewebe enthaltende Bild erzeugt durch Verbinden der Informationen, die den verschiedenen Sichtpunkten zugeordnet sind.
Vorzugsweise wird, um die Auflösung des Bilds, das das Gewebe enthalten soll, besser auszunützen, die Form der Gewebetextur aller Dreiecke des Modells in ein Rechteck konstanter Größe transformiert. Die so erhaltenen Dreiecke werden dann jeweils paarweise miteinander gekoppelt, um eine Rechteckform zu erhalten. Die Rechtecke werden dann gemäß einer Matrixanordnung in das Bild so eingesetzt, daß dessen Fläche bedeckt wird. Die Größe der Rechtecke ist eine Funktion der Zahl der Dreiecke des Modells und der Größe des Bilds, das die Gewebetextur des Modells speichert.
10 zeigt ein Beispiel eines Bilds, das die Gewebetextur der verschiedenen Dreiecke enthält. Jedes Rechteck (die dargestellten Polygone sind keine Quadrate und werden gebildet von N·N + 1 Pixeln) enthält die Gewebetextur von zwei Dreiecken. Zu Beginn hat die Textur der einzelnen Dreiecke eine allgemeine Dreieckform, die mit Hilfe einer affinen Transformation und einer bilinearen Filterung in ein rechtwinkliges Dreieck transformiert worden ist.
Die 11 zeigt eine Einzelheit aus der vorhergegangenen 10, nämlich die tatsächliche Fläche der von zwei Dreiecken innerhalb des Rechtecks 300 verwendeten Gewebetextur. Für jedes Rechteck der Größe N·N + 1 beträgt die effektive Fläche N·N Pixel.
Es lohnt sich die Feststellung, daß dieser Prozeß der Gewebegenerierung nicht spezifisch für die Modelle eines menschlichen Gesichts ist, sondern in allen Fällen der Erzeugung eines dreidimensionalen Modells, ausgehend von mehreren Abbildern, anwendbar ist.
Das auf diese Weise erhaltene Modell kann dann dargestellt werden unter Anwendung verschiedener üblicher grafischer Formate (darunter, zusätzlich zur Norm MPEG-4, die oben genannt wurde, der Normen VRML 2.0 und OpenInventor). Alle Modelle können so animiert werden, daß die Lippenbewegungen und der Gesichtsausdruck reproduziert werden. Im Fall, in dem verschiedene, aus verschiedenen Sichtpunkten aufgenommene Abbilder der Person verfügbar sind, kann das beschriebene Verfahren auf die verschiedenen Abbilder angewandt werden, um so den Anblick des Modells zu verbessern. Das resultierende Modell ist offensichtlich gemäß der Orientierung des Abbilds ausgerichtet.
Es ist ersichtlich, das die Einzelheiten der Implementierung und der Durchführungsformen in bezug auf das, was beschrieben und dargestellt wurde, erheblich verändert werden können, wobei die hier dargelegten Prinzipien der Erfindung unverändert bleiben und der Umfang der Erfindung, wie sie in den nachfolgenden Ansprüchen definiert ist, nicht verlassen wird.

Claims

Verfahren zur Erzeugung dreidimensionaler Gesichtsmodelle (M), umfassend folgende Verfahrensschritte: – Bereitstellung von einem Gesichtsabbild (I) einer Person; – Bereitstellung eines dreidimensionalen Gesichtsmodells (M) mit einer Eckpunktstruktur und umfassend eine Anzahl von Flächen, die unter folgenden Flächen ausgewählt sind: einer Gesichtsfläche (V), einer rechten Augenfläche (OD) und einer linken Augenfläche (OS), und einer oberen Zahnfläche (DS) und einer unteren Zahnfläche (DI); – Wählen jeweiliger Gruppen homologer Punkte unter den Eckpunkten der Struktur des Modells (M) und auf dem wenigstens einen Gesichtsabbild (I); und – Modifizieren der Struktur des Modells (M) durch – Wählen einiger charakteristischen Merkmale des Gesichts, – Durchführen einer globalen nichtlinearen Transformation (104) in der vertikalen Richtung zum in Übereinstimmung Bringen der Positionen der charakteristischen Merkmale der Gesichtsfläche (V) mit denen der Person, – Wählen individueller Merkmale, die für das Gesicht charakteristisch sind, – Durchführen einer Serie spezifischer Transformationen (105) an den individuellen Merkmalen, so daß die jeweiligen Gruppen homologer Punkte zusammenfallen.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Augenflächen (OD, OS) und die Zahnflächen (DS, DI) so gewählt sind, daß keine gegenseitige Störung mit der Gesichtsfläche (V) eintritt.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Gruppen homologer Punkte unter den Eckpunkten der Struktur des Modells (M) entsprechend der Norm MPEG-4 gewählt sind.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Modifizierung der Struktur des Modells (M) die folgenden Vorgänge umfaßt: – Gleichmachen der Breite der Projektion des Modells (M) mit der Breite des Gesichtsabbilds (I), – Vertikale Ausrichtung der Projektion des Modells (M) in bezug auf das Gesichtsabbild (I), – Durchführen der globalen nichtlinearen Transformation des Modells (M) in der Vertikalrichtung.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die nichtlineare globale Transformation durch eine Funktion zweiter Ordnung durchgeführt wird, vorzugsweise durch eine parabolische Funktion.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Serie der spezifischen Transformationen der individuellen Merkmale wenigstens einen der folgenden Vorgänge umfaßt: – Anpassung der Augenlidprojektion und der Augenkonturen im Modell (M) an die homologen Bereiche in den Gesichtsabbildern (I) durch wenigstens einen Vorgang einer Translation oder einer affinen Transformation, – Anpassung, in der Vertikalrichtung, der Nase durch wenigstens einen Vorgang einer maßlichen Anpassung oder einer Deformation durch eine affine Transformation, – Modifizieren des Mundes durch wenigstens eine affine Transformation, – Translation und maßliche Anpassung des Bereichs zwischen der Nasenbasis und dem oberen Ende des Munds, und – Anpassung des Bereichs zwischen dem unteren Ende des Munds und der Kinnspitze mit Hilfe von Translation und maßlicher Anpassung.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß es als Endvorgang der Modifikation des Modells (M) den Vorgang umfaßt, daß man die Augenflächen (OD, OS) und/oder die Zahnflächen (DS, DI) nahe an der Gesichtsfläche (V) anbringt.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß man das Modifizieren der Struktur des Modells (M) in der Form einer geometrischen Operation durchführt, die man ausführt durch Positionierung des Gesichtsabbildes (I) und des Modells (M) in Gegenüberlage und Spiegelung der Positionen in bezug auf den Ursprung (O) eines dreidimensionalen kartesischen Systems (X, Y, Z).
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß es zusätzlich den Vorgang umfaßt, daß man auf das modifizierte Modell eine entsprechende Gewebetextur aufbringt.
Verfahren nach den Ansprüchen 8 und 9, dadurch gekennzeichnet, daß es die Vorgänge umfaßt, daß man wenigstens einen der folgenden Parameter berechnet: – Abstand a zwischen dem Ursprung (O) und einem Zentralpunkt des Modells (M), und – Abstand λ zwischen dem Ursprung (O) und der Ebene des Gesichtsabbilds (I), und Aufbringen der Gewebetextur auf das modifizierte Modell (M) durch einen Gewebeaufbringprozeß, der durchgeführt wird auf der Basis von wenigsten einem dieser Abstandsparameter.
Verfahren nach Anspruch 9 oder 10, gekennzeichnet durch die folgenden Vorgänge: – Schaffung einer Mehrzahl von Gesichtsabbildungen (I) entsprechend unterschiedlichen Punkten, von denen man auf dieses Gesicht schaut, – Erzeugung der auf dieses Modell (M) aufzubringenden Gewebetextur durch Erzeugen, für jedes der Gesichtsabbilder, einer jeweiligen Gewebetextur-Information in der Form rechtwinkliger Dreiecke konstanter Größe, – Kopplung der Dreiecke, die sich auf die Gewebetextur-Informationen beziehen, die von einer Mehrzahl von Abbildern abgeleitet worden ist, jeweils zwei zu zwei zum Erhalten jeweiliger Rechtecke als Ergebnis der Kopplung, und – Aufbringen der Gewebetextur auf dieses modifizierte Modell in der Form einer Matrix der Rechtecke.