DE69922752T2

DE69922752T2 - Verfahren zum Detektieren eines menschlichen Gesichtes

Info

Publication number: DE69922752T2
Application number: DE69922752T
Authority: DE
Inventors: Qi He Abingdon Hong; Nicolas Steven Wallingford Holliman; David Wallingford Ezra
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-09-05
Filing date: 1999-09-01
Publication date: 2005-12-15
Anticipated expiration: 2019-09-02
Also published as: GB2341231A; GB9819323D0; JP3761059B2; EP0984386A2; EP0984386B1; DE69922752D1; JP2000082147A; EP0984386A3; US6633655B1

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Detektieren eines menschlichen Gesichts. Ein derartiges Verfahren kann z. B. zum Aufnehmen eines Zielbilds in einem Initialisierungsstadium eines Bildnachfahrsystems verwendet werden.
Zu anderen Anwendungen derartiger Verfahren und Vorrichtungen gehören die Sicherheitsüberwachung, die Video- und Bildkompression, Videokonferenzen, Multimediadatenbank-Suche, Computerspiele, Fahrerüberwachung, grafische Benutzerschnittstellen, Gesichtserkennung und persönliche Identifizierung.
Autostereoskopische Displays ermöglichen es einem Betrachter, zwei getrennte Bilder, die ein stereoskopisches Paar bilden, durch Betrachten derartiger Displays mit den Augen in zwei Betrachtungsfenstern zu sehen. Beispiele derartiger Displays sind in EP 0 602 934 , EP 0 656 555 , EP 0 708 351 , EP 0 726 482 und EP 0 829 743 offenbart. Ein Beispiel eines bekannten Typs eines dem Betrachter nachfahrenden autostereoskopischen Displays ist in der 1 der beigefügten Zeichnungen veranschaulicht.
Das Display verfügt über ein Displaysystem 1, das mit einem Nachfahrsystem 2 zusammenwirkt. Das Nachfahrsystem 2 verfügt über einen Nachfahrsensor 3, der ein Sensorsignal an einen Nachfahrprozessor 4 liefert. Der Nachfahrprozessor 4 leitet aus dem Sensorsignal ein Betrachterpositions-Datensignal her, das einem Display-Steuerungsprozessor 5 des Displaysystems 1 geliefert wird. Der Prozessor 5 wandelt das Positionsdatensignal in ein Fensterlenksignal und liefert dieses an einen Lenkmechanismus 6 eines nachgefahrenen 3D-Displays 7. Die Betrachtungsfenster für die Augen des Betrachters werden demgemäß so gelenkt, dass sie einer Bewegung des Kopfs desselben folgen und, innerhalb des Arbeitsbereichs, die Augen desselben in den passenden Betrachtungsfenstern halten.
GB 2 324 428 und EP 0 877 274 offenbaren ein dem Betrachter nachfahrendes Videosystem mit kurzer Verzögerungszeit, hoher Aktualisierungsfrequenz und angemessener Messgenauigkeit für dem Betrachter nachfahrende autostereosko pische Displays. Die 2 der beigefügten Zeichnungen veranschaulicht ein Beispiel des Systems, das sich von dem in der 1 der beigefügten Zeichnungen dargestellten dadurch unterscheidet, dass der Nachfahrsensor 3 aus einer mit einer Halbbildrate von 60 Hz arbeitenden NTSC-Videokamera SONY XC999 besteht und der Nachfahrprozessor 4 mit einer Maus 8 versehen ist und aus einer Pegeleingabemaschine der Indy-Reihe von Silicon Graphics besteht, die mit einem bei 150 MHz arbeitenden R4400-Prozessor und einem Videodigitalisierer sowie einem Rahmenspeicher mit einer Auflösung von 640 × 240 Bildelementen (Pixeln) für jedes durch die Kamera 3 erfasste Halbbild versehen ist. Die Kamera 3 ist oben auf dem Display 7 angeordnet, und sie ist zum Betrachter ausgerichtet, der vor diesem sitzt. Der normale Abstand zwischen dem Betrachter und der Kamera 3 beträgt ungefähr 0,85 Meter, der Betrachter in der Quer- oder X-Richtung über eine Bewegungsfreiheit von ungefähr 540 mm verfügt. Der Abstand zwischen zwei Pixeln im durch die Kamera erzeugten Bild entspricht ungefähr 0,67 und 1,21 mm in der X- bzw. der Y-Richtung. Die Y-Auflösung ist halbiert, da jedes Halbbild mit Zeilensprung individuell genutzt wird.
Die 3 der beigefügten Zeichnungen veranschaulicht allgemein das durch den Prozessor 4 ausgeführte Nachfahrverfahren. Das Verfahren verfügt über ein Initialisierungsstadium, dem ein Nachfahrstadium 10 folgt. Während des Initialisierungsstadiums 9 wird ein Zielbild oder eine "Schablone" durch Speichern eines Teils eines Bild von der Kamera 3 aufgenommen. Das Zielbild enthält im Allgemeinen den Augenbereich des Betrachters, wie es unter 11 in der 4 der beigefügten Zeichnungen dargestellt ist. Wenn einmal das Zielbild oder die Schablone 11 erfolgreich aufgenommen wurde, wird im Nachfahrstadium 10 dem Betrachter nachgefahren.
Bei 12 wird eine globale Ziel- oder Schablonensuche ausgeführt, um die Position des Zielbilds im durch die Kamera 3 erzeugten Gesamtbild zu erkennen. Wenn einmal das Zielbild lokalisiert ist, erfolgt bei 13 eine Bewegungserfassung, nach der bei 14 eine lokale Ziel- oder Schablonensuche ausgeführt wird. Die Schablone-Abgleichschritte 12 und 14 werden durch Kreuzkorrelieren des Zielbilds in der Schablone mit jedem mit dieser überlagerten Unterabschnitt ausgeführt. Der feste Korrelationswert wird mit einem vorbestimmten Schwellenwert verglichen, um zu prüfen, ob das Nachfahren verlorenging, was in einem Schritt 15 erfolgt. Wenn dies der Fall ist, kehrt die Steuerung zum globalen Schablonen-Abgleichschritt 12 zurück. Andernfalls kehrt die Steuerung zum Schritt 13 zurück. Die Bewegungserfassung 13 und der lokale Schablonenableich 14 bilden eine Nachfahrschleife, die solange ausgeführt wird, wie das Nachfahren erhalten bleibt. Der Bewegungserfassungsschritt liefert Positionsdaten mittels eines Differenzverfahrens, das die Bewegung des Zielbilds zwischen aufeinanderfolgenden Halbbildern erfasst, und dies wird zur Position hinzugefügt, die durch den lokalen Schablonenabgleich im vorigen Schritt für das frühere Halbbild aufgefunden wurde.
Im Initialisierungsstadium 9 wird ein Zielbild oder eine Schablone des Betrachters vor dem Start des Nachfahrens erhalten. Beim in GB 2 324 428 und EP 0 877 274 offenbarten Initialisierungsstadium wird ein interaktives Verfahren verwendet, bei dem das Display 7 die eingehenden Videobilder anzeigt und ein Bildgenerator, der z. B. im Prozessor 4 realisiert ist, ein Grenzbild oder eine grafische Führung 16 auf dem Display erzeugt, wie es in der 5 der beigefügten Zeichnungen dargestellt ist. Eine vom Benutzer bedienbare Steuerung, die z. B. einen Teil der Maus 8 bildet, erlaubt eine manuelle Betätigung zum Aufnehmen des Bildbereichs innerhalb des Grenzbilds.
Der Betrachter sieht sein eigenes Bild gemeinsam mit dem Grenzbild, das die erforderliche Schablonengröße aufweist, auf dem Display 7. Der Betrachter richtet den Mittelpunkt zwischen seinen Augen mit der Mittellinie der grafischen Führung 16 aus, und dann aktiviert er das System zum Aufnehmen der Schablone, z. B. durch Betätigen einer Maustaste oder einer Tastaturtaste. Alternativ kann diese Ausrichtung dadurch bewerkstelligt werden, dass die grafische Führung 16 unter Verwendung der Maus 8 an die gewünschte Stelle gezogen wird.
Einen Vorteil einer derartigen interaktiven Technik zum Aufnehmen einer Schablone besteht darin, dass der Betrachter die Schablone mit akzeptierbarer Ausrichtungsgenauigkeit auswählen kann. Dazu gehören die Erkennung des menschlichen Gesichts und die Auswahl der interessierenden Bildbereiche, wie der Augenbereiche. Während der menschliche Gesichtssinn diesen Prozess trivial macht, wäre ein derartiger Schablonenableich für einen Computer schwierig, wenn alle möglichen Menschentypen mit verschiedenem Alter, Geschlecht, Augenform und Hautfarbe unter verschiedenen Beleuchtungsbedingungen berücksichtigt werden.
Jedoch ist ein derartiges interaktives Schablonenabgleichverfahren für regelmäßige Benutzer ungeeignet, da der Schablonenabgleich bei jeder Verwendung des Systems ausgeführt werden muss. Für unregelmäßige Benutzer wie einen Besucher, existiert ein weiteres Problem dahingehend, dass er die Zusammenwirkung mit dem System lernen muss. Zum Beispiel müssen neue Benutzer wissen, wie sie ihr Gesicht mit der grafischen Führung ausrichten müssen. Diese Ausrichtung scheint intuitiv zu sein, jedoch hat sie sich für viele neue Benutzer als schwierig herausgestellt. Daher ist es wünschenswert, eine verbesserte Anordnung zu schaffen, die die Einfachheit der Benutzung und die Marktakzeptierbarkeit von Nachfahrsystemen erhöht.
Um eine wiederholte Schablonenerfassung für jeden Benutzer zu vermeiden, ist es möglich, jede erfasste Schablone der Benutzer in einer Datenbank zu speichern. Wenn ein Benutzer das System das erste Mal verwendet, kann das interaktive Verfahren dazu verwendet werden, die Schablone aufzunehmen, die dann in der Datenbank gespeichert wird. Anschließende Verwendungen durch denselben Benutzer benötigen keine neue Schablone, da die Datenbank zum Auffinden seiner Schablone durchsucht werden kann. Es kann erforderlich sein, dass jeder Benutzer mehr als eine Schablone erstellt, um z. B. Änderungen der Beleuchtung und Änderungen von Gesichtsmerkmalen zu berücksichtigen. So hat diese Technik zwar den Vorteil, dass es vermieden wird, für jede Verwendung des Displays eine Schablone aufzunehmen, jedoch ist sie nur praxisgerecht, wenn die Anzahl der Benutzer sehr klein ist. Ansonsten würden das Erfordernis, eine große Datenbank aufzubauen, und die zugehörige lange Suchzeit jegliche kommerzielle Realisierung verhindern. Zum Beispiel könnten Kassenplatzsysteme mit vielen einmaligen Benutzern nicht leicht für jeden Benutzer einen Datenbank speichern.
Es ist möglich, Schablonen unter Verwendung von Bildverarbeitungs- und Computer-Bildsehtechniken automatisch aufzunehmen. Dies bildet im Wesentlichen ein Gesichts- und/oder Augenerkennungsproblem, das einen Teil eines allgemeineren Problems der Gesichtserkennung bildet. Ein vollständiges Gesichtserkennungssystem wäre dazu in der Lage, Gesichter automatisch zu erkennen und aus jedem Gesicht eine Person zu identifizieren. Die Aufgabe einer automatischen Gesichtserkennung ist von der einer Identifizierung verschieden, obwohl viele zur Identifizierung verwendete Verfahren auch zur Erkennung, und umgekehrt, verwendet werden können.
Vieles der Computer-Bildsehforschung auf dem Gebiet der Gesichtserkennung hat sich bisher auf die Identifizierungsaufgabe konzentriert, und Beispiele dazu sind von R. Brunelli und T. Poggio in "Face recognition through geometrical features", Proceedings of the 2rd European Conference on Computer Vision, S. 792–800, Genua 1992; in US 5 164992 A ; von M. Turk und A. Pentland in "Eigenfaces for recognition", Journal of Cognitive Neuroscience, Vol. 3, Nr. 1. S. 70–86 sowie von A.L. Yuille, D.S. Cohen und P.W. Hallinam in "Feature extraction from faces using deformable templates", International Journal of Computer Vision, 8(2), S. 99–111, 1992 offenbart. Viele dieser Beispiele haben ein deutliches Erfordernis nach automatischer Gesichtserkennung gezeigt, jedoch besteht die Tendenz, dass das Problem und die Lösung vernachlässigt werden oder sie nicht gut beschrieben sind. Diese bekannten Techniken gehen jeweils von einem bereits erfassten Gesicht aus, dessen Position in einem Bild bekannt ist, oder sie begrenzen die Anwendungen auf Situationen, in denen das Gesicht und der Hintergrund leicht getrennt werden können. Wenige bekannte Techniken zur Gesichtserkennung erzielen eine zuverlässige Erkennungsrate ohne Einschränkungen und lange Rechenzeit.
DE 19634768 offenbart ein Verfahren zum Detektieren eines Gesichts in einem Videobild. Bei diesem Verfahren wird ein Eingangsbild mit einem vorab abgespeicherten Hintergrund verglichen, um eine Binärmaske zu erzeugen, die dazu verwendet werden kann, den Kopfbereich zu lokalisieren, der ferner hinsichtlich der Möglichkeit des Vorliegens eines Gesichts analysiert wird. Dieses Verfahren erfordert einen kontrollierten Hintergrund, der sich nicht ändert. Jedoch ist es nicht unüblich, dass sich Menschen im Hintergrund bewegen, während ein Benutzer ein autostereoskopisches Display betrachtet.
G. Yang und T.S. Huang offenbaren in "Human face detection in complex backgrounds", Pattern Recognition, Vol. 27, Nr. 1, S. 53–63, 1994 ein Verfahren zum Lokalisieren menschlicher Gesichter in einem unkontrollierten Hintergrund unter Verwendung einer hierarchischen, wissensgestützten Technik. Das Verfahren umfasst drei Ebenen. Die höheren zwei Ebenen beruhen auf Mosaikbildern verschiedener Auflösungen. Auf der untersten Ebene ist ein Randerkennungsverfahren vorgeschlagen. Das System kann unbekannte menschliche Gesichter lokalisieren, die sich über einen ziemlich großen Bereich von Größen in einem schwarz-weiß-Bild erstrecken. Es wurde über Versuchsergebnisse unter Verwendung eines Satzes von 40 Bildern als Trainingssatz und eines Satzes von 60 Bildern als Testsatz berichtet. Jedes Bild verfügt über 512 × 512 Pixel und ermöglicht Gesichtsgrößen im Bereich von 48 × 60 bis 200 × 250 Pixel. Das System erzielte eine Erkennungsrate von 83%, d.h. 50 aus 60. Zusätzlich zu korrekt lokalisierten Gesichtern wurde in 28 Bildern des Testsatzes falsche Gesichter detektiert. Während diese Erfassungsrate relativ niedrig ist, besteht ein größeres Problem in der Rechenzeit von 60 bis 120 Sekunden zum Verarbeiten jedes Bilds.
US 5 012 522 offenbart ein System, das menschliche Gesichter in Videoszenen mit zufälligem Inhalt innerhalb von zwei Minuten lokalisieren kann und die lokalisierten Gesichter erkennen kann. Wenn wahlweise das Merkmal einer Bewegungserkennung enthalten ist, erfolgen die Lokalisierungs- und Erkennungsereignisse in weniger als 1 Minute. Das System beruht auf einer früheren autonomen Gesichtserkennungsmaschine (AFRM = autonomous face recognition machine), wie sie von E. J. Smith in der Doktorarbeit Doc.# AD-A178852, "Development of autonomous face recognition machine", Air Force Institute of Technology, Dezember 1986 offenbart ist, wobei verbesserte Werte für die Geschwindigkeit und die Erkennungstrefferquote vorliegen. Die AFRM wurde dadurch aus einer früheren Gesichtserkennungsmaschine entwickelt, dass ein automatischer "Gesichtsfinder" hinzugefügt wurde, der unter Verwendung der Cortical Thought Theory (CTT) entwickelt wurde. Zur CTT gehört die Verwendung eines Algorithmus, der die "Gestalt" eines vorgegebenen Musters berechnet. Gemäß der Theorie repräsentiert die Gestalt das Wesen oder die "einzigartige Charakteristik", die vom menschlichen Gehirn einem Gebilde wie einem zweidimensionalen Bild eindeutig zugewiesen wird. Der Gesichtsfinder arbeitet durch Durchsuchen eines Bilds nach bestimmten Gesichtseigenschaften oder "Signaturen". Die Gesichtssignaturen sind in den meisten Gesichtsbildern vorhanden, und sie sind kaum vorhanden, wenn kein Gesicht vorliegt.
Die wichtigste Gesichtssignatur in der AFRM ist die Augensignatur, die dadurch erzeugt wird, dass Spalten aus einem Bild entnommen werden und die Ergebnisse der aus jeder Spalte berechneten Gestalt aufgetragen werden. Als Erstes wird aus einem Bildgebiet mit 128 auf 192 Pixel ein Fenster von 8 Pixeln (vertikal) auf 192 Pixel (horizontal) entnommen. Das Fenster von 8 auf 192 Pixeln wird dann oben an einem neuen Bild mit 64 auf 192 Pixeln platziert. Die restlichen Zeilen des Bilds von 64 auf 192 Pixeln werden mit einer Hintergrundgraupegel-Intensität aufgefüllt, mit z. B. 12 von insgeamt 16 Graupegeln, wobei null schwarz repräsentiert. Das sich ergebende Bild wird dann dadurch in die Augensignatur transformiert, dass der Gestaltspunkt für jede der 192 vertikalen Spalten im Bild berechnet wird. Dies führt zu einem Gestaltspunktevektor von 192 Elementen. Wenn ein Augenbereich existiert, zeigt dieser Vektor ein Muster, das durch zwei zentrale Spitzenwerte entsprechend den Augenzentren und ein zentrales Minimum zwischen den zwei Spitzenwerten, gemeinsam mit zwei äußeren Minima auf jeder Seite, gekennzeichnet ist. Wenn eine derartige Signatur aufgefunden wird, kann ein Augenbereich existieren. Dann wird eine ähnliche Technik ange wandt, um eine Nase/Mund-Signatur zu erzeugen, um das Vorliegen eines Gesichts zu verifizieren. Die AFRM erzielte mit dem Gesichtsfinderalgorithmus unter Verwendung einer kleinen Bilddatenbank, die 139 Bilder enthielt (mit ungefähr vier bis fünf verschiedenen Abbildungen pro Person) eine Erfolgsrate von 94%. Ein Nachteil eines derartigen Systems besteht darin, dass in einem Bild zu viele Objekte existieren, die ein ähnliches Muster zeigen können. Daher handelt sich nicht um einen sehr zuverlässigen Gesichtslokalisierer. Ferner ist die Berechnung der Gestalten sehr rechenintensiv, so dass es schwierig ist, eine Echtzeitimplementierung zu erzielen.
EP 0 751 473 offenbart eine Technik zum Lokalisieren von Gesichts-Kandidatenbereichen durch Filterung, Faltung und Schwellenwertvergleich. Eine anschließende Analyse untersucht, ob Gesichts-Kandidatenmerkmale, insbesondere die Augen und der Mund, bestimmte Eigenschaften aufweisen.
US 5 715 325 offenbart eine Technik, die mit Bildern verringerter Auflösung arbeitet. In einem Lokalisierschritt wird ein Bild mit einem Hintergrundbild verglichen, um Gesichts-Kandidatenbereiche zu definieren. Eine anschließende Analyse beruht auf einem Bild mit drei Helligkeitspegeln, und sie wird dadurch ausgeführt, dass jeder Kandidatenbereich mit einer gespeicherten Schablone verglichen wird.
US 5 629 752 offenbart eine Technik, bei der eine Analyse auf der Lokalisierung von Körperkonturen in einem Bild und einer Überprüfung aus Symmetrie und andere Eigenschaften derartiger Konturen beruht. Bei dieser Technik wird auch nach horizontal symmetrischen Augenbereichen dadurch gesucht, dass horizontal symmetrische dunkle Ellipsen erfasst werden, deren Hauptachsen symmetrisch ausgerichtet sind.
Sako et al. offenbaren in Proceedings of 12 IAPR International Conference on Pattern Recognition, Jerusalem, 6.–13. Oktober 1994, Vol. II, S. 320–324 "Real Time Facial Feature Tracking Based on Matching Techniques and its Applications" verschiedene Analysetechniken einschließlich der Erkennung auf Augenbereichen durch Vergleiche mit einer gespeicherten Schablone.
Chen et al. führen gemäß IEEE (0-8186-7042-8), S. 591–596, 1995, "Face Detection by Fuzzy Pattern Matching" eine Lokalisierung eines Gesichtskandidaten durch Fuzzy-Abgleich auf ein "Gesichtsmodell" aus. Kandidaten werden dadurch analysiert, dass geprüft wird, ob Auge/Augenbraue- und Nase-/Mund-Bereiche vorhanden sind, was auf Grundlage eines undefinierten "Mo dells" erfolgt.
Sobattka et al. offenbaren in "Face Localization and facial feature extraction based on shape and color information", Proceedings of the International Conference on Image Processing (ICIP) Lausanne, 16.–19. September 1996, New York, IEEE, US, Vol. 3. S. 483–486, XP010202436 eine Technik zum Erkennen von Augenbereichen in einem Bild durch Erfassen eines Reliefs in der Richtung x bei einem Minimum einer Projektion eines Gesichts-Kandidatenbilds in der y-Richtung. Die x-Projektion wird durch Glätten mehrerer x-Reliefs verfälscht. Ein Augenbereich wird auf Grundlage zweier Minima erkannt, die zu verschiedenen Positionierungs- und Intensitätsbedingungen passen.
WO 96/38808 offenbart ein System zum Auffinden von Augenbereichen in einem Bild auf Grundlage eines Filters, das die relativ hohe horizontale Kontrastdichte nutzt, um Augenpositionen in einem Grauskalenbild eines Gesichts zu bestimmen. Es ist eine Technik offenbart, die eine Projektion in der y-Richtung verwendet.
Saber et al. offenbaren in "Face Detection and Facial Feature Extraction Using Color, Shape and Symmetry-bases Cost Functions", Proceedings of the International Conference on Pattern Recognition 1996, 1996-08-25, s. 654–658, XP002097369 eine Technik zum Lokalisieren von Gesichtsmerkmalen, wie Augen, in einem Gesichts-Kandidatenbild. Diese Technik arbeitet mit Centroiden provisorisch erfasster Gesichtsmerkmale, und sie sucht nach Symmetrie.
Gemäß einer ersten Erscheinungsform der Erfindung ist Folgendes geschaffen: ein Verfahren zum Detektieren eines menschlichen Gesichts in einem Bild, wobei im Bild ein Gesichts-Kandidatenbereich lokalisiert wird und dieser auf ein erstes Charakteristikum hin analysiert wird, das ein erstes Gesichtsmerkmal kennzeichnet, dadurch gekennzeichnet, dass das erste Charakteristikum ein im Wesentlichen symmetrisches, horizontales Helligkeitsprofil ist, das zwischen einem ersten und einem zweiten Minimum über ein Maximum verfügt, und dass zum Analysierschritt das Erzeugen einer vertikalen integralen Projektion eines Teils des Gesichts-Kandidatenbereichs und das Ermitteln gehören, ob die vertikale integrale Projektion über ein erstes und ein zweites Minimum verfügt, im Wesentlichen symmetrisch um ein Maximum angeordnet sind, dadurch gekennzeichnet, dass zum Analysierschritt das Unterteilen eines Teils des Gesichts-Kandidatenbereichs in eine linke und eine rechte Hälfte, das Erzeugen einer horizontalen integralen Projektion jeder der Hälften sowie das Vergleichen eines Maßes für die horizontale Symmetrie der linken und der rechten horizontalen integralen Projektion mit einem ersten Schwellenwert gehören.
Der Lokalisier- und der Analysierschritt können für jedes Bild einer Abfolge von Bildern wiederholt werden.
Das oder jedes Bild kann ein Farbbild sein, und der Analysierschritt kann an einer Farbkomponente dieses Farbbilds ausgeführt werden.
Im Analysierschritt kann ermittelt werden, ob die vertikale integrale Projektion über ein erstes und ein zweites Minimum verfügt, deren horizontaler Abstand innerhalb eines vorbestimmten Bereichs liegt.
Im Analysierschritt kann ermittelt werden, ob die vertikale integrale Projektion ein Maximum und ein erstes und ein zweites Minimum in solcher Weise aufweist, dass das Verhältnis der Differenz zwischen dem Maximum und dem kleineren betreffend das erste und das zweite Minimum zum Maximum größer als ein zweiter Schwellenwert ist.
Die vertikale integrale Projektion kann aus mehreren Teilen des Gesichtskandidaten erzeugt werden, und der Teil mit dem höchsten Verhältnis kann als mögliches Zielbild ausgewählt werden.
Der Analysierschritt kann das Erzeugen eines Maßes für die Symmetrie des Teils beinhalten.
Das Maß für die Symmetrie kann wie folgt erzeugt werden:
wobei V(x) der Wert der vertikalen integralen Projektion an der Horizontalposition x ist und x₀ die Horizontalposition der Mitte der vertikalen integralen Projektion ist.
Die vertikale integrale Projektion kann für mehrere Teile des Gesichtskan didaten erzeugt werden, und der Teil mit dem höchsten Symmetriemaß kann als mögliches Zielbild ausgewählt werden.
Im Analysierschritt kann ermittelt werden, ob der Gesichts-Kandidatenbereich über ein erstes und ein zweites Helligkeitsminimum verfügt, die im Wesentlichen auf derselben Höhe angeordnet sind, wobei ein horizontaler Abstand innerhalb eines vorbestimmten Bereichs vorliegt.
Im Analysierschritt kann ermittelt werden, ob der Gesichts-Kandidatenbereich über einen sich vertikal erstreckenden Bereich mit höherer Helligkeit als der des ersten und des zweiten Helligkeitsminimums verfügt, der zwischen diesen angeordnet ist.
Im Analysierschritt kann ermittelt werden, ob der Gesichts-Kandidatenbereich über einen sich horizontal erstreckenden Bereich verfügt, der unter dem sich vertikal erstreckenden Bereich angeordnet ist und geringere Helligkeit als dieser aufweist.
Zum Analysierschritt kann das Lokalisieren von Augenpupille-Kandidatenbereichen, im Gesichts-Kandidatenbereich, gehören, wo eine grüne Bildkomponente größer als eine rote Bildkomponente oder eine blaue Bildkomponente größer als eine grüne Bildkomponente ist. Das Lokalisieren der Augenpupille-Kandidatenbereiche auf Augen-Kandidatenbereiche des Gesichts-Kandidatenbereichs eingeschränkt wird. Im Analysierschritt kann eine Funktion E(x,y) für Bildelemente (x,y) in den Augen-Kandidatenbereichen wie folgt erzeugt werden:
wobei R, G und B eine rote, grüne und eine blaue Bildkomponente sind, C1 und C2 Konstanten sind, E(x,y) = 1 ein Bildelement innerhalb Augen-Pupillekandidatenbereiche repräsentiert und E(x,y) = 0 ein Bildelement außerhalb derselben repräsentiert. Im Analysierschritt können die Mitten der Augenpupillen als zentrale Punkte der Augenpupille-Kandidatenbereiche erfasst werden.
Zum Analysierschritt kann das Lokalisieren eines Mund-Kandidatenbereichs in einem Unterbereich des Gesichts-Kandidatenbereichs gehören, der horizontal zwischen den Augenpupille-Kandidatenbereichen und vertikal unter dem Niveau derselben zwischen im Wesentlichen der Hälfte und im Wesentlichen dem eineinhalbfachen des Abstands zwischen denselben liegt. Im Analysierschritt kann eine Funktion M(x,y) für Bildelemente (x,y) in den Unterbereichen wie folgt erzeugt werden:
wobei R, G und B eine rote, grüne und eine blaue Bildkomponente sind, η eine Konstante ist, M(x,y) = 1 ein Bildelement innerhalb des Munds repräsentiert und M(x,y) = 0 ein Bildelement außerhalb desselben repräsentiert. Es können vertikale und horizontale Projektionsprofile der Funktion M(x,y) erzeugt werden und ein Lippen-Kandidatenbereich in einem rechteckigen Unterbereich definiert werden, in dem die vertikalen und horizontalen Projektionsprofile einen ersten bzw. einen zweiten vorbestimmten Schwellenwert überschreiten. Der erste und der zweite vorbestimmte Schwellenwert proportional zu Maxima der vertikalen bzw. horizontalen Projektionsprofile sein.
Im Analysierschritt kann überprüft werden, ob das Seitenverhältnis des Lippen-Kandidatenbereichs zwischen einem ersten und einem zweiten vorbestimmten Schwellenwert liegt.
Im Analysierschritt kann überprüft werden, ob das Verhältnis des vertikalen Abstands von den Augenpupille-Kandidatenbereichen zur Oberseite des Lippen-Kandidatenbereichs zum Abstand zwischen den Augenpupille-Kandidatenbereichen zwischen einem ersten und einem zweiten voreingestellten Schwellenwert liegt.
Zum Analysierschritt können das Unterteilen eines Teils des Gesichts-Kandidatenbereichs in eine linke und eine rechte Hälfte und ein Vergleichen der Winkel der Helligkeitsgradienten horizontal symmetrisch angeordneter Paare von Punkten für Symmetriezwecke gehören.
Der Lokalisier- und der Analysierschritt können gestoppt werden, wenn sich das erste Charakteristikum r mal in R aufeinanderfolgenden Bildern der Abfolge findet.
du Zum Lokalisierschritt kann ein Durchsuchen des Bilds nach einem Ge sichts-Kandidatenbereich mit einem zweiten Charakteristikum, das für ein menschliches Gesicht kennzeichnend ist, gehören.
Das zweite Charakteristikum kann eine gleichmäßige Sättigung sein.
Zum Durchsuchungsschritt können ein Verringern der Auflösung des Bilds durch Mitteln der Sättigung, um ein Bild mit verringerter Auflösung zu erzeugen, und ein Suchen nach einem Bereich des Bilds mit verringerter Auflösung, der, mit einer vorbestimmten Form, eine im Wesentlichen gleichmäßige Sättigung aufweist, die sich wesentlich von der Sättigung des Teils des Bilds mit verringerter Auflösung um die vorbestimmte Form herum unterscheidet, gehören.
Das Bild kann mehrere Bildelemente enthalten und die Auflösung so verringert werden, dass die vorbestimmte Form um zwei bis drei Elemente des Bilds mit verringerter Auflösung entfernt liegt.
Das Bild kann ein rechteckiges Array von M auf N Bildelementen aufweisen, das Bild mit verringerter Auflösung kann (M/m) auf (N/n) Bildelemente aufweisen, wobei jedes m auf n Bildelementen des Bilds entspricht, und die Sättigung jedes Bildelements des Bilds mit verringerter Auflösung kann wie folgt gegeben sein:
wobei f(i,j) die Sättigung des Bildelements in der Spalte i und der Zeile j der m auf n Bildelemente ist.
Die Sättigungswerte können in einem Speicher abgespeichert werden.
Jedem der Elemente des Bilds mit verringerter Auflösung ein Gleichmäßigkeitswert dadurch zugeschrieben werden, dass die Sättigung jedes derselben mit der Sättigung mindestens eines benachbarten Elements des Bilds mit verringerter Auflösung verglichen wird.
Jedem Gleichmäßigkeitswert kann ein erster Wert zugeschrieben werden, wenn (max(P) – min(P))/max(P) ≤ T gilt, wobei max(P) und min(P) der Maximal- bzw. der Minimalwert der Sättigungswerte des Elements im Bild mit verringerter Auflösung sowie des oder jedes benachbarten Bildelements sind und T ein Schwellenwert ist, und dass ihm andernfalls ein vom ersten Wert verschiedener zweiter Wert zugewiesen wird.
T kann im Wesentlichen 0,15 sein.
Dem oder jedem benachbarten Element im Bild mit verringerter Auflösung kann kein Gleichmäßigkeitswert zugeschrieben werden, und jeder Gleichmäßigkeitswert kann an Stelle des entsprechenden Sättigungswerts im Speicher abgespeichert wird.
Die Auflösung kann so verringert werden, dass die vorbestimmte Form zwei oder drei Elemente im Bild mit verringerter Auflösung entfernt liegt, und zum Verfahren kann ferner die Kennzeichnung der Detektion eines Gesichts-Kandidatenbereichs gehören, wenn ein dem ersten Wert entsprechender Gleichmäßigkeitswert entweder ein Element im Bild mit verringerter Auflösung oder zwei vertikal oder horizontal benachbarten Elementen im Bild mit verringerter Auflösung oder einem rechteckigen Zwei-auf-zwei-Array von Bildelementen zugeschrieben ist und wenn ein dem zweiten Wert entsprechender Gleichmäßigkeitswert jedem umgebenden Element im Bild mit verringerter Auflösung zugeschrieben ist.
Die Detektion kann dadurch angezeigt werden, dass ein dritter Wert, der vom ersten und zweiten Wert verschieden ist, anstelle des entsprechenden Gleichmäßigkeitswerts im Speicher abgespeichert wird.
Zum Verfahren kann das Wiederholen der Auflösungsverringerung und des Suchens mindestens ein Mal, wobei die Elemente im Bild mit verringerter Auflösung in Bezug auf die Abbildungs-Bildelemente verschoben sind, gehören.
Die Sättigung aus Komponenten für Rot, Grün und Blau kann wie folgt hergeleitet werden: (max(R,G,B) – min(R,G,B))/max(R,G,B) wobei max(R,G,B) und min(R,G,B) der Maximal- bzw. Minimalwert der Komponenten für Rot, Grün und Blau sind.
Ein erstes Bild kann aufgenommen werden, während ein Bereich erwarteter Positionen eines Gesichts beleuchtet wird, ein zweites Bild unter Verwendung von Umgebungslicht aufgenommen wird und das zweite Bild vom ersten Bild subtrahiert wird, um die Abbildung zu erzeugen.
So ist es möglich, ein Verfahren zum automatischen Detektieren eines menschlichen Gesichts in z. B. einem eingehenden Videobildstrom oder -abfolge zu schaffen. Dieses kann z. B. zum Ersetzen des interaktiven Verfahrens zum Aufnehmen einer Schablone, wie oben beschrieben und wie in GB 2 324 428 und EP 0 877 274 offenbart, z. B. in einem Initialisierungsstadium eines dem Betrachter nachfahrenden Videosystems in Zusammenhang mit einem nachgefahrenen autostereoskopischen Display verwendet werden. Die Verwendung derartiger Techniken zur automatischen Zielbildaufnahme erhöht die Einfachheit der Verwendung eines dem Betrachter nachfahrenden Videosystems und eines zugehörigen autostereoskopischen Displays, wodurch die kommerziellen Aussichten für derartige Systeme verbessert werden.
Unter Verwendung einer zweistufigen Vorgehensweise in Form eines Gesichtslokalisierers und eines Gesichtsanalysators ermöglicht es der Gesichtslokalisierer, die rechenintensivere Gesichtsanalyse auf eine Anzahl von Gesichtskandidaten einzuschränken. Eine derartige Anordnung kann ein Gesicht in einer Abfolge von Gesichtern, z.B. mit einer Geschwindigkeit zwischen 5 und 30 Hz, abhängig von der Kompliziertheit des Bildinhalts detektieren. Wenn die Gesichtserkennung in bei einem dem Betrachter nachfahrenden autostereoskopischen Display verwendet wird, kann die Gesichtserfassung automatisch beendet werden, nachdem ein Gesicht konstant über eine Anzahl aufeinander folgender Bilder detektiert wurde. Der gesamte Prozess muss nicht mehr als ein paar Sekunden in Anspruch nehmen, und die Initialisierung muss nur einmal zu Beginn jeder Nutzung des Systems ausgeführt werden.
Der Gesichtslokalisierer erhöht die Zuverlässigkeit der Gesichtsanalyse, da diese nur am oder jedem Gesichts-Kandidatenbereich im oder jedem Bild ausgeführt werden muss. Obwohl ein Nicht-Gesichtskandidatenbereich Bilddaten enthalten kann, die ähnlich solchen sein können, die Gesichtsmerkmale anzeigen können, begrenzt der Gesichtslokalisierer die auf derartige Eigenschaften beruhende Analyse auf die mögliche Gesichtskandidaten. Ferner trägt die Analyse dazu bei, durch den Lokalisierer aufgefundene falsche Gesichtskandidaten zu beseitigen, und sie kann genauere Positionsdaten zu einem Gesicht und zugehörigen Gesichtsmerkmalen liefern, wie zum Mittelpunkt zwischen den Augen eines Betrachters, so dass ein Zielbild des Augen bereichs erhalten werden kann.
Durch Trennen der Lokalisier- und der Analysierfunktion kann jede Funktion oder jeder Schritt einfachere und effizientere Methoden verwenden, die kommerziell implementiert werden können, ohne dass übermäßige Rechenleistung und -kosten erforderlich wären. Zum Beispiel können beim Lokalisieren möglicher Gesichtskandidaten unter Verwendung der Hautfarbe vernünftige Beleuchtungsänderungen berücksichtigt werden. Diese Technik kann einen relativ großen Bereich von Beleuchtungsbedingungen berücksichtigen, und sie kann mit Menschen verschiedenen Alters, verschiedenen Geschlechts und verschiedener Hautfarbe zurechtkommen. Sie kann sogar mit dem Tragen einer leicht gefärbten Brille zurechtkommen.
Diese Techniken können eine beliebige Anzahl von Modulen hinsichtlich der Computerimplementierung verwenden. Jedes dieser Module kann so ausgetauscht oder modifiziert werden, dass es verschiedenen Erfordernissen genügt. Dies erhöht die Flexibilität des Systems, das daher einen relativ großen Anwendungsbereich haben kann, wie zur Sicherheitsüberwachung, zur Video-Bildkompression, für Videokonferenzen, für Computerspiele, zur Fahrerüberwachung, als grafische Benutzerschnittstellen, zur Gesichtserkennung und zur Personenidentifizierung.
Die Erfindung wird unter Bezugnahme auf die beigefügten Zeichnungen beispielhaft weiter beschrieben.
1 ist ein schematisches Blockdiagramm eines bekannten Typs eines dem Betrachter nachfahrenden autostereoskopischen Displays;
2 ist ein schematisches Blockdiagramm eines dem Betrachter nachfahrenden autostereoskopischen Displays, bei dem die Erfindung angewandt werden kann;
3 ist ein Flussdiagramm zum Veranschaulichen eines Betrachternachfahrvorgangs beim Display der 2;
4 veranschaulicht ein typisches Zielbild oder eine Schablone, die durch das in der 3 veranschaulichte Verfahren aufgenommen wird;
5 veranschaulicht das Aussehen eines Displays während der Schablonenaufnahme durch das Display der 2;
6 ist ein Flussdiagramm zum Veranschaulichen eines eine Ausführungsform der Erfindung bildenden Verfahrens zum Detektieren eines menschlichen Gesichts;
7 ist ein Flussdiagramm zum Veranschaulichen eines Gesichtslokalisierteils des in der 6 veranschaulichten Verfahrens;
8 ist ein Diagramm zum Veranschaulichen eines Farbsättigungswerts(HSV = hue-saturation-value)-Farbschemas;
9 ist ein Diagramm zum Veranschaulichen einer Verringerung der Bildauflösung durch Mittelung beim in der 7 veranschaulichten Verfahren;
10 ist ein Diagramm zum Veranschaulichen der Berechnung von Gleichmäßigkeitswerten beim in der 7 veranschaulichten Verfahren;
11 ist ein Diagramm zum Veranschaulichen von Mustern, wie sie bei der Gesichtskandidatenauswahl beim in der 7 veranschaulichten Verfahren verwendet werden;
12 ist ein Diagramm zum Veranschaulichen des Effekts verschiedener Positionen eines Gesichts beim in der 7 veranschaulichten Verfahrens;
13 ist ein Diagramm zum Veranschaulichen einer Modifizierung des in der 7 veranschaulichten Verfahrens, um verschiedenen Gesichtspositionen zu genügen;
14 ist ein Flussdiagramm zum detaillierteren Veranschaulichen des Gesichtsanalysierstadiums des in der 6 veranschaulichten Verfahrens;
15 ist ein Flussdiagramm zum detaillierteren Veranschaulichen eines Gesichtsmerkmal-Entnahmeschritts beim in der 14 veranschaulichten Verfahren;
16 veranschaulicht einen Bildabschnitt eines Augenbereichs und eine entsprechende vertikale, integrale Projektion;
17 veranschaulicht eine Technik zum Suchen nach einer Augensignatur;
18 ist ein Flussdiagramm zum Veranschaulichen einer weiteren Gesichtseigenschaft-Entnahmetechnik, die Teil des in der 14 dargestellten Verfahrens ist;
19 veranschaulicht vertikale, integrale Projektionen zu grober Schrittgröße;
20 veranschaulicht die Verwendung horizontaler, integraler Projektionsprofile zum Beseitigen falscher Gesichtskandidaten;
21 veranschaulicht das Detektieren eines Paars Augen, wie als Paar von Helligkeitsminima repräsentiert;
22 veranschaulicht eine Nasenerkennungstechnik;
23 ist ein Flussdiagramm zum detaillierteren Veranschaulichen eines modifizierten Gesichtsmerkmal-Entnahmeschritts beim in der 14 veranschaulichten Verfahren;
24 veranschaulicht einen Augenpupillen- und einen Mundbereich mit vertikalen und horizontalen, integralen Projektionen des Mundbereichs;
25 veranschaulicht eine Technik auf Grundlage einer Analyse der Gesichtssymmetrie;
26 ist ein Flussdiagramm zum Veranschaulichen einer Technik zum Beenden des in der 14 veranschaulichten Verfahrens;
27 ist ein schematisches Blockdiagramm eines dem Betrachter nachfahrenden Displays, bei dem die Erfindung angewandt ist; und
28 ist ein Systemblockdiagramm eines Video-Nachfahrsystems des Displays der 13 zum Ausführen des erfindungsgemäßen Verfahrens.
Gleiche Bezugszahlen kennzeichnen in allen Zeichnungen gleiche Teile.
Die 6 veranschaulicht in Flussdiagrammform ein Verfahren zum automatischen Detektieren und Lokalisieren eines menschlichen Gesichts in einem in Pixel unterteilten Farbbild aus einer Videobildabfolge. Die Videobildabfolge kann in Echtzeit geliefert werden, z. B. durch eine Videokamera des Typs, der oben unter Bezugnahme auf die 2 beschrieben wurde. Das Verfahren kann hinsichtlich des in der 3 veranschaulichten Initialisierungsstadiums 9 in Echtzeit arbeiten, und es liefert ein Zielbild oder eine Schablone an das in der 3 veranschaulichte Nachfahrstadium 10.
In einem Schritt S1 wird das jüngste digitale Bild im Format mit Rot, Grün und Blau (RGB) erhalten. Zum Beispiel kann es zu diesem Schritt gehören, dass das jüngste Halbbild von Videodaten von der Videokamera in einem Halbbildspeicher gespeichert wird. In einem Schritt S2 wird das Bild durchsucht, um Bereiche zu lokalisieren, die Gesichtskandidaten bilden. In einem Schritt S3 wird ermittelt, ob irgendwelche Gesichtskandidaten aufgefunden wurden. Falls nicht, wird der Schritt S1 ausgeführt, und es werden die Schritte S2 und S3 wiederholt, bis im jüngsten Bild mindestens ein Gesichtskandidat aufgefunden ist. Die Schritt S2 und S3 bilden daher einen Gesichtslokalisierer 17, der nachfolgend detaillierter beschrieben wird. Der oder jeder Gesichtskandidat wird dann an einen Gesichtsanalysierer 18 geliefert, der die Gesichtskandidaten analysiert, um das Vorliegen einer oder mehrerer Eigenschaften zu ermitteln, die Gesichtsmerkmale anzeigen. In einem Schritt S4 werden die Abschnitte des Bilds, entsprechend Gesichtskandidaten, wie sie durch den Gesichtslokalisierer 17 lokalisiert wurden, einzeln empfangen. Im Schritt S4 wird jeder Gesichtskandidat analysiert, und wenn ermittelt wird, dass der Kandidat Eigenschaften enthält, die ein Gesichtsmerkmal anzeigen, wird ein Zielbild oder eine Schablone in Form eines Augenbereichs, wie bei 11 in der 4 veranschaulicht, aus dem vom Schritt S1 gelieferten jüngsten Bild entnommen. In einem Schritt S5 wird ermittelt, ob alle Gesichtskandidaten getestet wurden, und der Schritt S4 wird wiederholt, bis alle Kandidaten getestet wurden. In einem Schritt S6 wird ermittelt, ob irgendwelche Schablonen erhalten wurden. Falls nicht, geht die Steuerung zum Schritt S1 weiter, und die Prozedur wird für das nächste Farbbild wiederholt. Wenn irgendeine Schablone erhalten wurde, wird die oder jede derartige Schablone in einem Schritt S7 ausgegeben.
Der Gesichtslokalisierer 17 kann von jedem geeigneten Typ sein, und nachfolgend wird eine manuelle Technik zur Gesichtslokalisierung beschrieben. Jedoch ist in GB 2 333 590 und EP 0 932 114 eine geeignete automatische Technik offenbart, und dies wird unter Bezugnahme auf die 7 bis 13 detailliert beschrieben.
In einem Schritt S21 wird das Videobild aus dem RGB-Format in das HSV(huesaturation-value = Farbsättigungswert)-Format gewandelt, um die Sättigung jedes Pixels zu erhalten. In der Praxis reicht es aus, im Schritt S21 nur die S-Komponente zu erhalten.
Das RGB-Format ist ein Hardware-orientiertes Farbschema, das sich aus der Art ergibt, gemäß der Kamerasensoren und Display-Leuchtstoffe arbeiten. Das HSV-Format steht in engem Zusammenhang mit dem Konzept der Farbe, der Schattierung und des Farbtons. Im HSV-Format repräsentiert der Ton die durch die Lichtwellenlänge angegebene Farbe (z. B. Unterscheidung zwischen Rot und Gelb), die Sättigung repräsentiert die Stärke der vorhandenen Farbe (z. B. Unterscheidung zwischen Rot und Rosa), und der Wert repräsentiert die Lichtstärke (z. B. Unterscheidung zwischen Dunkelrot und Hellrot oder zwischen Dunkelgrau und Hellgrau). Der "Raum", in dem diese Werte aufgetragen werden, kann als Kreis- oder Sechseckkegel oder als Doppelkegel aufgetragen werden, wie es z. B. in der 8 veranschaulicht ist, wobei die Achse des Kegels das Fortschreiten der Grauskala von Schwarz nach Weiß repräsentiert, der Abstand von der Achse die Sättigung repräsentiert und die Richtung oder der Winkel um die Achse den Farbton repräsentiert.
Die Farbe menschlicher Haut wird durch eine Kombination von Blut (Rot) und Melanin (Gelb, Braun) erzeugt. Hautfarben liegen zwischen diesen zwei extremen Farbtönen, und sie sind etwas gesättigt, jedoch nicht extrem gesättigt. Die Sättigungskomponente des menschlichen Gesichts ist relativ gleichmäßig.
Es existieren mehrere Techniken, um Videobilddaten aus dem RGB-Format in das HSV-Format zu wandeln. Es kann jede Technik verwendet werden, die die Sättigungskomponente entnimmt. Zum Beispiel kann die Wandlung entsprechend dem folgenden Ausdruck für die Sättigungskomponente S ausgeführt werden:
S = 0 für max(R,G,B) = 0 S = (max(R,G,B) – min(R,G,B)/max(R,G,B), andernfalls
Folgend auf den Wandlungsschritt S21 wird die räumliche Bildauflösung der Sättigungskomponente in einem Schritt S22 durch Mittelung verkleinert. Wie oben unter Bezugnahme auf die 2 beschrieben, ist der ungefähre Abstand des Gesichts eines Betrachters vom Display bekannt, so dass die ungefähre Größe eines Gesichts in jedem Videobild bekannt ist. Die Auflösung wird so verringert, dass das Gesicht eines erwachsenen Betrachters ungefähr zwei bis drei Pixel in jeder Dimension belegt, wie es in der 7 dargestellt ist. Eine Technik, um dieses zu bewerkstelligen, wird nachfolgend detail lierter beschrieben.
In einem Schritt S23 werden, im Bild verringerter Auflösung aus dem Schritt S22 Bereiche oder "Kleckse" gleichmäßiger Sättigung vorbestimmter Größe und Form, umgeben durch einen Bereich von Pixeln verringerter Auflösung mit anderer Sättigung, erfasst. Eine Technik, um dies zu bewerkstelligen, wird ebenfalls nachfolgend detaillierter beschrieben. In einem Schritt S24 wird erfasst, ob ein Gesichtskandidat oder ein gesichtsähnlicher Bereich aufgefunden wurde. Falls nicht, werden die Schritte S1 bis S24 wiederholt. Wenn im Schritt S24 geklärt wird, dass mindestens ein Kandidat aufgefunden wurde, wird die Position des oder jedes gleichmäßigen Kleckses, wie im Schritt S22 detektiert, in einem Schritt S25 ausgegeben.
Die 9 veranschaulicht detaillierter den Schritt S22 zum Verringern der Bildauflösung. 30 veranschaulicht die Pixelstruktur eines dem Schritt S1 zugeführten Bilds. Die räumliche Auflösung ist als regelmäßiges Rechteckarray von M×N quadratischen oder rechteckigen Pixeln veranschaulicht. Die räumliche Auflösung wird durch Mittelung verringert, um ein Array von ((M/m)×(N/n) Pixeln zu ergeben, wie es bei 31 veranschaulicht ist. Das Array von Pixeln 30 ist effektiv in "Fenster" oder rechteckige Blöcke von Pixeln 32 unterteilt, von denen jeder M×N Pixel der Struktur 30 enthält. Die S-Werte der Pixel sind in der 9 als f(i,j), für 0≤i<m und 0≤j<n, angegeben. Der mittlere Sättigungswert P des Fensters wird wie folgt berechnet:
Bei der in den Zeichnungen veranschaulichten Ausführungsform ist die Verringerung der räumlichen Auflösung dergestalt, dass das Gesicht eines erwachsenen Betrachters ungefähr zwei bis drei der Pixel bei verringerter Auflösung in jeder Dimension belegt.
Zum Schritt S23 gehört das Zuweisen eines Gleichmäßigkeitsstatus oder -werts U zu dem Pixel bei verringerter Auflösung mit anschließender Erfassung von Mustern von Gleichmäßigkeitswerten, die gesichtsähnliche Bereiche repräsentieren. Der Gleichmäßigkeitswert beträgt abhängig von der Sättigung des Pixels und seiner Nachbarn 1 oder 0. Die 10 veranschaulicht bei 35 ein Pixel mit einem gemittelten Sättigungswert P₀, wobei die gemittelten Sättigungswerte der drei benachbarten Pixel P₁, P₂ und P₃ betragen. Die Zuweisung von Gleichmäßigkeitswerten beginnt am oberen linken Pixel 37, und sie geht von links nach rechts weiter, bis dem vorletzten Pixel 38 der obersten Zeile sein Gleichmäßigkeitswert zugewiesen wurde. Dieser Prozess wird dann für jede Zeile der Reihe nach von oben nach unten wiederholt, bis er in der vorletzten Zeile endet. Durch "Durchscannen" der Pixel auf diese Weise und durch Verwenden benachbarter Pixel rechts und unter dem Pixel, dessen Gleichmäßigkeitswerte berechnet wurde, ist es möglich, die Sättigungswerte P dadurch durch die Gleichmäßigkeitswerte U zu ersetzen, dass ein Überschreiben erfolgt, so dass die Speicherkapazität effizient genutzt werden kann und es nicht erforderlich ist, für die Gleichmäßigkeitswerte für weitere Speicherkapazität zu sorgen.
Der Gleichmäßigkeitswert U wird wie folgt berechnet:
U = 1 wenn (fmax – fmin)/fmax≤T gilt
U = 0 andernfalls
wobei T ein vorbestimmter Schwellenwert ist, beispielsweise mit dem typischen Wert von 0,15, fmax das Maximum von P₀, P₁, P₂ und P₃ ist, und fmin das Minimum von P₀, P₁, P₂ und P₃ ist.
Wenn das Zuschreiben der Gleichmäßigkeitswerte abgeschlossen ist, enthält das Array 36 ein Muster von Werten 0 und 1, die die Gleichmäßigkeit der Sättigung der Pixel bei verringerter Auflösung repräsentieren. Dann sucht der Schritt S23 nach speziellen Mustern von Werten 0 und 1, um gesichtsähnliche Bereiche zu detektieren. Die 11 veranschaulicht ein Beispiel von vier Mustern von Gleichmäßigkeitswerten sowie die entsprechenden Pixelsättigungsmuster, die wie Gesichtskandidaten in Videobildern aussehen. Die 11 zeigt bei 40 einen gleichmäßigen Klecks, in dem dunkle Bereiche gemittelte Sättigungswerte ausreichender Gleichmäßigkeit repräsentieren, um einen gesichtsähnlichen Bereich anzuzeigen. Die umgebenden hellen Bereiche oder Quadrate repräsentieren einen Bereich, der die Pixel gleichmäßiger Sättigung umgibt und der im Wesentlichen andere Sättigungen aufweist. Das entsprechende Muster von Gleichmäßigkeitswerten ist bei 41 veranschaulicht und es entspricht einer Kompression eines Pixelorts mit dem Gleichmäßigkeitswert 1, der vollständig von Pixelorten mit dem Gleichmäßigkeitswert 0 umgeben ist.
In ähnlicher Weise zeigt die 11 bei 42 einen anderen gesichtsähnlichen Bereich, und sie zeigt bei 43 das entsprechende Muster von Gleichmäßigkeitswerten. In diesem Fall verfügen zwei horizontal benachbarte Pixelorte über den Gleichmäßigkeitswert 1, und sie sind vollständig mit Pixelorten mit dem Gleichmäßigkeitswert 0 umgeben. Die 11 veranschaulicht bei 44 ein drittes Muster, dessen Gleichmäßigkeitswerte dergestalt sind, wie es bei 45 dargestellt ist, und die dergestalt sind, dass zwei vertikal benachbarte Pixelorte den Gleichmäßigkeitswert 1 aufweisen und sie durch Pixelorte mit dem Gleichmäßigkeitswert 0 umgeben sind.
Das bei 46 in der 11 dargestellte vierte Muster verfügt über einen quadratischen Block von vier (zwei auf zwei) Pixelorten mit dem Gleichmäßigkeitswert 1, die vollständig mit Pixelorten mit dem Gleichmäßigkeitswert 0 umgeben sind. So zeigt der Schritt S23, immer dann, wenn eines der Gleichmäßigkeitswertmuster, die in der 11 bei 41, 43, 45 und 47 dargestellt sind, auftritt, an, dass ein gesichtsähnlicher Bereich oder ein Kandidat aufgefunden wurde. Die Suche nach diesem Mustern kann effizient ausgeführt werden. Zum Beispiel werden die Gleichmäßigkeitswerte der Pixelorte der Reihe nach überprüft, z. B. von links nach rechts in jeder Zeile und von oben nach unten im Halbbild. Immer wenn ein Gleichmäßigkeitswert 1 erkannt wird, werden die benachbarten Pixelorte rechts und unter dem aktuellen Pixelort untersucht. Wenn mindestens einer dieser Gleichmäßigkeitswerte ebenfalls 1 ist und der Bereich durch Gleichmäßigkeitswerte 0 umgeben ist, wird ein Muster aufgefunden, das einem möglichen Gesichtskandidaten entspricht. Die entsprechenden Pixelorte können dann markiert werden, z. B. durch Ersetzen ihrer Gleichmäßigkeitswerte durch einen anderen Wert als 1 oder 0, z. B. den Wert 2. Solange kein möglicher Gesichtskandidat aufgefunden ist, werden die Positionen der Kandidaten ausgegeben.
Das Aussehen der Muster 40, 42, 44 und 46 kann durch die tatsächliche Position des gesichtsähnlichen Bereichs in Beziehung zur Struktur der Pixel 36 bei verringerter Auflösung beeinflusst werden. Die 12 veranschaulicht ein Beispiel hierfür für einen gesichtsähnlichen Bereich mit einer Größe der Pixel bei verringerter Auflösung von zwei auf zwei, wie es bei 49 dargestellt ist. Wenn der durch einen Kreis 50 gekennzeichnete gesichtsähnliche Bereich näherungsweise auf einen zwei-auf-zwei-Block zentriert ist, wird das Muster 47 von Gleichmäßigkeitswerten erhalten, und die Erkennung ist korrekt. Wenn jedoch das Gesicht um das Ausmaß eines halben Pixels sowohl in horizontaler als auch vertikaler Richtung verschoben ist, wie es bei 51 veranschaulicht ist, kann der zentrale Teil des gesichtsähnlichen Bereichs einen Gleichmäßigkeitswert aufweisen, der gegenüber dem umgebenden Bereich verschieden ist. Dies kann zu einem Fehler bei der Erkennung eines echten Kandidaten führen.
Um dieses mögliche Problem zu vermeiden, können die Schritte S21 bis S24 für dasselbe Videohalbbild oder für eines oder mehrere folgende Videohalbbilder von Bilddaten wiederholt werden. Jedoch wird bei jeder Wiederholung der Schritte S21 bis S24 die Position des Arrays 31 von Pixeln bei verringerter Auflösung in Bezug auf das Array 30 der Farbbildpixel verändert. Dies ist in der 13 veranschaulicht, in der das Gesamtbild bei 52 dargestellt ist und der zur Verringerung der räumlichen Auflösung durch Bildmittelung verwendete Bereich mit 53 gekennzeichnet ist. Die Mittelung wird auf dieselbe Weise ausgeführt, wie sie in der 9 veranschaulicht ist, jedoch wird die Startposition verändert. Während die Startposition für das erste Pixel in der 8 die obere linke Ecke 54 des Gesamtbilds 52 ist, veranschaulicht die 13 insbesondere eine anschließende Mittelung, bei der die Startposition um einen Wert Sx nach rechts in der horizontalen Richtung und Sy nach unten in der vertikalen Richtung gegenüber der oberen linken Ecke verschoben ist, wobei Folgendes gilt:
0<Sx<m und 0<Sy<n
Jedes Bild kann wiederholt verarbeitet werden, so dass alle Kombinationen der Werte Sx und Sy verarbeitet werden, so dass mxn Prozesse auszuführen sind. Jedoch ist es in der Praxis nicht erforderlich, alle Startpositionen zu verwenden, insbesondere bei Anwendungen, bei denen die Erkennung gesichtsähnlicher Bereiche nicht sehr genau sein muss. Beim vorliegenden Beispiel, bei dem die Erkennung des gesichtsähnlichen Bereichs den ersten Schritt eines zweistufigen Prozesses bildet, können die Werte Sx und Sy aus einem ausgedünnteren Satz von Kombinationen ausgewählt werden, wie:
Sx = i × (m/p) und Sy = j × (n/q) wobei i, j, p und q ganze Zahlen sind, die den folgenden Bedingungen genügen:
0≤i<p
0≤j<q
1≤p<m
1≤q<n
Dies führt zu insgesamt p × q Kombinationen.
Wie oben angegeben, können die Schritte S21 bis S24 mit verschiedenen Startpositionen beim selben Bild oder bei einer Abfolge von Bildern wiederholt werden. Für eine Echtzeit-Bildverarbeitung kann es erforderlich oder bevorzugt sein, die Schritte für die Bilder einer Abfolge zu wiederholen. Das Verfahren kann sehr schnell ausgeführt werden, und es kann bei einer Rate zwischen 10 und 60 Hz abhängig von der Anzahl der im Bild vorhandenen Gesichtskandidaten in Echtzeit arbeiten. Demgemäß können innerhalb einer kurzen Periode in der Größenordnung einiger weniger Sekunden oder weniger alle möglichen Positionen getestet werden.
Das in der 7 veranschaulichte Verfahren kann mit jeder geeigneten Hardware ausgeführt werden, wie der in der 2 veranschaulichten. Der oben beschriebene Nachfahrprozessor 4 kann so programmiert werden, dass er das Verfahren der 7 als Teil des in der 3 veranschaulichten Initialisierungsstadiums 9 implementiert. Die Datenverarbeitung wird durch den R4400-Prozessor und den zugeordneten Speicher ausgeführt, und der Prozessor 4 verfügt über einen Videodigitalisierer und einen Rahmenspeicher, wie es in der 2 veranschaulicht ist, um die Sättigungswerte, die gemittelten Sättigungswerte der Pixel bei verringerter Auflösung und die Gleichmäßigkeitswerte zu speichern.
Die 14 veranschaulicht detaillierter den Gesichtsanalysierer 18. Insbesondere ist die im Schritt S4 ausgeführte Analyse in der 14 als Schritte S10 bis S14 dargestellt.
Obwohl die Analyse in der RGB-Domäne ausgeführt werden kann, reicht es aus, eine einzelne Farbkomponente zu verwenden. Demgemäß wird im Schritt S10 z. B. die rote Farbkomponente aus dem jüngsten Farbbild ausgewählt. Als Alternative kann eine andere einwertige Komponente verwendet werden. Zum Beispiel kann ein Kontrastbild unter Verwendung der folgenden Gleichung hergeleitet werden: C = max (R,G,B) – min (R,G,B)
Die Verwendung eines derartigen Kontrastbilds kann die Erkennung der Omegaform, wie nachfolgend beschrieben, verbessern.
Im Schritt S11 wird einer der durch den Gesichtslokalisierer 17 gelieferten Gesichtskandidaten ausgewählt, und es wird das Bildgebiet der roten Komponente, die durch den Gesichtskandidaten spezifiziert, ausgewählt. Im Schritt S12 werden Gesichtsmerkmale entnommen, um das Vorliegen eines Ge sichts im Bild zu bestätigen und um die genaue Position des Gesichts zu erhalten. Im Schritt S13 wird ermittelt, ob ein Gesicht aufgefunden wurde, und falls nicht, geht die Steuerung zum Schritt S5 weiter. Wenn ein Gesicht aufgefunden wurde, wird im Schritt S14 das Zielbild in Form einer Augenschablone ausgewählt oder aktualisiert, wie derjenigen, die in der 4 bei 11 dargestellt ist. Dann geht die Steuerung zum Schritt S5 weiter. Die Schritt S11 bis S14 werden wiederholt, bis alle Gesichtskandidaten getestet sind.
Es ist möglich, mit diesem Verfahren mehr als Gesicht in einem Bild zu detektieren. Jedoch ist bei bestimmten Anwendungen wie derzeitigen, dem Betrachter nachfahrenden autostereoskopischen Displays nur ein einzelner Benutzer zugelassen. Wenn mehr als ein Gesicht detektiert wird, kann eine Auswählregel verwendet werden, um eine einzelne Schablone auszuwählen. Zum Beispiel kann die ausgewählte Schablone die erste zu detektierende sein, oder sie kann diejenige sein, die am nächsten beim Zentrum des Bilds positioniert ist. Als Alternative kann jede Schablone mit einem Qualitätsmaß versehen werden, z. B. einem solchen, das mit dem Symmetriegrad in Beziehung steht, und es kann die Schablone mit dem besten Qualitätsmal ausgewählt werden. Eine derartige Technik wird nachfolgend mit dem besten Qualitätsmaß ausgewählt werden. Eine derartige Technik wird nachfolgend detaillierter beschrieben.
Die Entnahme von Gesichtsmerkmalen, was den Schritt S12 bildet, ist in der 15 detaillierter dargestellt, und sie beinhaltet Schritte S30 bis S39. Im Schritt S30 wird ein Bereich der roten Komponente des Bilds mit der benötigten Schablonengröße ausgewählt. Im Schritt S31 wird erfasst, ob eine Omegaform detektiert wurde und wenn dies der Fall ist, wird die Position derselben auf Grundlage des Symmetriemaßes im Schritt S32 abgespeichert oder aktualisiert. Im Schritt S33 wird ermittelt, ob alle möglichen Positionen getestet wurden und falls nicht, wird im Schritt S30 ein anderer Bereich aus dem durch den Gesichtskandidaten spezifizierten Bildgebiet ausgewählt.
Wenn einmal alle möglichen Positionen getestet sind, wird im Schritt S34 ermittelt, ob irgendeine omegaförmige, vertikale, integrale Projektion detektiert wurde. Wenn dies der Fall ist, wird im Schritt S35 ermittelt, ob im Bereich der Schablonengröße zwei Augen existieren. Wenn dies der Fall ist, wird im Schritt S36 ermittelt, ob eine Nase detektiert wurde. Wenn dies der Fall ist, wird im Schritt S38 ein Fleck gesetzt, um anzuzeigen, dass ein Gesicht detektiert wurde, und es wird die Position desselben gespeichert. Wenn irgendeiner der Tests in den Schritten S34 bis S36 negativ ist, wird im Schritt S37 ein Fleck gesetzt, um anzuzeigen, dass kein Gesicht detektiert wurde. Mit dem Schritt S39 wird die Analyse des Gesichtskandidaten abgeschlossen.
Die 16 veranschaulicht eine Schablone 11 für einen gewünschten Augenbereich, und sie zeigt darunter das entsprechende vertikale, integrale Projektionsprofil, das "ω" ähnelt. Im Schritt S31 werden derartige Profile detektiert, die durch einen Spitzenwert oder eine maximale Helligkeit Vo an einer Horizontalposition X₀ charakterisiert sind, wobei ein erstes und ein zweites Minimum der Helligkeit, V1 und V2, bei X₁ und X₂ symmetrisch zum Maximum liegen. Die benötigte Größe der Schablone oder des Zielbilds ist in der 17 bei 21 veranschaulicht, und sie verfügt über k auf 1 Pixel. Das Bildgebiet eines Gesichtskandidaten verfügt über K auf L Pixel, und es bei 22 veranschaulicht. Im Schritt S30 wird ein Anfangsbereich 23 mit der benötigten Schablonengröße zur Analyse ausgewählt, und es werden die Schritte S31 bis S33 ausgeführt. Dann wird im Schritt S30 ein horizontal benachbarter Bereich 24 ausgewählt, der um einen Abstand Sx nach rechts in Bezug auf den Bereich 23 versetzt ist. Dies wird wiederholt, bis die ausgewählten Bereiche den oberen Streifen des Bildgebiets 22 abgedeckt haben. Der Prozess wird weiterhin mit einem vertikalen Versatz Sy gegenüber einer Startposition, wie bei 25 gekennzeichnet, wiederholt. So wird jeder horizontale Streifen durch horizontal überlappende Bereiche "abgedeckt", und der gesamte Bereich 22 wird durch vertikal überlappende Streifen abgedeckt, bis der ausgewählte Bereich bei 26 liegt. Im Schritt S33 wird ermittelt, dass alle mögliche Positionen getestet wurden, und dann wird der Schritt S34 ausgeführt.
Die Funktion des Schritts S31 ist in der 18 detaillierter durch Schritte S40 bis S48 veranschaulicht. Im Schritt S40 wird die Untersektion des Bilds mit einer Breite von k Pixeln ausgewählt. Der Parameter k wird so gewählt, dass, beim horizontalen Relativversatz Sx, jeder Streifen durch Überlappen der Rechtecke abgedeckt ist. In ähnlicher Weise werden die Parameter l und Sy so ausgewählt, dass sich vertikal überlappende Streifen ergeben. Im Allgemeinen werden diese Parameter so ausgewählt, dass Sx dem Wert k/4 entspricht und Sy dem Wert l/4 entspricht.
Im Schritt S41 wird die vertikal-Projektionsfunktion V(x) berechnet. Diese wird wie folgt berechnet:
wobei I(x,y) die Intensität des Pixels mit den Koordinaten x, y ist, und wobei die Fläche des Untersektionsbilds durch (x1,x2)×(y1,y2) gegeben ist. Im Schritt S42 wird dann der Spitzenwert oder das Maximum dieser Funktion detektiert, und es wird die Horizontalposition X₀ aufgefunden.
Im Schritt S43 wird ermittelt, ob die Position X₀ des Maximums im zentralen Bereich der Untersektion liegt, die als Bereich von k/4 bis 3k/4 definiert ist. Falls nicht, kehrt die Steuerung zum Schritt S40 zurück. Andernfalls werden im Schritt S44 die Minima zu beiden Seiten des Spitzenwerts oder des Maximums detektiert und es werden ihre Positionen X₁ und X₂ aufgefunden. Im Schritt S44 wird dann ermittelt, ob die Orte der Minima dem Augenabstand eines Erwachsenen entsprechen. Dieser Augenabstand beträgt normalerweise zwischen 55 und 70 mm, und die entsprechende Schwellenwerte sind T₁ und T₂. Wenn die Größe der Differenz zwischen X₁ und X₂ zwischen diesen Schwellenwerten liegt (Schritt S45), wird der Schritt S46 ausgeführt. Andernfalls kehrt die Steuerung zum Schritt S40 zurück.
Im Schritt S46 wird das Spitzenwert/Tal-Verhältnis R gemäß dem folgenden Ausdruck gebildet: R = 1 – min(V(X2),V(X1))/V(X0)
Im Schritt S47 wird das Verhältnis R mit einem Schwellenwert T₃ verglichen, für den 0,2 ein typischer Wert ist. Wenn das Verhältnis unter diesem Schwellenwert liegt, kehrt die Steuerung zum Schritt S40 zurück. Wenn das Verhältnis über dem Schwellenwert liegt, zeigt der Schritt S48 an, dass ein Omegaform detektiert wurde.
Wenn eine Omegaform detektiert wurde, wird ein Qualitätsmaß berechnet, das mit dem Grad der horizontalen Symmetrie um eine Mittellinie der Untersektion in Beziehung steht. Zum Beispiel kann dies wie folgt berechnet werden:
Das Qualitätsmaß kann dazu verwendet werden, die "beste" Omegaform für den aktuellen Gesichtskandidaten auszuwählen, und, insbesondere, die beste Horizontal- und Vertikalposition des Augenbereichs zu bestimmen, wobei jedoch die Vertikalposition so bestimmt werden kann, wie dies nachfolgend beschrieben wird.
Die 19 veranschaulicht den Effekt einer ungeeigneten Wahl der horizontalen Schrittgröße Sx. Insbesondere ist es möglich, wenn Sx auf einen großen Wert, z. B. über k/2 eingestellt wird, dass in keiner Untersektion ein Spitzenwert oder Maximum detektiert wird. Wie es im vertikalen, integralen Projektionsprofil der 19, insbesondere in den abgedunkelten Teilen, dargestellt ist, existiert innerhalb des zentralen Bereichs kein Maximum oder Spitzenwert, so dass im Schritt S42 eine Position X₀ gefunden würde, die im Schritt S42 außerhalb des Bereichs liegen würde. Die Größe des Schritts Sx sollte daher kleiner als k/2 sein, und es wurde der Wert k/4 aufgefunden, um beim Aufrechterhalten der Recheneffizienz zu guter Funktion zu führen, während das Verfehlen des zentralen Spitzenwerts des omegaförmigen Profils vermieden wird.
Der Spitzenwert der besten Omegaform, mit z. B. dem höchsten Qualitätsmaß Q, zeigt die Mitte der zwei Augen des Augenbereichs an und definiert die zentrale Position des Zielbilds oder der Schablone. Jedoch ist die Vertikalposition nicht gut definiert, da es wahrscheinlich ist, dass Untersektionen, die gegenüber der besten Position leicht nach oben oder unten versetzt sind, ähnliche omegaförmige, vertikale, integrale Projektionsprofile zeigen.
Eine Technik zum vertikalen Zentrieren der Untersektion im Augenbereich beinhaltet ein Lokalisieren der besten Horizontalposition mit einem anschließenden Versetzen der Untersektion nach oben und unten, bis die Omegaform nicht mehr detektiert werden kann. Dann kann eine Vertikalposition zwischen dieser oberen und unteren Grenzposition als Vertikalposition für das Zielbild ausgewählt werden.
Eine alternative Technik zum Lokalisieren der korrekten Vertikalposition beruht auf dem Spitzenwert/Tal-Verhältnis. In diesem Fall wird wiederum die beste Horizontalposition bestimmt, und die Untersektionen werden vertikal versetzt, während das Spitzenwert/Tal-Verhältnis überwacht wird. Diejenige Position, die dem höchsten Verhältnis entspricht, wird dann als Vertikalposition der Mitte des Zielbilds ausgewählt.
Obwohl das Vorliegen einer Omegaform im vertikalen, integralen Projektionsprofil ein starker Hinweis auf die Existenz eines Außenbereichs ist, beruht dies stark auf der Annahme der Symmetrie eines menschlichen Gesichts. Jedoch kann auch ein Bild, das in Bezug auf seine Mittellinie unsymmetrisch ist, ein omegaförmiges Profil erzeugen. Ein Beispiel für ein derartiges Bild ist in der Mitte der 20 direkt über einem Augenbereich dargestellt, und das Vertikalprofil für beide Bilder ist im Wesentlichen dasselbe, und es ist oben in der 20 dargestellt. In diesem Fall wird das unsymmetrische Bild dadurch erhalten, dass die linke Hälfte desselben an der Mittellinie reflektiert wird und dann das sich ergebende rechte Halbbild mit der Oberseite nach unten verdreht wird.
Um durch derartige Bilder verursachte falsche Gesichtserkennungen zu vermeiden, wird eine Technik auf Grundlage horizontaler, integraler Projektionsprofile verwendet. Insbesondere dann, wenn eine Omegaform detektiert wurde und ein Bildgebiet der gewünschten Schablonengröße so ausgewählt wird, dass sein Zentrum mit dem zentralen Spitzenwert oder Maximum der Omegaform ausgerichtet ist, werden integrale Horizontalprojektionen auf die linke und die rechte Hälfte des Bilds angewandt. Das integrale Horizontal-Projektionsprofil für die linke Hälfte ist wie folgt gegeben:
Außerdem ist das integrale Horizontal-Projektionsprofil für die rechte Hälfte wie folgt gegeben:
Dann ist ein Symmetriemaß Sm wie folgt definiert:
Der Minimal- und der Maximalwert von Sm sind 0 und 1. Der Wert von Sm sollte einen vorbestimmten Schwellenwert, der typischerweise zwischen 0,15 und 0,2 liegt, nicht überschreiten. Durch Akzeptieren einer Omegaform nur dann, wenn sie diesen Test besteht, wird die Möglichkeit einer falschen Erkennung verringert.
Die integralen Horizontal-Projektionsprofile für die zwei Bilder sind in der 20 veranschaulicht. Das falsche Bild ergibt horizontal asymmetrische Profile, wohingegen das Bild des Augenbereichs im Wesentlichen symmetrische Profile liefert. Diese Technik kann zwischen die Schritte S47 und S48 in der 18 eingesetzt werden, so dass ein positives Ergebnis die Steuerung zum Schritt S48 weiter bringt, wohingegen ein negatives Ergebnis die Steuerung zum Schritt S40 weiter bringt.
Das Detektieren der Omegaform verringert die Möglichkeit einer falschen Gesichtserkennung, jedoch können weitere Tests ausgeführt werden, wie dies z. B. durch die Schritte S35 und S36 in der 15 veranschaulicht ist, um die Möglichkeit falscher Erkennungen noch weiter zu verringern. Das Detektieren der Omegaform ermöglicht es, die Mitte eines Gesichts zu lokalisieren, wenn angenommen wird, dass im Bild ein Gesicht vorhanden ist. Die Augenbereiche sind im Allgemeinen dunkel, so dass zwei Helligkeitsminima vorhanden sein sollten, die im Wesentlichen horizontal symmetrisch in Bezug auf die Mittellinie angeordnet sind. Diese kann hinsichtlich der RGB-Domäne getestet werden, jedoch muss es nicht auf das Bild der vollständigen Auflösung angewandt werden. Tatsächlich kann ein Bild mit geringerer Auflösung den Vorteil zeigen, dass die Wahrscheinlichkeit verringert wird, dass ein isoliertes dunkles Pixel als einem Auge entsprechendes Minimum verstanden wird.
Obwohl sich der Kopf eines Benutzers im Anfangsstadium normalerweise im Wesentlichen in einer aufrechten Stellung befindet, ist eine absolut aufrechte Stellung nicht wesentlich. So liegen die zwei Minima nicht notwendigerweise auf derselben horizontalen Linie. Daher ist es nützlich, die Bildauflösung durch Mittelung, z. B. wie oben beschrieben, zu verringern. Zu diesem Zweck reicht ein Bild einer einzelnen Farbkomponente, wie ein Bild der roten Komponente, aus. Eine geeignete Auflösung für diesen Test in dergestalt, dass das Zielbild nur einige wenige Pixel in jeder Abmessung enthält, z. B. 5 auf 5 oder 7 auf 7 Pixel. Wie es in der 21 dargestellt ist, sind die Orte der Minima als (X_L,Y_L) und (X_R,X_R) repräsentiert. Im Schritt S35 wird ermittelt, ob YL = YR und |XL+XR – 2X0|≤T4 gelten, wobei X₀ die zentrale Position ist und T₄ ein Schwellenwert, z. B. mit dem 1 ist.
Wenn im Schritt S35 die Existenz zweier Augenbereiche bestätigt wird, ist die Wahrscheinlichkeit, dass diese Bereiche tatsächlich Augen im Bild entsprechen, verbessert, wenn zwischen den Minima ein hellerer Bereich detektiert wird. In der 22 ist ein typisches Nasenmuster dargestellt, und dies repräsentiert die Beobachtung, dass die Nase im Allgemeinen heller als das Bild unmittelbar unter der Spitze derselben ist. Der in der 22 dargestellten Nasenbereich sollte abhängig von der tatsächlichen Größe des Gesichts über eine Länge von zwei oder drei Pixeln verfügen. In diesem Fall wird der Nasenbereich akzeptiert, wenn die folgenden Bedingungen erfüllt sind: min(P1,P2,P3)/max(P1,P2,P3)≥T5 und Mittelwert(P4,P5,P6)/Mittelwert(P1,P2,P3)≤T6 wobei T₅ und T₆ vorbestimmte Schwellenwerte, typischerweise mit dem Wert 0,8 bzw. 0,5, sind.
Die obigen Verfahren zum Erkennen der Augen und der Nase werden mit geringerer Auflösung ausgeführt, um die Recheneffizienz zu verbessern. Es können andere Gesichtsmerkmal-Entnahmeverfahren angewandt werden, um das Vorliegen eines Gesichts weiter zu verifizieren. Zum Beispiel beschreiben die folgenden Verfahren die Erkennung der Augenpupillen und der Mundlippen unter Verwendung des ursprünglichen RGB-Bilds voller Auflösung. Die 23 veranschaulicht eine andere Ausführungsform des Schritts S12 der 14 dahingehend, dass Schritte S60 und S61 hinzugefügt sind. Im Schritt S60 wird eine Erkennung von Augenpupillen und dem Mund mit hoher Auflösung ausgeführt, und im Schritt S61 wird ein Test zu geometrischen Einschränkungen ausgeführt, wobei beide nachfolgend detaillierter beschrieben werden.
Die genaue Position jedes Auges kann als Zentrum der Augenpupille identifiziert werden. Der erste Schritt zum Bestimmen des Zentrums der Augenpupille besteht im Abtrennen derselben vom Rest des Augenbereichs und der Gesichts haut. Es wurde herausgefunden, dass für die Pixel über den Augenbereich hinweg, mit Ausnahme derjenigen der Augenpupille, die folgende Ungleichung gilt: R>G>B
Es wird die folgende Gleichung verwendet, um die Augenpupille zu detektieren:
wobei der Wert 1 ein Pixel innerhalb des Augenpupillenbereichs und der Wert 0 ein Pixel außerhalb kennzeichnen und wobei C₁ und C₂ zwei Konstanten sind. Typische Werte dieser zwei Parameter sind wie folgt gegeben: C1 = C2 = 0
Die anfängliche, beste Augenschablonenposition ist durch den Ort gegeben, an dem die beste Omegaform erkannt wird, wie bereits beschrieben. Die Spitzenwertposition der Omegaform unterteilt diesen Bereich in zwei Hälften. Das obige Augenpupillen-Detektierverfahren kann dann getrennt auf jede Hälfte angewandt werden. Die Augenpositionen werden dann als Centroide der detektierten Augenpupillen definiert. Zum Beispiel ist die linke Augenposition wie folgt gegeben:
wobei N die Gesamtanzahl der Pixel im Gebiet ist, dessen obere linke Ecke bei (x₁,y₁) liegt und dessen untere rechte Ecke bei (x₂,y₂) liegt. Die Position (X_L,Y_L) definiert dann das Zentrum der linken Augenpupille. Auf ähnliche Weise kann die Position der rechten Augenpupille zu (X_R,Y_R) bestimmt werden. Dies ist in der 24 veranschaulicht. Der Augenabstand ist dann wie folgt gegeben: DAuge= XR – XL
Wenn die Augenpupillen detektiert sind, kann anschließend der Mund innerhalb des in der 24 dargestellten Rechteckegebiets A'B'C'D' lokalisiert werden. Die linke Seite dieses Gebiets A'B'C'D' ist durch die Position der linken Augenpupille bestimmt, und die rechte Seite durch diejenige der rechten Augenpupille. Die Oberseite des Gebiets liegt um 0,5 D_Auge unter der die zwei Augenpupillen verbindenden Linie, und die Unterseite liegt um 1,5 D_Auge unter dieser Linie.
Die Erkennung des Munds erfolgt durch Detektieren der Lippen. Die Lippen werden unter Verwendung der folgenden Gleichung gegenüber dem Gesicht abgetrennt:
wobei der Wert 1 ein Lippenpixel und der Wert 0 ein Hautpixel bezeichnen und wobei η eine Konstante ist, deren typischer Wert auf 2,5 eingestellt ist.
Dann wird unter Verwendung der folgenden Gleichung ein Vertikalhistogramm konstruiert:
Dies ist in der 24 veranschaulicht. Wenn ein Mund vorhanden ist, erzeugt das obige Histogramm im Allgemeinen einen Spitzenwert im Zentrum, mit einer allmählichen Abnahme auf beiden Seiten. Wenn ein Spitzenwert an der Position X_p detektiert wird, ist das linke Ende des Munds durch den ersten Wert X₁ gegeben, an dem der Wert des Histogramms die folgende Ungleichung erfüllt: Hy(X1)<μHy(Xp) wobei μ eine Konstante ist, die typischerweise zu 0,1 eingestellt ist. Das rechte Ende des Munds wird in ähnlicher Weise zu X₂ bestimmt.
Die Höhe des Munds wird auf ähnliche Weise unter Verwendung eines horizontalen Projektionsprofils gemäß M(x,y) bestimmt. Dies liefert die obere Position des Munds als Y₁, und die Unterseite als Y₂. Der Mund ist daher durch das Rechteck umschlossen, dessen obere linke Ecke (X₁, Y₁) ist und dessen untere rechte Ecke (X₂, Y₂) ist.
Wenn ein Mund vorhanden ist, sollte dessen Seitenverhältnis den folgenden geometrischen Einschränkungen genügen: α ≤ |(X2 – X1)/(Y1 – Y2)| ≤ β wobei α typischerweise zu 1,5 und β zu 5 eingestellt sind.
Der Vertikalabstand zwischen der Oberseite des Munds und der die zwei Augen verbindenden Linie ist wie folgt definiert: DME = Y1 – (YL + YR)/2
Der Wert von Y₂, d.h. die Position der Unterlippe, ändert sich deutlicher als der Wert von Y₁, d.h. die Position der Oberlippe, insbesondere dann, wenn der Benutzer spricht. In der obigen Gleichung wurde Y₁ dazu verwendet, die Position des Munds in der vertikalen Richtung anzuzeigen.
Es wurde herausgefunden, dass dieser Abstand proportional zum Augenabstand ist, mit dem typischen Verhältnis 1. Die Relativposition des Munds und der Augen sollten daher die folgende Bedingung erfüllen: ((DME/DAuge) – 1| < v wobei v typischerweise zu 0,25 eingestellt ist. Im Schritt S61 wird überprüft, ob diese geometrischen Einschränkungen erfüllt sind.
Ein weiteres Symmetriemaß kann auf einem intelligenten Symmetriedetektor beruhen, wie er von D. Reisfeld, H. Wolfson und Y. Yeshurun in "Context free attentional operators: the generalized symmetry transforms", IJCV, Vol. 14, S. 119–130, 1995 sowie von D. Reisfeld und Y. Yeshurun in "Robust detection of facial features by generalized symmetry", Proc. of the 11th IAPR International Conference on Pattern Recognition, S. 117 offenbart ist. Eine derartige intelligente Anordnung ist für eine kommerzielle Realisierung des vorliegenden Verfahrens unpraktisch, jedoch kann eine wesentlich vereinfachte Technik verwendet werden, um ein Symmetriemaß zu liefern, das eine Unterstützung beim Bestätigen des Vorliegens eines Gesichts oder eines Teils eines Gesichts in einer Schablone bietet.
Die 25 veranschaulicht ein Seitenbeleuchtungsbild einer Person sowie ein Rechteckgebiet ABCD, das eine Untersektion des Bilds enthält. Die Untersektion ist in eine linke Hälfte AEFD und eine rechte Hälfte EBCF unterteilt. Für jeden Punkt P₁ in der rechten Hälfte existiert ein entsprechender Punkt P₂ in "Spiegelbild" position in der linken Hälfte. Wenn die Untersektion ABCD ein Ziel enthält, das in Bezug auf die Mittellinie EF symmetrisch ist, bilden die Punkte P₁ und P₂ ein Paar symmetrischer Punkte.
Bei absolut gleichmäßiger Beleuchtung wären die Helligkeiten oder Intensitäten dieser zwei Punkte identisch. Jedoch sind, wie es in der 25 veranschaulicht ist, typische Beleuchtungsbedingungen dergestalt, dass die Intensitäten symmetrischer Punkte verschieden sind.
Dieses Problem kann unter Verwendung von "Bildgradienten" überwunden werden, die Vektoren sind, die die Intensitätsänderungen an jedem Punkt beschreiben. Insbesondere verfügt jeder derartige Vektor über eine Größe, die der maximalen Intensitätsänderung ausgehend vom Punkt in jeder beliebigen Richtung entspricht, und eine solche Richtung oder einen solchen Winkel, dass der Vektor in der Richtung der maximalen Intensitätsänderung zeigt. Die Gradientenamplitude wird auch durch den Beleuchtungstyp beeinflusst, jedoch hängt der Phasenwinkel stark von den geometrischen Merkmalen des Gesichts ab, und er wird weniger durch die Beleuchtung beeinflusst. So werden die Punkte P₁ und P₂ als symmetrisch angesehen, wenn ihre Gradientenwinkel Θ₁ und Θ₂ der folgenden Bedingung genügen: Θ1 + Θ2 = ± π Das Symmetriemaß der Untersektion ABCD ist wie folgt gegeben: Ss = Σ{1 – cos[Θ1(x,y) + Θ2(x', y')]}
(x,y)∊EBCF
(x,y)∊AFFD
wobei (x,y) und (x',y') die Koordinaten der Punktepaare in den zwei Hälften der Bild-Untersektion sind.
Dieses Maß Ss kann für jede Untersektion im Bild dadurch berechnet werden, dass von links nach rechts und oben nach unten durchsucht wird. Die Sektion mit dem höchsten Wert von Ss wird dann als das Gesicht im Bild enthaltende Gebiet ausgewählt.
Das Maß Ss kann ferner gemäß dem folgenden Ausdruck verfeinert werden: Ss = Σ{1 – cos[Θ1(x,y) + Θ2(x', y')]w(x,y)w(x',y'')}
(x,y)∊EBCF
(x',y')∊AEFD
wobei w(x,y) und w(x',y') Gewichtungsfunktionen sind. Zum Beispiel können die Gewichtungsfunktionen der Gradientenamplitude an jedem Punkt entsprechen, so dass starke Ränder mehr zum wert von Ss beitragen. In der Praxis kann eine binäre Gewichtungsfunktion verwendet werden, und sie kann durch Schwellenwertvergleich der Gradientenamplitude gebildet werden, so dass dann, wenn diese einen vorgegebenen Schwellenwert übersteigt, die Gewichtungsfunktion auf 1 gesetzt wird, während sie andernfalls auf 0 gesetzt wird. Der Schwellenwert kann mit der Hälfte des Mittelwerts der Gradientenamplitude der Untersektion gleich gemacht werden.
Es ist wünschenswert, dass das Zielbild mit einer aufrechten Position des Gesichts aufgenommen wird. Wenn z. B. ein Benutzer vor einem Display sitzt und er damit beginnt, dieses zu betrachten, beginnt das System mit dem Lokalisieren des Gesichts, und es findet das Zielbild auf. Das erste erfasste Zielbild muss nicht das beste sein, da sich der Benutzer unter Umständen nicht in aufrechter Position befindet. So muss es nicht zweckdienlich sein, das erste erfasste Zielbild als Schablone, z. B. für ein anschließendes Betrachternachfahren, auszuwählen.
Die 26 veranschaulicht ein modifiziertes Verfahren, das auf dem in der 6 Veranschaulichten beruht. Insbesondere sind Schritte S50 bis S53 zwischen die Schritte S6 und S7 eingefügt. Wenn im Schritt S6 eine Schablone aufgefunden wird, wird im Schritt S50 das Maß für die "Güte" des in der Schablone enthaltenen Bilds berechnet. Zum Beispiel kann dieses auf dem oben beschriebenen Symmetriemaß Ss beruhen. Im Schritt S51 wird ermittelt, ob die Schablone in den letzten R Bildern oder Rahmen aufgefunden wurde. Falls nicht, kehrt die Steuerung zum Schritt S1 zurück. Falls ja, wird im Schritt S52 das Gütemaß der zuletzt detektierten Schablone mit der zuvor besten Schablone verglichen. Wenn die jüngste Schablone einen höheren Gütewert aufweist, wird sie als aktuell beste Schablone ausgewählt.
Im Schritt S53 wird ermittelt, ob Schablonen in den letzten R Rahmen öfter als r mal aufgefunden wurden. Falls nicht, kehrt die Steuerung zum Schritt S1 zurück. Falls ja, wird im Schritt S7 die beste Schablone, d.h. die mit dem höchsten Gütemaß, ausgegeben.
Das in der 26 veranschaulichte Verfahren ermittelt so, ob in den letzten R aufeinanderfolgenden Rahmen mehr als r Schablonen detektiert wurden. Zum Beispiel kann r den Wert 7 haben, und R kann den Wert 10 haben. Wenn dies der Fall ist, wird das Zielbild als konsistent detektiert angesehen, und die beste Schablone wird für das anschließende Betrachter Nachfahren verwendet.
Es ist möglich, dass der in der 7 dargestellte Gesichtslokalisierer durch ein halbautomatisches Verfahren ersetzt wird, das etwas an Benutzerunterstützung erfordert. Wenn z. B. eine schwarz-weiß-Videokamera verwendet wird, ist keine Farbinformation verfügbar, so dass der in der 7 veranschaulichte Gesichtslokalisierer nicht mehr funktioniert.
Beim halbautomatischen Verfahren wird jedes eingehende Videobild mit einer grafischen Kopfführung mit ungefähr derselben Größe wie der des Kopfs eines Erwachsenen im Zentrum des Displays angezeigt. Der Benutzer sieht eine lebende Bildabfolge von ihm selbst mit fester Grafikführung, so dass er seinen Kopf innerhalb der Führung positionieren kann. Der Gesichtsanalysator 18 wird auf den Bereich innerhalb der grafischen Kopfführung angewandt, und wenn einmal der Kopf eines Benutzers innerhalb dieses Bereichs angeordnet ist, detektiert er das Gesicht und lokalisiert die genaue Position des Zielbilds. Es ist nicht erforderlich, dass der Benutzer eine genaue Ausrichtung einhält, was beim in GB 2 324 428 und EP 0 877 274 offenbarten Verfahren ein unbequemes Erfordernis ist. Auch ist die Möglichkeit der Erfassung falscher Ziele im Hintergrund verringert, da der Gesichtsanalysator 18 nur im durch die Kopfführung spezifizierten Gebiet sucht.
Wenn die Beleuchtung sehr schlecht ist, z. B. bei extremer Grundbeleuchtung, ist es möglich, dass das halbautomatische Verfahren nicht zuverlässig arbeitet. In diesem Fall kann die Entscheidung, die Schablone zu akzeptieren, dem Benutzer überlassen werden, anstatt der das Verfahren ausführenden Vorrichtung. Zum Beispiel kann dies dadurch bewerkstelligt werden, dass eine grafische Überlagerung auf dem angezeigten Bild des Benutzers nach dem Auffinden des Zielbilds angezeigt wird. Der Benutzer kann die Position des Zielbilds sehen, und er kann entscheiden, ob die Schablone akzeptiert wer den soll.
Der Unterschied zwischen diesem Verfahren und dem manuellen Verfahren besteht darin, dass der Benutzer keine spezielle Anstrengung unternehmen muss, um seinen Kopf mit der "Überlagerungs" grafik auszurichten, um die Schablone auszuwählen. Statt dessen schlägt der Computer die Schablone vor, und wenn sie korrekt ist, muss der Benutzer nur das Akzeptieren signalisieren, z. B. durch Betätigen eines Knopfs oder einer Taste. Andernfalls kann das System in den manuellen Modus zurückkehren. Diese Anordnung gewährleistet, dass immer eine zuverlässige Schablone verfügbar ist, um ein erfolgreiches Nachfahren zu ermöglichen.
Bei einer Umgebungsbeleuchtung, bei der das Gesicht auf beiden Seiten ungefähr dieselbe Beleuchtung erfährt, arbeitet die Erkennung der Omegaform im integralen Vertikal-Projektionsprofil gut. Wenn jedoch die Beleuchtung stark zu einer Seite des Gesichts hin ausgerichtet ist, kann diese Technik weniger zuverlässig sein, aber sie kann dadurch verbessert werden, dass im Schritt S4 in der 6 modifizierte Bilddaten wie folgt geliefert werden.
Das Bild im Bildgebiet wird um die vertikale Mittellinie "gespiegelt" oder horizontal umgedreht, und dann wird es wieder zum ursprünglichen Bild addiert. Im Idealfall, in dem das Gesicht geometrisch symmetrisch ist und die Mittellinie die Mitte des Gesichts bildet, wird ein sich ergebende Bild des Gesichts mit symmetrischer Beleuchtung auf beiden Seiten erzeugt. Das integrale vertikal-Projektionsprofil eines derartigen Bilds verfügt dann über eine Omegaform, die ebenfalls symmetrisch ist, und an den modifizierten Bilddaten können die Verarbeitungsschritte ausgeführt werden, die oben unter Bezugnahme auf den Gesichtsanalysierer 18 beschrieben wurden.
Die anfänglich gewählte Symmetrielinie muss nicht im Zentrum des Gesichts liegen. Diese Technik kann daher itterativ so angewandt werden, dass der detektierte Spitzenwert im Profil als Spiegelpunkt verwendet wird, was zu einer besseren Omegaform mit genauerer Spitzenwertposition führt. Dies kann wiederholt werden, bis sich die Spitzenwertposition nicht wesentlich ändert. Typischerweise benötigt eine derartige itterative Prozedur weniger als zehn Itterationen.
Das oben beschriebene Verfahren arbeitet bei gleichmäßiger Beleuchtung, einschließlich einer Umgebungsbeleuchtung, gut, und es ist bei Anwendungen bei schlechten Beleuchtungsbedingungen unter Verwendung einer aktiven Lichtquelle anwendbar. Obwohl das Verfahren keinerlei spezielle Beleuchtung benötigt und es hinsichtlich Änderungen der Beleuchtung eines Betrachters sehr flexibel ist, kann während des Initialisierungsstadiums 9 der 2 eine aktive Lichtquelle verwendet werden, die dann während des anschließenden Betrachternachfahrens, das sehr robust ist und keinerlei spezielle Beleuchtung benötigt, ausgeschaltet ist.
Die 27 zeigt ein Display des in der 2 dargestellten Typs, das so modifiziert ist, dass es für aktive Beleuchtung sorgt. Die aktive Lichtquelle verfügt über Blitzlicht 55 mit einer durch den Prozessor 4 gesteuerten Synchronisiereinrichtung. Das Blitzlicht 55 ist ein einer geeigneten Position, wie über dem Display 7 und benachbart zum Sensor 3, angeordnet, um das Gesicht eines Betrachters zu beleuchten.
Die 28 veranschaulicht das Video-Nachfahrsystem 2 und speziell den Datenprozessor 4 detaillierter. Der Datenprozessor verfügt über eine zentrale Verarbeitungseinheit (CPU) 56, die mit einem CPU-Bus 57 verbunden ist. Mit dem Bus 57 ist ein Systemspeicher 58 verbunden, der die gesamte Systemsoftware zum Betreiben des Datenprozessors enthält.
Die Videokamera 3 ist mit einem Videodigitalisierer 59 verbunden, der mit einem Datenbus 60, dem Blitzlicht mit der Synchronisiereinrichtung 55, der CPU 56 und einem wahlweise vorhandenen Videodisplay 61, wenn es vorhanden ist, verbunden ist. Mit dem Datenbus 60 und dem CPU-Bus 57 ist ein Rahmenspeicher 62 verbunden. Die Maus 8 ist mit der CPU 56 verbunden.
Für Ausführungsformen ohne Verwendung einer aktiven Beleuchtung muss der Rahmenspeicher nur über die Kapazität eines Halbbilds verfügen. Im Fall der oben beschriebenen Videokamera 3 mit einer Halbbildauflösung von 640 × 240 Pixel sowie für ein 24-Bit-RGB-Farbsignal ist eine Kapazität von 640 × 240 × 3 = 460800 Bytes erforderlich. Für Ausführungsformen unter Verwendung aktiver Beleuchtung verfügt der Rahmenspeicher 62 über eine Kapazität von zwei Halbbildern von Videodaten, d.h. 921600 Bytes.
Im Gebrauch wird das Blitzlich 55 mit der Videokamera 3 und dem Videodigitalisierer 59 synchronisiert, so dass es zu geeignetem Zeitpunkt ein- oder ausgeschaltet wird, wenn ein Bild aufgenommen wird.
Das Blitzlicht 55 wird dazu verwendet, das Gesicht des Betrachters durch einen Blitz zu beleuchten, um die Gleichmäßigkeit der Verteilung zu verbes sern. Wenn das Blitzlicht 55 viel stärker als das Umgebungslicht ist, wird die Intensität des Gesichts stark durch das Blitzlicht 55 bestimmt. Jedoch besteht die Tendenz, dass ein starke Lichtquelle ein übersättigtes Bild erzeugt, das bei vielen Objekten falsch als gesichtsähnliche Bereiche detektiert werden kann. Ferner kann die Verwendung eines kräftigen Blitzlichts für den Betrachter unangenehm sein, und es können Augenschäden hervorgerufen werden.
Daher sollte das Blitzlicht 55 von milder Stärke sein. In diesem Fall kann es erforderlich sein, die Einflüsse von Umgebungslicht zu verringern, um die Zuverlässigkeit beim Detektieren echter gesichtsähnlicher Bereiche zu verbessern.
Das in der 6 veranschaulichte Verfahren kann so modifiziert werden, dass zwei aufeinanderfolge Rahmen von Videobilddaten verglichen werden, wobei der eine mit betriebenem Blitzlicht 55 erhalten wird und der andere nur mit Umgebungslicht erhalten wird. Der erste derselben enthält demgemäß den Effekt sowohl des Umgebungslichts als auch des Blitzlichts 55. Dieses erste Bild I(a+f) kann daher so angesehen werden, dass es die folgenden zwei Komponenten enthält: I(a+f)=I(a)=I(F) wobei I(a) das Bild nur mit Umgebungslicht ist und I(f) das Bild ist, das erzeugt worden wäre, wenn die einzige Lichtquelle das Blitzlicht 55 gewesen wäre. Dies kann wie folgt umgeschrieben werden: I(f)=2(a+f) – I(a)
So kann durch Subtrahieren der Bildpixeldaten der Effekt der Umgebungsbeleuchtung verringert oder beseitigt werden, um die Zuverlässigkeit und Flexibilität des Gesichtsdetektierverfahrens zu verbessern.

Claims

Verfahren zum Detektieren eines menschlichen Gesichts in einem Bild, wobei im Bild ein Gesichts-Kandidatenbereich lokalisiert wird (17) und dieser auf ein erstes Charakteristikum hin analysiert wird (18), das ein erstes Gesichtsmerkmal kennzeichnet, wobei das erste Charakteristikum ein im Wesentlichen symmetrisches, horizontales Helligkeitsprofil ist, das zwischen einem ersten und einem zweiten Minimum (V₁,V₂) über ein Maximum (Vo) verfügt, und wobei zum Analysierschritt (18) das Erzeugen (S41) einer vertikalen integralen Projektion (V(x)) eines Teils des Gesichts-Kandidatenbereichs und das Ermitteln (S42–S45) gehören, ob die vertikale integrale Projektion (V(x)) über ein erstes und ein zweites Minimum (V₁, V₂) verfügt, im Wesentlichen symmetrisch um ein Maximum (Vo) angeordnet sind, und wobei zum Analysierschritt (18) das Unterteilen eines Teils des Gesichts-Kandidatenbereichs in eine linke und eine rechte Hälfte, das Erzeugen einer horizontalen integralen Projektion (H_L(y), H_R(y)) jeder der Hälften sowie das Vergleichen eines Maßes für die horizontale Symmetrie der linken und der rechten horizontalen integralen Projektion (H_L(y), H_R(y)) mit einem ersten Schwellenwert gehören.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Lokalisier- und der Analysierschritt (17, 18) für jedes Bild einer Abfolge von Bildern wiederholt werden.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das oder jedes Bild ein Farbbild ist und der Analysierschritt (18) an einer Farbkomponente dieses Farbbilds ausgeführt wird.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das oder jedes Bild ein Farbbild ist und der Analysierschritt (18) an einem aus diesem Farbbild hergeleiteten Kontrastbild ausgeführt wird.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass im Analysierschritt (18) ermittelt wird (S44, S45), ob die vertikale integrale Projektion (V(x)) über ein erstes und ein zweites Minimum (V₁, V₂) verfügt, deren horizontaler Abstand innerhalb eines vorbestimmten Bereichs liegt.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass im Analysierschritt (18) ermittelt wird (S46, S47), ob die vertikale integrale Projektion (V(x)) ein Maximum (Vo) und ein erstes und ein zweites Minimum (V₁, V₂) in solcher Weise aufweist, dass das Verhältnis der Differenz zwischen dem Maximum und dem kleineren betreffend das erste und das zweite Minimum zum Maximum größer als ein zweiter Schwellenwert ist.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die vertikalen integralen Projektionen aus mehreren Teilen des Gesichtskandidaten erzeugt werden und der Teil mit dem höchsten Verhältnis als mögliches Zielbild ausgewählt wird.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass der Analysierschritt (18) das Erzeugen eines Maßes für die Symmetrie des Teils beinhaltet.
Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass das Maß für die Symmetrie wie folgt erzeugt wird:
wobei V(x) der Wert der vertikalen integralen Projektion an der Horizontalposition x ist und x₀ die Horizontalposition der Mitte der vertikalen integralen Projektion ist.
Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass die vertikale integrale Projektion für mehrere Teile des Gesichtskandidaten erzeugt wird und der Teil mit dem höchsten Symmetriemaß als mögliches Zielbild ausgewählt wird.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass im Analysierschritt (18) ermittelt wird, ob der Gesichts-Kandidatenbereich über ein erstes und ein zweites Helligkeitsminimum verfügt, die im Wesentlichen auf derselben Höhe angeordnet sind, wobei ein horizontaler Abstand innerhalb eines vorbestimmten Bereichs vorliegt.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass im Analysierschritt (18) ermittelt wird, ob der Gesichts-Kandidatenbereich über einen sich vertikal erstreckenden Bereich (P₁, P₂, P₃) mit höherer Helligkeit als der des ersten und des zweiten Helligkeitsminimums verfügt, der zwischen diesen angeordnet ist.
Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass im Analysierschritt (18) ermittelt wird, ob der Gesichts-Kandidatenbereich über einen sich horizontal erstreckenden Bereich (P₄, P₅, P₆) verfügt, der unter dem sich vertikal erstreckenden Bereich (P₁, P₂, P₃) angeordnet ist und geringere Helligkeit als dieser aufweist.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass zum Analysierschritt (18) das Lokalisieren (S60) von Augenpupille-Kandidatenbereichen, im Gesichts-Kandidatenbereich, gehört, wo eine grüne Bildkomponente größer als eine rote Bildkomponente oder eine blaue Bildkomponente größer als eine grüne Bildkomponente ist.
Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass das Lokalisieren (S60) der Augenpupille-Kandidatenbereiche auf Augen-Kandidatenbereiche des Gesichts-Kandidatenbereichs eingeschränkt wird.
Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass im Analysierschritt (18) eine Funktion E(x,y) für Bildelemente (x,y) in den Augen-Kandidatenbereichen wie folgt erzeugt wird:
wobei R, G und B eine rote, grüne und eine blaue Bildkomponente sind, C1 und C2 Konstanten sind, E(x,y) = 1 ein Bildelement innerhalb Augen-Pupillekandidatenbereiche repräsentiert und E(x,y) = 0 ein Bildelement außerhalb derselben repräsentiert.
Verfahren nach Anspruch 16, dadurch gekennzeichnet, dass im Analysierschritt (18) die Mitten der Augenpupillen als zentrale Punkte der Augenpupille-Kandidatenbereiche erfasst werden.
Verfahren nach einem der Ansprüche 14 bis 17, dadurch gekennzeichnet, dass zum Analysierschritt (18) das Lokalisieren (S60) eines Mund-Kandidatenbereichs in einem Unterbereich des Gesichts-Kandidatenbereichs, der ho rizontal zwischen den Augenpupille-Kandidatenbereichen und vertikal unter dem Niveau derselben zwischen im Wesentlichen der Hälfte und im Wesentlichen dem eineinhalbfachen des Abstands zwischen denselben liegt, gehört.
Verfahren nach Anspruch 18, dadurch gekennzeichnet, dass im Analysierschritt (18) eine Funktion M(x,y) für Bildelemente (x,y) in den Unterbereichen wie folgt erzeugt wird:
wobei R, G und B eine rote, grüne und eine blaue Bildkomponente sind, η eine Konstante ist, M(x,y) = 1 ein Bildelement innerhalb des Munds repräsentiert und M(x,y) = 0 ein Bildelement außerhalb desselben repräsentiert.
Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass vertikale und horizontale Projektionsprofile der Funktion M(x,y) erzeugt werden und ein Lippen-Kandidatenbereich in einem rechteckigen Unterbereich definiert wird, in dem die vertikalen und horizontalen Projektionsprofile einen ersten bzw. einen zweiten vorbestimmten Schwellenwert überschreiten.
Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass der erste und der zweite vorbestimmte Schwellenwert proportional zu Maxima der vertikalen bzw. horizontalen Projektionsprofile sind.
Verfahren nach Anspruch 20 oder 21, dadurch gekennzeichnet, dass im Analysierschritt (18) überprüft wird (S61), ob das Seitenverhältnis des Lippen-Kandidatenbereichs zwischen einem ersten und einem zweiten vorbestimmten Schwellenwert liegt.
Verfahren nach einem der Ansprüche 20 bis 22, dadurch gekennzeichnet, dass im Analysierschritt (18) überprüft wird (S61), ob das Verhältnis des vertikalen Abstands von den Augenpupille-Kandidatenbereichen zur Oberseite des Lippen-Kandidatenbereichs zum Abstand zwischen den Augenpupille-Kandidatenbereichen zwischen einem ersten und einem zweiten voreingestellten Schwellenwert liegt.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass zum Analysierschritt (18) das Unterteilen eines Teils des Gesichts-Kandidatenbereichs in eine linke und eine rechte Hälfte (AEFD. EBCF) und ein Vergleichen der Winkel (Θ₁, Θ₂) der Helligkeitsgradienten horizontal symmetrisch angeordneter Paare von Punkten für Symmetriezwecke gehören.
Verfahren nach Anspruch 2 oder einem der Ansprüche 3 bis 24 in Abhängigkeit vom Anspruch 2, dadurch gekennzeichnet, dass der Lokalisier- und der Analysierschritt (17, 18) gestoppt werden (S53), wenn sich das erste Charakteristikum r mal in R aufeinanderfolgenden Bildern der Abfolge findet.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass zum Lokalisierschritt (17) ein Durchsuchen des Bilds nach einem Gesichts-Kandidatenbereich mit einem zweiten Charakteristikum, das für ein menschliches Gesicht kennzeichnend ist, gehört.
Verfahren nach Anspruch 26, dadurch gekennzeichnet, dass das zweite Charakteristikum eine gleichmäßige Sättigung ist.
Verfahren nach Anspruch 27, dadurch gekennzeichnet, dass zum Durchsuchungsschritt ein Verringern (S22) der Auflösung des Bilds durch Mitteln der Sättigung, um ein Bild mit verringerter Auflösung zu erzeugen, und ein Suchen (S23) nach einem Bereich des Bilds mit verringerter Auflösung, der, mit einer vorbestimmten Form, eine im Wesentlichen gleichmäßige Sättigung aufweist, die sich wesentlich von der Sättigung des Teils des Bilds mit verringerter Auflösung um die vorbestimmte Form herum unterscheidet, gehören.
Verfahren nach Anspruch 28, dadurch gekennzeichnet, dass das Bild mehrere Bildelemente enthält und die Auflösung so verringert wird, dass die vorbestimmte Form um zwei bis drei Elemente des Bilds mit verringerter Auflösung entfernt liegt.
Verfahren nach Anspruch 29, dadurch gekennzeichnet, dass das Bild ein rechteckiges Array (30) von M auf N Bildelementen aufweist, das Bild (31) mit verringerter Auflösung (M/m) auf (N/n) Bildelementen aufweist, wobei jedes m auf n Bildelementen des Bilds entspricht, und dass die Sättigung jedes Bildelements des Bilds mit verringerter Auflösung wie folgt gegeben ist:
wobei f(i,j) die Sättigung des Bildelements in der Spalte i und der Zeile j der m auf n Bildelemente ist.
Verfahren nach Anspruch 30, dadurch gekennzeichnet, dass die Sättigungswerte in einem Speicher abgespeichert werden.
Verfahren nach Anspruch 30 oder 31, dadurch gekennzeichnet, dass jedem der Elemente des Bilds mit verringerter Auflösung ein Gleichmäßigkeitswert (u) dadurch zugeschrieben wird, dass die Sättigung jedes derselben mit der Sättigung mindestens eines benachbarten Elements des Bilds mit verringerter Auflösung verglichen wird.
Verfahren nach Anspruch 32, dadurch gekennzeichnet, dass jedem Gleichmäßigkeitswert (u) ein erster Wert zugeschrieben wird, wenn (max(P) – min(P))/max(P) ≤ T gilt, wobei max(P) und min(P) der Maximal- bzw. der Minimalwert der Sättigungswerte des Elements im Bild mit verringerter Auflösung sowie des oder jedes benachbarten Bildelements sind und T ein Schwellenwert ist, und dass ihm andernfalls ein vom ersten Wert verschiedener zweiter Wert zugewiesen wird.
Verfahren nach Anspruch 33, dadurch gekennzeichnet, dass T im Wesentlichen 0,15 ist.
Verfahren nach einem der Ansprüche 32 bis 34 in Abhängigkeit vom Anspruch 31, dadurch gekennzeichnet, dass dem oder jedem benachbarten Element im Bild mit verringerter Auflösung kein Gleichmäßigkeitswert zugeschrieben wird und jeder Gleichmäßigkeitswert anstelle des entsprechenden Sättigungswerts im Speicher abgespeichert wird.
Verfahren nach Anspruch 33 oder 34 oder dem Anspruch 35 in Abhängigkeit vom Anspruch 33, dadurch gekennzeichnet, dass die Auflösung so verringert wird, dass die vorbestimmte Form zwei oder drei Elemente im Bild mit verringerter Auflösung entfernt liegt, und dadurch gekennzeichnet, dass zum Verfahren ferner die Kennzeichnung der Detektion eines Gesichts-Kandidatenbereichs gehört, wenn ein dem ersten Wert entsprechender Gleichmäßigkeitswert entweder ein Element im Bild mit verringerter Auflösung oder zwei vertikal oder horizontal benachbarten Elementen im Bild mit verringerter Auflösung oder einem rechteckigen Zwei-auf-zwei-Array von Bildelementen zugeschrieben ist und wenn ein dem zweiten Wert entsprechender Gleichmäßigkeitswert jedem umgebenden Element im Bild mit verringerter Auflösung zugeschrieben ist.
Verfahren nach Anspruch 36 in Abhängigkeit vom Anspruch 31, dadurch gekennzeichnet, dass die Detektion dadurch gekennzeichnet wird, dass ein dritter Wert, der vom ersten und zweiten Wert verschieden ist, anstelle des entsprechenden Gleichmäßigkeitswerts im Speicher abgespeichert wird.
Verfahren nach einem der Ansprüche 29 bis 37, gekennzeichnet durch Wiederholen der Auflösungsverringerung und des Suchens mindestens ein Mal, wobei die Elemente im Bild mit verringerter Auflösung in Bezug auf die Abbildungs-Bildelemente verschoben sind.
Verfahren nach einem der Ansprüche 28 bis 38, dadurch gekennzeichnet, dass die Sättigung aus Komponenten für Rot, Grün und Blau wie folgt hergeleitet wird: (max(R,G,B) – min(R,G,B))/max(R,G,B) wobei max(R,G,B) und min(R,G,B) der Maximal- bzw. Minimalwert der Komponenten für Rot, Grün und Blau sind.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass ein erstes Bild aufgenommen wird, während ein Bereich erwarteter Positionen eines Gesichts beleuchtet wird, ein zweites Bild unter Verwendung von Umgebungslicht aufgenommen wird und das zweite Bild vom ersten Bild subtrahiert wird, um die Abbildung zu erzeugen.