DE69922752T2 - Verfahren zum Detektieren eines menschlichen Gesichtes - Google Patents

Verfahren zum Detektieren eines menschlichen Gesichtes Download PDF

Info

Publication number
DE69922752T2
DE69922752T2 DE69922752T DE69922752T DE69922752T2 DE 69922752 T2 DE69922752 T2 DE 69922752T2 DE 69922752 T DE69922752 T DE 69922752T DE 69922752 T DE69922752 T DE 69922752T DE 69922752 T2 DE69922752 T2 DE 69922752T2
Authority
DE
Germany
Prior art keywords
image
face
candidate
analyzing step
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69922752T
Other languages
English (en)
Other versions
DE69922752D1 (de
Inventor
Qi He Abingdon Hong
Nicolas Steven Wallingford Holliman
David Wallingford Ezra
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of DE69922752D1 publication Critical patent/DE69922752D1/de
Application granted granted Critical
Publication of DE69922752T2 publication Critical patent/DE69922752T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B30/00Optical systems or apparatus for producing three-dimensional [3D] effects, e.g. stereoscopic images
    • G02B30/20Optical systems or apparatus for producing three-dimensional [3D] effects, e.g. stereoscopic images by providing first and second parallax images to an observer's left and right eyes
    • G02B30/26Optical systems or apparatus for producing three-dimensional [3D] effects, e.g. stereoscopic images by providing first and second parallax images to an observer's left and right eyes of the autostereoscopic type
    • G02B30/33Optical systems or apparatus for producing three-dimensional [3D] effects, e.g. stereoscopic images by providing first and second parallax images to an observer's left and right eyes of the autostereoscopic type involving directional light or back-light sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/60Static or dynamic means for assisting the user to position a body part for biometric acquisition
    • G06V40/67Static or dynamic means for assisting the user to position a body part for biometric acquisition by interactive indications to the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/302Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/398Synchronisation thereof; Control thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/286Image signal generators having separate monoscopic and stereoscopic modes

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Detektieren eines menschlichen Gesichts. Ein derartiges Verfahren kann z. B. zum Aufnehmen eines Zielbilds in einem Initialisierungsstadium eines Bildnachfahrsystems verwendet werden.
  • Zu anderen Anwendungen derartiger Verfahren und Vorrichtungen gehören die Sicherheitsüberwachung, die Video- und Bildkompression, Videokonferenzen, Multimediadatenbank-Suche, Computerspiele, Fahrerüberwachung, grafische Benutzerschnittstellen, Gesichtserkennung und persönliche Identifizierung.
  • Autostereoskopische Displays ermöglichen es einem Betrachter, zwei getrennte Bilder, die ein stereoskopisches Paar bilden, durch Betrachten derartiger Displays mit den Augen in zwei Betrachtungsfenstern zu sehen. Beispiele derartiger Displays sind in EP 0 602 934 , EP 0 656 555 , EP 0 708 351 , EP 0 726 482 und EP 0 829 743 offenbart. Ein Beispiel eines bekannten Typs eines dem Betrachter nachfahrenden autostereoskopischen Displays ist in der 1 der beigefügten Zeichnungen veranschaulicht.
  • Das Display verfügt über ein Displaysystem 1, das mit einem Nachfahrsystem 2 zusammenwirkt. Das Nachfahrsystem 2 verfügt über einen Nachfahrsensor 3, der ein Sensorsignal an einen Nachfahrprozessor 4 liefert. Der Nachfahrprozessor 4 leitet aus dem Sensorsignal ein Betrachterpositions-Datensignal her, das einem Display-Steuerungsprozessor 5 des Displaysystems 1 geliefert wird. Der Prozessor 5 wandelt das Positionsdatensignal in ein Fensterlenksignal und liefert dieses an einen Lenkmechanismus 6 eines nachgefahrenen 3D-Displays 7. Die Betrachtungsfenster für die Augen des Betrachters werden demgemäß so gelenkt, dass sie einer Bewegung des Kopfs desselben folgen und, innerhalb des Arbeitsbereichs, die Augen desselben in den passenden Betrachtungsfenstern halten.
  • GB 2 324 428 und EP 0 877 274 offenbaren ein dem Betrachter nachfahrendes Videosystem mit kurzer Verzögerungszeit, hoher Aktualisierungsfrequenz und angemessener Messgenauigkeit für dem Betrachter nachfahrende autostereosko pische Displays. Die 2 der beigefügten Zeichnungen veranschaulicht ein Beispiel des Systems, das sich von dem in der 1 der beigefügten Zeichnungen dargestellten dadurch unterscheidet, dass der Nachfahrsensor 3 aus einer mit einer Halbbildrate von 60 Hz arbeitenden NTSC-Videokamera SONY XC999 besteht und der Nachfahrprozessor 4 mit einer Maus 8 versehen ist und aus einer Pegeleingabemaschine der Indy-Reihe von Silicon Graphics besteht, die mit einem bei 150 MHz arbeitenden R4400-Prozessor und einem Videodigitalisierer sowie einem Rahmenspeicher mit einer Auflösung von 640 × 240 Bildelementen (Pixeln) für jedes durch die Kamera 3 erfasste Halbbild versehen ist. Die Kamera 3 ist oben auf dem Display 7 angeordnet, und sie ist zum Betrachter ausgerichtet, der vor diesem sitzt. Der normale Abstand zwischen dem Betrachter und der Kamera 3 beträgt ungefähr 0,85 Meter, der Betrachter in der Quer- oder X-Richtung über eine Bewegungsfreiheit von ungefähr 540 mm verfügt. Der Abstand zwischen zwei Pixeln im durch die Kamera erzeugten Bild entspricht ungefähr 0,67 und 1,21 mm in der X- bzw. der Y-Richtung. Die Y-Auflösung ist halbiert, da jedes Halbbild mit Zeilensprung individuell genutzt wird.
  • Die 3 der beigefügten Zeichnungen veranschaulicht allgemein das durch den Prozessor 4 ausgeführte Nachfahrverfahren. Das Verfahren verfügt über ein Initialisierungsstadium, dem ein Nachfahrstadium 10 folgt. Während des Initialisierungsstadiums 9 wird ein Zielbild oder eine "Schablone" durch Speichern eines Teils eines Bild von der Kamera 3 aufgenommen. Das Zielbild enthält im Allgemeinen den Augenbereich des Betrachters, wie es unter 11 in der 4 der beigefügten Zeichnungen dargestellt ist. Wenn einmal das Zielbild oder die Schablone 11 erfolgreich aufgenommen wurde, wird im Nachfahrstadium 10 dem Betrachter nachgefahren.
  • Bei 12 wird eine globale Ziel- oder Schablonensuche ausgeführt, um die Position des Zielbilds im durch die Kamera 3 erzeugten Gesamtbild zu erkennen. Wenn einmal das Zielbild lokalisiert ist, erfolgt bei 13 eine Bewegungserfassung, nach der bei 14 eine lokale Ziel- oder Schablonensuche ausgeführt wird. Die Schablone-Abgleichschritte 12 und 14 werden durch Kreuzkorrelieren des Zielbilds in der Schablone mit jedem mit dieser überlagerten Unterabschnitt ausgeführt. Der feste Korrelationswert wird mit einem vorbestimmten Schwellenwert verglichen, um zu prüfen, ob das Nachfahren verlorenging, was in einem Schritt 15 erfolgt. Wenn dies der Fall ist, kehrt die Steuerung zum globalen Schablonen-Abgleichschritt 12 zurück. Andernfalls kehrt die Steuerung zum Schritt 13 zurück. Die Bewegungserfassung 13 und der lokale Schablonenableich 14 bilden eine Nachfahrschleife, die solange ausgeführt wird, wie das Nachfahren erhalten bleibt. Der Bewegungserfassungsschritt liefert Positionsdaten mittels eines Differenzverfahrens, das die Bewegung des Zielbilds zwischen aufeinanderfolgenden Halbbildern erfasst, und dies wird zur Position hinzugefügt, die durch den lokalen Schablonenabgleich im vorigen Schritt für das frühere Halbbild aufgefunden wurde.
  • Im Initialisierungsstadium 9 wird ein Zielbild oder eine Schablone des Betrachters vor dem Start des Nachfahrens erhalten. Beim in GB 2 324 428 und EP 0 877 274 offenbarten Initialisierungsstadium wird ein interaktives Verfahren verwendet, bei dem das Display 7 die eingehenden Videobilder anzeigt und ein Bildgenerator, der z. B. im Prozessor 4 realisiert ist, ein Grenzbild oder eine grafische Führung 16 auf dem Display erzeugt, wie es in der 5 der beigefügten Zeichnungen dargestellt ist. Eine vom Benutzer bedienbare Steuerung, die z. B. einen Teil der Maus 8 bildet, erlaubt eine manuelle Betätigung zum Aufnehmen des Bildbereichs innerhalb des Grenzbilds.
  • Der Betrachter sieht sein eigenes Bild gemeinsam mit dem Grenzbild, das die erforderliche Schablonengröße aufweist, auf dem Display 7. Der Betrachter richtet den Mittelpunkt zwischen seinen Augen mit der Mittellinie der grafischen Führung 16 aus, und dann aktiviert er das System zum Aufnehmen der Schablone, z. B. durch Betätigen einer Maustaste oder einer Tastaturtaste. Alternativ kann diese Ausrichtung dadurch bewerkstelligt werden, dass die grafische Führung 16 unter Verwendung der Maus 8 an die gewünschte Stelle gezogen wird.
  • Einen Vorteil einer derartigen interaktiven Technik zum Aufnehmen einer Schablone besteht darin, dass der Betrachter die Schablone mit akzeptierbarer Ausrichtungsgenauigkeit auswählen kann. Dazu gehören die Erkennung des menschlichen Gesichts und die Auswahl der interessierenden Bildbereiche, wie der Augenbereiche. Während der menschliche Gesichtssinn diesen Prozess trivial macht, wäre ein derartiger Schablonenableich für einen Computer schwierig, wenn alle möglichen Menschentypen mit verschiedenem Alter, Geschlecht, Augenform und Hautfarbe unter verschiedenen Beleuchtungsbedingungen berücksichtigt werden.
  • Jedoch ist ein derartiges interaktives Schablonenabgleichverfahren für regelmäßige Benutzer ungeeignet, da der Schablonenabgleich bei jeder Verwendung des Systems ausgeführt werden muss. Für unregelmäßige Benutzer wie einen Besucher, existiert ein weiteres Problem dahingehend, dass er die Zusammenwirkung mit dem System lernen muss. Zum Beispiel müssen neue Benutzer wissen, wie sie ihr Gesicht mit der grafischen Führung ausrichten müssen. Diese Ausrichtung scheint intuitiv zu sein, jedoch hat sie sich für viele neue Benutzer als schwierig herausgestellt. Daher ist es wünschenswert, eine verbesserte Anordnung zu schaffen, die die Einfachheit der Benutzung und die Marktakzeptierbarkeit von Nachfahrsystemen erhöht.
  • Um eine wiederholte Schablonenerfassung für jeden Benutzer zu vermeiden, ist es möglich, jede erfasste Schablone der Benutzer in einer Datenbank zu speichern. Wenn ein Benutzer das System das erste Mal verwendet, kann das interaktive Verfahren dazu verwendet werden, die Schablone aufzunehmen, die dann in der Datenbank gespeichert wird. Anschließende Verwendungen durch denselben Benutzer benötigen keine neue Schablone, da die Datenbank zum Auffinden seiner Schablone durchsucht werden kann. Es kann erforderlich sein, dass jeder Benutzer mehr als eine Schablone erstellt, um z. B. Änderungen der Beleuchtung und Änderungen von Gesichtsmerkmalen zu berücksichtigen. So hat diese Technik zwar den Vorteil, dass es vermieden wird, für jede Verwendung des Displays eine Schablone aufzunehmen, jedoch ist sie nur praxisgerecht, wenn die Anzahl der Benutzer sehr klein ist. Ansonsten würden das Erfordernis, eine große Datenbank aufzubauen, und die zugehörige lange Suchzeit jegliche kommerzielle Realisierung verhindern. Zum Beispiel könnten Kassenplatzsysteme mit vielen einmaligen Benutzern nicht leicht für jeden Benutzer einen Datenbank speichern.
  • Es ist möglich, Schablonen unter Verwendung von Bildverarbeitungs- und Computer-Bildsehtechniken automatisch aufzunehmen. Dies bildet im Wesentlichen ein Gesichts- und/oder Augenerkennungsproblem, das einen Teil eines allgemeineren Problems der Gesichtserkennung bildet. Ein vollständiges Gesichtserkennungssystem wäre dazu in der Lage, Gesichter automatisch zu erkennen und aus jedem Gesicht eine Person zu identifizieren. Die Aufgabe einer automatischen Gesichtserkennung ist von der einer Identifizierung verschieden, obwohl viele zur Identifizierung verwendete Verfahren auch zur Erkennung, und umgekehrt, verwendet werden können.
  • Vieles der Computer-Bildsehforschung auf dem Gebiet der Gesichtserkennung hat sich bisher auf die Identifizierungsaufgabe konzentriert, und Beispiele dazu sind von R. Brunelli und T. Poggio in "Face recognition through geometrical features", Proceedings of the 2rd European Conference on Computer Vision, S. 792–800, Genua 1992; in US 5 164992 A ; von M. Turk und A. Pentland in "Eigenfaces for recognition", Journal of Cognitive Neuroscience, Vol. 3, Nr. 1. S. 70–86 sowie von A.L. Yuille, D.S. Cohen und P.W. Hallinam in "Feature extraction from faces using deformable templates", International Journal of Computer Vision, 8(2), S. 99–111, 1992 offenbart. Viele dieser Beispiele haben ein deutliches Erfordernis nach automatischer Gesichtserkennung gezeigt, jedoch besteht die Tendenz, dass das Problem und die Lösung vernachlässigt werden oder sie nicht gut beschrieben sind. Diese bekannten Techniken gehen jeweils von einem bereits erfassten Gesicht aus, dessen Position in einem Bild bekannt ist, oder sie begrenzen die Anwendungen auf Situationen, in denen das Gesicht und der Hintergrund leicht getrennt werden können. Wenige bekannte Techniken zur Gesichtserkennung erzielen eine zuverlässige Erkennungsrate ohne Einschränkungen und lange Rechenzeit.
  • DE 19634768 offenbart ein Verfahren zum Detektieren eines Gesichts in einem Videobild. Bei diesem Verfahren wird ein Eingangsbild mit einem vorab abgespeicherten Hintergrund verglichen, um eine Binärmaske zu erzeugen, die dazu verwendet werden kann, den Kopfbereich zu lokalisieren, der ferner hinsichtlich der Möglichkeit des Vorliegens eines Gesichts analysiert wird. Dieses Verfahren erfordert einen kontrollierten Hintergrund, der sich nicht ändert. Jedoch ist es nicht unüblich, dass sich Menschen im Hintergrund bewegen, während ein Benutzer ein autostereoskopisches Display betrachtet.
  • G. Yang und T.S. Huang offenbaren in "Human face detection in complex backgrounds", Pattern Recognition, Vol. 27, Nr. 1, S. 53–63, 1994 ein Verfahren zum Lokalisieren menschlicher Gesichter in einem unkontrollierten Hintergrund unter Verwendung einer hierarchischen, wissensgestützten Technik. Das Verfahren umfasst drei Ebenen. Die höheren zwei Ebenen beruhen auf Mosaikbildern verschiedener Auflösungen. Auf der untersten Ebene ist ein Randerkennungsverfahren vorgeschlagen. Das System kann unbekannte menschliche Gesichter lokalisieren, die sich über einen ziemlich großen Bereich von Größen in einem schwarz-weiß-Bild erstrecken. Es wurde über Versuchsergebnisse unter Verwendung eines Satzes von 40 Bildern als Trainingssatz und eines Satzes von 60 Bildern als Testsatz berichtet. Jedes Bild verfügt über 512 × 512 Pixel und ermöglicht Gesichtsgrößen im Bereich von 48 × 60 bis 200 × 250 Pixel. Das System erzielte eine Erkennungsrate von 83%, d.h. 50 aus 60. Zusätzlich zu korrekt lokalisierten Gesichtern wurde in 28 Bildern des Testsatzes falsche Gesichter detektiert. Während diese Erfassungsrate relativ niedrig ist, besteht ein größeres Problem in der Rechenzeit von 60 bis 120 Sekunden zum Verarbeiten jedes Bilds.
  • US 5 012 522 offenbart ein System, das menschliche Gesichter in Videoszenen mit zufälligem Inhalt innerhalb von zwei Minuten lokalisieren kann und die lokalisierten Gesichter erkennen kann. Wenn wahlweise das Merkmal einer Bewegungserkennung enthalten ist, erfolgen die Lokalisierungs- und Erkennungsereignisse in weniger als 1 Minute. Das System beruht auf einer früheren autonomen Gesichtserkennungsmaschine (AFRM = autonomous face recognition machine), wie sie von E. J. Smith in der Doktorarbeit Doc.# AD-A178852, "Development of autonomous face recognition machine", Air Force Institute of Technology, Dezember 1986 offenbart ist, wobei verbesserte Werte für die Geschwindigkeit und die Erkennungstrefferquote vorliegen. Die AFRM wurde dadurch aus einer früheren Gesichtserkennungsmaschine entwickelt, dass ein automatischer "Gesichtsfinder" hinzugefügt wurde, der unter Verwendung der Cortical Thought Theory (CTT) entwickelt wurde. Zur CTT gehört die Verwendung eines Algorithmus, der die "Gestalt" eines vorgegebenen Musters berechnet. Gemäß der Theorie repräsentiert die Gestalt das Wesen oder die "einzigartige Charakteristik", die vom menschlichen Gehirn einem Gebilde wie einem zweidimensionalen Bild eindeutig zugewiesen wird. Der Gesichtsfinder arbeitet durch Durchsuchen eines Bilds nach bestimmten Gesichtseigenschaften oder "Signaturen". Die Gesichtssignaturen sind in den meisten Gesichtsbildern vorhanden, und sie sind kaum vorhanden, wenn kein Gesicht vorliegt.
  • Die wichtigste Gesichtssignatur in der AFRM ist die Augensignatur, die dadurch erzeugt wird, dass Spalten aus einem Bild entnommen werden und die Ergebnisse der aus jeder Spalte berechneten Gestalt aufgetragen werden. Als Erstes wird aus einem Bildgebiet mit 128 auf 192 Pixel ein Fenster von 8 Pixeln (vertikal) auf 192 Pixel (horizontal) entnommen. Das Fenster von 8 auf 192 Pixeln wird dann oben an einem neuen Bild mit 64 auf 192 Pixeln platziert. Die restlichen Zeilen des Bilds von 64 auf 192 Pixeln werden mit einer Hintergrundgraupegel-Intensität aufgefüllt, mit z. B. 12 von insgeamt 16 Graupegeln, wobei null schwarz repräsentiert. Das sich ergebende Bild wird dann dadurch in die Augensignatur transformiert, dass der Gestaltspunkt für jede der 192 vertikalen Spalten im Bild berechnet wird. Dies führt zu einem Gestaltspunktevektor von 192 Elementen. Wenn ein Augenbereich existiert, zeigt dieser Vektor ein Muster, das durch zwei zentrale Spitzenwerte entsprechend den Augenzentren und ein zentrales Minimum zwischen den zwei Spitzenwerten, gemeinsam mit zwei äußeren Minima auf jeder Seite, gekennzeichnet ist. Wenn eine derartige Signatur aufgefunden wird, kann ein Augenbereich existieren. Dann wird eine ähnliche Technik ange wandt, um eine Nase/Mund-Signatur zu erzeugen, um das Vorliegen eines Gesichts zu verifizieren. Die AFRM erzielte mit dem Gesichtsfinderalgorithmus unter Verwendung einer kleinen Bilddatenbank, die 139 Bilder enthielt (mit ungefähr vier bis fünf verschiedenen Abbildungen pro Person) eine Erfolgsrate von 94%. Ein Nachteil eines derartigen Systems besteht darin, dass in einem Bild zu viele Objekte existieren, die ein ähnliches Muster zeigen können. Daher handelt sich nicht um einen sehr zuverlässigen Gesichtslokalisierer. Ferner ist die Berechnung der Gestalten sehr rechenintensiv, so dass es schwierig ist, eine Echtzeitimplementierung zu erzielen.
  • EP 0 751 473 offenbart eine Technik zum Lokalisieren von Gesichts-Kandidatenbereichen durch Filterung, Faltung und Schwellenwertvergleich. Eine anschließende Analyse untersucht, ob Gesichts-Kandidatenmerkmale, insbesondere die Augen und der Mund, bestimmte Eigenschaften aufweisen.
  • US 5 715 325 offenbart eine Technik, die mit Bildern verringerter Auflösung arbeitet. In einem Lokalisierschritt wird ein Bild mit einem Hintergrundbild verglichen, um Gesichts-Kandidatenbereiche zu definieren. Eine anschließende Analyse beruht auf einem Bild mit drei Helligkeitspegeln, und sie wird dadurch ausgeführt, dass jeder Kandidatenbereich mit einer gespeicherten Schablone verglichen wird.
  • US 5 629 752 offenbart eine Technik, bei der eine Analyse auf der Lokalisierung von Körperkonturen in einem Bild und einer Überprüfung aus Symmetrie und andere Eigenschaften derartiger Konturen beruht. Bei dieser Technik wird auch nach horizontal symmetrischen Augenbereichen dadurch gesucht, dass horizontal symmetrische dunkle Ellipsen erfasst werden, deren Hauptachsen symmetrisch ausgerichtet sind.
  • Sako et al. offenbaren in Proceedings of 12 IAPR International Conference on Pattern Recognition, Jerusalem, 6.–13. Oktober 1994, Vol. II, S. 320–324 "Real Time Facial Feature Tracking Based on Matching Techniques and its Applications" verschiedene Analysetechniken einschließlich der Erkennung auf Augenbereichen durch Vergleiche mit einer gespeicherten Schablone.
  • Chen et al. führen gemäß IEEE (0-8186-7042-8), S. 591–596, 1995, "Face Detection by Fuzzy Pattern Matching" eine Lokalisierung eines Gesichtskandidaten durch Fuzzy-Abgleich auf ein "Gesichtsmodell" aus. Kandidaten werden dadurch analysiert, dass geprüft wird, ob Auge/Augenbraue- und Nase-/Mund-Bereiche vorhanden sind, was auf Grundlage eines undefinierten "Mo dells" erfolgt.
  • Sobattka et al. offenbaren in "Face Localization and facial feature extraction based on shape and color information", Proceedings of the International Conference on Image Processing (ICIP) Lausanne, 16.–19. September 1996, New York, IEEE, US, Vol. 3. S. 483–486, XP010202436 eine Technik zum Erkennen von Augenbereichen in einem Bild durch Erfassen eines Reliefs in der Richtung x bei einem Minimum einer Projektion eines Gesichts-Kandidatenbilds in der y-Richtung. Die x-Projektion wird durch Glätten mehrerer x-Reliefs verfälscht. Ein Augenbereich wird auf Grundlage zweier Minima erkannt, die zu verschiedenen Positionierungs- und Intensitätsbedingungen passen.
  • WO 96/38808 offenbart ein System zum Auffinden von Augenbereichen in einem Bild auf Grundlage eines Filters, das die relativ hohe horizontale Kontrastdichte nutzt, um Augenpositionen in einem Grauskalenbild eines Gesichts zu bestimmen. Es ist eine Technik offenbart, die eine Projektion in der y-Richtung verwendet.
  • Saber et al. offenbaren in "Face Detection and Facial Feature Extraction Using Color, Shape and Symmetry-bases Cost Functions", Proceedings of the International Conference on Pattern Recognition 1996, 1996-08-25, s. 654–658, XP002097369 eine Technik zum Lokalisieren von Gesichtsmerkmalen, wie Augen, in einem Gesichts-Kandidatenbild. Diese Technik arbeitet mit Centroiden provisorisch erfasster Gesichtsmerkmale, und sie sucht nach Symmetrie.
  • Gemäß einer ersten Erscheinungsform der Erfindung ist Folgendes geschaffen: ein Verfahren zum Detektieren eines menschlichen Gesichts in einem Bild, wobei im Bild ein Gesichts-Kandidatenbereich lokalisiert wird und dieser auf ein erstes Charakteristikum hin analysiert wird, das ein erstes Gesichtsmerkmal kennzeichnet, dadurch gekennzeichnet, dass das erste Charakteristikum ein im Wesentlichen symmetrisches, horizontales Helligkeitsprofil ist, das zwischen einem ersten und einem zweiten Minimum über ein Maximum verfügt, und dass zum Analysierschritt das Erzeugen einer vertikalen integralen Projektion eines Teils des Gesichts-Kandidatenbereichs und das Ermitteln gehören, ob die vertikale integrale Projektion über ein erstes und ein zweites Minimum verfügt, im Wesentlichen symmetrisch um ein Maximum angeordnet sind, dadurch gekennzeichnet, dass zum Analysierschritt das Unterteilen eines Teils des Gesichts-Kandidatenbereichs in eine linke und eine rechte Hälfte, das Erzeugen einer horizontalen integralen Projektion jeder der Hälften sowie das Vergleichen eines Maßes für die horizontale Symmetrie der linken und der rechten horizontalen integralen Projektion mit einem ersten Schwellenwert gehören.
  • Der Lokalisier- und der Analysierschritt können für jedes Bild einer Abfolge von Bildern wiederholt werden.
  • Das oder jedes Bild kann ein Farbbild sein, und der Analysierschritt kann an einer Farbkomponente dieses Farbbilds ausgeführt werden.
  • Im Analysierschritt kann ermittelt werden, ob die vertikale integrale Projektion über ein erstes und ein zweites Minimum verfügt, deren horizontaler Abstand innerhalb eines vorbestimmten Bereichs liegt.
  • Im Analysierschritt kann ermittelt werden, ob die vertikale integrale Projektion ein Maximum und ein erstes und ein zweites Minimum in solcher Weise aufweist, dass das Verhältnis der Differenz zwischen dem Maximum und dem kleineren betreffend das erste und das zweite Minimum zum Maximum größer als ein zweiter Schwellenwert ist.
  • Die vertikale integrale Projektion kann aus mehreren Teilen des Gesichtskandidaten erzeugt werden, und der Teil mit dem höchsten Verhältnis kann als mögliches Zielbild ausgewählt werden.
  • Der Analysierschritt kann das Erzeugen eines Maßes für die Symmetrie des Teils beinhalten.
  • Das Maß für die Symmetrie kann wie folgt erzeugt werden:
    Figure 00090001
    wobei V(x) der Wert der vertikalen integralen Projektion an der Horizontalposition x ist und x0 die Horizontalposition der Mitte der vertikalen integralen Projektion ist.
  • Die vertikale integrale Projektion kann für mehrere Teile des Gesichtskan didaten erzeugt werden, und der Teil mit dem höchsten Symmetriemaß kann als mögliches Zielbild ausgewählt werden.
  • Im Analysierschritt kann ermittelt werden, ob der Gesichts-Kandidatenbereich über ein erstes und ein zweites Helligkeitsminimum verfügt, die im Wesentlichen auf derselben Höhe angeordnet sind, wobei ein horizontaler Abstand innerhalb eines vorbestimmten Bereichs vorliegt.
  • Im Analysierschritt kann ermittelt werden, ob der Gesichts-Kandidatenbereich über einen sich vertikal erstreckenden Bereich mit höherer Helligkeit als der des ersten und des zweiten Helligkeitsminimums verfügt, der zwischen diesen angeordnet ist.
  • Im Analysierschritt kann ermittelt werden, ob der Gesichts-Kandidatenbereich über einen sich horizontal erstreckenden Bereich verfügt, der unter dem sich vertikal erstreckenden Bereich angeordnet ist und geringere Helligkeit als dieser aufweist.
  • Zum Analysierschritt kann das Lokalisieren von Augenpupille-Kandidatenbereichen, im Gesichts-Kandidatenbereich, gehören, wo eine grüne Bildkomponente größer als eine rote Bildkomponente oder eine blaue Bildkomponente größer als eine grüne Bildkomponente ist. Das Lokalisieren der Augenpupille-Kandidatenbereiche auf Augen-Kandidatenbereiche des Gesichts-Kandidatenbereichs eingeschränkt wird. Im Analysierschritt kann eine Funktion E(x,y) für Bildelemente (x,y) in den Augen-Kandidatenbereichen wie folgt erzeugt werden:
    Figure 00100001
    wobei R, G und B eine rote, grüne und eine blaue Bildkomponente sind, C1 und C2 Konstanten sind, E(x,y) = 1 ein Bildelement innerhalb Augen-Pupillekandidatenbereiche repräsentiert und E(x,y) = 0 ein Bildelement außerhalb derselben repräsentiert. Im Analysierschritt können die Mitten der Augenpupillen als zentrale Punkte der Augenpupille-Kandidatenbereiche erfasst werden.
  • Zum Analysierschritt kann das Lokalisieren eines Mund-Kandidatenbereichs in einem Unterbereich des Gesichts-Kandidatenbereichs gehören, der horizontal zwischen den Augenpupille-Kandidatenbereichen und vertikal unter dem Niveau derselben zwischen im Wesentlichen der Hälfte und im Wesentlichen dem eineinhalbfachen des Abstands zwischen denselben liegt. Im Analysierschritt kann eine Funktion M(x,y) für Bildelemente (x,y) in den Unterbereichen wie folgt erzeugt werden:
    Figure 00110001
    wobei R, G und B eine rote, grüne und eine blaue Bildkomponente sind, η eine Konstante ist, M(x,y) = 1 ein Bildelement innerhalb des Munds repräsentiert und M(x,y) = 0 ein Bildelement außerhalb desselben repräsentiert. Es können vertikale und horizontale Projektionsprofile der Funktion M(x,y) erzeugt werden und ein Lippen-Kandidatenbereich in einem rechteckigen Unterbereich definiert werden, in dem die vertikalen und horizontalen Projektionsprofile einen ersten bzw. einen zweiten vorbestimmten Schwellenwert überschreiten. Der erste und der zweite vorbestimmte Schwellenwert proportional zu Maxima der vertikalen bzw. horizontalen Projektionsprofile sein.
  • Im Analysierschritt kann überprüft werden, ob das Seitenverhältnis des Lippen-Kandidatenbereichs zwischen einem ersten und einem zweiten vorbestimmten Schwellenwert liegt.
  • Im Analysierschritt kann überprüft werden, ob das Verhältnis des vertikalen Abstands von den Augenpupille-Kandidatenbereichen zur Oberseite des Lippen-Kandidatenbereichs zum Abstand zwischen den Augenpupille-Kandidatenbereichen zwischen einem ersten und einem zweiten voreingestellten Schwellenwert liegt.
  • Zum Analysierschritt können das Unterteilen eines Teils des Gesichts-Kandidatenbereichs in eine linke und eine rechte Hälfte und ein Vergleichen der Winkel der Helligkeitsgradienten horizontal symmetrisch angeordneter Paare von Punkten für Symmetriezwecke gehören.
  • Der Lokalisier- und der Analysierschritt können gestoppt werden, wenn sich das erste Charakteristikum r mal in R aufeinanderfolgenden Bildern der Abfolge findet.
  • du Zum Lokalisierschritt kann ein Durchsuchen des Bilds nach einem Ge sichts-Kandidatenbereich mit einem zweiten Charakteristikum, das für ein menschliches Gesicht kennzeichnend ist, gehören.
  • Das zweite Charakteristikum kann eine gleichmäßige Sättigung sein.
  • Zum Durchsuchungsschritt können ein Verringern der Auflösung des Bilds durch Mitteln der Sättigung, um ein Bild mit verringerter Auflösung zu erzeugen, und ein Suchen nach einem Bereich des Bilds mit verringerter Auflösung, der, mit einer vorbestimmten Form, eine im Wesentlichen gleichmäßige Sättigung aufweist, die sich wesentlich von der Sättigung des Teils des Bilds mit verringerter Auflösung um die vorbestimmte Form herum unterscheidet, gehören.
  • Das Bild kann mehrere Bildelemente enthalten und die Auflösung so verringert werden, dass die vorbestimmte Form um zwei bis drei Elemente des Bilds mit verringerter Auflösung entfernt liegt.
  • Das Bild kann ein rechteckiges Array von M auf N Bildelementen aufweisen, das Bild mit verringerter Auflösung kann (M/m) auf (N/n) Bildelemente aufweisen, wobei jedes m auf n Bildelementen des Bilds entspricht, und die Sättigung jedes Bildelements des Bilds mit verringerter Auflösung kann wie folgt gegeben sein:
    Figure 00120001
    wobei f(i,j) die Sättigung des Bildelements in der Spalte i und der Zeile j der m auf n Bildelemente ist.
  • Die Sättigungswerte können in einem Speicher abgespeichert werden.
  • Jedem der Elemente des Bilds mit verringerter Auflösung ein Gleichmäßigkeitswert dadurch zugeschrieben werden, dass die Sättigung jedes derselben mit der Sättigung mindestens eines benachbarten Elements des Bilds mit verringerter Auflösung verglichen wird.
  • Jedem Gleichmäßigkeitswert kann ein erster Wert zugeschrieben werden, wenn (max(P) – min(P))/max(P) ≤ T gilt, wobei max(P) und min(P) der Maximal- bzw. der Minimalwert der Sättigungswerte des Elements im Bild mit verringerter Auflösung sowie des oder jedes benachbarten Bildelements sind und T ein Schwellenwert ist, und dass ihm andernfalls ein vom ersten Wert verschiedener zweiter Wert zugewiesen wird.
  • T kann im Wesentlichen 0,15 sein.
  • Dem oder jedem benachbarten Element im Bild mit verringerter Auflösung kann kein Gleichmäßigkeitswert zugeschrieben werden, und jeder Gleichmäßigkeitswert kann an Stelle des entsprechenden Sättigungswerts im Speicher abgespeichert wird.
  • Die Auflösung kann so verringert werden, dass die vorbestimmte Form zwei oder drei Elemente im Bild mit verringerter Auflösung entfernt liegt, und zum Verfahren kann ferner die Kennzeichnung der Detektion eines Gesichts-Kandidatenbereichs gehören, wenn ein dem ersten Wert entsprechender Gleichmäßigkeitswert entweder ein Element im Bild mit verringerter Auflösung oder zwei vertikal oder horizontal benachbarten Elementen im Bild mit verringerter Auflösung oder einem rechteckigen Zwei-auf-zwei-Array von Bildelementen zugeschrieben ist und wenn ein dem zweiten Wert entsprechender Gleichmäßigkeitswert jedem umgebenden Element im Bild mit verringerter Auflösung zugeschrieben ist.
  • Die Detektion kann dadurch angezeigt werden, dass ein dritter Wert, der vom ersten und zweiten Wert verschieden ist, anstelle des entsprechenden Gleichmäßigkeitswerts im Speicher abgespeichert wird.
  • Zum Verfahren kann das Wiederholen der Auflösungsverringerung und des Suchens mindestens ein Mal, wobei die Elemente im Bild mit verringerter Auflösung in Bezug auf die Abbildungs-Bildelemente verschoben sind, gehören.
  • Die Sättigung aus Komponenten für Rot, Grün und Blau kann wie folgt hergeleitet werden: (max(R,G,B) – min(R,G,B))/max(R,G,B) wobei max(R,G,B) und min(R,G,B) der Maximal- bzw. Minimalwert der Komponenten für Rot, Grün und Blau sind.
  • Ein erstes Bild kann aufgenommen werden, während ein Bereich erwarteter Positionen eines Gesichts beleuchtet wird, ein zweites Bild unter Verwendung von Umgebungslicht aufgenommen wird und das zweite Bild vom ersten Bild subtrahiert wird, um die Abbildung zu erzeugen.
  • So ist es möglich, ein Verfahren zum automatischen Detektieren eines menschlichen Gesichts in z. B. einem eingehenden Videobildstrom oder -abfolge zu schaffen. Dieses kann z. B. zum Ersetzen des interaktiven Verfahrens zum Aufnehmen einer Schablone, wie oben beschrieben und wie in GB 2 324 428 und EP 0 877 274 offenbart, z. B. in einem Initialisierungsstadium eines dem Betrachter nachfahrenden Videosystems in Zusammenhang mit einem nachgefahrenen autostereoskopischen Display verwendet werden. Die Verwendung derartiger Techniken zur automatischen Zielbildaufnahme erhöht die Einfachheit der Verwendung eines dem Betrachter nachfahrenden Videosystems und eines zugehörigen autostereoskopischen Displays, wodurch die kommerziellen Aussichten für derartige Systeme verbessert werden.
  • Unter Verwendung einer zweistufigen Vorgehensweise in Form eines Gesichtslokalisierers und eines Gesichtsanalysators ermöglicht es der Gesichtslokalisierer, die rechenintensivere Gesichtsanalyse auf eine Anzahl von Gesichtskandidaten einzuschränken. Eine derartige Anordnung kann ein Gesicht in einer Abfolge von Gesichtern, z.B. mit einer Geschwindigkeit zwischen 5 und 30 Hz, abhängig von der Kompliziertheit des Bildinhalts detektieren. Wenn die Gesichtserkennung in bei einem dem Betrachter nachfahrenden autostereoskopischen Display verwendet wird, kann die Gesichtserfassung automatisch beendet werden, nachdem ein Gesicht konstant über eine Anzahl aufeinander folgender Bilder detektiert wurde. Der gesamte Prozess muss nicht mehr als ein paar Sekunden in Anspruch nehmen, und die Initialisierung muss nur einmal zu Beginn jeder Nutzung des Systems ausgeführt werden.
  • Der Gesichtslokalisierer erhöht die Zuverlässigkeit der Gesichtsanalyse, da diese nur am oder jedem Gesichts-Kandidatenbereich im oder jedem Bild ausgeführt werden muss. Obwohl ein Nicht-Gesichtskandidatenbereich Bilddaten enthalten kann, die ähnlich solchen sein können, die Gesichtsmerkmale anzeigen können, begrenzt der Gesichtslokalisierer die auf derartige Eigenschaften beruhende Analyse auf die mögliche Gesichtskandidaten. Ferner trägt die Analyse dazu bei, durch den Lokalisierer aufgefundene falsche Gesichtskandidaten zu beseitigen, und sie kann genauere Positionsdaten zu einem Gesicht und zugehörigen Gesichtsmerkmalen liefern, wie zum Mittelpunkt zwischen den Augen eines Betrachters, so dass ein Zielbild des Augen bereichs erhalten werden kann.
  • Durch Trennen der Lokalisier- und der Analysierfunktion kann jede Funktion oder jeder Schritt einfachere und effizientere Methoden verwenden, die kommerziell implementiert werden können, ohne dass übermäßige Rechenleistung und -kosten erforderlich wären. Zum Beispiel können beim Lokalisieren möglicher Gesichtskandidaten unter Verwendung der Hautfarbe vernünftige Beleuchtungsänderungen berücksichtigt werden. Diese Technik kann einen relativ großen Bereich von Beleuchtungsbedingungen berücksichtigen, und sie kann mit Menschen verschiedenen Alters, verschiedenen Geschlechts und verschiedener Hautfarbe zurechtkommen. Sie kann sogar mit dem Tragen einer leicht gefärbten Brille zurechtkommen.
  • Diese Techniken können eine beliebige Anzahl von Modulen hinsichtlich der Computerimplementierung verwenden. Jedes dieser Module kann so ausgetauscht oder modifiziert werden, dass es verschiedenen Erfordernissen genügt. Dies erhöht die Flexibilität des Systems, das daher einen relativ großen Anwendungsbereich haben kann, wie zur Sicherheitsüberwachung, zur Video-Bildkompression, für Videokonferenzen, für Computerspiele, zur Fahrerüberwachung, als grafische Benutzerschnittstellen, zur Gesichtserkennung und zur Personenidentifizierung.
  • Die Erfindung wird unter Bezugnahme auf die beigefügten Zeichnungen beispielhaft weiter beschrieben.
  • 1 ist ein schematisches Blockdiagramm eines bekannten Typs eines dem Betrachter nachfahrenden autostereoskopischen Displays;
  • 2 ist ein schematisches Blockdiagramm eines dem Betrachter nachfahrenden autostereoskopischen Displays, bei dem die Erfindung angewandt werden kann;
  • 3 ist ein Flussdiagramm zum Veranschaulichen eines Betrachternachfahrvorgangs beim Display der 2;
  • 4 veranschaulicht ein typisches Zielbild oder eine Schablone, die durch das in der 3 veranschaulichte Verfahren aufgenommen wird;
  • 5 veranschaulicht das Aussehen eines Displays während der Schablonenaufnahme durch das Display der 2;
  • 6 ist ein Flussdiagramm zum Veranschaulichen eines eine Ausführungsform der Erfindung bildenden Verfahrens zum Detektieren eines menschlichen Gesichts;
  • 7 ist ein Flussdiagramm zum Veranschaulichen eines Gesichtslokalisierteils des in der 6 veranschaulichten Verfahrens;
  • 8 ist ein Diagramm zum Veranschaulichen eines Farbsättigungswerts(HSV = hue-saturation-value)-Farbschemas;
  • 9 ist ein Diagramm zum Veranschaulichen einer Verringerung der Bildauflösung durch Mittelung beim in der 7 veranschaulichten Verfahren;
  • 10 ist ein Diagramm zum Veranschaulichen der Berechnung von Gleichmäßigkeitswerten beim in der 7 veranschaulichten Verfahren;
  • 11 ist ein Diagramm zum Veranschaulichen von Mustern, wie sie bei der Gesichtskandidatenauswahl beim in der 7 veranschaulichten Verfahren verwendet werden;
  • 12 ist ein Diagramm zum Veranschaulichen des Effekts verschiedener Positionen eines Gesichts beim in der 7 veranschaulichten Verfahrens;
  • 13 ist ein Diagramm zum Veranschaulichen einer Modifizierung des in der 7 veranschaulichten Verfahrens, um verschiedenen Gesichtspositionen zu genügen;
  • 14 ist ein Flussdiagramm zum detaillierteren Veranschaulichen des Gesichtsanalysierstadiums des in der 6 veranschaulichten Verfahrens;
  • 15 ist ein Flussdiagramm zum detaillierteren Veranschaulichen eines Gesichtsmerkmal-Entnahmeschritts beim in der 14 veranschaulichten Verfahren;
  • 16 veranschaulicht einen Bildabschnitt eines Augenbereichs und eine entsprechende vertikale, integrale Projektion;
  • 17 veranschaulicht eine Technik zum Suchen nach einer Augensignatur;
  • 18 ist ein Flussdiagramm zum Veranschaulichen einer weiteren Gesichtseigenschaft-Entnahmetechnik, die Teil des in der 14 dargestellten Verfahrens ist;
  • 19 veranschaulicht vertikale, integrale Projektionen zu grober Schrittgröße;
  • 20 veranschaulicht die Verwendung horizontaler, integraler Projektionsprofile zum Beseitigen falscher Gesichtskandidaten;
  • 21 veranschaulicht das Detektieren eines Paars Augen, wie als Paar von Helligkeitsminima repräsentiert;
  • 22 veranschaulicht eine Nasenerkennungstechnik;
  • 23 ist ein Flussdiagramm zum detaillierteren Veranschaulichen eines modifizierten Gesichtsmerkmal-Entnahmeschritts beim in der 14 veranschaulichten Verfahren;
  • 24 veranschaulicht einen Augenpupillen- und einen Mundbereich mit vertikalen und horizontalen, integralen Projektionen des Mundbereichs;
  • 25 veranschaulicht eine Technik auf Grundlage einer Analyse der Gesichtssymmetrie;
  • 26 ist ein Flussdiagramm zum Veranschaulichen einer Technik zum Beenden des in der 14 veranschaulichten Verfahrens;
  • 27 ist ein schematisches Blockdiagramm eines dem Betrachter nachfahrenden Displays, bei dem die Erfindung angewandt ist; und
  • 28 ist ein Systemblockdiagramm eines Video-Nachfahrsystems des Displays der 13 zum Ausführen des erfindungsgemäßen Verfahrens.
  • Gleiche Bezugszahlen kennzeichnen in allen Zeichnungen gleiche Teile.
  • Die 6 veranschaulicht in Flussdiagrammform ein Verfahren zum automatischen Detektieren und Lokalisieren eines menschlichen Gesichts in einem in Pixel unterteilten Farbbild aus einer Videobildabfolge. Die Videobildabfolge kann in Echtzeit geliefert werden, z. B. durch eine Videokamera des Typs, der oben unter Bezugnahme auf die 2 beschrieben wurde. Das Verfahren kann hinsichtlich des in der 3 veranschaulichten Initialisierungsstadiums 9 in Echtzeit arbeiten, und es liefert ein Zielbild oder eine Schablone an das in der 3 veranschaulichte Nachfahrstadium 10.
  • In einem Schritt S1 wird das jüngste digitale Bild im Format mit Rot, Grün und Blau (RGB) erhalten. Zum Beispiel kann es zu diesem Schritt gehören, dass das jüngste Halbbild von Videodaten von der Videokamera in einem Halbbildspeicher gespeichert wird. In einem Schritt S2 wird das Bild durchsucht, um Bereiche zu lokalisieren, die Gesichtskandidaten bilden. In einem Schritt S3 wird ermittelt, ob irgendwelche Gesichtskandidaten aufgefunden wurden. Falls nicht, wird der Schritt S1 ausgeführt, und es werden die Schritte S2 und S3 wiederholt, bis im jüngsten Bild mindestens ein Gesichtskandidat aufgefunden ist. Die Schritt S2 und S3 bilden daher einen Gesichtslokalisierer 17, der nachfolgend detaillierter beschrieben wird. Der oder jeder Gesichtskandidat wird dann an einen Gesichtsanalysierer 18 geliefert, der die Gesichtskandidaten analysiert, um das Vorliegen einer oder mehrerer Eigenschaften zu ermitteln, die Gesichtsmerkmale anzeigen. In einem Schritt S4 werden die Abschnitte des Bilds, entsprechend Gesichtskandidaten, wie sie durch den Gesichtslokalisierer 17 lokalisiert wurden, einzeln empfangen. Im Schritt S4 wird jeder Gesichtskandidat analysiert, und wenn ermittelt wird, dass der Kandidat Eigenschaften enthält, die ein Gesichtsmerkmal anzeigen, wird ein Zielbild oder eine Schablone in Form eines Augenbereichs, wie bei 11 in der 4 veranschaulicht, aus dem vom Schritt S1 gelieferten jüngsten Bild entnommen. In einem Schritt S5 wird ermittelt, ob alle Gesichtskandidaten getestet wurden, und der Schritt S4 wird wiederholt, bis alle Kandidaten getestet wurden. In einem Schritt S6 wird ermittelt, ob irgendwelche Schablonen erhalten wurden. Falls nicht, geht die Steuerung zum Schritt S1 weiter, und die Prozedur wird für das nächste Farbbild wiederholt. Wenn irgendeine Schablone erhalten wurde, wird die oder jede derartige Schablone in einem Schritt S7 ausgegeben.
  • Der Gesichtslokalisierer 17 kann von jedem geeigneten Typ sein, und nachfolgend wird eine manuelle Technik zur Gesichtslokalisierung beschrieben. Jedoch ist in GB 2 333 590 und EP 0 932 114 eine geeignete automatische Technik offenbart, und dies wird unter Bezugnahme auf die 7 bis 13 detailliert beschrieben.
  • In einem Schritt S21 wird das Videobild aus dem RGB-Format in das HSV(huesaturation-value = Farbsättigungswert)-Format gewandelt, um die Sättigung jedes Pixels zu erhalten. In der Praxis reicht es aus, im Schritt S21 nur die S-Komponente zu erhalten.
  • Das RGB-Format ist ein Hardware-orientiertes Farbschema, das sich aus der Art ergibt, gemäß der Kamerasensoren und Display-Leuchtstoffe arbeiten. Das HSV-Format steht in engem Zusammenhang mit dem Konzept der Farbe, der Schattierung und des Farbtons. Im HSV-Format repräsentiert der Ton die durch die Lichtwellenlänge angegebene Farbe (z. B. Unterscheidung zwischen Rot und Gelb), die Sättigung repräsentiert die Stärke der vorhandenen Farbe (z. B. Unterscheidung zwischen Rot und Rosa), und der Wert repräsentiert die Lichtstärke (z. B. Unterscheidung zwischen Dunkelrot und Hellrot oder zwischen Dunkelgrau und Hellgrau). Der "Raum", in dem diese Werte aufgetragen werden, kann als Kreis- oder Sechseckkegel oder als Doppelkegel aufgetragen werden, wie es z. B. in der 8 veranschaulicht ist, wobei die Achse des Kegels das Fortschreiten der Grauskala von Schwarz nach Weiß repräsentiert, der Abstand von der Achse die Sättigung repräsentiert und die Richtung oder der Winkel um die Achse den Farbton repräsentiert.
  • Die Farbe menschlicher Haut wird durch eine Kombination von Blut (Rot) und Melanin (Gelb, Braun) erzeugt. Hautfarben liegen zwischen diesen zwei extremen Farbtönen, und sie sind etwas gesättigt, jedoch nicht extrem gesättigt. Die Sättigungskomponente des menschlichen Gesichts ist relativ gleichmäßig.
  • Es existieren mehrere Techniken, um Videobilddaten aus dem RGB-Format in das HSV-Format zu wandeln. Es kann jede Technik verwendet werden, die die Sättigungskomponente entnimmt. Zum Beispiel kann die Wandlung entsprechend dem folgenden Ausdruck für die Sättigungskomponente S ausgeführt werden:
    S = 0 für max(R,G,B) = 0 S = (max(R,G,B) – min(R,G,B)/max(R,G,B), andernfalls
  • Folgend auf den Wandlungsschritt S21 wird die räumliche Bildauflösung der Sättigungskomponente in einem Schritt S22 durch Mittelung verkleinert. Wie oben unter Bezugnahme auf die 2 beschrieben, ist der ungefähre Abstand des Gesichts eines Betrachters vom Display bekannt, so dass die ungefähre Größe eines Gesichts in jedem Videobild bekannt ist. Die Auflösung wird so verringert, dass das Gesicht eines erwachsenen Betrachters ungefähr zwei bis drei Pixel in jeder Dimension belegt, wie es in der 7 dargestellt ist. Eine Technik, um dieses zu bewerkstelligen, wird nachfolgend detail lierter beschrieben.
  • In einem Schritt S23 werden, im Bild verringerter Auflösung aus dem Schritt S22 Bereiche oder "Kleckse" gleichmäßiger Sättigung vorbestimmter Größe und Form, umgeben durch einen Bereich von Pixeln verringerter Auflösung mit anderer Sättigung, erfasst. Eine Technik, um dies zu bewerkstelligen, wird ebenfalls nachfolgend detaillierter beschrieben. In einem Schritt S24 wird erfasst, ob ein Gesichtskandidat oder ein gesichtsähnlicher Bereich aufgefunden wurde. Falls nicht, werden die Schritte S1 bis S24 wiederholt. Wenn im Schritt S24 geklärt wird, dass mindestens ein Kandidat aufgefunden wurde, wird die Position des oder jedes gleichmäßigen Kleckses, wie im Schritt S22 detektiert, in einem Schritt S25 ausgegeben.
  • Die 9 veranschaulicht detaillierter den Schritt S22 zum Verringern der Bildauflösung. 30 veranschaulicht die Pixelstruktur eines dem Schritt S1 zugeführten Bilds. Die räumliche Auflösung ist als regelmäßiges Rechteckarray von M×N quadratischen oder rechteckigen Pixeln veranschaulicht. Die räumliche Auflösung wird durch Mittelung verringert, um ein Array von ((M/m)×(N/n) Pixeln zu ergeben, wie es bei 31 veranschaulicht ist. Das Array von Pixeln 30 ist effektiv in "Fenster" oder rechteckige Blöcke von Pixeln 32 unterteilt, von denen jeder M×N Pixel der Struktur 30 enthält. Die S-Werte der Pixel sind in der 9 als f(i,j), für 0≤i<m und 0≤j<n, angegeben. Der mittlere Sättigungswert P des Fensters wird wie folgt berechnet:
    Figure 00200001
  • Bei der in den Zeichnungen veranschaulichten Ausführungsform ist die Verringerung der räumlichen Auflösung dergestalt, dass das Gesicht eines erwachsenen Betrachters ungefähr zwei bis drei der Pixel bei verringerter Auflösung in jeder Dimension belegt.
  • Zum Schritt S23 gehört das Zuweisen eines Gleichmäßigkeitsstatus oder -werts U zu dem Pixel bei verringerter Auflösung mit anschließender Erfassung von Mustern von Gleichmäßigkeitswerten, die gesichtsähnliche Bereiche repräsentieren. Der Gleichmäßigkeitswert beträgt abhängig von der Sättigung des Pixels und seiner Nachbarn 1 oder 0. Die 10 veranschaulicht bei 35 ein Pixel mit einem gemittelten Sättigungswert P0, wobei die gemittelten Sättigungswerte der drei benachbarten Pixel P1, P2 und P3 betragen. Die Zuweisung von Gleichmäßigkeitswerten beginnt am oberen linken Pixel 37, und sie geht von links nach rechts weiter, bis dem vorletzten Pixel 38 der obersten Zeile sein Gleichmäßigkeitswert zugewiesen wurde. Dieser Prozess wird dann für jede Zeile der Reihe nach von oben nach unten wiederholt, bis er in der vorletzten Zeile endet. Durch "Durchscannen" der Pixel auf diese Weise und durch Verwenden benachbarter Pixel rechts und unter dem Pixel, dessen Gleichmäßigkeitswerte berechnet wurde, ist es möglich, die Sättigungswerte P dadurch durch die Gleichmäßigkeitswerte U zu ersetzen, dass ein Überschreiben erfolgt, so dass die Speicherkapazität effizient genutzt werden kann und es nicht erforderlich ist, für die Gleichmäßigkeitswerte für weitere Speicherkapazität zu sorgen.
  • Der Gleichmäßigkeitswert U wird wie folgt berechnet:
    U = 1 wenn (fmax – fmin)/fmax≤T gilt
    U = 0 andernfalls
    wobei T ein vorbestimmter Schwellenwert ist, beispielsweise mit dem typischen Wert von 0,15, fmax das Maximum von P0, P1, P2 und P3 ist, und fmin das Minimum von P0, P1, P2 und P3 ist.
  • Wenn das Zuschreiben der Gleichmäßigkeitswerte abgeschlossen ist, enthält das Array 36 ein Muster von Werten 0 und 1, die die Gleichmäßigkeit der Sättigung der Pixel bei verringerter Auflösung repräsentieren. Dann sucht der Schritt S23 nach speziellen Mustern von Werten 0 und 1, um gesichtsähnliche Bereiche zu detektieren. Die 11 veranschaulicht ein Beispiel von vier Mustern von Gleichmäßigkeitswerten sowie die entsprechenden Pixelsättigungsmuster, die wie Gesichtskandidaten in Videobildern aussehen. Die 11 zeigt bei 40 einen gleichmäßigen Klecks, in dem dunkle Bereiche gemittelte Sättigungswerte ausreichender Gleichmäßigkeit repräsentieren, um einen gesichtsähnlichen Bereich anzuzeigen. Die umgebenden hellen Bereiche oder Quadrate repräsentieren einen Bereich, der die Pixel gleichmäßiger Sättigung umgibt und der im Wesentlichen andere Sättigungen aufweist. Das entsprechende Muster von Gleichmäßigkeitswerten ist bei 41 veranschaulicht und es entspricht einer Kompression eines Pixelorts mit dem Gleichmäßigkeitswert 1, der vollständig von Pixelorten mit dem Gleichmäßigkeitswert 0 umgeben ist.
  • In ähnlicher Weise zeigt die 11 bei 42 einen anderen gesichtsähnlichen Bereich, und sie zeigt bei 43 das entsprechende Muster von Gleichmäßigkeitswerten. In diesem Fall verfügen zwei horizontal benachbarte Pixelorte über den Gleichmäßigkeitswert 1, und sie sind vollständig mit Pixelorten mit dem Gleichmäßigkeitswert 0 umgeben. Die 11 veranschaulicht bei 44 ein drittes Muster, dessen Gleichmäßigkeitswerte dergestalt sind, wie es bei 45 dargestellt ist, und die dergestalt sind, dass zwei vertikal benachbarte Pixelorte den Gleichmäßigkeitswert 1 aufweisen und sie durch Pixelorte mit dem Gleichmäßigkeitswert 0 umgeben sind.
  • Das bei 46 in der 11 dargestellte vierte Muster verfügt über einen quadratischen Block von vier (zwei auf zwei) Pixelorten mit dem Gleichmäßigkeitswert 1, die vollständig mit Pixelorten mit dem Gleichmäßigkeitswert 0 umgeben sind. So zeigt der Schritt S23, immer dann, wenn eines der Gleichmäßigkeitswertmuster, die in der 11 bei 41, 43, 45 und 47 dargestellt sind, auftritt, an, dass ein gesichtsähnlicher Bereich oder ein Kandidat aufgefunden wurde. Die Suche nach diesem Mustern kann effizient ausgeführt werden. Zum Beispiel werden die Gleichmäßigkeitswerte der Pixelorte der Reihe nach überprüft, z. B. von links nach rechts in jeder Zeile und von oben nach unten im Halbbild. Immer wenn ein Gleichmäßigkeitswert 1 erkannt wird, werden die benachbarten Pixelorte rechts und unter dem aktuellen Pixelort untersucht. Wenn mindestens einer dieser Gleichmäßigkeitswerte ebenfalls 1 ist und der Bereich durch Gleichmäßigkeitswerte 0 umgeben ist, wird ein Muster aufgefunden, das einem möglichen Gesichtskandidaten entspricht. Die entsprechenden Pixelorte können dann markiert werden, z. B. durch Ersetzen ihrer Gleichmäßigkeitswerte durch einen anderen Wert als 1 oder 0, z. B. den Wert 2. Solange kein möglicher Gesichtskandidat aufgefunden ist, werden die Positionen der Kandidaten ausgegeben.
  • Das Aussehen der Muster 40, 42, 44 und 46 kann durch die tatsächliche Position des gesichtsähnlichen Bereichs in Beziehung zur Struktur der Pixel 36 bei verringerter Auflösung beeinflusst werden. Die 12 veranschaulicht ein Beispiel hierfür für einen gesichtsähnlichen Bereich mit einer Größe der Pixel bei verringerter Auflösung von zwei auf zwei, wie es bei 49 dargestellt ist. Wenn der durch einen Kreis 50 gekennzeichnete gesichtsähnliche Bereich näherungsweise auf einen zwei-auf-zwei-Block zentriert ist, wird das Muster 47 von Gleichmäßigkeitswerten erhalten, und die Erkennung ist korrekt. Wenn jedoch das Gesicht um das Ausmaß eines halben Pixels sowohl in horizontaler als auch vertikaler Richtung verschoben ist, wie es bei 51 veranschaulicht ist, kann der zentrale Teil des gesichtsähnlichen Bereichs einen Gleichmäßigkeitswert aufweisen, der gegenüber dem umgebenden Bereich verschieden ist. Dies kann zu einem Fehler bei der Erkennung eines echten Kandidaten führen.
  • Um dieses mögliche Problem zu vermeiden, können die Schritte S21 bis S24 für dasselbe Videohalbbild oder für eines oder mehrere folgende Videohalbbilder von Bilddaten wiederholt werden. Jedoch wird bei jeder Wiederholung der Schritte S21 bis S24 die Position des Arrays 31 von Pixeln bei verringerter Auflösung in Bezug auf das Array 30 der Farbbildpixel verändert. Dies ist in der 13 veranschaulicht, in der das Gesamtbild bei 52 dargestellt ist und der zur Verringerung der räumlichen Auflösung durch Bildmittelung verwendete Bereich mit 53 gekennzeichnet ist. Die Mittelung wird auf dieselbe Weise ausgeführt, wie sie in der 9 veranschaulicht ist, jedoch wird die Startposition verändert. Während die Startposition für das erste Pixel in der 8 die obere linke Ecke 54 des Gesamtbilds 52 ist, veranschaulicht die 13 insbesondere eine anschließende Mittelung, bei der die Startposition um einen Wert Sx nach rechts in der horizontalen Richtung und Sy nach unten in der vertikalen Richtung gegenüber der oberen linken Ecke verschoben ist, wobei Folgendes gilt:
    0<Sx<m und 0<Sy<n
  • Jedes Bild kann wiederholt verarbeitet werden, so dass alle Kombinationen der Werte Sx und Sy verarbeitet werden, so dass mxn Prozesse auszuführen sind. Jedoch ist es in der Praxis nicht erforderlich, alle Startpositionen zu verwenden, insbesondere bei Anwendungen, bei denen die Erkennung gesichtsähnlicher Bereiche nicht sehr genau sein muss. Beim vorliegenden Beispiel, bei dem die Erkennung des gesichtsähnlichen Bereichs den ersten Schritt eines zweistufigen Prozesses bildet, können die Werte Sx und Sy aus einem ausgedünnteren Satz von Kombinationen ausgewählt werden, wie:
    Sx = i × (m/p) und Sy = j × (n/q) wobei i, j, p und q ganze Zahlen sind, die den folgenden Bedingungen genügen:
    0≤i<p
    0≤j<q
    1≤p<m
    1≤q<n
  • Dies führt zu insgesamt p × q Kombinationen.
  • Wie oben angegeben, können die Schritte S21 bis S24 mit verschiedenen Startpositionen beim selben Bild oder bei einer Abfolge von Bildern wiederholt werden. Für eine Echtzeit-Bildverarbeitung kann es erforderlich oder bevorzugt sein, die Schritte für die Bilder einer Abfolge zu wiederholen. Das Verfahren kann sehr schnell ausgeführt werden, und es kann bei einer Rate zwischen 10 und 60 Hz abhängig von der Anzahl der im Bild vorhandenen Gesichtskandidaten in Echtzeit arbeiten. Demgemäß können innerhalb einer kurzen Periode in der Größenordnung einiger weniger Sekunden oder weniger alle möglichen Positionen getestet werden.
  • Das in der 7 veranschaulichte Verfahren kann mit jeder geeigneten Hardware ausgeführt werden, wie der in der 2 veranschaulichten. Der oben beschriebene Nachfahrprozessor 4 kann so programmiert werden, dass er das Verfahren der 7 als Teil des in der 3 veranschaulichten Initialisierungsstadiums 9 implementiert. Die Datenverarbeitung wird durch den R4400-Prozessor und den zugeordneten Speicher ausgeführt, und der Prozessor 4 verfügt über einen Videodigitalisierer und einen Rahmenspeicher, wie es in der 2 veranschaulicht ist, um die Sättigungswerte, die gemittelten Sättigungswerte der Pixel bei verringerter Auflösung und die Gleichmäßigkeitswerte zu speichern.
  • Die 14 veranschaulicht detaillierter den Gesichtsanalysierer 18. Insbesondere ist die im Schritt S4 ausgeführte Analyse in der 14 als Schritte S10 bis S14 dargestellt.
  • Obwohl die Analyse in der RGB-Domäne ausgeführt werden kann, reicht es aus, eine einzelne Farbkomponente zu verwenden. Demgemäß wird im Schritt S10 z. B. die rote Farbkomponente aus dem jüngsten Farbbild ausgewählt. Als Alternative kann eine andere einwertige Komponente verwendet werden. Zum Beispiel kann ein Kontrastbild unter Verwendung der folgenden Gleichung hergeleitet werden: C = max (R,G,B) – min (R,G,B)
  • Die Verwendung eines derartigen Kontrastbilds kann die Erkennung der Omegaform, wie nachfolgend beschrieben, verbessern.
  • Im Schritt S11 wird einer der durch den Gesichtslokalisierer 17 gelieferten Gesichtskandidaten ausgewählt, und es wird das Bildgebiet der roten Komponente, die durch den Gesichtskandidaten spezifiziert, ausgewählt. Im Schritt S12 werden Gesichtsmerkmale entnommen, um das Vorliegen eines Ge sichts im Bild zu bestätigen und um die genaue Position des Gesichts zu erhalten. Im Schritt S13 wird ermittelt, ob ein Gesicht aufgefunden wurde, und falls nicht, geht die Steuerung zum Schritt S5 weiter. Wenn ein Gesicht aufgefunden wurde, wird im Schritt S14 das Zielbild in Form einer Augenschablone ausgewählt oder aktualisiert, wie derjenigen, die in der 4 bei 11 dargestellt ist. Dann geht die Steuerung zum Schritt S5 weiter. Die Schritt S11 bis S14 werden wiederholt, bis alle Gesichtskandidaten getestet sind.
  • Es ist möglich, mit diesem Verfahren mehr als Gesicht in einem Bild zu detektieren. Jedoch ist bei bestimmten Anwendungen wie derzeitigen, dem Betrachter nachfahrenden autostereoskopischen Displays nur ein einzelner Benutzer zugelassen. Wenn mehr als ein Gesicht detektiert wird, kann eine Auswählregel verwendet werden, um eine einzelne Schablone auszuwählen. Zum Beispiel kann die ausgewählte Schablone die erste zu detektierende sein, oder sie kann diejenige sein, die am nächsten beim Zentrum des Bilds positioniert ist. Als Alternative kann jede Schablone mit einem Qualitätsmaß versehen werden, z. B. einem solchen, das mit dem Symmetriegrad in Beziehung steht, und es kann die Schablone mit dem besten Qualitätsmal ausgewählt werden. Eine derartige Technik wird nachfolgend mit dem besten Qualitätsmaß ausgewählt werden. Eine derartige Technik wird nachfolgend detaillierter beschrieben.
  • Die Entnahme von Gesichtsmerkmalen, was den Schritt S12 bildet, ist in der 15 detaillierter dargestellt, und sie beinhaltet Schritte S30 bis S39. Im Schritt S30 wird ein Bereich der roten Komponente des Bilds mit der benötigten Schablonengröße ausgewählt. Im Schritt S31 wird erfasst, ob eine Omegaform detektiert wurde und wenn dies der Fall ist, wird die Position derselben auf Grundlage des Symmetriemaßes im Schritt S32 abgespeichert oder aktualisiert. Im Schritt S33 wird ermittelt, ob alle möglichen Positionen getestet wurden und falls nicht, wird im Schritt S30 ein anderer Bereich aus dem durch den Gesichtskandidaten spezifizierten Bildgebiet ausgewählt.
  • Wenn einmal alle möglichen Positionen getestet sind, wird im Schritt S34 ermittelt, ob irgendeine omegaförmige, vertikale, integrale Projektion detektiert wurde. Wenn dies der Fall ist, wird im Schritt S35 ermittelt, ob im Bereich der Schablonengröße zwei Augen existieren. Wenn dies der Fall ist, wird im Schritt S36 ermittelt, ob eine Nase detektiert wurde. Wenn dies der Fall ist, wird im Schritt S38 ein Fleck gesetzt, um anzuzeigen, dass ein Gesicht detektiert wurde, und es wird die Position desselben gespeichert. Wenn irgendeiner der Tests in den Schritten S34 bis S36 negativ ist, wird im Schritt S37 ein Fleck gesetzt, um anzuzeigen, dass kein Gesicht detektiert wurde. Mit dem Schritt S39 wird die Analyse des Gesichtskandidaten abgeschlossen.
  • Die 16 veranschaulicht eine Schablone 11 für einen gewünschten Augenbereich, und sie zeigt darunter das entsprechende vertikale, integrale Projektionsprofil, das "ω" ähnelt. Im Schritt S31 werden derartige Profile detektiert, die durch einen Spitzenwert oder eine maximale Helligkeit Vo an einer Horizontalposition X0 charakterisiert sind, wobei ein erstes und ein zweites Minimum der Helligkeit, V1 und V2, bei X1 und X2 symmetrisch zum Maximum liegen. Die benötigte Größe der Schablone oder des Zielbilds ist in der 17 bei 21 veranschaulicht, und sie verfügt über k auf 1 Pixel. Das Bildgebiet eines Gesichtskandidaten verfügt über K auf L Pixel, und es bei 22 veranschaulicht. Im Schritt S30 wird ein Anfangsbereich 23 mit der benötigten Schablonengröße zur Analyse ausgewählt, und es werden die Schritte S31 bis S33 ausgeführt. Dann wird im Schritt S30 ein horizontal benachbarter Bereich 24 ausgewählt, der um einen Abstand Sx nach rechts in Bezug auf den Bereich 23 versetzt ist. Dies wird wiederholt, bis die ausgewählten Bereiche den oberen Streifen des Bildgebiets 22 abgedeckt haben. Der Prozess wird weiterhin mit einem vertikalen Versatz Sy gegenüber einer Startposition, wie bei 25 gekennzeichnet, wiederholt. So wird jeder horizontale Streifen durch horizontal überlappende Bereiche "abgedeckt", und der gesamte Bereich 22 wird durch vertikal überlappende Streifen abgedeckt, bis der ausgewählte Bereich bei 26 liegt. Im Schritt S33 wird ermittelt, dass alle mögliche Positionen getestet wurden, und dann wird der Schritt S34 ausgeführt.
  • Die Funktion des Schritts S31 ist in der 18 detaillierter durch Schritte S40 bis S48 veranschaulicht. Im Schritt S40 wird die Untersektion des Bilds mit einer Breite von k Pixeln ausgewählt. Der Parameter k wird so gewählt, dass, beim horizontalen Relativversatz Sx, jeder Streifen durch Überlappen der Rechtecke abgedeckt ist. In ähnlicher Weise werden die Parameter l und Sy so ausgewählt, dass sich vertikal überlappende Streifen ergeben. Im Allgemeinen werden diese Parameter so ausgewählt, dass Sx dem Wert k/4 entspricht und Sy dem Wert l/4 entspricht.
  • Im Schritt S41 wird die vertikal-Projektionsfunktion V(x) berechnet. Diese wird wie folgt berechnet:
    Figure 00270001
    wobei I(x,y) die Intensität des Pixels mit den Koordinaten x, y ist, und wobei die Fläche des Untersektionsbilds durch (x1,x2)×(y1,y2) gegeben ist. Im Schritt S42 wird dann der Spitzenwert oder das Maximum dieser Funktion detektiert, und es wird die Horizontalposition X0 aufgefunden.
  • Im Schritt S43 wird ermittelt, ob die Position X0 des Maximums im zentralen Bereich der Untersektion liegt, die als Bereich von k/4 bis 3k/4 definiert ist. Falls nicht, kehrt die Steuerung zum Schritt S40 zurück. Andernfalls werden im Schritt S44 die Minima zu beiden Seiten des Spitzenwerts oder des Maximums detektiert und es werden ihre Positionen X1 und X2 aufgefunden. Im Schritt S44 wird dann ermittelt, ob die Orte der Minima dem Augenabstand eines Erwachsenen entsprechen. Dieser Augenabstand beträgt normalerweise zwischen 55 und 70 mm, und die entsprechende Schwellenwerte sind T1 und T2. Wenn die Größe der Differenz zwischen X1 und X2 zwischen diesen Schwellenwerten liegt (Schritt S45), wird der Schritt S46 ausgeführt. Andernfalls kehrt die Steuerung zum Schritt S40 zurück.
  • Im Schritt S46 wird das Spitzenwert/Tal-Verhältnis R gemäß dem folgenden Ausdruck gebildet: R = 1 – min(V(X2),V(X1))/V(X0)
  • Im Schritt S47 wird das Verhältnis R mit einem Schwellenwert T3 verglichen, für den 0,2 ein typischer Wert ist. Wenn das Verhältnis unter diesem Schwellenwert liegt, kehrt die Steuerung zum Schritt S40 zurück. Wenn das Verhältnis über dem Schwellenwert liegt, zeigt der Schritt S48 an, dass ein Omegaform detektiert wurde.
  • Wenn eine Omegaform detektiert wurde, wird ein Qualitätsmaß berechnet, das mit dem Grad der horizontalen Symmetrie um eine Mittellinie der Untersektion in Beziehung steht. Zum Beispiel kann dies wie folgt berechnet werden:
    Figure 00270002
  • Das Qualitätsmaß kann dazu verwendet werden, die "beste" Omegaform für den aktuellen Gesichtskandidaten auszuwählen, und, insbesondere, die beste Horizontal- und Vertikalposition des Augenbereichs zu bestimmen, wobei jedoch die Vertikalposition so bestimmt werden kann, wie dies nachfolgend beschrieben wird.
  • Die 19 veranschaulicht den Effekt einer ungeeigneten Wahl der horizontalen Schrittgröße Sx. Insbesondere ist es möglich, wenn Sx auf einen großen Wert, z. B. über k/2 eingestellt wird, dass in keiner Untersektion ein Spitzenwert oder Maximum detektiert wird. Wie es im vertikalen, integralen Projektionsprofil der 19, insbesondere in den abgedunkelten Teilen, dargestellt ist, existiert innerhalb des zentralen Bereichs kein Maximum oder Spitzenwert, so dass im Schritt S42 eine Position X0 gefunden würde, die im Schritt S42 außerhalb des Bereichs liegen würde. Die Größe des Schritts Sx sollte daher kleiner als k/2 sein, und es wurde der Wert k/4 aufgefunden, um beim Aufrechterhalten der Recheneffizienz zu guter Funktion zu führen, während das Verfehlen des zentralen Spitzenwerts des omegaförmigen Profils vermieden wird.
  • Der Spitzenwert der besten Omegaform, mit z. B. dem höchsten Qualitätsmaß Q, zeigt die Mitte der zwei Augen des Augenbereichs an und definiert die zentrale Position des Zielbilds oder der Schablone. Jedoch ist die Vertikalposition nicht gut definiert, da es wahrscheinlich ist, dass Untersektionen, die gegenüber der besten Position leicht nach oben oder unten versetzt sind, ähnliche omegaförmige, vertikale, integrale Projektionsprofile zeigen.
  • Eine Technik zum vertikalen Zentrieren der Untersektion im Augenbereich beinhaltet ein Lokalisieren der besten Horizontalposition mit einem anschließenden Versetzen der Untersektion nach oben und unten, bis die Omegaform nicht mehr detektiert werden kann. Dann kann eine Vertikalposition zwischen dieser oberen und unteren Grenzposition als Vertikalposition für das Zielbild ausgewählt werden.
  • Eine alternative Technik zum Lokalisieren der korrekten Vertikalposition beruht auf dem Spitzenwert/Tal-Verhältnis. In diesem Fall wird wiederum die beste Horizontalposition bestimmt, und die Untersektionen werden vertikal versetzt, während das Spitzenwert/Tal-Verhältnis überwacht wird. Diejenige Position, die dem höchsten Verhältnis entspricht, wird dann als Vertikalposition der Mitte des Zielbilds ausgewählt.
  • Obwohl das Vorliegen einer Omegaform im vertikalen, integralen Projektionsprofil ein starker Hinweis auf die Existenz eines Außenbereichs ist, beruht dies stark auf der Annahme der Symmetrie eines menschlichen Gesichts. Jedoch kann auch ein Bild, das in Bezug auf seine Mittellinie unsymmetrisch ist, ein omegaförmiges Profil erzeugen. Ein Beispiel für ein derartiges Bild ist in der Mitte der 20 direkt über einem Augenbereich dargestellt, und das Vertikalprofil für beide Bilder ist im Wesentlichen dasselbe, und es ist oben in der 20 dargestellt. In diesem Fall wird das unsymmetrische Bild dadurch erhalten, dass die linke Hälfte desselben an der Mittellinie reflektiert wird und dann das sich ergebende rechte Halbbild mit der Oberseite nach unten verdreht wird.
  • Um durch derartige Bilder verursachte falsche Gesichtserkennungen zu vermeiden, wird eine Technik auf Grundlage horizontaler, integraler Projektionsprofile verwendet. Insbesondere dann, wenn eine Omegaform detektiert wurde und ein Bildgebiet der gewünschten Schablonengröße so ausgewählt wird, dass sein Zentrum mit dem zentralen Spitzenwert oder Maximum der Omegaform ausgerichtet ist, werden integrale Horizontalprojektionen auf die linke und die rechte Hälfte des Bilds angewandt. Das integrale Horizontal-Projektionsprofil für die linke Hälfte ist wie folgt gegeben:
    Figure 00290001
  • Außerdem ist das integrale Horizontal-Projektionsprofil für die rechte Hälfte wie folgt gegeben:
    Figure 00290002
  • Dann ist ein Symmetriemaß Sm wie folgt definiert:
    Figure 00290003
  • Der Minimal- und der Maximalwert von Sm sind 0 und 1. Der Wert von Sm sollte einen vorbestimmten Schwellenwert, der typischerweise zwischen 0,15 und 0,2 liegt, nicht überschreiten. Durch Akzeptieren einer Omegaform nur dann, wenn sie diesen Test besteht, wird die Möglichkeit einer falschen Erkennung verringert.
  • Die integralen Horizontal-Projektionsprofile für die zwei Bilder sind in der 20 veranschaulicht. Das falsche Bild ergibt horizontal asymmetrische Profile, wohingegen das Bild des Augenbereichs im Wesentlichen symmetrische Profile liefert. Diese Technik kann zwischen die Schritte S47 und S48 in der 18 eingesetzt werden, so dass ein positives Ergebnis die Steuerung zum Schritt S48 weiter bringt, wohingegen ein negatives Ergebnis die Steuerung zum Schritt S40 weiter bringt.
  • Das Detektieren der Omegaform verringert die Möglichkeit einer falschen Gesichtserkennung, jedoch können weitere Tests ausgeführt werden, wie dies z. B. durch die Schritte S35 und S36 in der 15 veranschaulicht ist, um die Möglichkeit falscher Erkennungen noch weiter zu verringern. Das Detektieren der Omegaform ermöglicht es, die Mitte eines Gesichts zu lokalisieren, wenn angenommen wird, dass im Bild ein Gesicht vorhanden ist. Die Augenbereiche sind im Allgemeinen dunkel, so dass zwei Helligkeitsminima vorhanden sein sollten, die im Wesentlichen horizontal symmetrisch in Bezug auf die Mittellinie angeordnet sind. Diese kann hinsichtlich der RGB-Domäne getestet werden, jedoch muss es nicht auf das Bild der vollständigen Auflösung angewandt werden. Tatsächlich kann ein Bild mit geringerer Auflösung den Vorteil zeigen, dass die Wahrscheinlichkeit verringert wird, dass ein isoliertes dunkles Pixel als einem Auge entsprechendes Minimum verstanden wird.
  • Obwohl sich der Kopf eines Benutzers im Anfangsstadium normalerweise im Wesentlichen in einer aufrechten Stellung befindet, ist eine absolut aufrechte Stellung nicht wesentlich. So liegen die zwei Minima nicht notwendigerweise auf derselben horizontalen Linie. Daher ist es nützlich, die Bildauflösung durch Mittelung, z. B. wie oben beschrieben, zu verringern. Zu diesem Zweck reicht ein Bild einer einzelnen Farbkomponente, wie ein Bild der roten Komponente, aus. Eine geeignete Auflösung für diesen Test in dergestalt, dass das Zielbild nur einige wenige Pixel in jeder Abmessung enthält, z. B. 5 auf 5 oder 7 auf 7 Pixel. Wie es in der 21 dargestellt ist, sind die Orte der Minima als (XL,YL) und (XR,XR) repräsentiert. Im Schritt S35 wird ermittelt, ob YL = YR und |XL+XR – 2X0|≤T4 gelten, wobei X0 die zentrale Position ist und T4 ein Schwellenwert, z. B. mit dem 1 ist.
  • Wenn im Schritt S35 die Existenz zweier Augenbereiche bestätigt wird, ist die Wahrscheinlichkeit, dass diese Bereiche tatsächlich Augen im Bild entsprechen, verbessert, wenn zwischen den Minima ein hellerer Bereich detektiert wird. In der 22 ist ein typisches Nasenmuster dargestellt, und dies repräsentiert die Beobachtung, dass die Nase im Allgemeinen heller als das Bild unmittelbar unter der Spitze derselben ist. Der in der 22 dargestellten Nasenbereich sollte abhängig von der tatsächlichen Größe des Gesichts über eine Länge von zwei oder drei Pixeln verfügen. In diesem Fall wird der Nasenbereich akzeptiert, wenn die folgenden Bedingungen erfüllt sind: min(P1,P2,P3)/max(P1,P2,P3)≥T5 und Mittelwert(P4,P5,P6)/Mittelwert(P1,P2,P3)≤T6 wobei T5 und T6 vorbestimmte Schwellenwerte, typischerweise mit dem Wert 0,8 bzw. 0,5, sind.
  • Die obigen Verfahren zum Erkennen der Augen und der Nase werden mit geringerer Auflösung ausgeführt, um die Recheneffizienz zu verbessern. Es können andere Gesichtsmerkmal-Entnahmeverfahren angewandt werden, um das Vorliegen eines Gesichts weiter zu verifizieren. Zum Beispiel beschreiben die folgenden Verfahren die Erkennung der Augenpupillen und der Mundlippen unter Verwendung des ursprünglichen RGB-Bilds voller Auflösung. Die 23 veranschaulicht eine andere Ausführungsform des Schritts S12 der 14 dahingehend, dass Schritte S60 und S61 hinzugefügt sind. Im Schritt S60 wird eine Erkennung von Augenpupillen und dem Mund mit hoher Auflösung ausgeführt, und im Schritt S61 wird ein Test zu geometrischen Einschränkungen ausgeführt, wobei beide nachfolgend detaillierter beschrieben werden.
  • Die genaue Position jedes Auges kann als Zentrum der Augenpupille identifiziert werden. Der erste Schritt zum Bestimmen des Zentrums der Augenpupille besteht im Abtrennen derselben vom Rest des Augenbereichs und der Gesichts haut. Es wurde herausgefunden, dass für die Pixel über den Augenbereich hinweg, mit Ausnahme derjenigen der Augenpupille, die folgende Ungleichung gilt: R>G>B
  • Es wird die folgende Gleichung verwendet, um die Augenpupille zu detektieren:
    Figure 00320001
    wobei der Wert 1 ein Pixel innerhalb des Augenpupillenbereichs und der Wert 0 ein Pixel außerhalb kennzeichnen und wobei C1 und C2 zwei Konstanten sind. Typische Werte dieser zwei Parameter sind wie folgt gegeben: C1 = C2 = 0
  • Die anfängliche, beste Augenschablonenposition ist durch den Ort gegeben, an dem die beste Omegaform erkannt wird, wie bereits beschrieben. Die Spitzenwertposition der Omegaform unterteilt diesen Bereich in zwei Hälften. Das obige Augenpupillen-Detektierverfahren kann dann getrennt auf jede Hälfte angewandt werden. Die Augenpositionen werden dann als Centroide der detektierten Augenpupillen definiert. Zum Beispiel ist die linke Augenposition wie folgt gegeben:
    Figure 00320002
    wobei N die Gesamtanzahl der Pixel im Gebiet ist, dessen obere linke Ecke bei (x1,y1) liegt und dessen untere rechte Ecke bei (x2,y2) liegt. Die Position (XL,YL) definiert dann das Zentrum der linken Augenpupille. Auf ähnliche Weise kann die Position der rechten Augenpupille zu (XR,YR) bestimmt werden. Dies ist in der 24 veranschaulicht. Der Augenabstand ist dann wie folgt gegeben: DAuge= XR – XL
  • Wenn die Augenpupillen detektiert sind, kann anschließend der Mund innerhalb des in der 24 dargestellten Rechteckegebiets A'B'C'D' lokalisiert werden. Die linke Seite dieses Gebiets A'B'C'D' ist durch die Position der linken Augenpupille bestimmt, und die rechte Seite durch diejenige der rechten Augenpupille. Die Oberseite des Gebiets liegt um 0,5 DAuge unter der die zwei Augenpupillen verbindenden Linie, und die Unterseite liegt um 1,5 DAuge unter dieser Linie.
  • Die Erkennung des Munds erfolgt durch Detektieren der Lippen. Die Lippen werden unter Verwendung der folgenden Gleichung gegenüber dem Gesicht abgetrennt:
    Figure 00330001
    wobei der Wert 1 ein Lippenpixel und der Wert 0 ein Hautpixel bezeichnen und wobei η eine Konstante ist, deren typischer Wert auf 2,5 eingestellt ist.
  • Dann wird unter Verwendung der folgenden Gleichung ein Vertikalhistogramm konstruiert:
    Figure 00330002
  • Dies ist in der 24 veranschaulicht. Wenn ein Mund vorhanden ist, erzeugt das obige Histogramm im Allgemeinen einen Spitzenwert im Zentrum, mit einer allmählichen Abnahme auf beiden Seiten. Wenn ein Spitzenwert an der Position Xp detektiert wird, ist das linke Ende des Munds durch den ersten Wert X1 gegeben, an dem der Wert des Histogramms die folgende Ungleichung erfüllt: Hy(X1)<μHy(Xp) wobei μ eine Konstante ist, die typischerweise zu 0,1 eingestellt ist. Das rechte Ende des Munds wird in ähnlicher Weise zu X2 bestimmt.
  • Die Höhe des Munds wird auf ähnliche Weise unter Verwendung eines horizontalen Projektionsprofils gemäß M(x,y) bestimmt. Dies liefert die obere Position des Munds als Y1, und die Unterseite als Y2. Der Mund ist daher durch das Rechteck umschlossen, dessen obere linke Ecke (X1, Y1) ist und dessen untere rechte Ecke (X2, Y2) ist.
  • Wenn ein Mund vorhanden ist, sollte dessen Seitenverhältnis den folgenden geometrischen Einschränkungen genügen: α ≤ |(X2 – X1)/(Y1 – Y2)| ≤ β wobei α typischerweise zu 1,5 und β zu 5 eingestellt sind.
  • Der Vertikalabstand zwischen der Oberseite des Munds und der die zwei Augen verbindenden Linie ist wie folgt definiert: DME = Y1 – (YL + YR)/2
  • Der Wert von Y2, d.h. die Position der Unterlippe, ändert sich deutlicher als der Wert von Y1, d.h. die Position der Oberlippe, insbesondere dann, wenn der Benutzer spricht. In der obigen Gleichung wurde Y1 dazu verwendet, die Position des Munds in der vertikalen Richtung anzuzeigen.
  • Es wurde herausgefunden, dass dieser Abstand proportional zum Augenabstand ist, mit dem typischen Verhältnis 1. Die Relativposition des Munds und der Augen sollten daher die folgende Bedingung erfüllen: ((DME/DAuge) – 1| < v wobei v typischerweise zu 0,25 eingestellt ist. Im Schritt S61 wird überprüft, ob diese geometrischen Einschränkungen erfüllt sind.
  • Ein weiteres Symmetriemaß kann auf einem intelligenten Symmetriedetektor beruhen, wie er von D. Reisfeld, H. Wolfson und Y. Yeshurun in "Context free attentional operators: the generalized symmetry transforms", IJCV, Vol. 14, S. 119–130, 1995 sowie von D. Reisfeld und Y. Yeshurun in "Robust detection of facial features by generalized symmetry", Proc. of the 11th IAPR International Conference on Pattern Recognition, S. 117 offenbart ist. Eine derartige intelligente Anordnung ist für eine kommerzielle Realisierung des vorliegenden Verfahrens unpraktisch, jedoch kann eine wesentlich vereinfachte Technik verwendet werden, um ein Symmetriemaß zu liefern, das eine Unterstützung beim Bestätigen des Vorliegens eines Gesichts oder eines Teils eines Gesichts in einer Schablone bietet.
  • Die 25 veranschaulicht ein Seitenbeleuchtungsbild einer Person sowie ein Rechteckgebiet ABCD, das eine Untersektion des Bilds enthält. Die Untersektion ist in eine linke Hälfte AEFD und eine rechte Hälfte EBCF unterteilt. Für jeden Punkt P1 in der rechten Hälfte existiert ein entsprechender Punkt P2 in "Spiegelbild" position in der linken Hälfte. Wenn die Untersektion ABCD ein Ziel enthält, das in Bezug auf die Mittellinie EF symmetrisch ist, bilden die Punkte P1 und P2 ein Paar symmetrischer Punkte.
  • Bei absolut gleichmäßiger Beleuchtung wären die Helligkeiten oder Intensitäten dieser zwei Punkte identisch. Jedoch sind, wie es in der 25 veranschaulicht ist, typische Beleuchtungsbedingungen dergestalt, dass die Intensitäten symmetrischer Punkte verschieden sind.
  • Dieses Problem kann unter Verwendung von "Bildgradienten" überwunden werden, die Vektoren sind, die die Intensitätsänderungen an jedem Punkt beschreiben. Insbesondere verfügt jeder derartige Vektor über eine Größe, die der maximalen Intensitätsänderung ausgehend vom Punkt in jeder beliebigen Richtung entspricht, und eine solche Richtung oder einen solchen Winkel, dass der Vektor in der Richtung der maximalen Intensitätsänderung zeigt. Die Gradientenamplitude wird auch durch den Beleuchtungstyp beeinflusst, jedoch hängt der Phasenwinkel stark von den geometrischen Merkmalen des Gesichts ab, und er wird weniger durch die Beleuchtung beeinflusst. So werden die Punkte P1 und P2 als symmetrisch angesehen, wenn ihre Gradientenwinkel Θ1 und Θ2 der folgenden Bedingung genügen: Θ1 + Θ2 = ± π Das Symmetriemaß der Untersektion ABCD ist wie folgt gegeben: Ss = Σ{1 – cos[Θ1(x,y) + Θ2(x', y')]}
    (x,y)∊EBCF
    (x,y)∊AFFD
    wobei (x,y) und (x',y') die Koordinaten der Punktepaare in den zwei Hälften der Bild-Untersektion sind.
  • Dieses Maß Ss kann für jede Untersektion im Bild dadurch berechnet werden, dass von links nach rechts und oben nach unten durchsucht wird. Die Sektion mit dem höchsten Wert von Ss wird dann als das Gesicht im Bild enthaltende Gebiet ausgewählt.
  • Das Maß Ss kann ferner gemäß dem folgenden Ausdruck verfeinert werden: Ss = Σ{1 – cos[Θ1(x,y) + Θ2(x', y')]w(x,y)w(x',y'')}
    (x,y)∊EBCF
    (x',y')∊AEFD
    wobei w(x,y) und w(x',y') Gewichtungsfunktionen sind. Zum Beispiel können die Gewichtungsfunktionen der Gradientenamplitude an jedem Punkt entsprechen, so dass starke Ränder mehr zum wert von Ss beitragen. In der Praxis kann eine binäre Gewichtungsfunktion verwendet werden, und sie kann durch Schwellenwertvergleich der Gradientenamplitude gebildet werden, so dass dann, wenn diese einen vorgegebenen Schwellenwert übersteigt, die Gewichtungsfunktion auf 1 gesetzt wird, während sie andernfalls auf 0 gesetzt wird. Der Schwellenwert kann mit der Hälfte des Mittelwerts der Gradientenamplitude der Untersektion gleich gemacht werden.
  • Es ist wünschenswert, dass das Zielbild mit einer aufrechten Position des Gesichts aufgenommen wird. Wenn z. B. ein Benutzer vor einem Display sitzt und er damit beginnt, dieses zu betrachten, beginnt das System mit dem Lokalisieren des Gesichts, und es findet das Zielbild auf. Das erste erfasste Zielbild muss nicht das beste sein, da sich der Benutzer unter Umständen nicht in aufrechter Position befindet. So muss es nicht zweckdienlich sein, das erste erfasste Zielbild als Schablone, z. B. für ein anschließendes Betrachternachfahren, auszuwählen.
  • Die 26 veranschaulicht ein modifiziertes Verfahren, das auf dem in der 6 Veranschaulichten beruht. Insbesondere sind Schritte S50 bis S53 zwischen die Schritte S6 und S7 eingefügt. Wenn im Schritt S6 eine Schablone aufgefunden wird, wird im Schritt S50 das Maß für die "Güte" des in der Schablone enthaltenen Bilds berechnet. Zum Beispiel kann dieses auf dem oben beschriebenen Symmetriemaß Ss beruhen. Im Schritt S51 wird ermittelt, ob die Schablone in den letzten R Bildern oder Rahmen aufgefunden wurde. Falls nicht, kehrt die Steuerung zum Schritt S1 zurück. Falls ja, wird im Schritt S52 das Gütemaß der zuletzt detektierten Schablone mit der zuvor besten Schablone verglichen. Wenn die jüngste Schablone einen höheren Gütewert aufweist, wird sie als aktuell beste Schablone ausgewählt.
  • Im Schritt S53 wird ermittelt, ob Schablonen in den letzten R Rahmen öfter als r mal aufgefunden wurden. Falls nicht, kehrt die Steuerung zum Schritt S1 zurück. Falls ja, wird im Schritt S7 die beste Schablone, d.h. die mit dem höchsten Gütemaß, ausgegeben.
  • Das in der 26 veranschaulichte Verfahren ermittelt so, ob in den letzten R aufeinanderfolgenden Rahmen mehr als r Schablonen detektiert wurden. Zum Beispiel kann r den Wert 7 haben, und R kann den Wert 10 haben. Wenn dies der Fall ist, wird das Zielbild als konsistent detektiert angesehen, und die beste Schablone wird für das anschließende Betrachter Nachfahren verwendet.
  • Es ist möglich, dass der in der 7 dargestellte Gesichtslokalisierer durch ein halbautomatisches Verfahren ersetzt wird, das etwas an Benutzerunterstützung erfordert. Wenn z. B. eine schwarz-weiß-Videokamera verwendet wird, ist keine Farbinformation verfügbar, so dass der in der 7 veranschaulichte Gesichtslokalisierer nicht mehr funktioniert.
  • Beim halbautomatischen Verfahren wird jedes eingehende Videobild mit einer grafischen Kopfführung mit ungefähr derselben Größe wie der des Kopfs eines Erwachsenen im Zentrum des Displays angezeigt. Der Benutzer sieht eine lebende Bildabfolge von ihm selbst mit fester Grafikführung, so dass er seinen Kopf innerhalb der Führung positionieren kann. Der Gesichtsanalysator 18 wird auf den Bereich innerhalb der grafischen Kopfführung angewandt, und wenn einmal der Kopf eines Benutzers innerhalb dieses Bereichs angeordnet ist, detektiert er das Gesicht und lokalisiert die genaue Position des Zielbilds. Es ist nicht erforderlich, dass der Benutzer eine genaue Ausrichtung einhält, was beim in GB 2 324 428 und EP 0 877 274 offenbarten Verfahren ein unbequemes Erfordernis ist. Auch ist die Möglichkeit der Erfassung falscher Ziele im Hintergrund verringert, da der Gesichtsanalysator 18 nur im durch die Kopfführung spezifizierten Gebiet sucht.
  • Wenn die Beleuchtung sehr schlecht ist, z. B. bei extremer Grundbeleuchtung, ist es möglich, dass das halbautomatische Verfahren nicht zuverlässig arbeitet. In diesem Fall kann die Entscheidung, die Schablone zu akzeptieren, dem Benutzer überlassen werden, anstatt der das Verfahren ausführenden Vorrichtung. Zum Beispiel kann dies dadurch bewerkstelligt werden, dass eine grafische Überlagerung auf dem angezeigten Bild des Benutzers nach dem Auffinden des Zielbilds angezeigt wird. Der Benutzer kann die Position des Zielbilds sehen, und er kann entscheiden, ob die Schablone akzeptiert wer den soll.
  • Der Unterschied zwischen diesem Verfahren und dem manuellen Verfahren besteht darin, dass der Benutzer keine spezielle Anstrengung unternehmen muss, um seinen Kopf mit der "Überlagerungs" grafik auszurichten, um die Schablone auszuwählen. Statt dessen schlägt der Computer die Schablone vor, und wenn sie korrekt ist, muss der Benutzer nur das Akzeptieren signalisieren, z. B. durch Betätigen eines Knopfs oder einer Taste. Andernfalls kann das System in den manuellen Modus zurückkehren. Diese Anordnung gewährleistet, dass immer eine zuverlässige Schablone verfügbar ist, um ein erfolgreiches Nachfahren zu ermöglichen.
  • Bei einer Umgebungsbeleuchtung, bei der das Gesicht auf beiden Seiten ungefähr dieselbe Beleuchtung erfährt, arbeitet die Erkennung der Omegaform im integralen Vertikal-Projektionsprofil gut. Wenn jedoch die Beleuchtung stark zu einer Seite des Gesichts hin ausgerichtet ist, kann diese Technik weniger zuverlässig sein, aber sie kann dadurch verbessert werden, dass im Schritt S4 in der 6 modifizierte Bilddaten wie folgt geliefert werden.
  • Das Bild im Bildgebiet wird um die vertikale Mittellinie "gespiegelt" oder horizontal umgedreht, und dann wird es wieder zum ursprünglichen Bild addiert. Im Idealfall, in dem das Gesicht geometrisch symmetrisch ist und die Mittellinie die Mitte des Gesichts bildet, wird ein sich ergebende Bild des Gesichts mit symmetrischer Beleuchtung auf beiden Seiten erzeugt. Das integrale vertikal-Projektionsprofil eines derartigen Bilds verfügt dann über eine Omegaform, die ebenfalls symmetrisch ist, und an den modifizierten Bilddaten können die Verarbeitungsschritte ausgeführt werden, die oben unter Bezugnahme auf den Gesichtsanalysierer 18 beschrieben wurden.
  • Die anfänglich gewählte Symmetrielinie muss nicht im Zentrum des Gesichts liegen. Diese Technik kann daher itterativ so angewandt werden, dass der detektierte Spitzenwert im Profil als Spiegelpunkt verwendet wird, was zu einer besseren Omegaform mit genauerer Spitzenwertposition führt. Dies kann wiederholt werden, bis sich die Spitzenwertposition nicht wesentlich ändert. Typischerweise benötigt eine derartige itterative Prozedur weniger als zehn Itterationen.
  • Das oben beschriebene Verfahren arbeitet bei gleichmäßiger Beleuchtung, einschließlich einer Umgebungsbeleuchtung, gut, und es ist bei Anwendungen bei schlechten Beleuchtungsbedingungen unter Verwendung einer aktiven Lichtquelle anwendbar. Obwohl das Verfahren keinerlei spezielle Beleuchtung benötigt und es hinsichtlich Änderungen der Beleuchtung eines Betrachters sehr flexibel ist, kann während des Initialisierungsstadiums 9 der 2 eine aktive Lichtquelle verwendet werden, die dann während des anschließenden Betrachternachfahrens, das sehr robust ist und keinerlei spezielle Beleuchtung benötigt, ausgeschaltet ist.
  • Die 27 zeigt ein Display des in der 2 dargestellten Typs, das so modifiziert ist, dass es für aktive Beleuchtung sorgt. Die aktive Lichtquelle verfügt über Blitzlicht 55 mit einer durch den Prozessor 4 gesteuerten Synchronisiereinrichtung. Das Blitzlicht 55 ist ein einer geeigneten Position, wie über dem Display 7 und benachbart zum Sensor 3, angeordnet, um das Gesicht eines Betrachters zu beleuchten.
  • Die 28 veranschaulicht das Video-Nachfahrsystem 2 und speziell den Datenprozessor 4 detaillierter. Der Datenprozessor verfügt über eine zentrale Verarbeitungseinheit (CPU) 56, die mit einem CPU-Bus 57 verbunden ist. Mit dem Bus 57 ist ein Systemspeicher 58 verbunden, der die gesamte Systemsoftware zum Betreiben des Datenprozessors enthält.
  • Die Videokamera 3 ist mit einem Videodigitalisierer 59 verbunden, der mit einem Datenbus 60, dem Blitzlicht mit der Synchronisiereinrichtung 55, der CPU 56 und einem wahlweise vorhandenen Videodisplay 61, wenn es vorhanden ist, verbunden ist. Mit dem Datenbus 60 und dem CPU-Bus 57 ist ein Rahmenspeicher 62 verbunden. Die Maus 8 ist mit der CPU 56 verbunden.
  • Für Ausführungsformen ohne Verwendung einer aktiven Beleuchtung muss der Rahmenspeicher nur über die Kapazität eines Halbbilds verfügen. Im Fall der oben beschriebenen Videokamera 3 mit einer Halbbildauflösung von 640 × 240 Pixel sowie für ein 24-Bit-RGB-Farbsignal ist eine Kapazität von 640 × 240 × 3 = 460800 Bytes erforderlich. Für Ausführungsformen unter Verwendung aktiver Beleuchtung verfügt der Rahmenspeicher 62 über eine Kapazität von zwei Halbbildern von Videodaten, d.h. 921600 Bytes.
  • Im Gebrauch wird das Blitzlich 55 mit der Videokamera 3 und dem Videodigitalisierer 59 synchronisiert, so dass es zu geeignetem Zeitpunkt ein- oder ausgeschaltet wird, wenn ein Bild aufgenommen wird.
  • Das Blitzlicht 55 wird dazu verwendet, das Gesicht des Betrachters durch einen Blitz zu beleuchten, um die Gleichmäßigkeit der Verteilung zu verbes sern. Wenn das Blitzlicht 55 viel stärker als das Umgebungslicht ist, wird die Intensität des Gesichts stark durch das Blitzlicht 55 bestimmt. Jedoch besteht die Tendenz, dass ein starke Lichtquelle ein übersättigtes Bild erzeugt, das bei vielen Objekten falsch als gesichtsähnliche Bereiche detektiert werden kann. Ferner kann die Verwendung eines kräftigen Blitzlichts für den Betrachter unangenehm sein, und es können Augenschäden hervorgerufen werden.
  • Daher sollte das Blitzlicht 55 von milder Stärke sein. In diesem Fall kann es erforderlich sein, die Einflüsse von Umgebungslicht zu verringern, um die Zuverlässigkeit beim Detektieren echter gesichtsähnlicher Bereiche zu verbessern.
  • Das in der 6 veranschaulichte Verfahren kann so modifiziert werden, dass zwei aufeinanderfolge Rahmen von Videobilddaten verglichen werden, wobei der eine mit betriebenem Blitzlicht 55 erhalten wird und der andere nur mit Umgebungslicht erhalten wird. Der erste derselben enthält demgemäß den Effekt sowohl des Umgebungslichts als auch des Blitzlichts 55. Dieses erste Bild I(a+f) kann daher so angesehen werden, dass es die folgenden zwei Komponenten enthält: I(a+f)=I(a)=I(F) wobei I(a) das Bild nur mit Umgebungslicht ist und I(f) das Bild ist, das erzeugt worden wäre, wenn die einzige Lichtquelle das Blitzlicht 55 gewesen wäre. Dies kann wie folgt umgeschrieben werden: I(f)=2(a+f) – I(a)
  • So kann durch Subtrahieren der Bildpixeldaten der Effekt der Umgebungsbeleuchtung verringert oder beseitigt werden, um die Zuverlässigkeit und Flexibilität des Gesichtsdetektierverfahrens zu verbessern.

Claims (40)

  1. Verfahren zum Detektieren eines menschlichen Gesichts in einem Bild, wobei im Bild ein Gesichts-Kandidatenbereich lokalisiert wird (17) und dieser auf ein erstes Charakteristikum hin analysiert wird (18), das ein erstes Gesichtsmerkmal kennzeichnet, wobei das erste Charakteristikum ein im Wesentlichen symmetrisches, horizontales Helligkeitsprofil ist, das zwischen einem ersten und einem zweiten Minimum (V1,V2) über ein Maximum (Vo) verfügt, und wobei zum Analysierschritt (18) das Erzeugen (S41) einer vertikalen integralen Projektion (V(x)) eines Teils des Gesichts-Kandidatenbereichs und das Ermitteln (S42–S45) gehören, ob die vertikale integrale Projektion (V(x)) über ein erstes und ein zweites Minimum (V1, V2) verfügt, im Wesentlichen symmetrisch um ein Maximum (Vo) angeordnet sind, und wobei zum Analysierschritt (18) das Unterteilen eines Teils des Gesichts-Kandidatenbereichs in eine linke und eine rechte Hälfte, das Erzeugen einer horizontalen integralen Projektion (HL(y), HR(y)) jeder der Hälften sowie das Vergleichen eines Maßes für die horizontale Symmetrie der linken und der rechten horizontalen integralen Projektion (HL(y), HR(y)) mit einem ersten Schwellenwert gehören.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Lokalisier- und der Analysierschritt (17, 18) für jedes Bild einer Abfolge von Bildern wiederholt werden.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das oder jedes Bild ein Farbbild ist und der Analysierschritt (18) an einer Farbkomponente dieses Farbbilds ausgeführt wird.
  4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das oder jedes Bild ein Farbbild ist und der Analysierschritt (18) an einem aus diesem Farbbild hergeleiteten Kontrastbild ausgeführt wird.
  5. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass im Analysierschritt (18) ermittelt wird (S44, S45), ob die vertikale integrale Projektion (V(x)) über ein erstes und ein zweites Minimum (V1, V2) verfügt, deren horizontaler Abstand innerhalb eines vorbestimmten Bereichs liegt.
  6. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass im Analysierschritt (18) ermittelt wird (S46, S47), ob die vertikale integrale Projektion (V(x)) ein Maximum (Vo) und ein erstes und ein zweites Minimum (V1, V2) in solcher Weise aufweist, dass das Verhältnis der Differenz zwischen dem Maximum und dem kleineren betreffend das erste und das zweite Minimum zum Maximum größer als ein zweiter Schwellenwert ist.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die vertikalen integralen Projektionen aus mehreren Teilen des Gesichtskandidaten erzeugt werden und der Teil mit dem höchsten Verhältnis als mögliches Zielbild ausgewählt wird.
  8. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass der Analysierschritt (18) das Erzeugen eines Maßes für die Symmetrie des Teils beinhaltet.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass das Maß für die Symmetrie wie folgt erzeugt wird:
    Figure 00420001
    wobei V(x) der Wert der vertikalen integralen Projektion an der Horizontalposition x ist und x0 die Horizontalposition der Mitte der vertikalen integralen Projektion ist.
  10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass die vertikale integrale Projektion für mehrere Teile des Gesichtskandidaten erzeugt wird und der Teil mit dem höchsten Symmetriemaß als mögliches Zielbild ausgewählt wird.
  11. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass im Analysierschritt (18) ermittelt wird, ob der Gesichts-Kandidatenbereich über ein erstes und ein zweites Helligkeitsminimum verfügt, die im Wesentlichen auf derselben Höhe angeordnet sind, wobei ein horizontaler Abstand innerhalb eines vorbestimmten Bereichs vorliegt.
  12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass im Analysierschritt (18) ermittelt wird, ob der Gesichts-Kandidatenbereich über einen sich vertikal erstreckenden Bereich (P1, P2, P3) mit höherer Helligkeit als der des ersten und des zweiten Helligkeitsminimums verfügt, der zwischen diesen angeordnet ist.
  13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass im Analysierschritt (18) ermittelt wird, ob der Gesichts-Kandidatenbereich über einen sich horizontal erstreckenden Bereich (P4, P5, P6) verfügt, der unter dem sich vertikal erstreckenden Bereich (P1, P2, P3) angeordnet ist und geringere Helligkeit als dieser aufweist.
  14. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass zum Analysierschritt (18) das Lokalisieren (S60) von Augenpupille-Kandidatenbereichen, im Gesichts-Kandidatenbereich, gehört, wo eine grüne Bildkomponente größer als eine rote Bildkomponente oder eine blaue Bildkomponente größer als eine grüne Bildkomponente ist.
  15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass das Lokalisieren (S60) der Augenpupille-Kandidatenbereiche auf Augen-Kandidatenbereiche des Gesichts-Kandidatenbereichs eingeschränkt wird.
  16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass im Analysierschritt (18) eine Funktion E(x,y) für Bildelemente (x,y) in den Augen-Kandidatenbereichen wie folgt erzeugt wird:
    Figure 00430001
    wobei R, G und B eine rote, grüne und eine blaue Bildkomponente sind, C1 und C2 Konstanten sind, E(x,y) = 1 ein Bildelement innerhalb Augen-Pupillekandidatenbereiche repräsentiert und E(x,y) = 0 ein Bildelement außerhalb derselben repräsentiert.
  17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, dass im Analysierschritt (18) die Mitten der Augenpupillen als zentrale Punkte der Augenpupille-Kandidatenbereiche erfasst werden.
  18. Verfahren nach einem der Ansprüche 14 bis 17, dadurch gekennzeichnet, dass zum Analysierschritt (18) das Lokalisieren (S60) eines Mund-Kandidatenbereichs in einem Unterbereich des Gesichts-Kandidatenbereichs, der ho rizontal zwischen den Augenpupille-Kandidatenbereichen und vertikal unter dem Niveau derselben zwischen im Wesentlichen der Hälfte und im Wesentlichen dem eineinhalbfachen des Abstands zwischen denselben liegt, gehört.
  19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, dass im Analysierschritt (18) eine Funktion M(x,y) für Bildelemente (x,y) in den Unterbereichen wie folgt erzeugt wird:
    Figure 00440001
    wobei R, G und B eine rote, grüne und eine blaue Bildkomponente sind, η eine Konstante ist, M(x,y) = 1 ein Bildelement innerhalb des Munds repräsentiert und M(x,y) = 0 ein Bildelement außerhalb desselben repräsentiert.
  20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass vertikale und horizontale Projektionsprofile der Funktion M(x,y) erzeugt werden und ein Lippen-Kandidatenbereich in einem rechteckigen Unterbereich definiert wird, in dem die vertikalen und horizontalen Projektionsprofile einen ersten bzw. einen zweiten vorbestimmten Schwellenwert überschreiten.
  21. Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass der erste und der zweite vorbestimmte Schwellenwert proportional zu Maxima der vertikalen bzw. horizontalen Projektionsprofile sind.
  22. Verfahren nach Anspruch 20 oder 21, dadurch gekennzeichnet, dass im Analysierschritt (18) überprüft wird (S61), ob das Seitenverhältnis des Lippen-Kandidatenbereichs zwischen einem ersten und einem zweiten vorbestimmten Schwellenwert liegt.
  23. Verfahren nach einem der Ansprüche 20 bis 22, dadurch gekennzeichnet, dass im Analysierschritt (18) überprüft wird (S61), ob das Verhältnis des vertikalen Abstands von den Augenpupille-Kandidatenbereichen zur Oberseite des Lippen-Kandidatenbereichs zum Abstand zwischen den Augenpupille-Kandidatenbereichen zwischen einem ersten und einem zweiten voreingestellten Schwellenwert liegt.
  24. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass zum Analysierschritt (18) das Unterteilen eines Teils des Gesichts-Kandidatenbereichs in eine linke und eine rechte Hälfte (AEFD. EBCF) und ein Vergleichen der Winkel (Θ1, Θ2) der Helligkeitsgradienten horizontal symmetrisch angeordneter Paare von Punkten für Symmetriezwecke gehören.
  25. Verfahren nach Anspruch 2 oder einem der Ansprüche 3 bis 24 in Abhängigkeit vom Anspruch 2, dadurch gekennzeichnet, dass der Lokalisier- und der Analysierschritt (17, 18) gestoppt werden (S53), wenn sich das erste Charakteristikum r mal in R aufeinanderfolgenden Bildern der Abfolge findet.
  26. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass zum Lokalisierschritt (17) ein Durchsuchen des Bilds nach einem Gesichts-Kandidatenbereich mit einem zweiten Charakteristikum, das für ein menschliches Gesicht kennzeichnend ist, gehört.
  27. Verfahren nach Anspruch 26, dadurch gekennzeichnet, dass das zweite Charakteristikum eine gleichmäßige Sättigung ist.
  28. Verfahren nach Anspruch 27, dadurch gekennzeichnet, dass zum Durchsuchungsschritt ein Verringern (S22) der Auflösung des Bilds durch Mitteln der Sättigung, um ein Bild mit verringerter Auflösung zu erzeugen, und ein Suchen (S23) nach einem Bereich des Bilds mit verringerter Auflösung, der, mit einer vorbestimmten Form, eine im Wesentlichen gleichmäßige Sättigung aufweist, die sich wesentlich von der Sättigung des Teils des Bilds mit verringerter Auflösung um die vorbestimmte Form herum unterscheidet, gehören.
  29. Verfahren nach Anspruch 28, dadurch gekennzeichnet, dass das Bild mehrere Bildelemente enthält und die Auflösung so verringert wird, dass die vorbestimmte Form um zwei bis drei Elemente des Bilds mit verringerter Auflösung entfernt liegt.
  30. Verfahren nach Anspruch 29, dadurch gekennzeichnet, dass das Bild ein rechteckiges Array (30) von M auf N Bildelementen aufweist, das Bild (31) mit verringerter Auflösung (M/m) auf (N/n) Bildelementen aufweist, wobei jedes m auf n Bildelementen des Bilds entspricht, und dass die Sättigung jedes Bildelements des Bilds mit verringerter Auflösung wie folgt gegeben ist:
    Figure 00460001
    wobei f(i,j) die Sättigung des Bildelements in der Spalte i und der Zeile j der m auf n Bildelemente ist.
  31. Verfahren nach Anspruch 30, dadurch gekennzeichnet, dass die Sättigungswerte in einem Speicher abgespeichert werden.
  32. Verfahren nach Anspruch 30 oder 31, dadurch gekennzeichnet, dass jedem der Elemente des Bilds mit verringerter Auflösung ein Gleichmäßigkeitswert (u) dadurch zugeschrieben wird, dass die Sättigung jedes derselben mit der Sättigung mindestens eines benachbarten Elements des Bilds mit verringerter Auflösung verglichen wird.
  33. Verfahren nach Anspruch 32, dadurch gekennzeichnet, dass jedem Gleichmäßigkeitswert (u) ein erster Wert zugeschrieben wird, wenn (max(P) – min(P))/max(P) ≤ T gilt, wobei max(P) und min(P) der Maximal- bzw. der Minimalwert der Sättigungswerte des Elements im Bild mit verringerter Auflösung sowie des oder jedes benachbarten Bildelements sind und T ein Schwellenwert ist, und dass ihm andernfalls ein vom ersten Wert verschiedener zweiter Wert zugewiesen wird.
  34. Verfahren nach Anspruch 33, dadurch gekennzeichnet, dass T im Wesentlichen 0,15 ist.
  35. Verfahren nach einem der Ansprüche 32 bis 34 in Abhängigkeit vom Anspruch 31, dadurch gekennzeichnet, dass dem oder jedem benachbarten Element im Bild mit verringerter Auflösung kein Gleichmäßigkeitswert zugeschrieben wird und jeder Gleichmäßigkeitswert anstelle des entsprechenden Sättigungswerts im Speicher abgespeichert wird.
  36. Verfahren nach Anspruch 33 oder 34 oder dem Anspruch 35 in Abhängigkeit vom Anspruch 33, dadurch gekennzeichnet, dass die Auflösung so verringert wird, dass die vorbestimmte Form zwei oder drei Elemente im Bild mit verringerter Auflösung entfernt liegt, und dadurch gekennzeichnet, dass zum Verfahren ferner die Kennzeichnung der Detektion eines Gesichts-Kandidatenbereichs gehört, wenn ein dem ersten Wert entsprechender Gleichmäßigkeitswert entweder ein Element im Bild mit verringerter Auflösung oder zwei vertikal oder horizontal benachbarten Elementen im Bild mit verringerter Auflösung oder einem rechteckigen Zwei-auf-zwei-Array von Bildelementen zugeschrieben ist und wenn ein dem zweiten Wert entsprechender Gleichmäßigkeitswert jedem umgebenden Element im Bild mit verringerter Auflösung zugeschrieben ist.
  37. Verfahren nach Anspruch 36 in Abhängigkeit vom Anspruch 31, dadurch gekennzeichnet, dass die Detektion dadurch gekennzeichnet wird, dass ein dritter Wert, der vom ersten und zweiten Wert verschieden ist, anstelle des entsprechenden Gleichmäßigkeitswerts im Speicher abgespeichert wird.
  38. Verfahren nach einem der Ansprüche 29 bis 37, gekennzeichnet durch Wiederholen der Auflösungsverringerung und des Suchens mindestens ein Mal, wobei die Elemente im Bild mit verringerter Auflösung in Bezug auf die Abbildungs-Bildelemente verschoben sind.
  39. Verfahren nach einem der Ansprüche 28 bis 38, dadurch gekennzeichnet, dass die Sättigung aus Komponenten für Rot, Grün und Blau wie folgt hergeleitet wird: (max(R,G,B) – min(R,G,B))/max(R,G,B) wobei max(R,G,B) und min(R,G,B) der Maximal- bzw. Minimalwert der Komponenten für Rot, Grün und Blau sind.
  40. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass ein erstes Bild aufgenommen wird, während ein Bereich erwarteter Positionen eines Gesichts beleuchtet wird, ein zweites Bild unter Verwendung von Umgebungslicht aufgenommen wird und das zweite Bild vom ersten Bild subtrahiert wird, um die Abbildung zu erzeugen.
DE69922752T 1998-09-05 1999-09-01 Verfahren zum Detektieren eines menschlichen Gesichtes Expired - Lifetime DE69922752T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9819323 1998-09-05
GB9819323A GB2341231A (en) 1998-09-05 1998-09-05 Face detection in an image

Publications (2)

Publication Number Publication Date
DE69922752D1 DE69922752D1 (de) 2005-01-27
DE69922752T2 true DE69922752T2 (de) 2005-12-15

Family

ID=10838356

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69922752T Expired - Lifetime DE69922752T2 (de) 1998-09-05 1999-09-01 Verfahren zum Detektieren eines menschlichen Gesichtes

Country Status (5)

Country Link
US (1) US6633655B1 (de)
EP (1) EP0984386B1 (de)
JP (1) JP3761059B2 (de)
DE (1) DE69922752T2 (de)
GB (1) GB2341231A (de)

Families Citing this family (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6650761B1 (en) 1999-05-19 2003-11-18 Digimarc Corporation Watermarked business cards and methods
AUPP400998A0 (en) * 1998-06-10 1998-07-02 Canon Kabushiki Kaisha Face detection in digital images
US6792135B1 (en) * 1999-10-29 2004-09-14 Microsoft Corporation System and method for face detection through geometric distribution of a non-intensity image property
JP4158332B2 (ja) * 2000-02-03 2008-10-01 コニカミノルタビジネステクノロジーズ株式会社 カラー画像処理装置
JP3825222B2 (ja) * 2000-03-24 2006-09-27 松下電器産業株式会社 本人認証装置および本人認証システムならびに電子決済システム
US7155036B2 (en) * 2000-12-04 2006-12-26 Sony Corporation Face detection under varying rotation
US7027621B1 (en) * 2001-03-15 2006-04-11 Mikos, Ltd. Method and apparatus for operator condition monitoring and assessment
US7092554B2 (en) * 2001-05-01 2006-08-15 Eastman Kodak Company Method for detecting eye and mouth positions in a digital image
AUPR541801A0 (en) * 2001-06-01 2001-06-28 Canon Kabushiki Kaisha Face detection in colour images with complex background
SE0102360D0 (sv) * 2001-07-02 2001-07-02 Smart Eye Ab Method for image analysis
CA2359269A1 (en) * 2001-10-17 2003-04-17 Biodentity Systems Corporation Face imaging system for recordal and automated identity confirmation
US20030107592A1 (en) * 2001-12-11 2003-06-12 Koninklijke Philips Electronics N.V. System and method for retrieving information related to persons in video programs
JP3903783B2 (ja) * 2001-12-14 2007-04-11 日本電気株式会社 顔メタデータ生成方法および装置、並びに顔類似度算出方法および装置
US7221809B2 (en) * 2001-12-17 2007-05-22 Genex Technologies, Inc. Face recognition system and method
DE10221391B4 (de) * 2002-05-14 2006-08-24 Siemens Ag Verfahren zum Analysieren einer Szene
AUPS328102A0 (en) * 2002-06-28 2002-07-18 Seeing Machines Pty Ltd Tracking method
DE50212936D1 (de) * 2002-10-24 2008-12-04 L 1 Identity Solutions Ag Prüfung von Bildaufnahmen von Personen
US7142718B2 (en) * 2002-10-28 2006-11-28 Lee Shih-Jong J Fast pattern searching
US7327504B2 (en) * 2002-12-06 2008-02-05 Eastman Kodak Company Method of detecting clipped image pixels
CN1282943C (zh) * 2002-12-30 2006-11-01 佳能株式会社 图像处理方法及装置
CN100465985C (zh) * 2002-12-31 2009-03-04 佳能株式会社 人眼探测方法及设备
CN100370483C (zh) * 2003-03-07 2008-02-20 佳能株式会社 检测图像中对称图形的方法和装置
CN1333370C (zh) * 2003-06-18 2007-08-22 佳能株式会社 图像处理方法及装置
US9692964B2 (en) 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US7574016B2 (en) * 2003-06-26 2009-08-11 Fotonation Vision Limited Digital image processing using face detection information
US7269292B2 (en) 2003-06-26 2007-09-11 Fotonation Vision Limited Digital image adjustable compression and resolution using face detection information
US7471846B2 (en) 2003-06-26 2008-12-30 Fotonation Vision Limited Perfecting the effect of flash within an image acquisition devices using face detection
US8593542B2 (en) 2005-12-27 2013-11-26 DigitalOptics Corporation Europe Limited Foreground/background separation using reference images
AU2004248872A1 (en) * 2003-06-26 2004-12-29 Tangam Gaming Technology Inc. System, apparatus and method for automatically tracking a table game
US8553949B2 (en) 2004-01-22 2013-10-08 DigitalOptics Corporation Europe Limited Classification and organization of consumer digital images using workflow, and face detection and recognition
US8155397B2 (en) 2007-09-26 2012-04-10 DigitalOptics Corporation Europe Limited Face tracking in a camera processor
US7440593B1 (en) 2003-06-26 2008-10-21 Fotonation Vision Limited Method of improving orientation and color balance of digital images using face detection information
US8989453B2 (en) 2003-06-26 2015-03-24 Fotonation Limited Digital image processing using face detection information
US9129381B2 (en) 2003-06-26 2015-09-08 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US8330831B2 (en) 2003-08-05 2012-12-11 DigitalOptics Corporation Europe Limited Method of gathering visual meta data using a reference image
US8948468B2 (en) 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
US7620218B2 (en) 2006-08-11 2009-11-17 Fotonation Ireland Limited Real-time face tracking with reference images
US8682097B2 (en) 2006-02-14 2014-03-25 DigitalOptics Corporation Europe Limited Digital image enhancement with reference images
US8498452B2 (en) 2003-06-26 2013-07-30 DigitalOptics Corporation Europe Limited Digital image processing using face detection information
US8363951B2 (en) 2007-03-05 2013-01-29 DigitalOptics Corporation Europe Limited Face recognition training method and apparatus
US7565030B2 (en) 2003-06-26 2009-07-21 Fotonation Vision Limited Detecting orientation of digital images using face detection information
US8494286B2 (en) 2008-02-05 2013-07-23 DigitalOptics Corporation Europe Limited Face detection in mid-shot digital images
US8896725B2 (en) 2007-06-21 2014-11-25 Fotonation Limited Image capture device with contemporaneous reference image capture mechanism
US7792970B2 (en) 2005-06-17 2010-09-07 Fotonation Vision Limited Method for establishing a paired connection between media devices
US7844076B2 (en) 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
US7792335B2 (en) 2006-02-24 2010-09-07 Fotonation Vision Limited Method and apparatus for selective disqualification of digital images
JP4543644B2 (ja) * 2003-09-16 2010-09-15 富士ゼロックス株式会社 データ認識装置
JP4383140B2 (ja) * 2003-09-25 2009-12-16 任天堂株式会社 画像処理装置および画像処理プログラム
US7564994B1 (en) 2004-01-22 2009-07-21 Fotonation Vision Limited Classification system for consumer digital images using automatic workflow and face detection and recognition
US7415140B2 (en) * 2004-01-27 2008-08-19 Seiko Epson Corporation Method of correcting deviation of detection position for human face, correction system, and correction program
JP4317465B2 (ja) * 2004-02-13 2009-08-19 本田技研工業株式会社 顔識別装置、顔識別方法及び顔識別プログラム
JP2005266984A (ja) * 2004-03-17 2005-09-29 Konica Minolta Holdings Inc 画像処理システム
US7426296B2 (en) * 2004-03-18 2008-09-16 Sony Corporation Human skin tone detection in YCbCr space
KR101016848B1 (ko) * 2004-03-22 2011-02-22 엘지전자 주식회사 지문 대칭축 추출 방법
GB2414614A (en) * 2004-05-28 2005-11-30 Sony Uk Ltd Image processing to determine most dissimilar images
JP2005346806A (ja) * 2004-06-02 2005-12-15 Funai Electric Co Ltd Dvdレコーダおよび記録再生装置
US20060033737A1 (en) * 2004-08-16 2006-02-16 Old William M Methods and system for visualizing data sets
US7460689B1 (en) * 2004-09-15 2008-12-02 The United States Of America As Represented By The Secretary Of The Army System and method of detecting, recognizing, and tracking moving targets
WO2006040761A2 (en) * 2004-10-15 2006-04-20 Oren Halpern A system and a method for improving the captured images of digital still cameras
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
WO2006057475A1 (en) * 2004-11-23 2006-06-01 Kicheon Hong Face detection and authentication apparatus and method
US7715597B2 (en) 2004-12-29 2010-05-11 Fotonation Ireland Limited Method and component for image recognition
US8488023B2 (en) * 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
US7315631B1 (en) 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US8503800B2 (en) 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
JP4749884B2 (ja) * 2005-03-07 2011-08-17 富士フイルム株式会社 顔判別装置の学習方法、顔判別方法および装置並びにプログラム
JP2006259900A (ja) * 2005-03-15 2006-09-28 Omron Corp 画像処理システム、画像処理装置および方法、記録媒体、並びにプログラム
US7415152B2 (en) * 2005-04-29 2008-08-19 Microsoft Corporation Method and system for constructing a 3D representation of a face from a 2D representation
US7693304B2 (en) * 2005-05-12 2010-04-06 Hewlett-Packard Development Company, L.P. Method and system for image quality calculation
JP4410732B2 (ja) 2005-07-27 2010-02-03 グローリー株式会社 顔画像検出装置、顔画像検出方法および顔画像検出プログラム
JP4429241B2 (ja) * 2005-09-05 2010-03-10 キヤノン株式会社 画像処理装置及び方法
JP4752408B2 (ja) * 2005-09-09 2011-08-17 ソニー株式会社 画像処理装置および方法、並びにプログラム
JP4752410B2 (ja) * 2005-09-09 2011-08-17 ソニー株式会社 画像処理装置および方法、並びにプログラム
US8805039B2 (en) * 2005-10-12 2014-08-12 Intelligent Virus Imaging Inc Identification and classification of virus particles in textured electron micrographs
GB2432064B (en) * 2005-10-31 2011-01-19 Hewlett Packard Development Co Method of triggering a detector to detect a moving feature within a video stream
DE102005052993B4 (de) * 2005-11-07 2014-08-21 Siemens Aktiengesellschaft Verfahren zur automatisierten Auswertung eines dreidimensionalen Abbildes eines seitensymmetrischen Organsystems
US8265349B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US7804983B2 (en) 2006-02-24 2010-09-28 Fotonation Vision Limited Digital image acquisition control and correction method and apparatus
JP4782600B2 (ja) * 2006-03-30 2011-09-28 富士フイルム株式会社 顔検出方法およびこれを用いた撮影装置
EP1865443A3 (de) * 2006-06-09 2010-03-17 Samsung Electronics Co.,Ltd. Verfahren und Vorrichtung zum Erkennen von Gesichtsmerkmalen
ATE497218T1 (de) 2006-06-12 2011-02-15 Tessera Tech Ireland Ltd Fortschritte bei der erweiterung der aam- techniken aus grauskalen- zu farbbildern
US7747045B2 (en) * 2006-06-30 2010-06-29 Fujifilm Corporation Method and apparatus for diffusion based illumination normalization
US20080007747A1 (en) * 2006-06-30 2008-01-10 Fuji Photo Film Co., Ltd. Method and apparatus for model based anisotropic diffusion
US7515740B2 (en) 2006-08-02 2009-04-07 Fotonation Vision Limited Face recognition with combined PCA-based datasets
US7403643B2 (en) 2006-08-11 2008-07-22 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US7916897B2 (en) 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
TW200832282A (en) * 2007-01-17 2008-08-01 Asustek Comp Inc Method for calculating straightness of facial area and computer system
US8055067B2 (en) 2007-01-18 2011-11-08 DigitalOptics Corporation Europe Limited Color segmentation
EP2115662B1 (de) 2007-02-28 2010-06-23 Fotonation Vision Limited Trennung der direktionalen beleuchtungsvariabilität in der statistischen gesichtsmodellierung auf basis von texturraumzerlegungen
WO2008109622A1 (en) 2007-03-05 2008-09-12 Fotonation Vision Limited Face categorization and annotation of a mobile phone contact list
KR101247147B1 (ko) 2007-03-05 2013-03-29 디지털옵틱스 코포레이션 유럽 리미티드 디지털 영상 획득 장치에서의 얼굴 탐색 및 검출
JP5019939B2 (ja) 2007-04-19 2012-09-05 パナソニック株式会社 撮像装置及び撮像方法
US7916971B2 (en) * 2007-05-24 2011-03-29 Tessera Technologies Ireland Limited Image processing method and apparatus
US7844085B2 (en) * 2007-06-07 2010-11-30 Seiko Epson Corporation Pairwise feature learning with boosting for use in face detection
CN101178770B (zh) * 2007-12-11 2011-02-16 北京中星微电子有限公司 一种图像检测方法及装置
US8750578B2 (en) * 2008-01-29 2014-06-10 DigitalOptics Corporation Europe Limited Detecting facial expressions in digital images
WO2010082942A1 (en) * 2008-02-01 2010-07-22 Canfield Scientific, Incorporated Automatic mask design and registration and feature detection for computer-aided skin analysis
US8126221B2 (en) * 2008-02-14 2012-02-28 Ecole Polytechnique Federale De Lausanne (Epfl) Interactive device and method for transmitting commands from a user
US8861598B2 (en) * 2008-03-19 2014-10-14 Cisco Technology, Inc. Video compression using search techniques of long-term reference memory
CN101251896B (zh) * 2008-03-21 2010-06-23 腾讯科技(深圳)有限公司 一种基于多分类器的物体检测系统及方法
US7855737B2 (en) 2008-03-26 2010-12-21 Fotonation Ireland Limited Method of making a digital camera image of a scene including the camera user
US8600121B2 (en) * 2008-07-02 2013-12-03 C-True Ltd. Face recognition system and method
CN106919911A (zh) 2008-07-30 2017-07-04 快图有限公司 使用脸部检测的自动脸部和皮肤修饰
CN101350063B (zh) * 2008-09-03 2011-12-28 北京中星微电子有限公司 人脸特征点定位方法及装置
US8345922B2 (en) * 2008-09-03 2013-01-01 Denso Corporation Apparatus for detecting a pupil, program for the same, and method for detecting a pupil
DE102008048142A1 (de) 2008-09-19 2010-04-08 Schneemann System GmbH Verfahren zur Analyse eines menschlichen Kopfes
WO2010063463A2 (en) 2008-12-05 2010-06-10 Fotonation Ireland Limited Face recognition using face tracker classifier data
WO2010080340A1 (en) * 2009-01-06 2010-07-15 Siemens Healthcare Diagnostics Inc. Methods and apparatus for determining a liquid level in a container using imaging
US20100249573A1 (en) * 2009-03-30 2010-09-30 Marks Donald H Brain function decoding process and system
US20120105486A1 (en) 2009-04-09 2012-05-03 Dynavox Systems Llc Calibration free, motion tolerent eye-gaze direction detector with contextually aware computer interaction and communication methods
CN102024149B (zh) * 2009-09-18 2014-02-05 北京中星微电子有限公司 物体检测的方法及层次型物体检测器中分类器的训练方法
US8379917B2 (en) 2009-10-02 2013-02-19 DigitalOptics Corporation Europe Limited Face recognition performance using additional image features
US20110211738A1 (en) * 2009-12-23 2011-09-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
US20110211739A1 (en) * 2009-12-23 2011-09-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
US20110150276A1 (en) * 2009-12-23 2011-06-23 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
US20110150295A1 (en) * 2009-12-23 2011-06-23 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
US20110150297A1 (en) * 2009-12-23 2011-06-23 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
US9875719B2 (en) * 2009-12-23 2018-01-23 Gearbox, Llc Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
US20110150298A1 (en) * 2009-12-23 2011-06-23 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
US8712110B2 (en) * 2009-12-23 2014-04-29 The Invention Science Fund I, LC Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
US20110150299A1 (en) * 2009-12-23 2011-06-23 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
US20110150296A1 (en) * 2009-12-23 2011-06-23 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
US20110206245A1 (en) * 2009-12-23 2011-08-25 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Identifying a characteristic of an individual utilizing facial recognition and providing a display for the individual
GB2478911B (en) * 2010-03-22 2014-01-08 Timocco Ltd Object locating and tracking in video frames using smoothness check along specified line sections
KR20120016386A (ko) * 2010-08-16 2012-02-24 주식회사 팬택 3d 객체 표시가 가능한 휴대용 장치 및 그 방법
TW201222432A (en) * 2010-11-26 2012-06-01 Inst Information Industry System, device, method, and computer program product for facial defect analysis using angular facial image
US8879804B1 (en) * 2010-12-18 2014-11-04 Alexey Konoplev System and method for automatic detection and recognition of facial features
US8737727B2 (en) * 2010-12-30 2014-05-27 Pelco, Inc. Color similarity sorting for video forensics search
US8891876B2 (en) * 2011-04-25 2014-11-18 Hewlett-Packard Development Company, L.P. Mouth corner candidates
WO2013001144A1 (en) * 2011-06-30 2013-01-03 Nokia Corporation Method and apparatus for face tracking utilizing integral gradient projections
JP6035716B2 (ja) * 2011-08-26 2016-11-30 ソニー株式会社 情報処理システム及び情報処理方法
US9508155B2 (en) 2011-08-29 2016-11-29 Nokia Technologies Oy Method and apparatus for feature computation and object detection utilizing temporal redundancy between video frames
JP5143262B1 (ja) * 2011-08-30 2013-02-13 株式会社東芝 立体映像処理装置、立体映像処理方法
JP6026119B2 (ja) * 2012-03-19 2016-11-16 株式会社東芝 生体情報処理装置
US9092667B2 (en) * 2012-08-27 2015-07-28 Symbol Technologies, Llc Arrangement for and method of reading forms in correct orientation by image capture
US9384383B2 (en) * 2013-09-12 2016-07-05 J. Stephen Hudgins Stymieing of facial recognition systems
US10037467B2 (en) * 2013-09-26 2018-07-31 Nec Corporation Information processing system
US9480860B2 (en) * 2013-09-27 2016-11-01 Varian Medical Systems, Inc. System and methods for processing images to measure multi-leaf collimator, collimator jaw, and collimator performance utilizing pre-entered characteristics
US9986228B2 (en) 2016-03-24 2018-05-29 3Di Llc Trackable glasses system that provides multiple views of a shared display
US9883173B2 (en) 2013-12-25 2018-01-30 3Di Llc Stereoscopic display
US10652525B2 (en) 2013-10-31 2020-05-12 3Di Llc Quad view display system
US11343487B2 (en) 2013-10-31 2022-05-24 David Woods Trackable glasses system for perspective views of a display
CN104050448B (zh) * 2014-06-11 2017-10-17 青岛海信电器股份有限公司 一种人眼定位、人眼区域定位方法及装置
EP3170307B1 (de) * 2014-07-15 2020-08-26 Novomatic Ag Verfahren zur darstellung einer dreidimensionalen szene auf einem autostereoskopischen monitor
US9922048B1 (en) 2014-12-01 2018-03-20 Securus Technologies, Inc. Automated background check via facial recognition
US9507996B2 (en) * 2015-03-02 2016-11-29 International Business Machines Corporation Ensuring a desired distribution of images in a multimedia document utilizing facial signatures
US10121056B2 (en) 2015-03-02 2018-11-06 International Business Machines Corporation Ensuring a desired distribution of content in a multimedia document for different demographic groups utilizing demographic information
US9495584B1 (en) * 2015-06-05 2016-11-15 Digital Signal Corporation System and method for facial recognition using images captured from a target illuminated with infrared light
CN106709404B (zh) * 2015-11-16 2022-01-04 佳能株式会社 图像处理装置及图像处理方法
EP3406077A1 (de) * 2015-12-29 2018-11-28 Koninklijke Philips N.V. Autostereoskopische anzeigevorrichtung und ansteuerungsverfahren
US10339367B2 (en) 2016-03-29 2019-07-02 Microsoft Technology Licensing, Llc Recognizing a face and providing feedback on the face-recognition process
US20170300742A1 (en) * 2016-04-14 2017-10-19 Qualcomm Incorporated Systems and methods for recognizing an object in an image
RU2644525C2 (ru) * 2016-04-14 2018-02-12 ООО "КосМосГруп" Способ и система выявления живого человека на последовательности кадров путем выявления пульса на отдельных участках лица человека
KR101810190B1 (ko) * 2016-07-14 2017-12-18 김용상 얼굴 인식을 이용한 사용자 인증 방법 및 그 장치
US9996773B2 (en) 2016-08-04 2018-06-12 International Business Machines Corporation Face recognition in big data ecosystem using multiple recognition models
WO2018150485A1 (ja) * 2017-02-15 2018-08-23 三菱電機株式会社 運転状態判定装置および運転状態判定方法
US11069210B2 (en) * 2017-06-28 2021-07-20 Amazon Technologies, Inc. Selecting a video frame for notification using audio/video recording and communication devices
CN109583261A (zh) * 2017-09-28 2019-04-05 丽宝大数据股份有限公司 身体信息分析装置及其辅助比对眉型方法
US10679082B2 (en) * 2017-09-28 2020-06-09 Ncr Corporation Self-Service Terminal (SST) facial authentication processing
CN107784724A (zh) * 2017-10-26 2018-03-09 广州云从信息科技有限公司 一种基于人脸识别的安全管理方法
CN109948497B (zh) * 2019-03-12 2022-01-28 北京旷视科技有限公司 一种物体检测方法、装置及电子设备
EP4261773A1 (de) * 2020-12-10 2023-10-18 Fujitsu Limited Bestimmungsverfahren, bestimmungsprogramm und informationsverarbeitungsvorrichtung

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2849256B2 (ja) * 1991-12-26 1999-01-20 日本電信電話株式会社 画像認識装置
US5680481A (en) 1992-05-26 1997-10-21 Ricoh Corporation Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system
US5835616A (en) 1994-02-18 1998-11-10 University Of Central Florida Face detection using templates
US5629752A (en) * 1994-10-28 1997-05-13 Fuji Photo Film Co., Ltd. Method of determining an exposure amount using optical recognition of facial features
JPH08161500A (ja) * 1994-12-05 1996-06-21 Minolta Co Ltd 物体認識装置
AUPN003894A0 (en) * 1994-12-13 1995-01-12 Xenotech Research Pty Ltd Head tracking system for stereoscopic display apparatus
JPH11502344A (ja) 1995-03-20 1999-02-23 ロー テクノロジーズ 画像を識別するための装置及び方法
US5870138A (en) * 1995-03-31 1999-02-09 Hitachi, Ltd. Facial image processing
JP3452685B2 (ja) * 1995-05-10 2003-09-29 三菱電機株式会社 顔画像の処理装置
DE69614109D1 (de) * 1995-06-02 2001-08-30 Siemens Corp Res Inc Filter zur augenlokalisierung
US5805745A (en) * 1995-06-26 1998-09-08 Lucent Technologies Inc. Method for locating a subject's lips in a facial image
JP3461626B2 (ja) * 1995-07-28 2003-10-27 シャープ株式会社 特定画像領域抽出方法及び特定画像領域抽出装置
US5715325A (en) * 1995-08-30 1998-02-03 Siemens Corporate Research, Inc. Apparatus and method for detecting a face in a video image
JP3272584B2 (ja) * 1995-09-19 2002-04-08 シャープ株式会社 領域抽出装置及びそれを用いた方向検出装置
JPH09147119A (ja) * 1995-11-28 1997-06-06 Toshiba Corp 人物注目方向検出方式
JPH1021394A (ja) * 1996-07-01 1998-01-23 Matsushita Electric Ind Co Ltd 個人照合装置
US6184926B1 (en) 1996-11-26 2001-02-06 Ncr Corporation System and method for detecting a human face in uncontrolled environments
US5991429A (en) 1996-12-06 1999-11-23 Coffin; Jeffrey S. Facial recognition system for security access and identification
JP3436473B2 (ja) * 1997-06-20 2003-08-11 シャープ株式会社 画像処理装置
US6148092A (en) * 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image
US6404900B1 (en) * 1998-06-22 2002-06-11 Sharp Laboratories Of America, Inc. Method for robust human face tracking in presence of multiple persons

Also Published As

Publication number Publication date
GB2341231A (en) 2000-03-08
GB9819323D0 (en) 1998-10-28
JP3761059B2 (ja) 2006-03-29
EP0984386A2 (de) 2000-03-08
EP0984386B1 (de) 2004-12-22
DE69922752D1 (de) 2005-01-27
JP2000082147A (ja) 2000-03-21
EP0984386A3 (de) 2000-03-15
US6633655B1 (en) 2003-10-14

Similar Documents

Publication Publication Date Title
DE69922752T2 (de) Verfahren zum Detektieren eines menschlichen Gesichtes
DE69906403T2 (de) Verfahren und Gerät zum Detektieren eines gesichtsähnlichen Gebiets
DE69833999T2 (de) Verfahren zur automatischen erkennung menschlicher augen in digitalbildern
DE60133788T2 (de) Bildverarbeitungsgerät und Verfahren zum Ermitteln von Merkmalen von Gesichtern
DE60313941T2 (de) Personendetektion durch Gesichtsdetektion und Bewegungsdetektion
DE19613614C2 (de) Vorrichtung zur Bearbeitung eines Bildes eines Gesichts
DE60213032T2 (de) Gerät zur Gesichtsdetektion, Gerät zur Detektion der Gesichtspose, Gerät zur Extraktion von Teilbildern und Verfahren für diese Geräte
DE102004051159B4 (de) Gesichts-Identifizierungsvorrichtung, Gesicht-Identifizierungsverfahren und Gesicht-Identifizierungsprogramm
EP1413972B1 (de) Prüfung von Bildaufnahmen von Personen
EP1119822B1 (de) Verfahren und system zur personenerkennung mit modellbasierter gesichtsfindung
EP2584493B1 (de) Verfahren zur Unterscheidung zwischen einem realen Gesicht und einer zweidimensionalen Abbildung des Gesichts in einem biometrischen Erfassungsprozess
DE69938173T2 (de) Automatische voreingestellte teilnehmerpositionsbestimmung für videokonferenzsysteme
DE102005000646B4 (de) Vorrichtung und Verfahren zum Erfassen von sich bewegenden Objekten
DE19609455C2 (de) Gesichtsbild-Verarbeitungssystem
DE10301468B4 (de) Vorrichtung zur Beobachtung der Umgebung eines Fahrzeugs
DE60116949T2 (de) Gesichtserfassungsverfahren
DE60307583T2 (de) Auswertung der Schärfe eines Bildes der Iris eines Auges
DE60217589T2 (de) Vorrichtung und Verfahren zur Detektion von weissen Linien
CN104915656B (zh) 一种基于双目视觉测量技术的快速人脸识别方法
DE19955714A1 (de) Verfahren und Vorrichtung zum Fotografieren/Erkennen eines Gesichts
DE602004002837T2 (de) Objekterkennung
DE19810792A1 (de) Verfahren zum Verifizieren der Authentizität eines im Rahmen einer Personenerkennung aufgenommenen Bildes
DE102019106277A1 (de) Bildanalysevorrichtung, -verfahren und -programm
DE102019106398A1 (de) Bildanalysevorrichtung, verfahren und programm
DE102017220752A1 (de) Bildverarbeitungsvorrichtung, Bildbverarbeitungsverfahren und Bildverarbeitungsprogramm

Legal Events

Date Code Title Description
8364 No opposition during term of opposition