CN107209851A

CN107209851A - 相对于摄像机和显示器的用户定位的实时视觉反馈

Info

Publication number: CN107209851A
Application number: CN201580073845.6A
Authority: CN
Inventors: A·巴德; A·纽厄尔; J·帕尔默
Original assignee: Epp Rolf Ltd
Current assignee: Epp Rolf Ltd
Priority date: 2014-11-21
Filing date: 2015-11-20
Publication date: 2017-09-26
Also published as: US20160148384A1; GB201520484D0; GB2567063A; CA3232280A1; GB2567063B; GB2532613A; US10691934B2; US20160342832A1; SG10202101642TA; CA3003550A1; ZA201704234B; AU2022203653A1; GB201814654D0; AU2015348151A1; EP3221819A1; US9412169B2; SG11201705164VA; GB2532613B; WO2016079464A1; AU2015348151B2

Abstract

系统、方法和计算机程序产品向启用摄像机的设备的用户提供近实时的反馈，以在用户处于相对于设备的摄像机和/或显示器的期望位置时引导用户捕获自身图像。所述期望位置优化针对其中图像并非主要用于用户使用的应用捕获的自身图像的各方面。一类这样的应用包括依赖于使用来自设备显示屏的光照亮用户面部的应用。对反馈进行抽象以避免因审美考虑而使用户产生偏见。抽象图像可以包括在用户头部或脸部的图像中检测到的边缘的实时卡通样线条图。

Description

相对于摄像机和显示器的用户定位的实时视觉反馈

背景技术

在消费和工作环境中使用的电子设备越来越多地结合了面向用户的摄像机。此类设备包括个人计算机和膝上型计算机、平板计算机、智能手机、机顶盒、销售点系统和物理访问控制系统。一般来说，这些摄像机旨在与视觉通信服务(例如Skype视频个人对人呼叫)一起使用，或者使用户能够拍摄自身的照片和视频以捕获某一时刻并可能进行分享。对于这些用途，用户非常希望能够在捕获和/或发送自己的图像时看到自己的图像。这样做的原因可以包括能够确保一个人的面部表情在分享时具有足够的吸引力，或者确保图像中显示的细节足够良好以实现预期目的。在这些情况下，用户通常会仔细地将摄像机置于能够呈现其脸部的良好形象并且愉悦自己眼睛的距离和角度。

对于前置摄像机而言，还存在另一类用途，可以将这种用途描述为人脸检验和人脸识别。人脸检验是使用图像对用户执行验证。此类验证可能是必须的以便访问在线服务、访问在线数据，或能够执行交易或进行支付。可能需要此类验证来获得对诸如钥匙之类的物体的物理接触、打开保险箱或储物柜、或被允许通过门禁。另一个例子是使用图像来借助人脸识别标识用户，或者确认用户图像与刚被提供或访问的身份文件的相似性。在注册金融服务或访问交通或医疗服务期间，此类验证可能作为必要的“了解您的客户”程序的一部分而发生。

已知的方法存在以下问题：即，交易的速度和性质有时不允许对用户姿势进行细致的美学优化。

发明内容

因此，本发明旨在提供向用户提供快速视觉反馈，以针对设备的前置摄像机的此类用途实现适当的人脸定位的系统、方法和计算机程序产品。

根据本发明，提供了一种根据权利要求1所述的捕获图像的方法。优选实施例在从属权利要求中公开。

本文所描述的系统、方法和计算机程序产品向启用摄像机的设备的用户提供近实时反馈，以在用户处于相对于设备的摄像机和/或显示器的期望位置和方位时引导用户捕获自身图像。期望的位置和方位优化当图像并非主要用于用户使用，而是满足在移动设备和/或在与该设备进行数据通信的本地或远程系统上运行的应用的用途时捕获的自身图像的各方面。可以对反馈进行抽象以避免因审美考虑而使用户产生偏见。

在这些用途中，由摄像机捕获的用户的图像或视频通常不被用户看到，也不被他所认识的任何人看到，而是由计算机进行分析，以确定用户的身份、真实性、诚实度、健康状况或情感。这里重点考虑人脸靠近摄像机、或者处于相对于摄像机的特定角度或处于相对于摄像机的一个或多个特定位置。当前的方法向用户提供了太多的视觉反馈信息，无关的细节破坏了对准过程。在本发明的方法中，去除冗余细节，保留用户快速完成对准操作所必需的细节。本发明的解决方案有利地提高了用户体验的质量和便利性。已知的方法要求用户将其脸部置于屏幕的非常规部分，这增加了用户的复杂性，导致成功率降低和/或过程变缓慢。这些已知的方法存在摄像机向用户呈现其面部图像的问题，当用户从不使人满意的距离和角度看到自己的形象时，会产生焦虑和分心，从而导致采用安全性较差的替代方法。

通常，在一方面，一种捕获用户的图像的方法包括：使用摄像机捕获所述用户的定位图像；基本实时地处理所述定位图像以生成所述用户的抽象定位图像；在面向所述用户的显示器上显示所述用户的所述抽象定位图像，其中所述抽象定位图像提供用于引导所述用户移动到相对于所述摄像机的期望位置的视觉反馈，并且所述抽象定位图像不提供用于使所述用户评估所述定位图像的视觉质量的足够视觉信息；以及当所述用户处于相对于所述摄像机的所述期望位置时，捕获所述用户的应用图像；以及将所述用户的被捕获的应用图像提供给应用，而不向所述用户显示所述被捕获的应用图像。

各个示例性实施例包括以下特征中的一者或多者。所述抽象定位图像提供用于引导所述用户移动到相对于所述显示器的期望位置的视觉反馈，并且其中当所述用户处于相对于所述显示器的所述期望位置时，捕获所述用户的所述应用图像。当所述用户处于相对于所述摄像机的所述期望位置时，所述显示器能够照亮所述用户的最接近所述显示器并被包括在所述摄像机的视场内的部位。当所述用户处于相对于所述摄像机的所述期望位置时，所述显示器的质心的法线在距所述用户的鼻尖小于约两英寸(五厘米)的点处与所述用户的头部相交。当所述用户处于相对于所述摄像机的所述期望位置时，所述用户位于距所述显示器的最近舒适距离处。当所述用户处于相对于所述摄像机的所述期望位置时，所述摄像机向上朝向所述用户倾斜。显示所述抽象图像包括：当所述用户在被捕获的定位图像内偏离中心时，使所述用户的图像移位以在所述显示器内居中。所述被捕获的图像和所述应用图像中的每一者包括静止图像和/或视频图像。所述显示器用于在捕获所述用户的所述应用图像期间照亮所述用户。所述摄像机和所述显示器被连接到具有网络连接的基于本地计算机的系统，并且在所述基于本地计算机的系统处，经由所述网络连接接收用于控制所述显示器的数据，以及在捕获所述应用图像期间，使用所述基于本地计算机的系统，利用经由所述网络连接在所述基于计算机的系统处接收的所述数据来控制所述显示器。所接收的数据使所述显示器充当所述用户的受控照明源。所述抽象定位图像包括以下一者或多者：在所述用户的被捕获的定位图像中以小空间尺度表示显著亮度变化的线；所述用户的模糊图像；以及圆形特征，所述圆形特征具有基于被捕获的定位图像的颜色的颜色。当捕获所述应用图像时，向所述用户发出警告。评估所述定位图像的视觉质量包括评估所述定位图像的美学质量。在捕获所述用户的应用图像之后，在面向所述用户的所述显示器上显示所述用户的第二抽象定位图像，其中所述第二抽象定位图像提供用于引导用户移动到相对于所述摄像机的第二期望位置的视觉反馈；当用户处于相对于所述摄像机的所述第二期望位置时，捕获所述用户的第二应用图像；以及将所述用户的第二被捕获的应用图像提供给所述应用，而不向所述用户显示所述被捕获的应用图像。连接所述第一提及的期望位置和所述第二期望位置的线基本上平行于所述显示器的平面。所述第一提及的期望位置和所述第二期望位置之间的位移使得所述应用能够使用所述第一提及的被捕获的应用图像和所述第二被捕获的应用图像来提取有关所述用户的三维信息。

通常，在另一方面，一种移动设备包括：CPU；以及存储器，其存储由所述CPU执行的指令，其中所述指令在所述CPU上的执行实现一种捕获所述移动设备的用户的图像的方法，所述方法包括：使用摄像机捕获所述用户的定位图像；基本实时地处理所述定位图像以生成所述用户的抽象定位图像；在面向所述用户的显示器上显示所述用户的所述抽象定位图像，其中所述抽象定位图像提供用于引导所述用户移动到相对于所述摄像机的期望位置的视觉反馈，并且所述抽象定位图像不提供用于使所述用户评估所述定位图像的视觉质量的足够视觉信息；以及当所述用户处于相对于所述摄像机的所述期望位置时，捕获所述用户的应用图像；以及将所述用户的被捕获的应用图像提供给应用，而不向所述用户显示所述被捕获的应用图像。

通常，在进一步的方面，一种捕获用户的图像的方法包括：使用摄像机捕获所述用户的定位图像；基本实时地处理所述定位图像以生成所述用户的抽象图像；在面向所述用户的显示器上显示所述用户的所述抽象图像，其中所述抽象图像提供用于引导所述用户移动到相对于所述显示器的期望位置的视觉反馈，并且所述抽象图像不提供用于使所述用户评估被捕获的定位图像的视觉质量的足够视觉信息；以及当所述用户处于相对于所述显示器的所述期望位置时，捕获所述用户的应用图像；以及将所述用户的被捕获的应用图像提供给应用，而不向所述用户显示所述被捕获的应用图像。

各个实施例包括以下特征中的一者或多者。所述抽象图像部分地基于所述摄像机相对于所述显示器的位置。从分析所述被捕获的定位图像来推断所述摄像机相对于所述显示器的位置，以便确定所述用户的姿势和注视中的至少一者。当引导所述用户观看所述显示器上显示的视觉元素时，从分析所述被捕获的定位图像来推断所述摄像机相对于所述显示器的位置。本发明的一个用途是验证或检验人脸，特别是活人的人脸。这具有广泛的应用，其中一个应用领域是访问控制领域。本发明的另一用途是用于诊断目的，以确定患者的身体和/或精神健康。再一用途是仅推断情绪，以便确定被认证的人是否处于某种形式的胁迫(形式为可能引起压力和恐惧的身体或情感威胁)之下。或者，为了市场调查或服务设计改进的目的，可以使用人对刺激(例如应用体验，一段媒体内容或一些营销内容)的反应。

附图说明

将参考附图更详细地描述本发明的示例性实施例，其中：

图1是用于在向用户提供抽象视觉反馈的同时捕获用户图像的基于移动设备的系统的高级框图；

图2是用于在向用户提供抽象视觉反馈的同时捕获用户图像的具有单独摄像机和显示器的基于计算机的系统的高级框图；

图3是正在向用户提供抽象视觉反馈的启用摄像机的设备的显示器的屏幕截图的图示；

图4A是示出用户相对于具有垂直偏移和横向居中的摄像机的移动设备的显示器的最佳定位的视觉反馈的侧视图；

图4B是图4A的移动设备的前视图，其示出了用户相对于图4A的移动设备的显示器的最佳定位的视觉反馈；

图5A是示出用户相对于具有垂直和横向偏移摄像机的移动设备的显示器的最佳定位的视觉反馈的侧视图；

图5B是图5A的移动设备的前视图，其示出了用户相对于图5A的移动设备的显示器的最佳定位的视觉反馈；

图5C是图5A所示的用户的前视图，其示出了图5A的移动设备的最佳定位。

具体实施方式

越来越多的应用需要捕获人的头部或脸部，但是根本不向用户显示图像，特定情况除外。这些应用分析用户脸部的图像，以便推断对于向用户传递价值的服务提供商或服务或软件有用的用户信息。一类这样的应用通过将图像与先前存储的图像进行比较，检查面部图像以便推断有关用户身份的信息。另一类这样的应用推断有关用户图像的真实性的信息，以确定是真人而非该人的物理或数字复制品在摄像机前面。另一类这样的应用通过分析其头部图像中包含的特征、面部肌肉运动、心跳或其它信息的细节来推断有关用户的情绪状况或健康状况的信息。图像可以由移动设备用户携带的移动设备中内嵌的前置摄像机捕获。图1示出了这样的系统：其中设备102具有面向用户108的嵌入式显示器104和摄像机106。所述设备可以经由网络110与远程服务器112进行数据通信。备选地，如图2所示，可以通过安装在基于计算机的系统206(例如膝上型计算机，个人计算机或工作站)的外部显示监视器204上方或以其他方式与其相邻的摄像机202捕获图像，其中用户208位于摄像机的视场内并且靠近显示器。所述计算机系统可以经由网络210连接到远程服务器212。在这样的应用中，显示用户头部或脸部的忠实再现的图像可能会适得其反，或不必要地消耗计算资源。然而，虽然用户的图像不会被显示，但是应用仍可能需要捕获满足特定约束的用户脸部图像。例如，在某些应用中，重要的是捕获近处用户的图像，以确保他们的脸部被屏幕良好地照亮。为了实现这一点，用户应该比通常以令人满意、无失真的角度捕获图像时更靠近屏幕，并且因此也更靠近内嵌式摄像机。作为一个实例，以水平面以下30度的角度从30厘米的距离处捕获的图像产生用户极力避免的令人不悦、甚至丑陋的图像。类似地，如果应用需要捕获用户鼻孔的良好图像，则摄像机视点应位于比通常用于令人满意的面部图像的角度低得多的角度。

通常，对于本文讨论的应用，前置摄像机和用户的头部或脸部之间的最佳相对位置应由图像旨在被用于的应用而非美学考虑来确定。此类考虑包括被捕获图像的分辨率、包括在被捕获视场内的面部特征或背景元素、以及用户脸部的环境照明。应用可以进一步决定用户头部相对于用户面部的受控照明源的最佳位置。在这里描述的各个实施例中，受控照明源是显示器屏幕，例如膝上型计算机或桌面计算机的监视器、或诸如智能电话、平板手机或平板计算机之类的移动设备的内置显示器。对于通过从显示器发出的光照亮用户脸部的应用，用户头部的最佳定位可主要由相对于显示器的位置来确定。其他受控照明源可以包括外部光源，例如与从前置摄像机接收图像的设备或膝上型计算机、桌面计算机或远程系统进行数据通信的LED。

可以捕获用户的图像，但是当被捕获的图像用于分析用户的外表或环境或其外貌的某些部位以推断有关用户的信息的一系列应用时，不向用户显示图像，也不向用户知道的任何人显示图像。此类信息可以包括他们的身份、他们与先前捕获的图像的相似性、他们作为真实人类的本质而非根据对他们的头部或脸部图像中包含的面部特征、面部肌肉活动、心跳或其它信息进行图像分析而推断出的他们的健康状态或情绪的照片、视频、打印头部或合成图像。

在此类应用中，尽管用户可能看不到所捕获的图像，但是可能需要向用户提供足够的视觉反馈以使用户能够以最适合应用的方式定位他或她的头部或脸部或头部或脸部上的某些部位，但是这可能不对应于设备的摄像机前面的正常定位，也不产生美观的结果。

尽管用于此类应用的最佳位置可以共享对向用户显示的图像的部分或全部要求(例如要求用户的脸部至少主要落在摄像机的视场范围内)，但它们在其它方面可能不同。例如，当针对用户使用而捕获的图像不会因为切掉头部或脸部的一小部分而受损时，该部分的存在对于由应用执行的分析而言可能是至关重要的。实际上，在某些情况下，如果没有所缺失的部分，应用可能无法实现其目的或给出错误的结果。在另一实例中，用户背后强光的存在可能会使用户的脸部变暗或导致摄像机使脸部曝光不足，这对某些应用可能是有问题的。在每种情况下，都需要适当的视觉反馈来引导用户移到避免对应用需求不利的情况的位置。

最适合使用面向用户的显示器作为照明源的应用的位置包括将用户的头部置于显示器的前面，以使得显示器的平面能够照亮脸上最接近显示器并被包括在其视场中的部位，例如鼻子、嘴巴、眼睛或耳朵。这可以通过将与用户脸部相对的显示器居中来实现，结果是位于显示器上方的摄像机被大致定位成其法线指向用户的发际线。在各个实施例中，显示器的平面被定向为基本上平行于用户脸部的平面，即在约10-20度内。在某些情况下，希望将显示器定位成以舒适的方式接近用户的脸部，以便最大化能够通过显示器投射到脸上的照明。

另外，希望提供视觉反馈以使用户知道该设备正在捕获其头部、脸部或头部和脸部的某一部位的图像。否则，用户可能对所发生的事情感到困惑，甚至在了解到他们的图像在未知情的情况下被捕获时会生气。即使用户被书面通知他们的图像被捕获，也可能发生这种反应，因为用户通常无法完全理解书面公开。视觉反馈以隐含地理解的方式提供此类公开。难题是向用户提供足够的视觉反馈以解决上述目的，但不显示对捕获的图像的足够忠实的表示，该足够忠实的表示使得任何负面的审美质量具有令用户分心或沮丧的风险。

捕获用户面部图像以进行面部检验或人脸识别的系统的实现通常以使图像高度可识别的保真度在捕获时向用户显示用户图像。边界控制中使用的一些系统显示黑白图像，其图像分辨率和色调渲染足以作为几十年前的个人照片。在个人计算机或移动智能手机上使用的一些人脸识别系统以屏幕的一部分中的色彩向用户显示图像。以对于图像大小而言可能的最大分辨率，通过全彩色和正常对比度来显示图像。这样的系统通常不能克服上述难题，即，所显示图像的性质有可能扰乱和/或分散用户的注意力，使其无法专注于手头的任务。

这里描述的视觉反馈方法和系统被设计为向用户提供他们需要的引导，以便针对捕获用户图像而非主要用于用户自己使用的应用进行正确定位。对此类反馈的要求可以包括：显示的图像尺寸足够大以轻松、详细地提供头部或脸部位置的可视性；足够的图像细节以实现视觉反馈；以及足够的抽象、失真、变形、印象或符号象征，以使用户难以或不可能评估其美学质量或主体的吸引力。符号象征包括使用表示期望的设备方位或设备方位的期望变化的感知元素(不包括用户脸部或头部的表示)通过信号向用户通知设备的期望方位或设备方位的期望变化的方法。此类感知元素可以包括设备屏幕上的视觉图形元素，例如闪烁的箭头、人字纹或动画，或对设备上可用的其它可视指示器(例如LED指示器或闪烁器、使用设备扬声器或振铃器的可听信号、或使用设备的振动或点击发生器的触觉反馈)的使用。

生成视觉反馈可以包括从被捕获的用户图像生成抽象图像的图像处理方法。一种方法涉及处理由摄像机看到的用户图像以提取边缘，并且在黑暗或黑色背景上实时显示横向反转(镜像)边缘作为白色或浅色线条，或者做相反的操作，这有些类似于黑白的线条绘制的卡通。这在图3中示出，其中具有内置的前置摄像机304和显示触摸屏306的移动设备302显示用户头部的实时或近实时的绘制图像308。

边缘提取涉及在所捕获的用户图像中识别小空间尺度上的显著亮度变化的位置，其中假设这些位置中的亮度轮廓对应于面部特征的边缘或用户头部的轮廓。当边缘在白色背景上显示为黑色时，最终显示的抽象图像类似于打印的卡通。可以通过用两个不同空间距离带宽的空间滤波器对图像进行滤波并用结果中的一个减去另一个来提取边缘。用于执行此操作的高度完善的方法被包括在公知的开源图像处理程序(被称为OpenCV以及CannyEdge Detector)中。影响最终图像质量的图像处理算法参数根据上述要求来选择，即产生足够详细的图像以向用户提供必要的指导，但详细度未达到使所产生的图像具有令人不悦细节，或包含太多的快速变化以致令人困扰的程度。

生成用于提供视觉反馈的抽象图像的各种方法包括以下方面中的一个或多个：对所捕获的图像应用模糊，例如通过使用大块像素化；将图像转变为具有类似底层图像的颜色的圆形或气泡；夸大对比度；使用水彩画变换；以及使用图像调整软件(如或)中可用的图像处理功能。在每种情况下，所显示的抽象图像被横向反转以形成用户的镜像。

所采用的图像处理算法的参数可以在捕获期间根据主要的光条件进行调整，以优化呈现给用户的图像的特性。这涉及对摄像机捕获的图像的实时处理以提取诸如曝光度、对比度和焦点等关键图像特征，并且使用这种处理的结果来调整应用于图像处理的参数。

经处理的用户图像被示为运动图像，该运动图像近似于具有大于每秒5帧的帧速率的视频，从而使得用户快速看到移动其头部或摄像机的效果，并且反馈过程收敛于期望的结果。如果运动和图像反馈之间的延迟太长，例如大于四分之一秒，效果可能不令人满意，并可能导致不稳定的运动集，并且不会收敛于预期的结果。为此，可能需要在用户设备而不是远程系统上处理图像，以便获得可接受的延迟。如果用户具有足够高的带宽网络连接，则可以远程执行图像处理任务，并以可接受的延迟通过网络发送回经处理的运动图像。

一旦用户处于相对于摄像机的期望位置，则会向用户发出警告并且捕获图像。可以使用视觉或音频提示来提供警告。在收敛处理期间，系统可以显示用户放置其头部的框架。一个视觉提示包括在用户找到正确位置时改变框架的颜色或厚度。例如，当用户不在正确的位置时，框架可以是显示为三像素厚的蓝色线的椭圆形，例如图3中的椭圆形310，并且可以在找到正确位置时变成另一种颜色(例如绿色)。然后，用户例如通过按下按钮312来使摄像机304捕获图像。

尽管所捕获的用户图像不是主要用于用户使用，但是可能存在其中向用户实际显示图像的特殊情况。例如，当与诸如第9,075,975号美国专利中描述的在线认证系统一起使用时，可能有必要在可疑地欺诈的情况下向用户显示所捕获的图像，以便在有争议时证实他实际是有效地进行验证的用户，或者表明他实际上是另一人。

除了将用户引导到相对于摄像机的优选位置(在该位置中，用户的脸部将定位成确保所有关键特征被包括在图像中)之外，系统还可以将用户引导到相对于显示器的优选位置。相对于显示器的最佳定位通常不同于相对于摄像机的最佳定位，因为摄像机几乎总是偏离显示器的中心。在移动设备中，内嵌式摄像机位于显示器的上方和/或其侧面。当摄像机和显示器是单独的单元(如图2所示的具有单独的摄像机和显示器的系统)时，摄像机从显示器的偏离可能特别大。用户越靠近显示器，给定的显示器质心到摄像机位移的角度偏移越大。

为了帮助将用户引导到相对于显示器(与摄像机不同)的最佳位置，可以向用户显示反馈图像，在该反馈图像中，用户的头部或脸部所在的屏幕部分不同于在摄像机捕获的整个图像以正常方式呈现在设备屏幕上(即，摄像机的视场直接映射到显示区域上)的情况下用户的头部或脸部所在的部分。这可以通过在显示被捕获的图像之前对其进行预处理来实现，具体方法是裁剪图像并对屏幕上的裁剪部分执行线性平移，从而引导用户定位摄像机，以使得显示器处于相对于他们的头部或面部的最佳位置。线性平移可以是垂直的、水平的或呈一定角度，将在下文对此进行描述。因此，面部图像可被显示为在用于显示抽象图像的屏幕部分内居中，尽管该图像可能在远离摄像机视场中心的位置处被捕获。

对于寻求最大化显示器照亮用户面部以对用户进行验证的能力的应用，当尽可能多的显示屏幕部分垂直于与用户脸部而非颈部或耳朵上的特征相交的线条时，产生最佳位置。当获得这样的最佳位置时，脸部的中心(即，鼻子和嘴部之间的某处)与显示器的质心正好相对。对于智能电话之类的手持设备(其中以摄像机在显示器上方的纵向姿态握持设备)，该最佳位置将用户的脸部置于在摄像机视场中心的下方。当观看摄像机输出(无论是抽象形式还是视频)的用户无法再相对于显示器最佳地定位时，该用户会自然地重新定位设备以使其脸部在摄像机视场中心。为了引导用户将设备定位在期望的位置，在显示器上向用户显示的捕获图像在显示之前被处理以向上移位，只有当用户已经到达期望位置时，经处理的图像中的用户脸部才在显示器上居中。对于摄像机在大约4x2¹/₄英寸(10x5.6厘米)的显示屏的上方居中的移动设备，这种视觉反馈将导致通过摄像机镜头中心的法线轴大致在用户的发际线处与用户的脸部相交。图4A和4B示出了这样的配置，当摄像机406的法线与用户410的发际线408相交时，具有显示器404的移动设备402的中心大致正对用户面部。对于具有在显示器上方横向居中的摄像机镜头的设备，如图4A和4B所示，轴线沿着面部的中间部分(即，用户头部的中矢状面(mid-sagittal plane)上)与发际线相交，但是在平行于用户头部的横向轴线的垂直方向上偏离头部的中心。对于摄像机镜头位于显示器上方并相对于显示器的平分法向平面横向偏移的设备，最佳位置对应于在平行于矢状轴横向移位的点处与用户头部相交的摄像机透镜轴，其中横向位移量等于摄像机透镜从显示器的平分法向平面的横向位移量。这种情况在图5A、5B和5C中示出，具有横向移位的摄像机504的设备502被最佳地放置，以便当摄像机法线在用户发际线附近的点508(点508按照大致对应于摄像机504与显示器506的中平面514的偏移512的量相对于用户头部的中矢状面510横向偏移)处与用户的脸部相交时，使得头部相对于设备显示器506居中。

通常，为了使用户将法线置于显示屏质心以便其与用户脸部的中心相交，抽象图像在被显示之前沿着将显示屏质心连接到摄像机镜头中心的矢量平移。如图4A和4B以及5A-C所示，当显示屏的平面和用户脸部的平面彼此大致平行时，该平移达到期望的结果。当显示屏的平面与用户的脸部不平行，但是以最多大约30度的角向其倾斜时，可以使用相同的平移使用户获得最佳位置。在这两种情况下，当尽可能多的与显示器垂直的线与面部特征相交，而不是与颈部或耳朵相交时，产生最佳位置。

当捕获用户图像时，具有前置摄像机的设备可以以横向位置定向。以这种姿态，当用户的脸部相对于显示器居中时，摄像机横向移位，即沿矢状轴线移位。对于具有大约4×2.25英寸(10cm×5.7厘米)的显示器的设备，在显示器的前面将用户的脸部置中对应于通过摄像机透镜中心引导法向轴线穿过用户的耳朵。对于具有较大显示器的设备，例如具有在约5×2³/₄英寸(12.5×6.9厘米)至约9×6英寸(22.5×15厘米)的范围的显示器的智能手机、平板手机或平板计算机，位移将相应地更大，具体由摄像机镜头与显示器质心之间的距离决定。如图2所示，当摄像机和显示器是单独的单元时，也可以提供类似的视觉反馈。在这些情况的每一者中，视觉反馈引导用户将设备置于相对于显示器的最佳位置。对于使用抽象用户图像的视觉反馈，当获得最佳位置时，抽象图像呈现为位于被用于显示抽象图像的屏幕部分中央，尽管用户不在摄像机视场的中心，这分别如图4B和5B中的抽象用户图像412和514的位置所示。

为了确定如何调整反馈图像以优化用户相对于显示器的位置，向系统提供指定显示器和摄像机的相对(或绝对)位置的信息。如果没有提供这样的信息，则可以通过显示测试图像和请求用户来识别显示器上的某些特征，或者通过从用户的姿势或注视推断这些特征来确定相对间距。用户的姿势或注视可以是自发的，也可以通过要求用户观看显示器上的特定位置(例如，观看所显示的静态或移动的可视元素)来被引导。可以控制可视元素以引起姿势和/或注视方向的变化，这些变化明显地受将显示器质心和摄像机主轴相连接的矢量的大小和方向的影响。这种技术可以部署在具有内置的前置摄像机和显示器的移动设备以及具有外部连接的摄像机和监视器的基于计算机的系统中。

扩大或减小反馈图像的尺寸也可以用于帮助用户将他们的头部或脸部置于离显示器的最佳距离处。这可以通过改变摄像机的有效焦距，或简单地通过放大或缩小显示给用户的图像的处理来实现。最佳的设备到头部距离部分地取决于显示器的尺寸，对于移动设备中特有的小型显示器，通常希望较小的距离，而在使用连接到膝上型计算机或工作站的较大监视器的情况下，需要较大的距离。也可能希望控制缩放以帮助最大化被捕获的用户图像的分辨率，同时保持舒适的用户观看体验。

某些应用可能寻求从用户设备的前置摄像机捕获的用户图像中获得三维信息。换句话说，除了投射到二维图像的x、y平面上的信息之外，还寻求z轴信息。此深度信息可以通过分析x和y方向移动的视差效应，并且通过改变由设备的摄像机和用户头部在x、y以及z方向上的相对位置的变化导致的脸部图像中的遮挡、特征的相对间距、失真和透视度来获得。在大致平行于设备显示器的平面的平面中，在约1/4英寸(0.6厘米)和4英寸(10厘米)之间的任何位置的设备运动产生视角的变化，从该视角可以通过视差确定所需的深度信息。

足以获得这种三维信息的运动可伴随用户使用上述反馈方法相对于摄像机和显示器执行自我对准的自然尝试。然而，如果用户不能自然地产生足够的视差，或者获得更准确或不同的深度信息，则可以使用视觉反馈来引导用户改变其相对于设备的位置。引导可能是隐含的，例如方式为改变所显示的抽象捕获图像相对于摄像机的视场的位移，以使得用户将抽象图像置于中心的尝试导致用户执行所需的移动。引导也可以是显式的，例如通过显示或说出的指令，或通过静态或动态的符号提示，例如要求用户沿指定的方向移动设备或其头部的箭头、人字纹或动画。

当用户执行这些移动时，可以使用来自设备的内置加速度计的数据跟踪设备的绝对位置。加速度计提供实时位置信息，其提供用于从视差推导图像中的深度信息的视角变化的基线。通过将在视角变化期间捕获的图像与来自加速度计的同时期实时位置数据相结合，与通过自行分析被捕获的图像而获得的三维信息相比，能够获得更可靠和准确的三维信息。

也可以使用设备显示器上的抽象视觉反馈来引起设备和/或用户头部的某些移动，以确定由内置设备摄像机捕获的图像与由设备的机载加速度计和陀螺仪提供的姿态和位置数据之间的一致性水平。这种一致性可以通过致力于验证设备用户的活跃性和/或身份的应用来发现。例如，可以引起设备的左右和上下移动，其位置变化由机载加速度计跟踪。然后可以将被捕获的用户图像中产生的变化与预期由三维的人头部的变化视角产生的视差进行比较。

在另一实例中，可以使用抽象图像或视觉提示来使用户改变设备的姿态，例如方式为围绕大致垂直于用户脸部前方的轴线(即，围绕冠状轴)枢转设备。为了引起这种运动，在向用户显示之前，可以对前置摄像机图像进行抽象并且围绕冠状轴旋转该图像。然后用户可以通过旋转设备本能地尝试保持其图像直立，或者可以显式地要求用户保持其图像直立，同时在显示之前将变化的旋转角度应用于图像。被捕获的图像中的最终变化可以被与内置陀螺仪捕获的同期姿态数据进行比较，并且确定预期图像和被捕获的图像之间的一致性水平。

视觉反馈还可以引起用户朝向或远离移动设备或系统(其中摄像机和显示器作为单独的单元与该移动设备或系统连接)的显示器和/或摄像机(即，z方向)移动。合适的视觉反馈包括预处理用户的抽象图像以放大或缩小头部的尺寸，并且要求用户重新定位自身，以使得所显示的图像具有一定的尺寸。因此，如果预处理缩小图像，则用户通过靠近摄像机移动自然地补偿，反之亦然。为了便于进行这样的调整，抽象图像可以在方框或椭圆形轮廓中显示，并且要求用户移动得更近或更远，直到他们的外形正好填满轮廓。备选地，不改变所显示的抽象图像的尺寸，而是可以改变椭圆或方框轮廓的大小，并且要求用户调整他们与摄像机的距离，直至他们的外形正好填满轮廓。这两种方法可以按照不同的比例使用以引起所需的z方向移动。

由这种朝向或远离摄像机的移动导致的视角变化造成捕获图像的变化，用户头部越靠近摄像机，就变得越突出。通过分析整体图像尺度变化与面部特征的内部布置和相对位置的变化之间的关系，可将被捕获的图像中的这种变化与三维物体预期的变化进行比较。此外，从机载加速度计捕获的实时数据可以提供设备的绝对z方向位移，并提供进一步的数据，利用该数据评估图像与三维的人头部的一致性。

还可能需要引起朝向和远离摄像机和显示器的移动，以确保前置摄像机捕获合适的视场。需要用户图像的应用可能要求该用户足够远，以使得整个面部出现在视场内。然而，该应用还可能需要面部图像具有尽可能多的分辨率，这样最好使用户的脸部尽可能靠近摄像机，使头部填满视场。此类应用相对于摄像机和显示器对用户的脸部进行最佳定位对应于使用户面部的中心沿着法线矢量尽可能靠近显示器的质心，所述法线矢量通过受约束的显示器质心，该约束要求包括嘴、鼻子和耳朵的面部主要特征都落入摄像机的视场内。当不能满足该约束时，按照使关键特征在摄像机视场内所必需的最小量将最佳位置(以及给予用户的相应视觉反馈)朝着摄像机轴线移动。

用于相对于前置摄像机和/或显示器定位用户的视觉反馈也可以包括类似游戏的元素。通过玩游戏，用户以这样的方式移动所述设备：根据需要由摄像机捕获的图像的应用所期望的一个或多个位置来定位该设备。一类这样的视觉反馈涉及要求用户将可视元素定位在屏幕上的特定目标位置。这样的目标位置可以是显示器上的静态点或由显示图像中的阴影、轮廓或特征限定的区域。由用户定位的可视元素可以是几何形状、图标、简单的动画人物或虚拟对象，例如通过摇动显示器以模仿球在重力作用下在上面滚动的倾斜表面，从而在屏幕上来回滚动的虚拟球。目标位置可以是静态或动态的。静态目标包括屏幕中心处的点或突出显示的区域，或由显示器上显示的静态图形或图像限定的区域。动态目标可以以连续、平滑的方式在显示器上来回移动，或者可以在屏幕上从一点跳到另一点。这些目标可以被显示为移动的图形元素、动画图案或移动的图像，其中包括动画或视频。在每种情况下，要求用户以可控的方式将可视元素置于所显示的目标位置，并且在执行此操作时，以在设备上运行的应用所需的方式移动其设备的位置和/或姿态。

所描述的用于相对于摄像机和显示器定位用户的实时用户反馈的实施例可以使用通用计算机系统实现为计算机程序。这样的计算机系统通常包括连接到向用户显示信息的输出设备和从用户接收输入的输入设备两者的主单元。主单元通常包括经由互连机制连接到存储系统的处理器。输入设备和输出设备也通过互连机制连接到处理器和存储系统。

一个或多个输出设备可以连接到计算机系统。示例输出设备包括但不限于液晶显示器(LCD)、等离子体显示器、诸如E Ink之类的反射显示器、阴极射线管、视频投影系统，以及其它视频输出设备、打印机、用于在低或高带宽网络上通信的设备，其中包括网络接口设备、电缆调制解调器和存储设备(如磁盘或磁带)。一个或多个输入设备可以连接到计算机系统。示例输入设备包括但不限于键盘、小键盘、轨迹球、鼠标、笔和平板计算机、触摸屏、摄像机、通信设备和数据输入设备。本发明不限于与计算机系统或本文所描述的那些设备组合使用的特定输入或输出设备。

所描述的用于相对于摄像机和显示器定位用户的实时用户反馈的实施例可以使用诸如启用摄像机的智能电话、平板计算机或平板手机之类的移动设备实现为计算机程序。移动设备可以以独立模式操作，或者可以通过固定或无线连接而连接到其它计算机，其中包括可执行本文所述的一些计算步骤的一个或多个远程服务器。

存储系统通常包括计算机可读介质。介质可以是易失性的或非易失性的，可写的或不可写的，和/或可重写的或不可重写的。存储系统通常以二进制形式存储数据。这样的数据可以定义要由微处理器执行的应用程序，或存储在盘上以供应用程序处理的信息。本发明不限于特定的存储系统。数据库信息、面部图像和语音信息以及其它在线用户识别信息可以被存储在/输入自磁的、光的或固态驱动器，这些驱动器可以包括本地盘或网络连接盘的阵列。

诸如本文描述的系统可以以软件、硬件或固件或三者的组合来实现。采取单独或组合形式的各个系统元件可以被实现为一个或多个计算机程序产品，其中计算机程序指令存储在计算机可读介质上以供计算机执行，或者经由连接的局域网或广域网传输到计算机系统。计算机程序指令也可以经由诸如载波信号之类的通信介质发送。可以由执行这样的计算机程序指令的计算机执行处理的各个步骤。计算机系统可以是多处理器计算机系统，或者可以包括在计算机网络上连接的多个计算机。本文描述的组件可以是计算机程序的单独模块，或者可以是在单独的计算机上操作的单独的计算机程序。由这些组件产生的数据可以存储在存储系统中或在计算机系统之间传输。

Claims

1.一种捕获用户的图像的方法，所述方法包括：

使用摄像机(106、202、304)捕获所述用户的定位图像；

基本实时地处理所述定位图像以生成所述用户的抽象定位图像；

在面向所述用户的显示器(104、204、306)上显示所述用户的所述抽象定位图像，其中所述抽象定位图像提供用于引导所述用户移动到相对于所述摄像机的期望位置的视觉反馈，并且所述抽象定位图像不提供用于使所述用户评估所述定位图像的视觉质量的足够视觉信息；以及

当所述用户处于相对于所述摄像机的所述期望位置时，捕获所述用户的应用图像；以及

将所述用户的被捕获的应用图像提供给应用，而不向所述用户显示所述被捕获的应用图像。

2.根据权利要求1所述的捕获图像的方法，其中所述抽象定位图像进一步提供用于引导所述用户移动到相对于所述显示器的期望位置的视觉反馈(308)，并且其中当所述用户处于相对于所述显示器的所述期望位置时，捕获所述用户的所述应用图像。

3.根据权利要求1或2所述的捕获图像的方法，其中当所述用户处于相对于所述摄像机的所述期望位置时，所述显示器能够照亮所述用户的最接近所述显示器并被包括在所述摄像机的视场内的部位。

4.根据权利要求1至3中任一项所述的捕获图像的方法，其中当所述用户处于相对于所述摄像机的所述期望位置时，所述显示器的质心(514)的法线在距所述用户的鼻尖小于约五厘米的点处与所述用户的头部相交。

5.根据权利要求1至4中任一项所述的捕获图像的方法，其中当所述用户处于相对于所述摄像机的所述期望位置时，所述用户位于距所述显示器的最近舒适距离处。

6.根据权利要求1至5中任一项所述的捕获图像的方法，其中当所述用户处于相对于所述摄像机的所述期望位置时，所述摄像机向上朝向所述用户倾斜。

7.根据权利要求1至6中任一项所述的捕获图像的方法，其中显示所述抽象图像包括：当所述用户在被捕获的定位图像内偏离中心时，使所述用户的图像移位以在所述显示器内居中。

8.根据权利要求1至7中任一项所述的捕获图像的方法，其中被捕获的图像包括视频图像。

9.根据权利要求1至8中任一项所述的捕获图像的方法，其中所述应用图像包括视频图像。

10.根据权利要求1至9中任一项所述的捕获图像的方法，其中所述应用图像包括静止图像。

11.根据权利要求1至10中任一项所述的捕获图像的方法，其中所述显示器用于在捕获所述用户的所述应用图像期间照亮所述用户。

12.根据权利要求1至11中任一项所述的捕获图像的方法，其中所述摄像机和所述显示器被连接到具有网络连接的基于本地计算机的系统(206)，并且进一步包括：

在所述基于本地计算机的系统(206)处，经由所述网络连接接收用于控制所述显示器的数据；以及

在捕获所述应用图像期间，使用所述基于本地计算机的系统，利用经由所述网络连接在所述基于计算机的系统处接收的所述数据来控制所述显示器。

13.根据权利要求12所述的捕获图像的方法，其中所接收的数据使所述显示器充当所述用户的受控照明源。

14.根据权利要求1至13中任一项所述的捕获图像的方法，其中所述抽象定位图像包括在所述用户的被捕获的定位图像中以小空间尺度表示显著亮度变化的线。

15.根据权利要求1至14中任一项所述的捕获图像的方法，其中所述抽象定位图像包括所述用户的模糊图像。

16.根据权利要求1至15中任一项所述的捕获图像的方法，其中所述抽象定位图像包括圆形特征，所述圆形特征具有基于被捕获的定位图像的颜色的颜色。

17.根据权利要求1至16中任一项所述的捕获图像的方法，其中当捕获所述应用图像时，向所述用户发出警告。

18.根据权利要求1至17中任一项所述的捕获图像的方法，其中评估所述定位图像的视觉质量包括评估所述定位图像的美学质量。

19.根据权利要求1至18中任一项所述的捕获图像的方法，进一步包括：

在捕获所述用户的应用图像之后，在面向所述用户的所述显示器上显示所述用户的第二抽象定位图像，其中所述第二抽象定位图像提供用于引导用户移动到相对于所述摄像机的第二期望位置的视觉反馈；

当用户处于相对于所述摄像机的所述第二期望位置时，捕获所述用户的第二应用图像；以及

将所述用户的第二被捕获的应用图像提供给所述应用，而不向所述用户显示所述被捕获的应用图像。

20.根据权利要求19所述的捕获图像的方法，其中连接所述第一提及的期望位置和所述第二期望位置的线基本上平行于所述显示器的平面。

21.根据权利要求19或权利要求20所述的捕获图像的方法，其中所述第一提及的期望位置和所述第二期望位置之间的位移使得所述应用能够使用所述第一提及的被捕获的应用图像和所述第二被捕获的应用图像来提取有关所述用户的三维信息。

22.一种移动设备，包括：

CPU；以及

存储器，其存储由所述CPU执行的指令，其中所述指令在所述CPU上的执行实现一种捕获所述移动设备的用户的图像的方法，所述方法包括：

使用摄像机捕获所述用户的定位图像；

在面向所述用户的显示器上显示所述用户的所述抽象定位图像，其中所述抽象定位图像提供用于引导所述用户移动到相对于所述摄像机的期望位置的视觉反馈，并且所述抽象定位图像不提供用于使所述用户评估所述定位图像的视觉质量的足够视觉信息；以及

23.一种捕获用户的图像的方法，所述方法包括：

使用摄像机捕获所述用户的定位图像；

基本实时地处理所述定位图像以生成所述用户的抽象图像；

在面向所述用户的显示器上显示所述用户的所述抽象图像，其中所述抽象图像提供用于引导所述用户移动到相对于所述显示器的期望位置的视觉反馈，并且所述抽象图像不提供用于使所述用户评估被捕获的定位图像的视觉质量的足够视觉信息；以及

当所述用户处于相对于所述显示器的所述期望位置时，捕获所述用户的应用图像；以及

24.根据权利要求23所述的捕获图像的方法，其中所述抽象图像部分地基于所述摄像机相对于所述显示器的位置。

25.根据权利要求24所述的捕获图像的方法，其中从分析所述被捕获的定位图像来推断所述摄像机相对于所述显示器的位置，以便确定所述用户的姿势和注视中的至少一者。

26.根据权利要求24或25所述的捕获图像的方法，其中当引导所述用户观看所述显示器上显示的视觉元素时，从分析所述被捕获的定位图像来推断所述摄像机相对于所述显示器的位置。