CN102999635A

CN102999635A - 语义可视搜索引擎

Info

Publication number: CN102999635A
Application number: CN2012105538859A
Authority: CN
Inventors: 范力欣
Original assignee: Core Wiresless Licensing SARL
Current assignee: Conversant Wireless Licensing SARL
Priority date: 2005-09-28
Filing date: 2006-09-27
Publication date: 2013-03-27
Also published as: EP1938216A1; EP2450808A2; KR101516712B1; US7865492B2; CN101305368A; KR20080063480A; WO2007036789A1; EP2450808A3; US20070073749A1

Abstract

本发明为语义可视搜索引擎。一种用于使得系统根据例如图像或视频剪辑的项目的语义意义来对它们进行学习、分类和搜索的改进方法、设备和计算机程序产品。根据本发明，可以使用监督的学习方法来将显著的特征与低级特征分离。显著的特征用于分类和批注新的目标项目。用户可接着使用关键词和/或模板项目来通过相应的数据库进行搜索。

Description

语义可视搜索引擎

分案申请

本申请是申请号为200680041967.8、2008年5月9日进入国家阶段、申请日为2006年9月27日、发明名称为“语义可视搜索引擎”的专利申请的分案申请。

技术领域

本发明一般地涉及可视信息分析和语义搜索。更具体地，本发明涉及存储在例如移动电子设备的设备中的内容的特征提取、特征和对象匹配以及特征选择。

背景技术

随着近些年移动设备上的图像文件、视频文件、音频文件等的多媒体数据库逐渐变得更大，对用于数据库分类、搜索和管理的全面和精确系统的需求显著增加。在早些的移动设备中，存储空间十分有限，这导致相对小数目的多媒体对象存储在设备上。由于仅少量的对象被存储，所以精确地分类、搜索和管理实质上不太重要。然而，由于存储能力已经增加，因此已经向移动设备用户提供在例如移动电话的单个设备上存储成百并且甚至成千的对象的能力。然而，由于存储的对象太多，用户具有寻找先前存储的对象或组织他或她的所有多媒体文件以便稍后访问的困难时间。

在图像检索领域，现有的基于内容的图像检索(CBIR)系统通过查找从目标图像提取的类似低级特征来搜索相关图像。该方法的一个问题在于“类似低级特征”不会必然地确保“类似语义内容”。这是由于若干种因素。第一，两个“类似语义内容”可能最终具有不同的表现。例如，可以存在类间对象变化(例如，山脉不必看起来类似)。第二，“类似低级特征”可能对应于概念上不类似的对象。例如，色彩直方图不能轻易地区分红玫瑰与日落。第三，图像总是包含背景混乱，这经常会干扰低级特征匹配。尽管人类可以轻易地从语义类似内容识别显著的特征(例如，脸部具有代表眼部的黑色椭圆区域)，但对于计算算法来说，仍极难自动地将显著的特征与低级特征分离。

尽管有多种尝试通过基于内容的图像检索来解决上面的问题，但每个尝试均具有其自身的缺陷。例如，签发给Jain等人的US专利号5,893,095公开了一种基于内容的图像检索系统，其基于匹配从目标图像提取的低级特征。此类的“原始”特征包括色调、饱和度和强度直方图、边缘密度等。然而并且如上所述，这些低级特征不总是对应于图像语义。

先前开发的通用图像识别/检索系统用于根据四类低级特征来识别图像，即平均色彩、色彩直方图、纹理和形状。在该系统下，用户能够人工地在图像内添加用户定义的形状和/或感兴趣的区域以精炼搜索结果。这些用户指定的特征经常是很有意义的并且可以产生精确的结果。然而，输入这些特征是乏味的并且对于大多数用户来说太难。

除了上述的尝试，还有许多尝试使用机器学习以便进行特征选择。例如，一个系统涉及使用AdaBoost(“Adaptive Boosting”的缩写)学习算法来训练脸部检测器。给定一组训练脸部图像，显著的面部特征，例如前额和眼部周围的高对比度区域被自动地选择。尽管该方法演示了监督学习以便特征选择的可行性，但由于背景混乱的存在，其不能直接应用地图像数据库检索。

在另一个方法中，选择局部显著的特征并且接着以合并的概率模型来表示。该模型有效地适应了类间对象变化。然而，该方法计算量大并且因此选择的特征的数目有限(在一个实施中仅限于六个特征)。该方法不能被直接应用于移动应用。

发明内容

本发明提供一种语义可视搜索引擎，其使用在例如移动电话的设备和其他移动电子设备中。利用本发明，使用监督的学习方法可将显著的特征与低级特征分离。显著的特征可用于分类和批注新的目标图像。用户可接着使用关键词和/或模板项目来通过相应的数据库进行搜索。

利用本发明，可基于“语义”对象类来搜索例如图像和视频的相关项目。另外，利用本发明，从图像和视频编码搜索得到的结果比由常规系统生成的结果更为精确和更为有意义。

通过下面结合附图的详细描述，本发明的这些和其他目标、优势和特征，连同其操作的组织和方式将变得明显，其中在下面描述的若干附图中，相同的元件具有相同的标号。

附图说明

图1是可以在实现本发明中使用的移动电话的透视图；

图2是图1中的移动电话的电话电路的示意图；

图3(a)是示出实现本发明原理的系统的学习处理的示图；图3(b)是示出实现本发明原理的系统的分类处理的示图；并且图3(c)是实现本发明原理的系统的搜索处理的示图；

图4是根据本发明一个实施方式的如何从图像提取低级特征的示图；以及

图5是示出实现本发明的各种实施方式的流程图。

具体实施方式

图1和图2示出其中本发明可被实现的一个示例性移动电话12。然而，应当理解，本发明不旨在限定于一个特定类型的移动电话12或其他电子设备。例如，本发明可以被集成进组合的个人数字助理(PDA)和移动电话、PDA、集成消息收发设备(IMD)、台式计算机和笔记本计算机。图1和2中的移动电话12包括壳体30、以液晶显示器形式的显示器32、小键盘34、麦克风36、听筒38、电池40、红外端口42、天线44、根据本发明的一个实施例的通用集成电路卡UICC形式的智能卡46、读卡器48、无线接口电路52、编解码器电路54、控制器56和存储器58。各个电路和元件都是本领域公知的类型，例如Nokia移动电话系列。

本发明的搜索系统包括三个相关的处理：学习、分类和搜索。学习处理通过使用监督的学习方法来解决先前讨论的特征选择问题。输入包括一组相同类的样本图像(例如，脸部的图像)。输出包括从低级特征选择的常见显著的特征，该低级特征从示例图像导出。图3(a)示出学习处理的简化例子，其中输入包括一对样本项目300，并且作为监督学习处理305的结果，在输出中识别出显著的特征310。

在分类处理中，在学习处理期间识别的显著的特征被用于分类和批注新的目标图像。如图3(b)中所示，输入包括一个或多个目标项目320，而输出包括分配给目标项目320的批注330。作为语义图像分类处理325的结果，生成输出。

根据本发明，可以使用不同的搜索方案。如图3(c)中所示，用户可以提交关键词340和/或模板350。系统接着可使用特征选择360和基于特征项目匹配370来返回多个检索项目380。

在搜索方案的第一个中，用户提交一个或多个关键词。作为响应，具有相同或类似批注的检索项目380被返回。在第二个方案中，提供一个或多个模板350和一个或多个关键词340。在该情形下，从模板项目或项目350提取的低级特征首先被预过滤，并且接着随后与目标项目的特征进行匹配。预过滤用于排除或最小化背景混乱。最为类似的项目或多个项目被检索并且为用户可用。在第三个方案中，仅一个或多个模板项目350被提供有不感兴趣的指定对象。在该方案中，最为类似的低级特征被匹配。

对于低级特征提取，当涉及图像时，图像被转化成多尺度(multi-scale)局部特征矢量，该矢量包括待处理的候选低级特征。应该注意到尽管“图像”在这里被明确地讨论，但本发明可以被应用到例如音频文件的非图像内容。低级特征围绕图像中的突点局部地提取。图4是该处理的示图，其中三种不同类型的特征(形状、色彩和纹理强度)从在三个不同尺度处的各种突点410提取。

对于学习处理，输入是针对语义内容的每个分类的一组示例图像。该组示例图像或项目在数目可以成百或更多。语义内容包括潜在相关项目的简短描述，例如“脸部”、“飞机”、“山脉”和其他。每个示例图像转化成多尺度局部特征矢量，它们是将要处理的候选低级特征。使用监督的学习方法，可以选择与特定的对象类关联的显著的特征(例如，“眼部”对于“脸部”或“车轮”对于“汽车”)。这些选择的特征构成特定对象类的概率模型并且可用于随后的分类和搜索处理。

应该注意到本发明包括通用框架并且不依赖于被实现的学习方法的性质。在本发明的一个实施方式中，AdaBoosting被用于选择特征。AdaBoosting是可视特征选择域中的有效学习方法。然而，可选的学习方法，包括但不限于支持向量机器(SVM)模式识别、Bayesian统计和其他的方法也可结合本发明来实施。

对于分类处理，目标图像首先转化成多尺度局部特征。这些提取的特征随后与显著的特征进行匹配，这些显著的特征被表示为概率模型。如果计算的概率大于特定的阈值，则宣告成功的匹配并且相应对象分类的批注被输出。例如，如果由用户保存的目标图像具有包含脸部的某个概率，则将与目标图像关联的批注之一是“脸部”。也应该注意到概率阈值从本发明的各种实施方式中的示例图像或项目学习。在本发明的一个实施方式中，在这点上无需用户干预。

在搜索步骤中并且如上所讨论，当提供模板项目和关键词时，根据感兴趣的分类的概率模型，首先对来自模板项目的低级特征进行预过滤。该预滤波对于排除或最小化背景混乱是重要的，背景混乱经常干扰后续的图像匹配处理。选择的特征与相同分类的目标图像或项目匹配。该匹配使用了基于稳健的局部特征的图像匹配方法。此类特定方法在Lixin Fan的“Intra-Class Variation，AffineTransformation and Background Clutter：Towards Robust ImageMatching”详细讨论并且通过参考并入在此。

如果仅模板图像或项目提供有不感兴趣的指定对象，则搜索处理使用如这里所述的基于低级特征的图像匹配。再次，此类特定方法在Lixin Fan的“Intra-Class Variation，Affine Transformation and Background Clutter：Towards Robust Image Matching”详细讨论。如果仅输入关键词，则系统查找具有与批注相同或类似的关键词的存储的图像。例如，如果单词“脸部”被输入，则系统可返回具有如批注“脸部”的图像。

图5示出本发明的各种实施方式的实现的流程图。在图5的步骤500处，多个图像或其他项目被转换成多个候选低级特征。对于多个项目中的每个，围绕相应项目中的突点来局部地提取候选低级特征。在步骤510处，上述类型的监督学习方法用于从多个候选低级特征选择显著的低级特征。显著的低级特征与预定的对象分类关联。这些预定的对象分类可描述通用对象(例如，汽车、飞机等)；人体的一部分(例如脸部)，地理陆标(例如，山脉、树木等)或其他项目。

在步骤520处，当新的项目将要被分类时，目标项目被转化为多个多尺度局部特征。在步骤530处，对于多个多尺度局部特征的每个，使用概率模型，多尺度局部特征与显著的低级特征关联。通过这种方式，例如，如果目标项目具有脸部，则该特征将被匹配于具有脸部的其他项目并且该项目因此可以被分类。

在步骤540处，输入项目由用户输入进系统，请求对其进行搜索。输入项目可包括用于搜索的模板和/或关键词。接着响应于步骤550处的询问，类似于输入项目的项目可提供给用户。如上讨论，精确的处理可根据用户是否仅输入关键词，仅输入模板或二者来变化。应该注意到搜索结果也可包括本地执行和/或位于远程位置所执行的搜索的结果，并且被搜索的项目可以位于本地和/或远端。

在方法步骤的通常环境中描述了本发明，其可以通过包括计算机可执行指令的程序产品在一个实施例中实现，例如程序代码，可由计算机在网络互连环境中执行。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构等。计算机可执行指令，相关联的数据结构和程序模块代表用于执行在此公开的方法的步骤的程序代码的例子。这种可执行指令或相关联的数据结构的特定序列代表了用于执行以这种步骤描述的功能的相应动作的例子。

本发明的软件和web执行可以使用标准编程技术完成，该标准编程技术具有基于规则的逻辑和其它逻辑用于完成不同的数据库搜索步骤、相关性步骤、比较步骤和决定步骤。本发明也可以使用任意常见的编程语言(例如C/C++或汇编语言)来直接实施在软件中。本发明也可以实现在硬件中并且用于消费设备中。还应当注意此处和权利要求书中使用的词语“组件”和“模块”意欲包含使用一行或多行软件代码的执行，和/或硬件执行，和/或用于接收手动输入的设备。

为了示意和描述的目的已经对本发明的实施例进行了前述描述。不旨在穷举或者将本发明限制在所公开的精确形式下，并且修改和变化可以参照上述教导做出，或者从本发明的实践中获得。选择和描述的实施例用于解释本发明的原理及其实际应用以使本领域技术人员能够在各种实施方式中利用本发明并且可以具有各种修改以适应于特定的预期应用。

Claims

1.一种用于将移动电子设备上的目标项目进行分类的方法，所述方法包括：

从多个候选低级特征（510）中选择显著的低级特征（310），其中围绕多个项目（300）中的突点（410）局部地提取所述多个候选低级特征（510），根据监督的学习方法（305）将显著的低级特征与预定的对象分类关联；

将目标项目（320）转化成多个多尺度局部特征（520）；以及

对于所述多个多尺度局部特征中的每一个，使用概率模型（325；530），将多尺度局部特征与显著的低级特征相匹配。

2.根据权利要求1所述的方法，进一步包括：

围绕多个项目中的突点（410）局部地提取候选低级特征（500）。

3.根据权利要求1或2所述的方法，其中所述监督的学习方法包括AdaBoosting学习算法、Bayesian统计的使用或SVM模式识别。

4.根据权利要求1至3中任一项所述的方法，其中所述多个项目包括视频和/或图像。

5.根据权利要求1至4中任一项所述的方法，其中如果多尺度局部特征和显著的低级特征之间计算的匹配概率大于预定的阈值，则多尺度局部特征与显著的低级特征相匹配。

6.根据权利要求5所述的方法，其中通过使用所述监督的学习方法（305）来确定所述预定的阈值。

7.根据权利要求1至6中任一项所述的方法，进一步包括：

接收来自用户（540）的输入（340；350）；以及

向用户返回与所述输入（550）共享某些类似性的至少一个项目（380）。

8.根据权利要求7所述的方法，其中

所述输入包括关键词（340），并且所述至少一个项目包括类似于关键词的批注（330）；或者

所述输入包括模板项目（350），并且所述输入中的低级特征与所述显著的低级特征进行比较以识别出至少一个项目；或者

所述输入包括模板项目（350）和关键词（340），并且至少一个项目的返回包括：

使用感兴趣的分类的概率模型来预过滤所述模板项目中的低级特征（360）；以及

将所述预过滤的低级特征与相同分类（370）中的目标图像进行匹配，所述分类由关键词来识别。

9.一种包括至少一个计算机可读存储介质的计算机程序产品，所述计算机可读存储介质具有其中存储的计算机可读程序代码部分，当在处理器上执行时实现根据前述权利要求1至8中任一项所述的方法。

10.一种电子设备（12），包括：

处理器（56），以及

存储单元（58），其操作性地连接到处理器并且包括：

用于从多个候选低级特征中选择显著的低级特征的计算机代码，其中围绕多个项目中的突点局部地提取所述多个候选低级特征，根据监督的学习方法将显著的低级特征与预定的对象分类相关联；

用于将目标项目转化成多个多尺度局部特征的计算机代码；以及

用于使用概率模型，将多个多尺度局部特征中的每一个与显著的低级特征相匹配的计算机代码。

11.根据权利要求10所述的电子设备，所述存储器单元（58）进一步包括：

用于围绕多个项目中的突点局部地提取所述多个候选低级特征的计算机代码。

12.根据权利要求10或11所述的电子设备，其中如果多尺度局部特征和显著的低级特征之间计算的匹配概率大于预定的阈值，则多尺度局部特征与显著的低级特征相匹配。

13.根据权利要求12所述的电子设备，其中通过使用所述监督的学习方法来确定所述预定的阈值。

14.根据权利要求13所述的电子设备，所述存储器单元（58）进一步包括：

用于接收来自用户的输入的计算机代码；以及

用于向用户返回与所述输入共享某些类似性的至少一个项目的计算机代码。