CN101622598A - 电子内容分类 - Google Patents

电子内容分类 Download PDF

Info

Publication number
CN101622598A
CN101622598A CN200680029731A CN200680029731A CN101622598A CN 101622598 A CN101622598 A CN 101622598A CN 200680029731 A CN200680029731 A CN 200680029731A CN 200680029731 A CN200680029731 A CN 200680029731A CN 101622598 A CN101622598 A CN 101622598A
Authority
CN
China
Prior art keywords
document
digital content
electronic document
file characteristics
described electronic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200680029731A
Other languages
English (en)
Inventor
史蒂文·R·斯基里帕
原田昌纪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101622598A publication Critical patent/CN101622598A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

讨论了一种用于对电子内容进行分类的方法。该方法包括从计算系统中获得电子文档,识别该电子文档的一个或多个文档特征,对所识别的文档特征进行分析以确定包含在该电子文档中的电子内容的格式(该确定的格式由所识别的文档特征提供的一个或多个指示符暗示),以及根据所确定的格式来指定包含在该电子文档中的电子内容是否可以显示在被识别类型的计算装置上。

Description

电子内容分类
技术领域
本申请涉及计算系统中的电子内容分类。
背景技术
随着计算机和计算机网络变得越来越能够访问信息,因此人们要求有更多的方式来获取信息。特别地,人们现在希望在路上、在家里、或者在办公室中访问信息,而这些信息原来只能从连在适当配置的网络上的固定连接的个人计算机获得。人们可能想要从他们的蜂窝电话中得到股票报价和天气预报,从他们的个人数字助理(PDA)中得到电子邮件,从他们的掌上电脑得到最新的文件,以及从他们的所有装置中得到及时准确的查找结果。人们还可能在旅行时,无论是本地的、国内的还是国际的,想要从易于使用的移动装置上得到所有的这些信息。
某些文档不适于在移动装置上使用。移动装置并不一定要与他们的对手台式机相同。移动装置的用户想要看到他们认为是好的移动内容,而在他们的装置上提供的移动内容经常是不实际的甚至是无法显示的内容。在一些情况下,用户可以接收由中间源提供的转换后的内容,例如,中间源可以将网页内容从HTML(超文本标示语言)格式转换为WML(无线标示语言)格式,并将转换后的内容提供给移动装置。根据该转换过程的性质和/或质量,该转换后的内容可能在语义上等同于或者不等同于原始文档,或者该格式仍旧很难在移动装置上导航。
对于该文档的简易的分析可以采用通过对该页是否含有HTML标记来对页面或文档进行分类的形式,其中该HTML标记清楚地表示某一特定类型的装置是适合显示该页的装置。这种分析也可以关注页面大小,页面上的文件的后缀,文档类型声明,或者网页中其它的此类直观内容。例如,文档类型(doctype)声明就是其中之一,其中网页的作者应明确地标示出标记语言的类型和标准。
这种简易的方法虽然易于实现,但存在限制。例如,他们可能对文档作出错误的假定,因为他们依靠明确的识别信息。例如,涉及搜索特定标记例如文档类型(doctype)的方法可能要求来自页面的作者的密切合作。但是,作者有可能没有正确地对该文档进行编码或者没有遵循适当的标准。还有,为其所提供的文档提供明确的内容标识的服务器也有可能被错误地配置并且给出不准确的数据。虽然这种错误的应答可能只是少量累积,但是从整体上考虑时它们仍旧会削弱搜索引擎的正确性。结果,就需要对电子内容进行更灵活和更复杂的分类,以在特定的装置或特定种类的装置上进行显示。
发明内容
这里提供了各种实施方式。一种实施方式提供了对电子内容进行分类的方法,其中采用的方式至少部分取决于由文档特征所暗示的格式,因此并不依赖于文档作者遵守特定习惯或规则。这种隐含的特征不同于明确的特征,它是主要目的为指示文档格式的在文档中的指示。这种明确定特征包括文档的内容类型标签,文档类型(doctype)标记,以及文件名称的扩展名。
在一种实施方式中,描述了对电子内容进行分类的方法。该方法包括从计算系统中获得电子文档,识别该电子文档的一个或多个文档特征,对所识别的文档特征进行分析以确定包含在该电子文档中的电子内容的格式(该确定的格式由所识别的文档特征所提供的一个或多个指示符暗示),以及根据所确定的格式来指定包含在该电子文档中的电子内容是否可以显示在被识别类型的计算装置上。该指定可以包括分析基于内容的文档特征,并且可以由机器学习系统来分析所识别的文档特征。另外,该方法可以根据包含在该电子文档中的电子内容可显示在预定类型的计算装置上的置信度来确定是否将与电子文档相关的已索引的表目插入到可查找的索引中,并且该已索引的表目可以指示电子文档被确定的格式。
在该方法的某些实施方式中,包含在电子文档中的电子内容可以包括可显示的网页内容。还有,该电子文档的至少一个文档特征可以包括标记特征,其中该标记特征可以被解释以在计算装置上显示电子内容。另外,该文档分析可以包括将预定规则集应用于所识别的文档特征,并且该预定规则集可以将一个或多个决定应用于多个文档特征。对该内容是否可以被显示的指定可以包括将一个或多个探试规则应用于所确定的格式和所识别的文档特征,并且还可以包括计算置信等级,其中该置信等级基于包含在该电子文档中的电子内容可显示在预定类型的计算装置上的确定的置信度。
在本发明的其它实施方式中,该方法还可以包括创建与电子内容相关联的已索引的表目,该已索引的表目指示包含在电子文档中的电子内容是否可以显示在已识别类型的计算装置上,并且将该已索引的表目插入到可查找索引中,其中该已索引的表目被归类在该可查找的索引中。另外,该已识别类型的计算装置可以包括能够显示具有一个或多个预定格式的电子内容的计算装置,并且在一些情况下可以包括无线装置或者预定品牌或型号的计算装置。并且,所确定的格式可以从包括XHTML(可扩展超文本标示语言)格式、HTML(超文本标示语言)格式、WML(无线标示语言)以及cHTML(压缩HTML)格式的组中选出。
在再另一种实施方式中,披露了一种有形地嵌入在信息载体中的计算机程序产品。该产品包括指令,当执行该指令时执行对电子内容进行分类的方法,其中该方法包括获得存储在计算系统中的电子文档,该电子文档具有电子内容,解析该电子文档并识别该电子文档的一个或多个文档特征,对所识别的文档特征进行分析以确定包含在该电子文档中的电子内容的格式(该确定的格式是基于由被所识别的文档特征所提供的一个或多个指示符),以及根据所确定的格式和所识别的文档特征来指定包含在该电子文档中的电子内容是否可以显示在预定类型的计算装置上。
在另一种实施方式中,提供了一种对电子内容进行分类的系统。该系统可以包括:用于接收电子文档的装置,用于确定包含在该电子文档中的电子内容的格式的装置,以及用于根据所确定的格式来指定包含在该电子文档中的电子内容是否可以显示在预定类型的计算装置上的装置。
在再另一种实施方式中,提供了一种对电子内容进行分类的方法。该方法可以包括从计算系统中获取电子文档,使用与该文档相关联的明确的文档类型标识符来识别文档类型,对一个或多个文档特征以及所识别的文档类型进行分析以确定包含在该电子文档中的电子内容的格式,所确定的格式由所识别的文档特征所提供的一个或多个指示符暗示,以及根据所确定的格式来指定包含在该电子文档中的电子内容是否可以显示在已识别类型的计算装置上。
在再另一种实施方式中,提供了另一种方法,其包括从计算系统中获取具有电子内容的电子文档,识别出该电子文档的多个文档特征,根据该多个文档特征来计算文档分值,以及根据该文档分值来指定包含在该电子文档中的电子内容是否可以显示在已识别类型的计算装置上。该文档特征可以包括隐含文档特征,并且也可以包括基于内容的文档特征。
各种实施方式可以提供某些优点。例如,内容分类模块可以自动地将电子文档分类为不同的与移动相关的类别。这就有助于将例如网页归类为适合或者不适合在移动装置上显示。该内容分类模块能够评估是否可以使包含在单个文档中的内容能够被用于在移动装置上的显示目的,以及确定最适合显示该内容的特定装置(或装置类型)。
在下面的附图和说明中将详细地阐述一个或多个实施方式。从说明书及附图以及权利要求中可以清晰地看到其它特征、目的以及优点。
附图说明
图1A为显示内容分类系统的部件的概念图。
图1B为根据一种实施方式可以被用于对电子内容进行分类的系统的方框图。
图1C示出了根据一种实施方式在图1B所示的系统中对电子内容进行的处理。
图2A为根据一种实施方式对电子内容进行分类的方法的流程图。
图2B为根据一种实施方式对电子内容进行分类的另一方法的流程图。
图2C为根据一种实施方式对电子内容进行分类的另一方法的流程图。
图3A为根据一种实施方式与可以被存储在图1B所示的索引中的电子内容相关联的表目的图表。
图3B为与可以存储在索引中的电子内容相关联的表目的图表。
图4为根据一种实施方式可以提供给用户用于在图1B所示的系统中查找电子内容的图形用户界面的屏幕图。
图5为可以用在图1B所示的各种部件中的计算装置的方框图。
具体实施方式
图1A为显示内容分类系统2的部件的概念图。一般地,系统2提供了对于被显示文档4的分析,以确定该文档4是否可以显示在特定装置例如个人数字助理和移动电话,以及可以显示到什么程度。该系统可以通过多种方法来对该文档4进行推断,其中这些方法不需要文档作者的任何协助。特别地,该系统2可以通过文档4中的暗示来得出结论,并且不需要文档作者对文档4的类型或者要在其上显示该文档4的装置或装置类型进行明确地标识。
对文档进行分类的两个方面可以由系统2来解决。首先,确定电子文档4的格式或类型。接着,为特殊装置例如个人数字助理(PDA)、台式计算机或移动电话确定电子文档的可用性和/或可显示性的程度。可用性的程度可以指向潜在地与在装置上执行的软件(例如浏览器)结合在一起的特定型号的装置,或者指向一类装置(例如具有某一屏幕尺寸的装置)。在文档格式的第一方面,在确定文档类型时可以提取出各种文档特征予以考虑。在第二方面,所确定的电子文档类型可以被用作在特定装置上进行显示的技术可行性的因素。但是,特定的文档有可能没有隐含着它在该装置上的可用性。因此,在对该分类的第二方面进行判断时可以考虑其它因素。
还有,满足标准并且在技术上可以进行显示的文档有可能无法在特定装置上使用,并且结果有可能被分类为缺少可显示性。例如,一文档可以按照XHTML Mobile进行编码,并且在技术上可以显示在相应的装置上,因为它与该标准相匹配。但是尽管如此它也有可能无法使用,例如,如果它宽度过大。这样,就可以提供系统2,其可将此种文档分类为无法显示,即使它在技术上符合标准并且能够被显示在该装置或该类装置上,可是结果很差并且可用性很低。这种文档无法被显示的原因就在于它对于该装置上的用户来说是没用的。
电子文档的特征可以是文档、元信息(包括例如文档的HTTP报头或统一资源定位(URL)地址)、文档内容和标记、以及由其它文档和数据源暗示的信息(例如,相关的或所链接的文档的特征)的任意属性。可以通过布尔逻辑结构来将特征合并成其本身即为特征的其它组合特征。例如,<html>标记和文档长度的存在即为两个特征。<html>标记和文档长度的同时存在也可以被认为是一个特征。
文档可以兼有基于内容的特征以及非基于内容的特征。基于内容的特征涉及文档的实际内容,例如图像、表格、文档中的特殊语言、以及从这些特征导出的信息(例如,文档中图像的总数)的存在。基于内容的特征还包括文档中的各种标记。非基于内容的特征包括关于文档的其它数据以及元数据,例如文档的长度以及HTTP报头。
特征也可以是明确的或隐含的。明确特征的主要目的就是识别文档的类型。此种明确特征包括例如从网页服务器返回的内容类型报头,文档内部声明的文档类型(doctype),明确地识别文档类型的其它某些基于内容的特征,以及在一些情况下,电子文档的扩展文件名。明确地标识出特征并不必然地表明了正确的文件类型。例如,网页服务器经常盲目地将非html的文档返回为text/html的内容类型,并没有要求html文档名称须带有“.htm”或“.html”的扩展名,并且,网页浏览器经常正确地显示html,即使缺少文档类型(doctype)声明。
隐含标识的特征为文档的一部分或者涉及该文档,其中所述特征与该文件类型具有一些关联,但是没有被包括在内以明确地标识文档类型。所述特征可以包括,例如,功能性标记(<wml>以及<html>标记,例如,用于标准兼容性而非标识用途)。另一个例子为访问键(accesskey)标记属性,其可以被用于按键快捷方式,并且可以在缺少指示装置例如鼠标的移动装置上更具有实用性。其它的隐含特征可以包括文档中某些要素的数量,要素(例如,图像,文本,或活动内容)的类型,以及从一个文档到其它文档的链接。
与被显示文档4相关的就是文档源6,其中该文档源6可以仅仅为与该文档相关联的文本,或者例如HTML或其它标示语言格式的底层文档。该被显示的文档4和文档源6也可以被认为是单一文档一一个被显示而另一个没被显示。另外,多个网页也可以一起被看作是一个文档。
该例子中的文档源6为文本文件,其中该文本文件根据标准标示语言含有多个特征例如标记。一些特征对于文档分类是不重要的,而其它特征(特征6a,6b,6c)可以是些微相关的或者非常相关的。这样,就可以查找该文档中是否存在特定的相关特征。另外,也可以识别出这些特征的组合或其它模式。
对于文档中的每个被识别的特征或特征模式,可以从文档源6中提取出或者分析出来一个或多个文档特征8a,8b,8c,或者文档参数。例如,文档特征8a可以为将要在文档中显示的特定文件类型,例如jpeg图像。特征8a还可以将文档中的所有文件类型作为一种组合来表示。作为另一个例子,特征8b可以表示文档与特定标准之间的匹配程度。例如,可以按照标准来审阅以及检查文档源6的各个部分,并且对该文档给出一个对应于匹配程度的分值。
还可以用另一种方式来对照标准检查文档。例如,能够按多个标准解析或者参照一个或多个标准宽松地进行分析的词法分析器/解析器,可以按特定标准对文档进行解析和解释。作为一个例子,因为文档作者经常创建可在浏览器中工作的内容,因此可能希望通过商业网页浏览器尽可能宽松地对文档进行解析,但是不一定与特定标准相容。在该过程中,可以根据多个不同标准中的每一个来反复或并行地对文档进行解析,直到该解析成功并且可以按照特定格式来解释该文档。这样,该文档可被认为是属于类型,其中该文档是能够以该类型来解释的。在这个匹配过程之后,其它特征可以被考虑以进一步确定该文档的分类,例如为该文档生成复合分值。
作为另一个例子,特征8c可以表示文档4的结构性成份或特征。例如,如果文档具有某一数量的图像、活动内容例如Flash动画、表格等,则特征8c可以显示每种类型特征的数量,并且也可以反映出每个特征的类型或复杂度。这样,在将文档分类为可以显示或者不可以显示在特定装置上时就可以考虑特征8c,其中更多数量的特定特征或更复杂的特征将倾向于表示文档无法在特定装置或特定类型的装置上进行显示。该各种特征也可以包括各种标示标记,关于页面的其它元数据例如页面大小和字数,页面的网页标准(例如,WML,HTML,XHTML,等等)以及该标准的变型(例如,EZWeb XHTML)。
在另一个例子中,可以对不同版本的文档、或者来自不同版本文档的特征或成分进行分析。例如,网页服务器可以被配置为按照不同方式来发送特定内容。在这种情况下,系统2可以获得每种形式的文档,并且可以对各种形式进行比较,以得到关于每个形式的可显示性的信息。例如,当以一种具有多个“富”内容特征例如Flash动画等的形式存储文档,以及用另一种除了额外的富内容以外相同的或者实质上相同的形式存储文档时,则该系统可能推断后面的形式是作者想要在具有有限的显示能力的装置上进行显示的。例如,通过表示不同装置请求该文档的不同的用户-代理(User-Agent)和/或接收(Accept)报头向网页服务器发送请求就可以获得这些不同的版本。
一旦从文档中提取出或者计算得出描述该文档的适当特征或参数,就可以通过多种方式,或者通过对多个技术进行组合来对可显示性进行分类。在一种分类方法中,特定分类规则10可以被应用于提取出来的特征8a,8b,8c。由图中的流程图表示的规则10可以是一系列判断,例如如果/则(if/then)判断,该判断按照如下方式依照特定顺序被应用于特征,其中这种方式已经被确定为对该文档的可显示性提供了相当准确的评估。该规则10可以是例如已经被组合在一起的多个探试法,以便于创建文档4可以显示在特定装置上的组合分值或可能性。该规则也可以包括对各个特征的分析,以生成这些特征的分值,接着以加权的方式对得分进行组合,以生成文档4的复合分值。
可以从多个不同特征中生成文档分值,其中这些不同的特征是从文档中解析、提取或者形成的(例如,通过组合多个解析后的特征)。例如,表格数量、图像数量、字数、或者文档类型中的每一个都可以改变该分值(例如,对于每个图像,该分值增加或者减少一定数量,并且如果图像很大,则变化量也很大)。在计算分值时,可以给与明确特征例如文档类型比某些隐含特征更高的权重。还有,在文档作者遵照适当标准的前提下,可以对明确特征(例如,文档类型)进行假定性的分类,并且可以对隐含特征进行评估以创建分值,如果该分值足够高或足够低,就可以否定该假设。
模式也可以被用于对文档进行分类,例如通过模式的预定集合或顺序。该模式可以被用于按照特征的潜在顺序或次序将所识别的文档特征与基线模式进行匹配。这些模式可以与预定内容格式(例如,XHTML、HTML、WML、cHTML)相关。在试图确定该文档中所含内容的格式时,对该文档进行解析后的输出可以与这些模式的一个或多个中的记号进行匹配。可以有多个与一个预定内容格式相关联的多个不同基线模式。举一个例子来说,内容分类器可以使用模式来将该文档特征与给定文档类型的已知数据型定义进行匹配。一种典型的模式可以指定普通移动标记(例如,href:tel“单击呼叫(click to call)”标记),并且另一个典型模式可以指定某些日语编码和字符。
在一个例子中,可以通过机器学习算法来生成规则。在这种方法中,可以提供初始规则。可以通过手动地对多个文档进行分类来提供一个预先标记的文档集。该算法可以导致创建一组新的用于分类的规则,其中该规则在例如确定初始文档集中的文档的分类时提供很小或者最小的误差。该算法可以在例如该训练集中的文档的被提取出来的特征上应用。可以对后续的文档进行分析,并将规则应用于它们以对它们进行分类。当提取出各种特征并对它们进行分析以为文档生成复合分值时,该系统可以调整每个分值、要考虑的特征、要给予的权重、以及任何其它合适的因素。任何适用于机器学习的方法都可以被用于改进用于使用合成数据对文档进行分类的规则或算法,其中该合成数据包括连接网、判断树、神经网络、贝叶斯学习、基于样例的学习、以及遗传算法。
作为机器学习或者其它适当过程的一部分,分类的结果,例如按照聚合特征14的形式,可以被反馈给用于进行分类的探试法,如箭头16所示。该聚合特征14可以简单地是所提取的特征8a-8c的格式化组合,或者可以采取任何其它适当的形式例如一组预定特征,其中表示文档4的值被放置在该预定特征中。也可以采用其它方法。例如,有时可以对所增加的文档进行采样,并且在装置上显示得特别好或者特别差的文档可以被识别出来,这可由手工或电子来确定,并且可以给予导致了对这些文档进行正确或不正确分类的特征更大或更小的重要性,或者可以给予这些特征值不同的权重,用于以后对文档分类。还有,随着时间的推移可以添加新的探试法,特别是当标准或使用模式演化时。
还可以提供模块12,用于分类为规范。在这种实施方式中,该规范可以用多个规范性文档12a或者来自规范性文档的特征来表示。规范性文档是被选到一组规范性文档中的文档,或者是包括表示特定形式文档的特征轮廓。每个规范性文档可以与装置列表12b相关联,其中该装置列表12b可以与可以显示该文档的装置或装置类别(例如,装置类型)相对应。该规范性文档12a可以包括例如预先选出的一组测试文档,该组测试文档已经被选中来表示一定范围的文档风格,其中该文档风格具有各种不同的特征或特征值。
接着可以将要显示的文档的聚合特征14与每个规范性文档的特征相比较,对规范性文档12a中的相应特征与聚合特征14之间的匹配程度赋予分值。对于具有最高分值的规范性文档12a或者分值相当高的文档(例如,对于单个文档有多个装置时),接着,与特定规范性文档12a相关联的装置列表就会变得直接或间接地与特定文档6相关联。通过这种方式,当装置请求文档时,可以对照装置列表来检查该装置的类型,以确定该文档是否可以被显示。
另外,可以建立一个文档集合,作为文档训练集合的一部分或者在其之外另外建立。接着,可以对分类系统作出改变(例如,通过改变分类规则),并且可以将改变后的系统应用于这些文档。该应用的结果可以与被认为是提供适当分类的标准结果进行比较,由此可以确定对该系统所作的改变的适当程度。
可以使用特征来确定文档的格式或类型,以及确定文档的可显示性。例如,在确定文档类型时可以提取以及考虑某些特征-例如通过关注与公知标准例如WML1.2的匹配程度。如果该文档的所有部分都与该标准匹配,则可以对其与该标准相匹配给予完全的信用量,而如果一小部分缺乏匹配,则可以给予其部分的信用量(即,低分值)。接着该文档类型被用作用于确定文档是否可显示的多个因素之一,例如通过给予它以及其它特征加权后的分值。
接着可以测试文档是否真的可以显示,例如可以通过将它们提供给特定装置或被编程为模拟特定装置的机器,并接着确定该文档的显示是否令人满意。可以自动地或者手动地进行此种确定,例如通过让用户来表示该显示是否适当。成功的显示可以使得该系统重新确认用于对文档进行分类的规则,包括例如,通过给予这些规则更高的权重以用于将来的分类。不成功的显示将导致相关的规则在将来的分类中的重要性降低。
刚才在概念上讨论的技术和特征可以在任何适当的环境中实现,在该环境中所关切的是对文档的正确显示,包括在以下讨论的系统和方法中。
图1B为根据一种实施方式能够被用于对电子内容进行分类的系统100的方框图。在该实施方式中,系统100包括数据处理系统50、网络58、服务器60、便携式移动(无线)装置62以及客户端计算机64。该数据处理系统50、服务器60、便携式移动(无线)装置62以及客户端计算机64均与网络58相连。移动装置62与网络58进行无线通信。网络58可以包括LAN(局域网)或WAN(广域网),例如互联网。数据处理系统50能够对服务器60上存储的电子内容进行索引,根据内容指示符来确定该内容的格式,以及指定该内容是否与客户端计算机64或移动装置62上的显示目的相兼容。
系统100中的每个服务器60都可以含有广泛类别的电子内容。例如,其中一个服务器可以存储电子新闻内容,而其中另一个服务器可以存储电子股票或游戏内容。服务器60还可以以各种不同的内容格式来存储电子内容。例如,服务器60可以存储用XHTML(可扩展超文本标示语言)、HTML(超文本标示语言)、WML(无线标示语言)、cHTML(压缩HTML)或者使用另一种格式的语言编写的电子文档中的电子内容。计算装置,例如移动装置62或客户端计算机64,可以对这些电子文档进行处理,以将相应的电子内容显示在显示装置上。例如,如果移动装置62包括与WAP(无线应用协议)标准兼容的浏览器,则该移动装置就能够解释用WML或XHTML编写的电子文档。一旦移动装置62解释了这些格式的文档,则该移动装置62就能够将相应的电子内容(例如,新闻或股票信息)显示在它的显示装置上。客户端计算机64就能够解释用XHTML或HTML编写的电子文档,并将相应的内容显示在它的显示装置上。
为数据处理系统50提供了接口52,用于允许通过各种方式进行通信。例如,数据处理系统50可以通过网络58与服务器60进行通信,以对存储在这些服务器60上的电子内容进行处理。数据处理系统50包括爬行器76、内容分类器82以及可搜索的索引72。爬行器76自动地对网络58进行遍历,并从服务器60请求电子文档。在一种实施方式中,爬行器76通过使用服务器60的URL(统一资源定位地址)来访问服务器60上的这些文档。爬行器76可以使用初始URL集并且从由这些URL指向的服务器60中提取所指涉的文档。爬行器76典型地跟踪它之前访问过的URL。每当爬行器76识别到存储在服务器60中的其中一个上的新电子文档时,它就提取该文档并将其传送给内容分类器82。
接着,内容分类器82对该文档的电子内容进行分类,这在上下文中进行了更详细的描述。例如,内容分类器82可以确定该电子文档是使用WML编写的,并且它的内容可以在移动装置62上进行显示。(图1A中所示的移动装置62包括蜂窝电话手机,但是可以采用任何适当的形式,例如个人数字助理、语音驱动个人通信装置或者任何其它形式的移动装置。)
在一种实施方式中,内容分类器82确定与该电子文档相关联的已索引的表目应该被插入到索引72中,如果满足预定条件的话。例如,内容分类器82可以确定,如果电子文档的内容能够被显示在移动装置例如移动装置62上,就应该插入一个表目,如果索引72含有对应于一般移动内容的表目。图3A和3B示出了能够被插入到索引72中的表目的例子。
内容分类器82还可以确定爬行器76是否应该跟踪包含在单个电子文档中的地址链接。例如,如果该电子文档是用XHTML编写的,则它可能包含提供了地址或者嵌入的URL的标记,这些地址或者嵌入的URL指向存储在服务器60上的其它电子文档。如果内容分类器82是在对移动内容进行分类,则它可以确定爬行器76应该继续爬行并且跟踪电子文档中含有的任何地址链接,如果内容分类器82已经确定了该电子文档含有能够在移动装置(例如移动装置62)上进行显示的移动内容。在这种情况下,该文档中的链接可以指向具有移动内容的附加文档。但是,如果内容分类器82确定该电子内容不含有移动内容,则它可以表示爬行器76不应该跟踪该地址链接。在另一个实施方式中,内容分类器82在爬行期间没有被使用,而是在该爬行完成之后被使用以确定应该添加到索引72的文档。
在一种实施方式中,内容分类器82可以确定不将用于电子文档的表目插入到索引72中去,但是仍旧请求爬行器76跟踪指向存储在服务器60上的其它电子文档的链接。例如,内容分类器82可以确定,在60%的置信度下,该电子文档为具有移动内容的XHTML文档。在该例子中,内容分类器82可以决定该文档的表目不应该包括在索引72中,因为该置信度低于第一预置阈值(例如,75%)。内容分类器82可以仅仅想要将表目插入到索引72中,如果它至少75%确认该对应文档含有能够在移动装置上显示的移动内容。但是,内容分类器82可以决定爬行器76应该跟踪该文档中含有的任何链接,如果该置信度高于第二预置阈值(例如,50%)。该第一预置阈值和第二预置阈值可以具有不同的值。
内容分类器也可以实现为模块化的子系统。在此种子系统中,提供了中央内容分类器82,其包括用于识别、交互以及解析文档的必须功能。也可以提供单个分类模块80a、80b、80c以及80d,作为内容分类器82的插件。每个模块可以为特定类型的文档内容提供特定的规则,例如探试规则。例如,模块80a可以含有对多个文档特征进行操作的规则,其中这些文档特征单独地被内容服务器82识别,并且可以根据这些特征生成文档的可显示性参数。同样地,模块80b可以含有关注文档中的特定结构特征例如样本和表格的规则,并且可以生成关于文档可显示性的参数。接着按照预定的格式将该参数传送给内容分类器82,使得该文档被传送或者不被传送给特定装置。内容分类器82可以实现为具有标准应用编程接口(API),其中程序员可以根据该API创建附加分类模块。
系统中采用插件形式的模块可以执行各种任务。例如,一个插件可以提取文档特征,而另一个插件可以对提取出的特征进行分析,以确定该文档是否为特定格式(例如,一个插件用于WML,另一个用于XHTML)。还有,可以为每个装置或装置类别提供单独的模块,用于确定装置的可显示性。每个插件也可以具有单独API。例如,为了增加新特征,开发人员可以添加特征插件(FeaturePlugin),当他们想要识别新标准时,他们可以实现格式插件(FormatPlugin),而当他们要确定新装置的可用性时,他们可以实现装置插件(DevicePlugin)。
通过对各种文档特征进行识别和处理而生成的信息可以按照任何适当的格式来存储。例如,可以使用可扩展的结构化格式例如XML。
一旦来自服务器60的电子内容在索引72中被索引,移动装置62以及客户端计算机64就可以发送搜索请求给数据处理系统50。请求处理器66对这些搜索请求进行处理。请求可以包括一个或多个关键字。例如,如果移动装置62的用户想要查找与狗相关的每个网页,则该用户可以提交一个包括关键字“狗”的搜索请求。还可以接到除了搜索查询以外的其它请求,并且可以采用各种提供请求的模式。例如,语音输入以及其它适当形式的输入都可以被处理。
在一种实施方式中,移动装置62和客户端计算机64还可以将附加信息提供给数据处理系统50,例如装置识别信息或者显示性能信息。在处理由移动装置62和客户端计算机64发出的搜索请求时,该附加信息可以被数据处理系统50使用。例如,移动装置62可以将附加信息提供给数据处理系统50,以指定移动装置62为带有浏览器Z装置的“品牌X型号1”,其中该浏览器Z装置能够显示XHTML或WML文档中含有的电子内容。当移动装置62第一次通过网络58与数据处理系统50相连时,该信息可以被提供给数据处理系统50。
请求处理器66对进来的搜索请求进行处理,并将它们提供给搜索引擎70。接着,搜索引擎70访问索引72以查找匹配表目。搜索引擎70使用包含在搜索请求中的信息(例如搜索项)来查找匹配表目。搜索引擎70在查找匹配表目时也可以使用由请求发起者所提供的任何附加信息。例如,如果移动装置62已经提供了附加信息,其中该附加信息用于指定该移动装置能够显示XHTML或WML文档中所含的电子内容,则搜索引擎70能够筛选出索引72中与具有不同格式的文档相关的表目。该搜索引擎70还可以例如根据该搜索请求中指定的条件、通过请求发起者提供的附加信息或者通过置信度来对所提取的表目或搜索结果进行进一步排名。
搜索引擎70将搜索结果提供给应答处理器68。应答处理器68对结果进行格式化,并且创建反馈给请求发起者(例如移动装置62或客户端计算机64)的应答消息。请求发起者接着可以分析或者显示该搜索结果给用户。用户可以选择这些结果中的一个或多个,以从服务器60中检索相应的电子文档并将它们的电子内容显示给用户。
图1C示出了根据一种实施方式在图1B所示的系统100中对电子内容进行的处理。在图1C所示的例子中,系统100包括4个服务器60A、60B、60C和60D。每个服务器60A-D都存储了含有电子内容的各种电子文档。爬行器76能够通过网络58下载一个或多个这种电子文档。内容分类器82接着能够对这些电子文档中所含的内容进行分类。
每个服务器60A-D都存储有具有各种格式的内容的电子文档。例如,如图1C中所示,服务器60A存储了HTML文档,例如文档102A-C。服务器60B存储了XHTML文档,例如文档104A-C。服务器60C存储了WML文档,例如文档106A-C。服务器60D存储了cHTML文档,例如文档108A-C。在一种实施方式中,任何给定的服务器60A-D都能存储多种不同格式的电子内容。例如,服务器60B可以存储XHTML以及WML文档。
每个文档102A-C、104A-C、106A-C以及108A-C都包括一个或多个文档特征。例如,对于包含在文档内的各种不同的HTML标记,HTML文档102C可以含有各种不同文档特征。根据一种实施方式,这些特征被用于确定如何显示包含在该文档中的电子内容。某些文档特征可以包括地址链接信息。例如,某些HTML标记可以提供关于指向存储在单独服务器上的其它文档的URL(统一资源定位地址)链接信息。当搜索存储在多个不同文档中的内容时,爬行器76可以跟踪这些链接。
图2A为根据一种实施方式对电子内容进行分类的方法200的流程图。图2A的流程图可以采用刚刚所述的图1C中所示的系统。但是,对图1C中所示系统的使用仅是说明性的,可以使用任何合适的系统。
方法200包括过程202、204、206以及208。在过程202中,爬行器76从计算系统,例如从服务器60A-D之一获得电子文档。爬行器76将该文档提供给内容分类器82。在过程204中,内容分类器82对该电子内容进行解析,并识别出该文档中包含的一个或多个文档特征。可以使用多个不同的解析机制。在一种实施方式中,内容分类器82使用解析器框架,以通过对文档的单次迭代来实现多个潜在解析。在该实施方式中,解析器能够在单次传递中识别出各种不同格式的文档特征,例如XHTML、HTML、cHTML或WML。所识别的特征可以包括特定文档标记,例如HTML类型的标记。
在另一实施方式中,可以使用通用的解析器框架来管理单独的解析器,其中这些解析器能够对特定格式的文档进行解析。例如,该通用解析器框架可以对电子内容的格式进行评估。该框架可以使用内容类型、文件扩展名以及文件名来进行评估。在一种实施方式中,该框架可以识别多个不同的解析器个体(例如,WML解析器以及XHTML解析器),其中这些解析器可以潜在地被用于对分档进行解析。例如,该框架可以确定给定的电子文档是XHTML还是WML文档。根据文档的文件扩展名/文件名/等,该框架可以评估该文档更可能是XHTML文档。在这种情况下,该框架可以调用XHTML解析器。如果该XHTML解析器不能够对该文档进行充分的解析,或者如果它认为另一个解析器将更成功,则它可以通知该框架。此时,该框架可以调用WML解析器。以这种方式,该框架能够按照某种预定的顺序调用解析器。
在过程206中,内容分类器82对给定电子文档的被识别的文档特征进行解析,以确定该文档中所含电子内容的格式(例如,XHTML、HTML、cHTML或WML,有可能甚至是标准版本例如WML1.2)。
还可以通过许多其它方式对内容进行分析。例如,可以使用机器学习来分析多个文档,因此对于某些文档所作的决定可以改进对后续文档的决定。
还有,如上面详细所述,也可以通过对多个文档的分析来开发出用于文档分类的探试规则。
在过程28中,内容分类器82指定包含在给定文档中的电子内容是否可以显示在预定型号的计算装置(例如,一般的移动装置,和/或特定品牌或型号的装置)上。内容分类器82可以使用应用于被提取出的特征上的一个或多个探试规则,以试图确定该文档的内容是否可以显示在预定类型的计算装置上。一些采样探试法可以包括使用文档大小、包括在文档中的图像数量和大小、文档中表格的数量和表格属性、以及合法/非法标记的使用。
根据一种实施方式,内容分类器82可以使用探试规则来确定文档是否包括移动内容。这些规则可以指定,例如,文档中特定标记的重复出现表示,且该表示具有更高的置信度,该文档含有可以显示在一般的移动装置(或者,根据一些实施方式,能够显示在特定品牌/型号的装置)上的移动内容。内容分类器82可以跟踪文档内的多个特征(例如,链接、图像、表格、标记类型等),并使用探试规则来确定能够显示文档内容的装置类型。另外,内容分类器可以注意是否使用了stylesheet,或者是否使用了Flash,applets(Java程序),以及脚本。
在一种实施方式中,内容分类器82在确定计算装置类型(例如,移动装置)时计算置信等级,其中在该计算装置上可以显示电子内容。例如,内容分类器82可以使用模式和/或探试规则来以80%的置信度确定给定的文档中含有可以显示在移动装置上的移动内容(例如WML内容)。接着,内容分类器82可以将0.8的置信度赋予与该文档相关的表目(其中,该表目也可以被存储在图1B所示的索引72中)。置信等级也可以与特定品牌/型号的移动装置相关。例如,内容分类器82可以以80%置信度确定给定的文档中含有可以显示在“品牌X型号1”类型的移动装置上的内容,浏览器版本也有可能包括在内。
图2B为根据一种实施方式对电子内容进行分类的另一方法的流程图212。在该过程中,例如通过上述的方法识别出了各种文档,并且通过分析多个文档特征来推断文档的可显示性。在过程214,获得具有电子内容的电子文档,以及在过程216,识别出该文档的多个特征。该特征可以包括例如文档类型、文档大小、文档中的对象类型(图像、表格、样板本件等)、该文档是否为特定格式(例如,EXWEB XHTML)的变体以及上述其它特征。
在过程218,确定是否获得了足够的文档。有可能只需要一次获得一个文档并接着对该文档进行分类。也有可能需要获得一个初始文档集,建立一套基本规则,接着获得额外的文档并将该规则应用于这些文档(以及有可能根据在使用较早的规则对文档进行分类时得到的经验来对规则进行调整)。接着,的后续对文档进行的收集和分类有可能在滚动的基础上出现,例如当爬行器识别并提取文档时。对文档的处理也可以以批量的方式出现。
在余下的过程中,分类规则得到更新,并且如果文档的显示看起来是可接受的,则该文档得到显示。在过程220,为一种或多种装置或装置类型确定一个或多个文档的可显示性。这种确定可以包括例如根据文档的各种特征来初步确定文档类型,如上面所详细描述的。接着可以包括确定可显示性,该确定一同考虑了所确定的文档类型以及其它因素。如过程222中所示,在确定了文档的可显示性时,可以按照与文档有关的方式对数据库进行更新(例如,如果从特定装置或装置类型接收到对于文档的请求,使得可以很容易地确定可显示性)。确定可显示性的规则也可以被更新(过程224),例如通过上述的机器学习技术。
在某个时候,可以接收到对于文档的请求,如在过程226。如果已经对文档进行了定位和处理,则可以通过检查数据库来确定它在请求装置上被显示的能力。如果该文档还没有被处理,则可以按照刚刚所述的方式对其进行处理以提供对于可显示性的确定,例如组合分值。如果该文档是可显示的,如在过程228所确定的,则它可以被显示到远程装置上(例如通过传输该文档或者与该文档有关的链接)。如果该文档按照其原来的形式无法被显示,则该系统可以确定是否可以在某些方面改变该文档而仍能实现足够的可显示性,如过程232所示。例如,在传输文档之前,可以从文档中去除掉阻碍可显示性的特定特征。如果该文档能够按照改变后的形式进行显示,则对其进行显示(过程234),而如果不能,则阻止其显示(过程236)。例如,即使以改变后的形式也无法显示该文档时,可以阻止指向该文档的链接,或者将其传输,但是是以显示在远程装置上的方式,以表明无法对其进行显示(例如,用特殊对比色)。当为了对一个文档进行充分的显示而要求进行改变时,可以使得系统能够找出特定特征例如标记,由此作者可以表示该文档只能以其未被改变的形式进行显示的愿望。
这样,通过该过程,根据其特征收集了多个文档并对其进行了分类。获得或收集了后续的文档,并根据从初始文档集所生成的分类规则、或者根据对文档进行分类的进一步的经验而生成的规则来对这些文档进行分类。接着每个所识别的特征都可以在允许系统对文档的可显示性进行有依据的假设中扮演一个角色。
图2C为根据一种实施方式对电子内容进行分类的另一方法的流程图240。在该方法中,对被分析文档进行分类包括明确的和隐含的分类,并且也允许对文档的分类进行后续的变动。在过程242,获得了电子文档,例如通过上述的特征。在过程244,系统对文档进行检查,以确定它是否含有任何明确的标识符。例如,该文档可以含有HTML或其它的标示标记,例如WML内容类型报头以及WML文档类型声明。如果该文档具有明确的标识符,则该过程可以向前推进,因为不需要去推断文件类型。当然,也可以对文档类型进行推断作为对任何明确的文档标识符的检查。
如果不存在明确的文档标识符,则在过程246的过程对文档特征进行解析。当然也可能已经进行了该解析,作为确定是否还存在明确的标识符的过程的一部分。对于从该文档中获得的相关特征,一个或多个规则集可以被应用于一个或多个所述特征,如在过程248中。例如,可以首先对文档进行检查,以确定文档格式,接着确定文档在装置或装置类型上的可显示性。为了确定可显示性,例如,系统可以将该文档视为具有XHTML Basic概要、没有表格或图像、很小的页面大小以及存在密钥数字快捷方式(即,允许通过使用移动电话的有限的键区进行更简单的操作)。
如果文档含有明确的标识符或已经应用了规则集来推断文档类型,则可以确定文档的可显示性,并且就在特定装置或装置类型上显示文档的能力更新了数据库(过程250)。也可以记录文档的特定特征,由此,当已经识别出了要显示文档的装置时,就可以很容易地确定该装置的可显示性。通过根据装置类别对文档进行分类或者通过请求文档之后的分类,系统可以使得装置能对文档进行分类,即使该装置还没有被开发出来。
在稍后时候,包括已经对许多文档进行分类之后,在过程252可以接收到文档请求。作为选择,可以在接收到请求之后对文档进行分类,例如在实时分类系统中或该特定文档在这之前完全没有被该系统找到过。在过程254,该系统使用它从请求中接收到的信息来确定在其上做出请求的装置,并且检查该文档的相关信息,以确定该文档是否可以显示,是未经处理的形式还是修改后的形式。
如果该文档是可显示的,则进行显示。如果不可以显示,则该系统发出表示该文档无法显示的消息,或者可以简单地拒绝发送该文档或关于该文档的标识符-有效地阻止该文档的显示。例如,当用户提出搜索请求时,就可以检查每个搜索结果的可显示性。如果该文档不可显示,则它的存在就根本不会显示给用户。作为选择,关于文档的信息(例如,标题、片断以及URL)可以被显示给用户,但是采用如下方式,即表示该文档无法在该装置上进行显示(例如,通过阴影、着色或者附加文本)。通过这种方式,可以通知用户该装置无法准确地显示文档,但是如果该文档看上去非常相关,仍然可以选择提取该文档。接着,该用户去查看被显示的文档,以及它能够被显示。该系统也可以为用户提供一种方式,用于查看该文档修改后的版本,其中该文档被故意改变,以使其能够在该装置上进行显示。
在过程256,该系统还可以接收关于该文档的反馈。该反馈可以被用于对该文档的可显示性进行重新分类。例如,可以给用户显示一个图标,用于识别该文档是否被正确地显示,并且用户关于文档的选择可以与其它用户的选择聚合在一起,以获致关于该文档的可显示性的推断。也可以例如通过监视文档的显示与文档的用户从该文档移出之间的时间量来推断可显示性。如果许多用户都在该文档上花费了非常少的时间,则可以推断该文档没有正确显示或者不是很有用。在任何一种情况下,因为还没有证明该文档对用户来说是有用的,因此可以降低它的重要性。
图3A为根据一种实施方式与电子内容相关的表目图表,其中该电子内容可以被存储在图1B所示的索引72中。索引72可以采取任何适当的形式,这根据特定实施方式的需要而定。图3A示出了可以包括在索引72中的用于所述表目的信息300A的一部分。当对存储在服务器60上的文档中所含内容进行分类时,内容分类器82能够存储和/或分类在索引72中的该信息300A。当处理从移动装置62或客户端计算机64发出的搜索请求以及获得搜索结果时,搜索引擎70也能够搜索索引72中的信息300A。
图3A中所示的信息300A被排为三列302、304和306。列302包括已索引的表目的识别信息。图3A示出了三个表目的例子,名为“表目1”,“表目2”和“表目3”。每个表目都与存储在外部服务器60之一上的特定电子文档相关。列302中的表目信息也可以含有关于每个相应表目的其它信息,包括关于相关电子内容的元信息。
列304含有与相应表目以及存储在一个或多个服务器60上的电子内容相关联的各种关键字。在内容分类过程中这些关键字被插入到索引72中。该关键字涉及包含在电子文档中的电子内容,其中该电子文档的表目包括在索引72中。
列306表示相应的表目是否与含有移动内容的电子文档相关联,其中该移动内容能够被显示在移动装置,例如移动装置62上。如上所述,内容分类器82能够确定存储在服务器60之一中的给定的电子文档是否可能包括移动内容。在一种实施方式中,如果内容分类器82以一定量的置信度能够确定文档包括移动内容,则内容分类器82就指定该电子文档包括移动内容。如图13B中所示,内容分类器82还可以指定包括在索引72中的特定置信度。
当搜索引擎70处理搜索请求时,在搜索匹配表目时可以使用列306中提供的信息。如果该搜索引擎70已经从移动装置,例如移动装置62接收到了搜索请求,则它可以通过查找这些表目来筛选索引72中的表目,其中这些表目满足搜索请求并且与具有移动内容的文档相关联,如同列306中所含信息所指定的那样。
在一种实施方式中,图3A中的表目还包括文档位置信息(例如URL位置信息)。该位置信息可以包括在每个已索引的表目的单独列中,并且可以指定相应电子文档在服务器60之一中的位置。搜索引擎70接着提供每个表目的位置信息,其中所述每个表目包括在被反馈给移动装置62或客户端计算机64的搜索结果集中。
图3B为与可以存储在中的电子内容相关联的表目的图表。图3B示出了可以包括在这些表目的索引72中的信息300B的一部分。信息300B包括来自列302、304和306的信息(包括在图3A所示的信息300A中)附加信息包括在列305、308以及310中。列305表示包含在与给定的已索引的表目相关联的文档中的电子内容的格式。内容分类器82能够在分类过程期间确定电子内容的内容格式。内容格式的例子可以包括XHTML格式、HTML格式、WML格式或者cHTML格式。搜索引擎70能够通过使用包含在列305中的信息来识别出搜索结果。当搜索引擎70从请求发起者例如移动装置62接收到请求时,就能够就该发起者支持的内容格式作出确定。还可以根据之前从发起者接收到的信息来这么做,其中该发起者指定了其所支持的格式,或者可以使用预先配置的信息。搜索引擎70接着可以使用列305中所含信息,用以识别出匹配表目。例如,如果移动装置62只支持WML内容,则搜索引擎70就能够识别出那些与具有WML内容的文档相关联的表目。
列308包括关于装置的信息,其中该装置与列305中所列的内容格式兼容。如图3B所示,列308可以包括兼容装置的品牌和型号信息。在一种实施方式中,列308可以包括与内容分类器82所知的与列305中所列的内容格式兼容的每个装置有关的信息。可以预先配置关于兼容装置的信息。当搜索引擎70处理搜索请求时,它可以访问与发出了所述请求的特定装置(例如移动装置62)有关的信息。在一种情况下,搜索引擎70可以仅仅根据列305和/或306中提供的信息就能够获得搜索结果。但是,在另一种情况下,搜索引擎70可以选择使用包含在列308中的信息来仅仅识别与启动了该请求的特定装置有关的匹配表目(搜索结果)。例如,移动装置62可以为“品牌X”的“型号1”装置。如果搜索引擎70可以访问该信息,则它可以选择使用包含在列308中的信息来识别具有移动内容的文档的那些表目,其中所述文档与“品牌X”的“型号1”的装置兼容,并且有可能是与浏览器及其特定版本兼容。
列310包括置信等级。在图3B的例子中,置信等级可以是“0.0”(意味着0%的置信度)与“1.0”(意味着100%的置信度)之间的数字。内容分类器82指定一个置信度,通过该置信度可以确定给定文档的内容格式(列305中所示)和/或该文档是否含有一般的移动内容(列306中所示)。内容分类器82能够在一完成对给定文档的分类就计算置信等级。可以根据列310中所列的置信等级来将包含在索引72中的表目排序,使得具有较高置信等级的表目被列得越高。搜索引擎70还可以使用置信等级来对被提供回给搜索请求发起者例如移动装置62或客户端计算机64的搜索结果进行分级。
图4为根据一种实施方式可以提供给用户用于在图1B所示的系统100中查找电子内容的图形用户界面的屏幕图。该图形用户界面包括能够被显示给用户的窗口400。例如,窗口400可以被显示给移动装置62或客户端计算机64上的用户。根据一种实施方式,窗口400中显示的信息由数据处理系统50提供。
如果用户希望对电子内容进行搜索,则用户可以发出搜索请求。例如,如果用户正在使用移动装置62,则移动装置62可以将窗口400显示给用户。用户可以在文本输入域内输入一个或多个搜索项或关键字,并接着选择按钮414。一旦用户这样做了,则移动装置62将该搜索请求发给数据处理系统50。该搜索请求包括由用户输入的搜索项。接着,搜索引擎70在索引72内查找匹配的表目。
在图4所示的例子中,假设用户的计算装置例如移动装置62支持WML(移动)内容。这样,搜索引擎70将查找与搜索请求有关并与具有移动内容的电子文档相关联的表目。在一种实施方式中,搜索引擎700也可以查找与具有特别是WML内容的电子文档相关联的表目。该匹配表目或搜索结果被提供回给用户的装置,以在窗口400的区域420中进行显示。如图4的例子中所示,区域420中包括4个匹配搜索结果424、426、428以及430。用户可以选择任意结果424、426、428或430来从图1B所示的一个或多个服务器60中提取相应的文档。
在一种实施方式中,数据处理系统50还可以查找对应于来自注册赞助商广告的广告表目。数据处理系统50根据一些实施方式查找与具有移动内容甚至是特定的WML内容的广告相关联的表目。接着将匹配的表目提供给用户,并在窗口400的区域422内显示给用户。如图4的例子中所示,在区域422中将两个表目430和432显示给了用户。
在一种实施方式中,数据处理系统50可以根据用户正在使用的特定类型的装置来过滤窗口400的区域420和422中显示的结果。例如,数据处理系统50可以被告知,或者可以确定该用户正在使用“品牌X型号1”的移动装置。在这种情况下,搜索引擎70可以查找与能够在该特定类型装置上显示的移动内容相关的索引72中的表目。在一种实施方式中,搜索引擎70可以使用配置参数来根据移动装置的类型来确定是否特别地对搜索结果进行过滤,或者仅仅根据内容的类型(例如,移动WML内容、移动XHTMLBasic内容等)来确定是否更一般地对搜索结果进行过滤。
在一种实施方式中,可以根据与结果表目相关联的置信等级来对结果424、426、428以及430,或者结果430和432进行分级(例如从上到下的等级)。(图3B中所示的列310包括可以与存储在索引72中的表目相关联的置信等级的例子)。如果例如搜索引擎70更加确信搜索结果424和426而不是结果428和430包括移动(或WML)内容,则可以指定结果424和426应该比结果428和430在区域420内等级更高。
图5为根据一种实施方式可以用在图1B所示的任何部件50、60、62或64中的计算装置500的方框图。该计算装置500包括处理器502、存储器504、存储装置506、输入/输出控制器508以及网络适配器510。每个部件502、504、506、508以及510都使用系统总线相连。处理器502能够处理指令,用于在计算装置500内执行。处理器502能够处理存储在存储器504中或存储装置506上的指令,以将用于GUI的图形信息显示在与输入/输出控制器508相连的外部输入/输出装置上。在其它实施方式中,可以根据需要使用多个处理器和/或多个总线。还有,多个计算装置500可以连接在一起,其中每个装置都提供所需操作的部分。
存储器504存储计算装置500内的信息。在一种实施方式中,存储器504为计算机可读介质。在一种实施方式中,存储器504为易失性存储器单元。在另一种实施方式中,存储器504为非易失性存储器单元。
存储装置506能够为计算装置500提供海量存储。在一种实施方式中,存储装置506为计算机可读介质。在各种不同的实施方式中,存储装置506可以为软盘装置、硬盘装置、光盘装置或磁带装置。
在一种实施方式中,计算机程序产品被有形地嵌入在信息载体中。该计算机程序产品含有指令,当执行该指令时执行一个或多个方法,例如上面所描述的。该信息载体为计算机或机器可读介质,例如存储器504、存储装置506或者传播信号。
输入/输出控制器508管理计算装置500的输入/输出操作。在一种实施方式中,输入/输出控制器58与外部输入/输出装置相连,例如键盘、指示装置或者显示单元,其中该显示单元能够将各种GUI例如图4中所示的GUI显示给用户。
计算装置500还包括网络适配器510。计算装置500使用网络适配器510与其它网络装置进行通信。
这里描述的系统和技术的各种实施方式能够在数字电路、集成电路、特别设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或它们的组合之中实现。这些各种实施方式可以包括在一个或多个计算机程序中的实施方式,其中该计算机程序可以在可编程系统中执行和/或解释,该可编程系统包括至少一个可编程处理器、至少一个输入装置以及至少一个输出装置,其中该可编程处理器可以是专用的或通用的,其被连接以用于从存储系统中接收数据和指令以及向其发送数据和指令。
这些计算机程序(也是通常所说的程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令,并且可以用高级的过程编程语言和/或面向对象的编程语言,和/或汇编/机器语言来实现。如这里使用的,术语“机器可读介质”“计算机可读介质”是指任何计算机程序产品、设备和/或装置(例如磁盘、光盘、存储器、可编程逻辑装置(PLD)),用于将机器指令和/或数据提供给可编程处理器,包括机器可读介质,用于接收机器指令作为机器可读信号。术语“机器可读信号”是指任何用于将机器指令和/或数据提供给可编程处理器的机器指令。
为了与用户进行交互,这里描述的系统和技术可以在计算机上实现,该计算机具有显示装置(例如,CRT(阴极射线管)或LCD(液晶显示器)显示器),用于将信息显示给用户,以及键盘和指示装置(例如,鼠标或跟踪球),用于使得用户能够提供输入给计算机。其它种类的装置也可以被用于提供与用户之间的交互;例如,提供给用户的反馈可以为任何形式的感官反馈(例如,视觉反馈、听觉反馈或者触觉反馈);并且来自用户的输入可以以任何形式来接收,包括声音、语音、或触觉输入。
这里描述的系统和技术能够在计算系统上实现,其中该计算系统包括后端部件(例如数据服务器),或者包括中间件部件(例如应用服务器),或者包括前端部件(例如客户端计算机,具有图形用户界面或网页浏览器,通过它们用户能够与这里所述的系统和技术的实施方式进行交互),或者该后端、中间件或前端部件的任意组合。该系统的部件可以通过任何形式或数字数据通信的介质(例如通信网络)来互联。通信网络的例子包括局域网(“LAN”)、广域网(“WAN”)以及互联网。
该计算系统可以包括客户端和服务器。客户端和服务器一般地都彼此相距甚远,并且一般地都通过通信网络进行交互。客户端与服务器的关系是由在各个计算机上运行的计算机程序而引发的,并且彼此之间具有客户端-服务器的关系。
已经描述了多个实施方式。尽管如此,可以理解的是,在不脱离这些实施方式的精神和范畴的情况下可以进行各种修改。因此,其它实施方式也落在权利要求的范围内。

Claims (22)

1.一种对电子内容进行分类的方法,该方法包括:
从计算系统中获得电子文档;
识别所述电子文档的一个或多个文档特征;
对所识别的文档特征进行分析以确定包含在所述电子文档中的电子内容的格式,所确定的格式由所识别的文档特征提供的一个或多个指示符暗示;以及
根据所确定的格式来指定包含在所述电子文档中的电子内容是否可以显示在被识别类型的计算装置上。
2.如权利要求1所述的方法,其中指定包含在所述电子文档中的电子内容是否可以显示在被识别类型的计算装置上包括对基于内容的文档特征进行分析。
3.如权利要求1所述的方法,其中所识别的文档特征由机器学习系统来分析。
4.如权利要求1所述的方法,还包括:
根据包含在所述电子文档中的电子内容可显示在所述预定类型的计算装置上的置信度来确定是否将与所述电子文档相关联的已索引的表目插入到可搜索的索引中。
5.如权利要求4所述的方法,其中所述已索引的表目表示所述电子文档的被确定的格式。
6.如权利要求1所述的方法,其中包含在所述电子文档中的电子内容包括可显示的网页内容。
7.如权利要求1所述的方法,其中所述电子文档的至少一个文档特征包括被标记的特征,其中该被标记的特征可以被解释以在计算装置上显示电子内容。
8.如权利要求1所述的方法,其中对所识别的文档进行分析包括将预定规则集应用于所识别的文档特征。
9.如权利要求8所述的方法,其中所述预定规则集将一个或多个决定应用于多个文档特征。
10.如权利要求1所述的方法,其中指定包含在所述电子文档中的电子内容是否可以被显示在已识别类型的计算装置上包括将一个或多个探试规则应用于所确定的格式和所识别的文档特征。
11.如权利要求1所述的方法,其中指定包含在所述电子文档中的电子内容是否可以被显示在已识别类型的计算装置上包括计算置信等级,其中该置信等级是基于包含在所述电子文档中的电子内容可显示在所述被识别类型的计算装置上的确定的置信度。
12.如权利要求11所述的方法,还包括:
创建与所述电子文档相关联的已索引的表目,该已索引的表目表示包含在所述电子文档中的电子内容是否可以显示在所述被识别类型的计算装置上;以及
将该已索引的表目插入到可搜索的索引中,其中该已索引的表目在所述可搜索的索引中被分级。
13.如权利要求1所述的方法,其中所述被识别类型的计算装置包括能够显示具有一个或多个预定格式的电子内容的计算装置。
14.如权利要求13所述的方法,其中所述计算装置包括无线装置。
15.如权利要求1所述的方法,其中所述被识别类型的计算装置包括预定品牌或型号的计算装置。
16.如权利要求1所述的方法,其中所述所确定的格式从下述组中选择,其中该组由XHTML(可扩展超文本标示语言)格式、HTML(超文本标示语言)格式、WML(无线标示语言)以及cHTML(压缩HTML)格式组成。
17.一种有形地嵌入在信息载体中的计算机程序产品,该计算机程序产品包括有指令,当执行该指令时执行对电子内容进行分类的方法,其中该方法包括:
获得存储在计算系统中的电子文档,所述电子文档具有电子内容;
解析所述电子文档并识别所述电子文档的一个或多个文档特征;
对所识别的文档特征进行分析以确定包含在所述电子文档中的电子内容的格式,所确定的格式基于由所识别的文档特征提供的一个或多个指示符;以及
根据所确定的格式和所识别的文档特征,指定包含在所述电子文档中的电子内容是否可以显示在预定类型的计算装置上。
18.一种对电子内容进行分类的系统,该系统包括:
用于接收电子文档的装置;
用于确定包含在所述电子文档中的电子内容的格式的装置;以及
用于根据所确定的格式来指定包含在所述电子文档中的电子内容是否可以显示在预定类型的计算装置上的装置。
19.一种对电子内容进行分类的方法,该方法包括:
从计算系统中获得电子文档;
使用与所述文档相关联的明确的文档类型标识符来识别所述文档的文档类型;
对一个或多个文档特征以及所识别的文档类型进行分析以确定包含在所述电子文档中的电子内容的格式,所确定的格式由所识别的文档特征提供的一个或多个指示符暗示;以及
根据所确定的格式,指定包含在所述电子文档中的电子内容是否可以显示在被识别类型的计算装置上。
20.一种对电子内容进行分类的方法,该方法包括:
从计算系统中获取具有电子内容的电子文档;
识别所述电子文档的多个文档特征;
根据所述多个文档特征来计算文档分值;以及
根据所述文档分值,指定包含在所述电子文档中的电子内容是否可以显示在被识别类型的计算装置上。
21.如权利要求20所述的方法,其中所述文档特征包括暗示的文档特征。
22.如权利要求21所述的方法,其中所述文档特征包括基于内容的文档特征。
CN200680029731A 2005-06-15 2006-06-15 电子内容分类 Pending CN101622598A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/153,123 US20060288015A1 (en) 2005-06-15 2005-06-15 Electronic content classification
US11/153,123 2005-06-15

Publications (1)

Publication Number Publication Date
CN101622598A true CN101622598A (zh) 2010-01-06

Family

ID=37571170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200680029731A Pending CN101622598A (zh) 2005-06-15 2006-06-15 电子内容分类

Country Status (4)

Country Link
US (1) US20060288015A1 (zh)
EP (1) EP1899798A4 (zh)
CN (1) CN101622598A (zh)
WO (1) WO2006138473A2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102348171A (zh) * 2010-07-29 2012-02-08 国际商业机器公司 消息处理方法及其系统
CN102741844A (zh) * 2010-01-19 2012-10-17 微软公司 自动的上下文发现
CN103209170A (zh) * 2013-03-04 2013-07-17 汉柏科技有限公司 文件类型识别方法及识别系统
CN105159936A (zh) * 2015-08-06 2015-12-16 广州供电局有限公司 文件分类装置及方法
CN105190596A (zh) * 2012-09-07 2015-12-23 美国化学协会 自动组成评估器

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618717B1 (en) * 2000-07-31 2003-09-09 Eliyon Technologies Corporation Computer method and apparatus for determining content owner of a website
US20070027672A1 (en) * 2000-07-31 2007-02-01 Michel Decary Computer method and apparatus for extracting data from web pages
US8590013B2 (en) 2002-02-25 2013-11-19 C. S. Lee Crawford Method of managing and communicating data pertaining to software applications for processor-based devices comprising wireless communication circuitry
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US7577665B2 (en) 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US10592930B2 (en) 2005-09-14 2020-03-17 Millenial Media, LLC Syndication of a behavioral profile using a monetization platform
US8027879B2 (en) 2005-11-05 2011-09-27 Jumptap, Inc. Exclusivity bidding for mobile sponsored content
US8615719B2 (en) 2005-09-14 2013-12-24 Jumptap, Inc. Managing sponsored content for delivery to mobile communication facilities
US8503995B2 (en) 2005-09-14 2013-08-06 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US8209344B2 (en) 2005-09-14 2012-06-26 Jumptap, Inc. Embedding sponsored content in mobile applications
US8364521B2 (en) 2005-09-14 2013-01-29 Jumptap, Inc. Rendering targeted advertisement on mobile communication facilities
US7769764B2 (en) 2005-09-14 2010-08-03 Jumptap, Inc. Mobile advertisement syndication
US9076175B2 (en) 2005-09-14 2015-07-07 Millennial Media, Inc. Mobile comparison shopping
US8302030B2 (en) 2005-09-14 2012-10-30 Jumptap, Inc. Management of multiple advertising inventories using a monetization platform
US9201979B2 (en) 2005-09-14 2015-12-01 Millennial Media, Inc. Syndication of a behavioral profile associated with an availability condition using a monetization platform
US8103545B2 (en) 2005-09-14 2012-01-24 Jumptap, Inc. Managing payment for sponsored content presented to mobile communication facilities
US8989718B2 (en) 2005-09-14 2015-03-24 Millennial Media, Inc. Idle screen advertising
US8311888B2 (en) 2005-09-14 2012-11-13 Jumptap, Inc. Revenue models associated with syndication of a behavioral profile using a monetization platform
US8238888B2 (en) 2006-09-13 2012-08-07 Jumptap, Inc. Methods and systems for mobile coupon placement
US9471925B2 (en) 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US20070198485A1 (en) * 2005-09-14 2007-08-23 Jorey Ramer Mobile search service discovery
US8812526B2 (en) 2005-09-14 2014-08-19 Millennial Media, Inc. Mobile content cross-inventory yield optimization
US9058406B2 (en) 2005-09-14 2015-06-16 Millennial Media, Inc. Management of multiple advertising inventories using a monetization platform
US8131271B2 (en) 2005-11-05 2012-03-06 Jumptap, Inc. Categorization of a mobile user profile based on browse behavior
US8290810B2 (en) 2005-09-14 2012-10-16 Jumptap, Inc. Realtime surveying within mobile sponsored content
US8819659B2 (en) 2005-09-14 2014-08-26 Millennial Media, Inc. Mobile search service instant activation
US7752209B2 (en) 2005-09-14 2010-07-06 Jumptap, Inc. Presenting sponsored content on a mobile communication facility
US8195133B2 (en) 2005-09-14 2012-06-05 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US8660891B2 (en) 2005-11-01 2014-02-25 Millennial Media Interactive mobile advertisement banners
US10911894B2 (en) 2005-09-14 2021-02-02 Verizon Media Inc. Use of dynamic content generation parameters based on previous performance of those parameters
US7660581B2 (en) 2005-09-14 2010-02-09 Jumptap, Inc. Managing sponsored content based on usage history
US20110313853A1 (en) 2005-09-14 2011-12-22 Jorey Ramer System for targeting advertising content to a plurality of mobile communication facilities
US8156128B2 (en) 2005-09-14 2012-04-10 Jumptap, Inc. Contextual mobile content placement on a mobile communication facility
US8666376B2 (en) 2005-09-14 2014-03-04 Millennial Media Location based mobile shopping affinity program
US7676394B2 (en) 2005-09-14 2010-03-09 Jumptap, Inc. Dynamic bidding and expected value
US9703892B2 (en) 2005-09-14 2017-07-11 Millennial Media Llc Predictive text completion for a mobile communication facility
US8364540B2 (en) 2005-09-14 2013-01-29 Jumptap, Inc. Contextual targeting of content using a monetization platform
US7860871B2 (en) 2005-09-14 2010-12-28 Jumptap, Inc. User history influenced search results
US7702318B2 (en) 2005-09-14 2010-04-20 Jumptap, Inc. Presentation of sponsored content based on mobile transaction event
US7912458B2 (en) 2005-09-14 2011-03-22 Jumptap, Inc. Interaction analysis and prioritization of mobile content
US7548915B2 (en) * 2005-09-14 2009-06-16 Jorey Ramer Contextual mobile content placement on a mobile communication facility
US8515400B2 (en) 2005-09-14 2013-08-20 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US8832100B2 (en) 2005-09-14 2014-09-09 Millennial Media, Inc. User transaction history influenced search results
US10038756B2 (en) 2005-09-14 2018-07-31 Millenial Media LLC Managing sponsored content based on device characteristics
US8688671B2 (en) 2005-09-14 2014-04-01 Millennial Media Managing sponsored content based on geographic region
US8805339B2 (en) 2005-09-14 2014-08-12 Millennial Media, Inc. Categorization of a mobile user profile based on browse and viewing behavior
US8229914B2 (en) 2005-09-14 2012-07-24 Jumptap, Inc. Mobile content spidering and compatibility determination
US8175585B2 (en) 2005-11-05 2012-05-08 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US8571999B2 (en) 2005-11-14 2013-10-29 C. S. Lee Crawford Method of conducting operations for a social network application including activity list generation
US20070124803A1 (en) * 2005-11-29 2007-05-31 Nortel Networks Limited Method and apparatus for rating a compliance level of a computer connecting to a network
US20070208688A1 (en) * 2006-02-08 2007-09-06 Jagadish Bandhole Telephony based publishing, search, alerts & notifications, collaboration, and commerce methods
US20070216098A1 (en) * 2006-03-17 2007-09-20 William Santiago Wizard blackjack analysis
US7793216B2 (en) * 2006-03-28 2010-09-07 Microsoft Corporation Document processor and re-aggregator
US20080005108A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Message mining to enhance ranking of documents for retrieval
US8204891B2 (en) * 2007-09-21 2012-06-19 Limelight Networks, Inc. Method and subsystem for searching media content within a content-search-service system
US9015172B2 (en) 2006-09-22 2015-04-21 Limelight Networks, Inc. Method and subsystem for searching media content within a content-search service system
US8396878B2 (en) 2006-09-22 2013-03-12 Limelight Networks, Inc. Methods and systems for generating automated tags for video files
US7917492B2 (en) * 2007-09-21 2011-03-29 Limelight Networks, Inc. Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
US8966389B2 (en) * 2006-09-22 2015-02-24 Limelight Networks, Inc. Visual interface for identifying positions of interest within a sequentially ordered information encoding
US20080177724A1 (en) * 2006-12-29 2008-07-24 Nokia Corporation Method and System for Indicating Links in a Document
US7761783B2 (en) * 2007-01-19 2010-07-20 Microsoft Corporation Document performance analysis
KR100893629B1 (ko) * 2007-02-12 2009-04-20 주식회사 이지씨앤씨 전자교재 컨텐츠의 구문에 식별코드를 부여하는 시스템 및방법, 전자교재 컨텐츠의 데이터 검색 시스템 및 방법,전자교재 컨텐츠의 사용과 제공에 관한 포인트 관리 시스템및 방법
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
WO2009032770A2 (en) * 2007-08-29 2009-03-12 Partnet, Inc. Systems and methods for providing a confidence-based ranking algorithm
US20090063267A1 (en) * 2007-09-04 2009-03-05 Yahoo! Inc. Mobile intelligence tasks
US8650221B2 (en) * 2007-09-10 2014-02-11 International Business Machines Corporation Systems and methods to associate invoice data with a corresponding original invoice copy in a stack of invoices
US8103743B2 (en) * 2008-06-18 2012-01-24 Disney Enterprises, Inc. Method and system for enabling client-side initiated delivery of dynamic secondary content
US8126837B2 (en) * 2008-09-23 2012-02-28 Stollman Jeff Methods and apparatus related to document processing based on a document type
JP5108707B2 (ja) * 2008-09-30 2012-12-26 ヤフー株式会社 検索サーバ装置、検索方法及びプログラム
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8879846B2 (en) 2009-02-10 2014-11-04 Kofax, Inc. Systems, methods and computer program products for processing financial documents
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
TWI447641B (zh) * 2009-03-31 2014-08-01 Ibm 在可攜式裝置上顯示文件之方法與電腦程式產品
US8725745B2 (en) 2009-04-13 2014-05-13 Microsoft Corporation Provision of applications to mobile devices
JP5090408B2 (ja) 2009-07-22 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワーク通信において送信データの宛先を動的に制御する方法及び機器
US8810829B2 (en) 2010-03-10 2014-08-19 Ricoh Co., Ltd. Method and apparatus for a print driver to control document and workflow transfer
US8547576B2 (en) 2010-03-10 2013-10-01 Ricoh Co., Ltd. Method and apparatus for a print spooler to control document and workflow transfer
US8776017B2 (en) * 2010-07-26 2014-07-08 Check Point Software Technologies Ltd Scripting language processing engine in data leak prevention application
US20140172501A1 (en) * 2010-08-18 2014-06-19 Jinni Media Ltd. System Apparatus Circuit Method and Associated Computer Executable Code for Hybrid Content Recommendation
US9792640B2 (en) 2010-08-18 2017-10-17 Jinni Media Ltd. Generating and providing content recommendations to a group of users
CN103168325B (zh) 2010-10-05 2017-06-30 西里克斯系统公司 用于本地用户体验的显示管理
JP5496853B2 (ja) * 2010-10-29 2014-05-21 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造化文書を分類するためのルールを生成するための方法、並びにそのコンピュータ・プログラム及びコンピュータ
KR20120059995A (ko) * 2010-12-01 2012-06-11 주식회사 팬택 이동 단말기 및 이동 단말기의 웹 브라우저 표시 제어방법
US10360535B2 (en) * 2010-12-22 2019-07-23 Xerox Corporation Enterprise classified document service
US9223897B1 (en) * 2011-05-26 2015-12-29 Google Inc. Adjusting ranking of search results based on utility
US9612724B2 (en) 2011-11-29 2017-04-04 Citrix Systems, Inc. Integrating native user interface components on a mobile device
US9600807B2 (en) * 2011-12-20 2017-03-21 Excalibur Ip, Llc Server-side modification of messages during a mobile terminal message exchange
US9058580B1 (en) * 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US8989515B2 (en) 2012-01-12 2015-03-24 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9477756B1 (en) * 2012-01-16 2016-10-25 Amazon Technologies, Inc. Classifying structured documents
US20140115483A1 (en) 2012-10-18 2014-04-24 Aol Inc. Systems and methods for processing and organizing electronic content
US9852115B2 (en) * 2013-01-30 2017-12-26 Microsoft Technology Licensing, Llc Virtual library providing content accessibility irrespective of content format and type
US9123335B2 (en) 2013-02-20 2015-09-01 Jinni Media Limited System apparatus circuit method and associated computer executable code for natural language understanding and semantic content discovery
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
EP2973226A4 (en) 2013-03-13 2016-06-29 Kofax Inc CLASSIFICATION OF OBJECTS ON DIGITAL IMAGES RECORDED BY MOBILE DEVICES
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
WO2014139120A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Search intent preview, disambiguation, and refinement
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
JP2016518790A (ja) 2013-05-03 2016-06-23 コファックス, インコーポレイテッド モバイル装置を用いて取込まれたビデオにおけるオブジェクトを検出および分類するためのシステムおよび方法
US9374431B2 (en) 2013-06-20 2016-06-21 Microsoft Technology Licensing, Llc Frequent sites based on browsing patterns
US20150012448A1 (en) * 2013-07-03 2015-01-08 Icebox, Inc. Collaborative matter management and analysis
WO2015073920A1 (en) 2013-11-15 2015-05-21 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US9721155B2 (en) * 2014-11-14 2017-08-01 Microsoft Technology Licensing, Llc Detecting document type of document
US10230740B2 (en) * 2015-04-21 2019-03-12 Cujo LLC Network security analysis for smart appliances
CN106155764A (zh) 2015-04-23 2016-11-23 阿里巴巴集团控股有限公司 调度虚拟机输入输出资源的方法及装置
CN106201839B (zh) 2015-04-30 2020-02-14 阿里巴巴集团控股有限公司 一种业务对象的信息加载方法和装置
CN106209741B (zh) 2015-05-06 2020-01-03 阿里巴巴集团控股有限公司 一种虚拟主机及隔离方法、资源访问请求处理方法及装置
CN106708819A (zh) 2015-07-17 2017-05-24 阿里巴巴集团控股有限公司 一种数据缓存的预热方法及其装置
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10496241B2 (en) 2015-08-21 2019-12-03 Adobe Inc. Cloud-based inter-application interchange of style information
US10455056B2 (en) * 2015-08-21 2019-10-22 Abobe Inc. Cloud-based storage and interchange mechanism for design elements
CN106487708B (zh) * 2015-08-25 2020-03-13 阿里巴巴集团控股有限公司 网络访问请求控制方法和装置
US10296647B2 (en) * 2015-10-05 2019-05-21 Oath Inc. Method and system for intent-driven searching
WO2017106206A1 (en) 2015-12-18 2017-06-22 Cujo LLC Intercepting intra-network communication for smart appliance behavior analysis
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10810317B2 (en) 2017-02-13 2020-10-20 Protegrity Corporation Sensitive data classification
EP3616143A1 (en) * 2017-04-28 2020-03-04 Covered Insurance Solutions, Inc. System and method for secure information validation and exchange
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US10241992B1 (en) * 2018-04-27 2019-03-26 Open Text Sa Ulc Table item information extraction with continuous machine learning through local and global models

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654814B1 (en) * 1999-01-26 2003-11-25 International Business Machines Corporation Systems, methods and computer program products for dynamic placement of web content tailoring
JP4299911B2 (ja) * 1999-03-24 2009-07-22 株式会社東芝 情報転送システム
US6901261B2 (en) * 1999-05-19 2005-05-31 Inria Institut Nationalde Recherche En Informatique Etaen Automatique Mobile telephony device and process enabling access to a context-sensitive service using the position and/or identity of the user
US6775537B1 (en) * 2000-02-04 2004-08-10 Nokia Corporation Apparatus, and associated method, for facilitating net-searching operations performed by way of a mobile station
JP3499808B2 (ja) * 2000-06-29 2004-02-23 本田技研工業株式会社 電子文書分類システム
US6674453B1 (en) * 2000-07-10 2004-01-06 Fuji Xerox Co., Ltd. Service portal for links separated from Web content
EP1402408A1 (en) * 2001-07-04 2004-03-31 Cogisum Intermedia AG Category based, extensible and interactive system for document retrieval
US6941477B2 (en) * 2001-07-11 2005-09-06 O'keefe Kevin Trusted content server
US6778979B2 (en) * 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
US20030105778A1 (en) * 2001-11-30 2003-06-05 Intel Corporation File generation apparatus and method
AU2003239385A1 (en) * 2002-05-10 2003-11-11 Richard R. Reisman Method and apparatus for browsing using multiple coordinated device
US7441047B2 (en) * 2002-06-17 2008-10-21 Microsoft Corporation Device specific pagination of dynamically rendered data
TW200407706A (en) * 2002-11-01 2004-05-16 Inventec Multimedia & Telecom System and method for automatic classifying and storing of electronic files
US7213035B2 (en) * 2003-05-17 2007-05-01 Microsoft Corporation System and method for providing multiple renditions of document content
KR100501334B1 (ko) * 2003-08-04 2005-07-18 삼성전자주식회사 씬 클라이언트 방식을 개선한 홈 미디어 게이트웨이의멀티미디어 데이터 처리장치 및 그 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102741844A (zh) * 2010-01-19 2012-10-17 微软公司 自动的上下文发现
CN102741844B (zh) * 2010-01-19 2015-08-19 微软技术许可有限责任公司 自动的上下文发现
CN102348171A (zh) * 2010-07-29 2012-02-08 国际商业机器公司 消息处理方法及其系统
CN102348171B (zh) * 2010-07-29 2014-10-15 国际商业机器公司 消息处理方法及其系统
CN105190596A (zh) * 2012-09-07 2015-12-23 美国化学协会 自动组成评估器
CN103209170A (zh) * 2013-03-04 2013-07-17 汉柏科技有限公司 文件类型识别方法及识别系统
CN105159936A (zh) * 2015-08-06 2015-12-16 广州供电局有限公司 文件分类装置及方法

Also Published As

Publication number Publication date
EP1899798A2 (en) 2008-03-19
WO2006138473A2 (en) 2006-12-28
EP1899798A4 (en) 2010-06-02
US20060288015A1 (en) 2006-12-21
WO2006138473A3 (en) 2009-04-30

Similar Documents

Publication Publication Date Title
CN101622598A (zh) 电子内容分类
CN1934569B (zh) 集成有用户注释的搜索系统和方法
CN101124609B (zh) 使用内联上下文查询的搜索系统及方法
CN101971172B (zh) 移动站点地图
CN1670733B (zh) 用自然语言命令呈递表格
US9098481B2 (en) Increasing accuracy in determining purpose of fields in forms
CN101427229B (zh) 用于修改向计算机系统的终端用户显示的信息表示的技术
US20080120257A1 (en) Automatic online form filling using semantic inference
CN101452453B (zh) 一种输入法网址导航的方法和一种输入法系统
CN101739467B (zh) 用于个人化网络搜索的方法和系统
US8082264B2 (en) Automated scheme for identifying user intent in real-time
US20080235567A1 (en) Intelligent form filler
US7801891B2 (en) System and method for collecting user interest data
US9311303B2 (en) Interpreted language translation system and method
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
CN110688307B (zh) JavaScript代码检测方法、装置、设备和存储介质
CN101490677A (zh) 呈现搜索结果信息
CN103098051A (zh) 搜索引擎优化助理
CN101211364A (zh) 用于万维网页中暴露的资源的公共书签的方法和系统
CN1979484A (zh) 基于文档的信息和统一资源定位符管理方法和设备
WO2004107213A1 (en) A method of managing websites registered in search engine and a system thereof
US8359307B2 (en) Method and apparatus for building sales tools by mining data from websites
CN103210387B (zh) 关联词登记装置、信息处理装置、关联词登记方法以及关联词登记系统
US20110313997A1 (en) System and method for providing a consolidated service for a homepage
US9244891B2 (en) Adjusting search result rankings based on multiple user highlighting of documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100106