CN101454748A

CN101454748A - 在诸如网站的网页的相关网页中传播有用信息

Info

Publication number: CN101454748A
Application number: CNA2007800192230A
Authority: CN
Inventors: 丹尼尔·艾尼奥; 保罗·哈尔; 凯文·拉克; 约翰·兰平; 阿米塔巴·K·辛哈尔; 杨克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2006-03-31
Filing date: 2007-03-19
Publication date: 2009-06-10
Anticipated expiration: 2027-03-19
Also published as: AU2007243784A1; EP2013703A2; US20070233808A1; CN101454748B; CA2647864A1; EP2013703A4; WO2007126628A3; KR101225467B1; US8990210B2; US20140052735A1; CA2647864C; WO2007126628A2; KR20080109061A; US7933890B2; AU2011201819A1; US8521717B2; US20110196861A1; JP2009532766A; AU2011201819B2; JP5069285B2

Abstract

可以处理网站的网页来改进搜索结果。例如，可以识别可能与其所直接关联的网页之外的网页有关的信息。也识别这样的信息可能与之有关的一个或多个其它相关网页。将所识别的信息与所识别的其它网页相关联并且以影响网页的搜索结果分值的方式保存该关联。

Description

在诸如网站的网页的相关网页中传播有用信息

§1.1 技术领域

符合本发明的实施例涉及信息检索(IR)。具体地，符合本发明的实施例涉及改进诸如网页的文档的信息检索，所述文档属于诸如网站的多组文档中的一组。

§1.2 背景技术

搜索引擎在帮助人们在万维网(“Web”)以及其它网络上找到感兴趣的信息方面已非常有用。在澳大利亚布里斯班举行的Seventh International World Wide Web Conference(第七届国际万维网会议)上S.Brin和L.Page发表的论文“Anatomy of a Large-Scale HypertextualSearch Engine(剖析大规模超文本搜索引擎)”和美国专利No.6,285,999中(两者在此均以引用的方式并入)描述了示例性搜索引擎。搜索引擎可以接收对搜索结果的查询。作为响应，搜索引擎可以(例如从网页的索引中)检索相关搜索结果。这样的搜索结果可以包括例如网页标题的列表、从这些网页中提取的文本的摘录以及指向这些网页的超文本链接，并且可以将所述搜索结果分组为预定数量(例如10)的搜索结果。

图1是可以包括网络(诸如因特网)160的环境100的上层框图，其中使用信息访问工具(facility)(客户端设备)110来呈现从一个或多个内容提供者(例如网页服务器)180处访问的信息。搜索工具(服务器)130可以被信息访问工具110使用来搜索感兴趣的内容。

信息访问工具110可以包括浏览操作112，其可以包括导航操作114和用户接口操作116。浏览操作112可以经由输入/输出接口操作118来访问网络160。例如，在个人计算机的情况中，浏览操作112可以通过浏览器(诸如Mozilla公司的Firefox、美国在线时代华纳公司的Netscape、Opera软件公司的Opera、微软公司的Explorer等等)来执行，并且输入/输出接口操作可以通过调制解调器或网络接口卡(或NIC)和联网软件来执行。可能的信息访问工具110的其它示例包括诸如个人数字助理(PDA)和移动电话的无绳(untethered)设备、机顶盒、信息站(kiosk)、媒体播放器等等。

每一个内容提供者180可以包括存储资源(也称为内容)136、响应于请求访问并提供内容的资源检索操作184、以及输入/输出接口操作182。内容提供者180的这些操作可以由诸如个人计算机或服务器的计算机实现。因此，存储资源186可以具体化为存储在诸如磁盘、光盘等等的某种类型的存储介质上的数据。在该具体环境100中，术语“文档”可以被解释为包括诸如网页的可寻址内容。

搜索工具130可以执行爬行(crawl)、索引/排序以及查询处理功能。这些功能可以通过相同实体或单独实体来执行。此外，这些功能可以在同一位置处或在不同位置处执行。在任何情况下，在爬行工具150处，爬行操作152从经由网络160可访问的各种源获得内容，并且存储这样的内容或这样的内容的表格(form)，如154所指示。然后，在自动索引/排序工具140处，自动索引/排序操作142可以访问存储内容154，并且可以生成内容索引(例如待在下面描述的倒序索引)和内容评级(例如待在下面描述的PageRank(页面排名))140。最后，查询处理操作134接受查询并且基于内容索引(以及内容评级)140返回查询结果。爬行、索引/排序以及查询处理功能可以通过一个或多个计算机来执行。

图2是高级搜索工具200的过程气泡图。在图2中示出的高级搜索工具200执行三个主要功能：(1)爬行；(2)索引/排序；以及(3)搜索。水平虚线将图2划分为对应于这三个主要功能的三个部分。更具体地，第一部分150’与爬行功能相对应、第二部分140’与索引/排序功能相对应以及第三部分134’与搜索(或查询处理)功能相对应(注意，在引用数字后的撇号“’”用于指示引用项仅是由没有撇号的该数字引用的项的一个示例)。这些部分的每一部分将在下面更详细地介绍。然而，在这样做之前，介绍了该高级搜索工具200的几个区别特征。该高级搜索工具使用Web的链接结构以及其它技术来改进搜索结果。

仍参见图2，现进一步描述高级搜索引擎200的三个主要部分。爬行部分150’可以分布在多个机器上。单个URL服务器(未示出)向多个爬行器(crawler)派发统一资源定位符(URL)列表206。基于该URL列表206，爬行操作202爬行网络160’并获得网页208。预索引操作210然后可以从这些网页208生成页面排名212以及库214。页面排名212可以包括作为成对的多个URL指纹(即唯一值)、页面排名值。库214可以包括URL、内容类型和压缩的页面三元组。

关于索引/排序部分140’，索引/排序操作220可以生成倒序索引226。索引/排序操作220也可以从引文(citation)排名212生成页面排名228。页面排名228可以包括文档ID、PageRank值对。

关于查询处理部分134’，搜索操作230可以由Web服务器运行并且可以与倒序索引226和PageRank 228一起使用词典232来响应于查询而生成查询结果。查询结果可以是基于以下的组合：(1)从PageRank 228得出的信息，以及(2)从特定文档与包含在查询中的词语相匹配的紧密程度得出的信息(也称为信息检索(或“IR”)组件)。

这样的搜索引擎(诸如刚介绍的搜索引擎)一直是有用的，但也存在改进的空间。例如，考虑下面的两种(2)情况。

首先，考虑搜索查询“Ramada Cincinnati(华美达辛辛那提)”。本发明的发明人认为最具权威性及最有用的搜索结果应是在华美达网站上的描述华美达在辛辛那提市区的旅馆的网页。因此，希望将该网页(关于其的信息以及指向其的链接)作为第一搜索结果返回。遗憾的是，虽然存在指示华美达网站的主网页对于单词“Ramada(华美达)”具有权威性的许多证据，但是用于华美达在辛辛那提市区的特定旅馆的网页对于单词“Ramada(华美达)”具有权威性的证据可能极少。因此，处理该搜索“Ramada Cincinnati(华美达辛辛那提)”的至少一些搜索引擎将把华美达网站的主网页作为第一搜索结果返回，即使其可能不如在华美达网站上的用于华美达在辛辛那提市区的旅馆的网页有用。更糟的是，至少一些搜索引擎可能不会将华美达网站上的任何网页作为其最佳搜索结果之一返回。

其次，考虑搜索查询“three seasons palo alto(三季帕洛阿尔托)”。在该示例中，“Three Seasons(三季)”餐馆的网站的主网页不包括餐馆的地址。因而，尽管存在该餐馆的网站的主网页对三季具有权威性的许多证据，但是在该主网页上没有证据暗示其与帕洛阿尔托有关。注意，该网站上的其它网页确实指示该餐馆位于帕洛阿尔托。

如前述示例说明，仅使用直接与网页有关的信息(例如，在网页和其结构上的单词、在指向网页的锚点(anchor)中的单词、以及网页的页面排名)的自动搜索引擎可能找不到对特定查询最有用的网页。因而，改进搜索引擎使得其返回更好的搜索结果是有用的。具体地，以下是有用的，改进搜索引擎(例如，通过改进其处理的信息)，使得当搜索引擎对查询的词语(例如单词和/或短语)与一个网页的相关性进行排名时，其可以考虑该词语与同一网站上的其它网页的关联度。更一般地，改进使用相同或类似IR技术的应用是有用的。

§2.发明内容

符合本发明的实施例可以用来改进信息检索，诸如网页搜索。这样的实施例可以通过以下来进行：(a)接受与网站有关的信息；(b)识别与网站的第一网页有关的词语，所述词语对于处理包括该词语的搜索查询的目的可能应当与网站的另一个网页有关；(c)确定与第一网页具有特定关系的该网站的第二网页；(d)确定是否应当将所识别的词语与第二网页相关联；以及(e)如果确定应当将词语与第二网页相关联，则保存所识别的词语与第二网页的关联，使得第二网页对于包括所识别的词语的搜索查询具有比该第二网页在其他情况下具有的搜索分值更高的搜索分值。符合本发明的至少一些实施例可以使用前述技术来沿网站的拓扑结构向上、向下或跨越网站的拓扑结构传播信息。

在符合本发明的至少一些实施例中，识别词语的动作识别与网站极度相关联的词语。

在符合本发明的至少一些实施例中，所识别的词语是高度描述性信息，诸如位置、地址、罕见词语、产品类别等等。

符合本发明的至少一些实施例然后可以(a)接收包括所识别的词语的搜索查询；以及(b)增加具有所保存的与所识别的搜索词语的关联的第二网页的搜索结果分值。在符合本发明的至少一些实施例中，搜索结果分值增加的量值是第二网页的未增加的搜索结果分值的函数。

§3.附图说明

图1是在其中或利用其可以使用符合本发明的实施例的示例性环境的气泡图。

图2是在其中或利用其可以使用符合本发明的实施例的示例性搜索引擎的气泡图。

图3是在符合本发明的实施例中可以执行的操作、以及可以由这样的操作生成和/或使用的信息的气泡图。

图4是用于以符合本发明的方式将网站内信息相关联的示例性方法的流程图。

图5是用于以符合本发明的方式执行Web搜索的示例性方法的流程图。

图6是用于以符合本发明的方式传播权威性网站内信息(例如，沿网站拓扑结构向下)的示例性方法的流程图。

图7是用于以符合本发明的方式传播高度描述性的网站内信息(例如，沿网站拓扑结构向上)的示例性方法的流程图。

图8示出了将网站内信息向下传播到网站的网页的示例。

图9和10示出了将网站内信息向上传播到网站的网页的第一和第二示例。

图11是可以用来以符合本发明的方式执行至少一些操作以及存储至少一些信息的装置的框图。

§4.具体实施方式

本发明可以包括用于改进诸如网页搜索的信息检索的新颖方法、装置、消息格式和/或数据结构。提供下述描述以使本领域技术人员能够实施和使用本发明，并且是在特定的应用以及其需求的环境中提供下述描述。因此，符合本发明的实施例的下述描述提供了说明和描述，但是并不意在穷举或将本发明限制在所公开的精确形式。对所公开的实施例的各种修改对本领域技术人员将是显而易见的，并且以下阐述的一般原理可适用于其它实施例和应用。例如，尽管可能参考流程图描述了一系列动作，但是当一个动作的执行不依赖于另一个动作的完成时，动作的顺序在其它的实现中可以不同。此外，可以并行执行非依赖性的动作。而且，如在此所使用的，不加数量限定的项用于指包括一个或多个项。在只想表示一个项的地方，使用了术语“一个”或类似的语言。在下文中，“信息”可以指实际的信息，或指向这样的信息的指针、这样的信息的标识符、或这样的信息的位置。描述中使用的任何元素、动作或指令都不应当被解释为对本发明来说是关键的或必要的，除非已明确地描述如此。因而，本发明不意在限于所示的实施例，并且发明人认为其发明包括任何所描述的可获得专利的主题。

“文档”应被广泛地解释为包括任何机器可读的以及机器可存储的工作成果。文档可以是文件、文件的组合、嵌有指向其它文件的链接的一个或多个文件、文件的区别和识别部分等等。文件可以是任何的类型，诸如文本、音频、图像、视频等等。呈现给终端用户的文档的部分可被认为是文档的“内容”。文档可以包括“结构化数据”，所述结构化数据包含内容(文字、图片等等)和该内容的含意的某种指示(例如，电子邮件域和相关联的数据、HTML标签和相关联的数据等等)。文档中的广告位可以通过嵌入式信息或指令限定。在因特网的环境中，常见的文档是网页。网页通常包括内容，并且可以包括嵌入式信息(诸如元信息、超链接等等)和/或嵌入式指令(诸如JavaScript等等)。在许多情况下，文档具有可寻址的存储位置，并且因此能够通过该可寻址的位置唯一地识别。统一资源定位符(URL)是用来在因特网上访问信息的地址。

“Web文档”包括在Web上发布的任何文档。Web文档的示例包括例如网站或网页。

“主”网页典型地将是网站的根网页、或带有暗示其是主页的URL(诸如“default.HTML”)的网页。

“词语”可以是“单词”或“短语”。

在下文中，在§4.1中描述了本发明可以在其中或利用其运行的环境。在§4.2中描述了本发明的示例性实施例。然后，在§4.3中提供了示出本发明的示例性实施例的用途的特定示例。最后，在§4.4中阐明了关于本发明的一些结论。

§4.1 在其中或利用其可以使用符合本发明的实施例的示例性环境

符合本发明的实施例可以在诸如在上面参考图1所描述的示例性环境100中或利用示例性环境100使用。例如，这样的实施例可以在诸如在上面参考图2所描述的搜索引擎的示例性搜索引擎中或利用其使用。自然地，符合本发明的实施例可以在其它环境中或利用其它环境使用。

§4.2 符合本发明的示例性实施例

图3是在符合本发明的实施例中可以执行的操作、以及可以由这样的操作生成和/或使用的信息的气泡图。通常，在线340上方的操作提前执行，而在线340下方的操作实时执行。然而，在符合本发明的至少一些实施例中，这不是必须的。

网站收集信息310可以包括多组网站信息315。网站内信息关联操作320可以用来生成修订的网站和/或网页信息335。这样的信息可以用于例如信息检索的目的。因而，可以处理来自多个网站310的信息，以生成修订的网站和/或网页信息335的组330。

网页搜索操作360可以响应于查询信息350使用网页信息370和修订的网站和/或网页信息的组330来生成一组一个或多个搜索结果380。

通常，网站内信息关联操作320可以(1)识别可能与其所直接关联的网页之外的网页有关的信息，(2)识别这样的信息可能与之有关的一个或多个其它相关网页，以及(3)将所识别的信息与所识别的其它网页相关联，使得网页对于包括所识别的信息的搜索查询具有比该网页在其他情况下具有的搜索分值更高的搜索分值。这产生了可以用于对网页进行检索和评分的修订的网站和/或网页信息。搜索分值可以影响搜索结果的排名，因此可以影响该搜索结果相对于其它搜索结果的位置并且甚至影响响应于查询是否返回该搜索结果。

§4.2.1 示例性方法

图4是用于以符合本发明的方式使网站内信息相关联的示例性方法400的流程图。接受网站信息(例如网页、网页内容、网页元数据、黄页数据、域注册数据等等)(框410)。识别可能与网站的网页有关的信息，所述网页不仅仅是所述信息所(直接)相关联的网页(框420)。识别所识别的信息可能与之有关的一个或多个其它相关网页(框430)。然后将所识别的信息与所识别的网页相关联(框440)。在离开方法400(节点460)之前，存储(例如，保存在存储设备上用于以后使用)修订的网站和/或网页(例如，带有新的关联信息的网页)信息，使得修订的网页对于包括所识别的信息的搜索查询具有比原始网页具有的搜索分值更高的搜索分值(框450)。

返回参见框420，在下面描述了所识别的信息或所识别的信息的类型的示例。返回参见框430，在下面描述了如何所识别的信息可能与之有关的一个或多个相关网页的示例。如将从下面的描述所理解的，在各种实施例中，这样的信息可以沿网站向上、向下和/或跨越网站传播。

图5是用于以符合本发明的方式执行Web搜索的示例性方法500的流程图。接受搜索查询信息(框510)。然后使用所接受的搜索查询信息、网页信息及修订的网站和/或网页信息生成一组一个或多个搜索结果(框520)。然后在离开方法500(节点540)之前，将搜索结果派发到请求者(框530)。

§4.2.1.1 用于传播网站被认为对其具有权威性的词语信息的示例性方法

图6是用于以符合本发明的方式传播权威性网站内信息(例如，沿网站拓扑结构向下)的示例性方法600的流程图。接受网站信息(框610)。对于网站的给定网页(例如主页)，确定在给定网页上找到的该网站被认为对其具有权威性的词语(框620)。这样的词语(例如单词和/或短语)可以经受验证程序(框630)。确定与信息源网页(例如网站主页或根页)相关的网站的网页(框640)。可以排除被确定为相关的、归入一个或多个例外的网页(框650)。然后可以将所识别的信息(例如权威性词语)与所确定的(并且未排除的)网页相关联(框660)。然后在离开方法600(节点680)之前，可以保存(例如存储)修订的网站和/或网页信息(框670)。

返回参见框620，在确定网站被认为对其具有权威性的词语时可以考虑一个或多个证据源。网站对词语具有权威性的一个示例性证据源可以是在对网站的一个或多个引用(例如链接或超文本链接)中使用该词语。网站对词语具有权威性的再一个示例性证据源可以是在将网站的主页作为企业网站列出的目录(例如黄页)条目中使用该词语(例如企业名称)。网站对词语具有权威性的又一个示例性证据源可以是在网站的域名中使用该词语。网站对词语具有权威性的又一个示例性证据源可以是如果该词语是注册商标，并且该商标注册与网站(的主页)相关联。另一个示例性证据源可以是以下的概率：如果搜索查询包括词语，则将存在对应于网站的良好搜索结果(例如被点击的搜索结果、接收“长点击”的搜索结果，所述“长点击”中用户在给定的时间量(例如三分钟)内没有返回到前一网页并且没有点击不同的结果等等)。概率可以对应于证据的力度。

自然地，网站对词语具有权威性的其它证据源是可能的。全体证据可以导致网站对词语具有权威性的确定。也可以考虑对立证据。例如，如果存在词语与一个或多个其它网站的其它网页相关的证据，则在全体证据中可以考虑这样的证据。在至少一些实施例中，证据的力度可以用于确定所确定的词语和目的(或汇点(sink))网页的关联的力度(如用于IR目的)。即，证据的力度可以被用来确定(a)是否进行关联，和/或(b)关联的力度。

返回参见框640，在符合本发明的至少一些实施例中，在所确定的词语的网页源和目的(或汇点)网页之间相关的程度可以被用于确定所确定的词语和目的(或汇点)网页的关联的力度(如用于IR目的)。

返回参见框630，所确定的词语可以经受一个或多个验证测试。例如，对于所确定的词语，如果搜索查询包括该词语则对于所考虑的网站会有良好结果的概率可能必须大于(或大于预定量和/或百分比大于)对于所有其它网站(这样的信息对于其是已知的或可确定的)的相应概率。作为另一个示例，如果存在多于预定数量的所确定的词语，则可能希望仅使用前N个(例如，根据来自下一个最好网站的概率、概率微分等等)查询词语。

返回参见框650，所确定的查询信息(“所识别的信息”)可以不被传播(例如向下)到所考虑的网站的某些网页。例如，具有低分值(例如低页面排名)的网页可能无法获得与其相关联的所识别的信息。作为另一个示例，可以将对所识别的信息的传播限于网站中的源(例如主或根)网页和目的网页的预定数量(例如2)的分离程度(例如，从源网页开始的反斜线符号的数量)。作为又一个示例，可以排除某些类型的网页(例如新闻稿、留言板、论坛、外语页面(例如用不同于源页面的语言的目的页面)等等)。

注意，如果词语是短语，则在符合本发明的至少一些实施例中，可以要求在查询中出现整个短语(或至少短语的所有单词)以避免某些问题。例如，考虑如“american century investments(美国世纪投资)”的网站。尽管该网站的主页对查询“american century investments(美国世纪投资)”可以具有权威性，但是其对查询的组成单词“american(美国)”、“century(世纪)”及“investment(投资)”不具有权威性。因而，例如，对于包括单词“investments(投资)”而不包括“american century(美国世纪)”的搜索查询，该网站的网页不应当获得“提升”。

注意，向下传播信息实际上可以允许在不同网站上的另外的相同网页具有不同的分值。例如，在网站www.ramada.com上的辛辛那提华美达的网页可以比在网站www.hotels.com上的相同网页具有更高的分值(至少对于包括词语“ramada(华美达)”的搜索查询来说)。这是有用的，因为当搜索查询包括词语“ramada(华美达)”时，搜索在辛辛那提的华美达旅馆的多数用户将可能更喜欢来自权威性网站的网页。

§4.2.1.2 用于传播高度描述性信息的示例性方法

本发明的发明人认识到通常在网站的主页上找不到网站的高度描述性的单词(和其它信息)。识别这样的高度描述性信息并且将其与网站的主(或根)页相关联是有用的。

图7是用于以符合本发明的方式传播高度描述性的网站内信息(例如，沿网站拓扑结构向上)的示例性方法700的流程图。接受网站信息(框710)。识别与除了网站的主(或根)页外的网页相关联的位置(例如地址)或一些其它高度描述性信息(框720)。所识别的信息(例如位置)是可以按页面进行评分的信息(框730)。将所识别的信息(例如位置)传播(例如沿网站拓扑结构向上)到一个或多个目的网页(框740)。确定在所识别的信息(例如位置)与目的网页的关联度中的置信度(框750)。如果置信度不够高，则简单地离开方法700(框760及节点790)。另一方面，如果置信度足够高，则将所识别的信息(例如位置)与目的网页相关联(框760及770)，并且在离开方法700(节点790)之前存储(例如保存)该关联(框780)。

注意，可以对于一个或多个目的网页中的每一个来运行框760-780。置信度对于网站的一个网页足够高但对于另一个网页不足够高是可能的。因而，在符合本发明的至少一些实施例中，单独地评价用于每一个网页的证据(除如下所述)。在每一个网页处，积累用于网站拓扑结构中在该网页下面的所有网页的所有证据。使用这些积累的证据评价用于特定网页的信息。例如，在站点拓扑结构中较低的网页可能具有用于仅仅一个地址的信息，其是传播该地址的足够证据。然而，在站点拓扑结构中较高的网页也可能具有用于其它地址的证据，其可以导致对于该网站没有一个地址特别相关的结论，在该情况中地址将不被向上传播到在站点拓扑结构中这样的较高的网页。替选地，或额外地，网站上的第一网页可以具有充足证据而有足够置信度，但是在站点拓扑结构上不在第一网页之上的网站上的第二网页可以不具有证据、具有不充足的证据和/或对立证据。

在符合本发明的至少一些实施例中，在向上传播信息后，任何网页对于其都具有结论性证据的全部数量的不同地址可以与网站的所有网页相关联(例如记录于其上)。当对地址信息进行评分时，如果网站具有许多地址，则可以给予在任何给定页面上的地址信息较少的权重，因为该网站整体而言似乎不具有任何物理焦点。

返回参见框720，可以识别与网页相关联的位置。可以用来识别位置的各种数据源包括在网页上的完整地址、在网页上出现的位置名称、给出用于网页的地址或位置的黄页数据(例如，带有主页和/或电话号码)、来自域注册的元信息、域的国家代码、包括是地点的词语的数据库、在其它页面上靠近指向该页面的链接出现的位置名称等等。可以将来自每个源的位置名称与网页相关联。另外，可以追踪提供了每条信息的源的种类和数量。返回参见框730，这样的信息可以被用来对所识别的位置信息进行评分。

仍返回参见框720，可以识别替代位置信息或除位置信息外的信息。作为一个示例，罕见词语(例如高逆文档频率(IDF)词语等等)可以被传播(例如向上到主(或根)页)。作为另一个示例，页面类别(例如来自预定义的列表、来自垂直类别、来自概念、来自主题、来自风格等等)可以被传播(例如向上到主(或根)页)。

返回参见框740，该信息可以沿网站的URL层级向上传播。例如，在每一个网页处，可以积累用于网站的URL层级中在该网页处或在该网页下面提及的所有位置。可以积累分值或影响分值的一个或多个因素(例如位置的源、以及位置的频率等等)。返回参见框750，所积累的分值或分值因素可以被用来确定每一个位置的置信度值。即，所有的位置信息及其源可以被加权来确定在每一个位置的置信度。重申，可以对每一个网页进行置信度评分，其中置信度分值是在网站拓扑结构中仅在特定网页下面的网页上的信息的函数。

返回参见框760，确定哪些位置(如果存在)被认为与网页确信地相关联。机器学习系统可以被用来决定如何加权不同种类的“位置置信度”证据(例如参见，于2003年11月13日提交的、名称为“RANKINGDOCUMENTS BASED ON LARGE DATA SETS(基于大型数据集对文档进行排名)”、并且将Jeremy Bern、Georges Harik、Noam Shazeer、Simon Tong以及Joshua Levenberg列为发明人的美国专利申请No.10/706,991(称为“‘991申请”并且在此以引用的方式并入)；以及于2003年12月15日提交的、名称为LARGE SCALE MACHINELEARNING SYSTEMS AND METHODS(大型机器学习系统和方法)、并且将Jeremy Bern、Georges Harik、Noam Shazeer、Simon Tong以及JoshuaLevenberg列为发明人的美国专利申请No.10/734,584(称为“‘584申请”并且在此以引用的方式并入)，其描述了可以被使用的机器学习技术。又参见，Springer出版、T.Hastie、R.Tibshirani以及J.H.Friedman撰写的The Elements of Statistical Learning(统计学习的要素)(2003年7月30日)。)。证据的示例可以包括证据的源(例如在网页上的地址、黄页数据、域注册、数据等等)、证据到当前网页的路径(例如沿层级向上)、大写、上下文等等。可以使用从对于其存在可靠的证据(例如黄页数据通常是非常可靠的)的网页抽取的示例来训练机器学习系统。在系统被训练后，其可以被用来加权在每一个网页处对每一个位置名称积累的信息。仍参见框760，而非将置信度应用于阈值以找出是否将位置信息与目的(汇点)网页相关联，在符合本发明的至少一些实施例中，置信度水平可以被用于确定位置和目的(或汇点)网页的关联的力度(如用于IR目的)。即，置信度水平可以被用来确定(a)是否进行关联，和/或(b)关联的力度。

在符合本发明的至少一些实施例中，如果存在太多被认为相关的位置，则可能希望不把任何这些位置沿网站向上传播(到网站的主页)。因而，相异位置的数目可以用于证据的加权。例如，对于给定的网页，如果存在许多不同地址的证据，则可能希望不将任何一个地址传播到该网页，或当对于包括地址中的一个或多个的查询被认为相关搜索结果时传播这样的地址但在随后的评分中给予其较少的权重。考虑例如位置遍及美国的麦当劳的全国性特许店。在这样的方案中，可能不希望把所有那些位置向上传播到用于麦当劳网站的主页。这是因为大量的位置不是麦当劳网站的高度描述。此外，尽管前述涉及在每个网页的基础上对证据的分析或对所传播的位置信息的加权，但是应用某些网站范围的测试可以是有用的。例如，网站被认为包括多于预定数量(例如20)的不同地址，可能希望不将任何地址传播到网站的任何网页。

如果模型的结论是网页可能与一个或多个位置相关联，则位置被认为可能与网页有关。返回参见框770和780，然后可以将位置与网页相关联，并且可以存储(例如保存)该关联。

在符合本发明的至少一些实施例中，位置信息可以仅被向上传播到网站的主(或根)页。

在符合本发明的至少一些实施例中，当处理查询时，倘若在查询中除位置外还存在其它重要单词，则可以给予网页具有位置的所有单词的信用。即，可能希望：如果查询仅关于地址，则不将增加的位置信用给予网页。如果另一方面，在查询中存在其它重要的、非位置单词，则可能希望给予每一个位置单词如同用于查询的最有力度的重要非位置单词一样多的信用(或不比其更多的信用)。如果存在与网站相关联的许多位置，则可能希望减少给予的信用量。

尽管上面描述的实施例中的一些涉及沿网站的拓扑结构向上传播高度描述性信息，但是符合本发明的至少一些实施例可以将这样的信息沿网站的拓扑结构向下或跨越网站的拓扑结构传播(例如，首先向上，然后向下)。

§4.2.2 示例性装置

图11是可以用来以符合本发明的方式执行至少一些操作和存储至少一些信息的装置1100的框图。装置1100主要包括一个或多个处理器1110、一个或多个输入/输出接口单元1130、一个或多个存储设备1120以及用于帮助在所耦接的元件之间通信信息的一个或多个系统总线和/或网络1140。一个或多个输入设备1132和一个或多个输出设备1134可以与一个或多个输入/输出接口1130耦接。

一个或多个处理器1110可以执行机器可执行指令(例如，在可从加利福尼亚州帕罗奥多市的Sun Microsystems公司得到的Solaris操作系统上或者可从诸如北卡罗莱纳州德翰市的红帽公司的若干卖方广泛得到的Linux操作系统上运行的C或C++)，以执行本发明的一个或多个方面。机器可执行指令的至少部分可以被存储(临时地或更永久地)在一个或多个存储设备1120上和/或可以经由一个或多个输入接口单元1130从外部源接收。

在一个实施例中，机器1100可以是一个或多个常规的个人计算机。在这种情况下，处理单元1110可以是一个或多个微处理器。总线1140可以包括系统总线。存储设备1120可以包括系统存储器，诸如只读存储器(ROM)和/或随机存取存储器(RAM)。存储设备1120也可以包括用于读写硬盘的硬盘驱动器、用于读写(例如可移动的)磁盘的磁盘驱动器以及用于读写诸如压缩盘的可移动的(磁)光盘或其它(磁)光学介质的光盘驱动器。

用户可以通过诸如键盘及指示设备(例如鼠标)的输入设备1132将命令和信息输入到个人计算机中。也可以(或替选地)包括诸如麦克风、操纵杆、游戏垫、卫星碟盘、扫描仪、或类似物的其它输入设备。这些和其它输入设备通常通过耦接到系统总线1140的适当接口1130连接到处理单元1110。输出设备1134可以包括监视器或其它类型的显示设备，其也可以经由适当的接口连接到系统总线1140。除监视器之外(或将其替代)，个人计算机可以包括诸如扬声器和打印机的其它(外围)输出设备(未示出)。

上面描述的操作可以在一个或多个计算机上执行。这样的计算机可以经由诸如因特网的一个或多个网络彼此通信。例如返回参见图1和2，客户端设备110、搜索工具130、内容提供者180等等可以通过一个或多个机器1100来具体化。

§4.2.3 精化和替选

符合本发明的至少一些实施例可以使用不同的技术来确定网站对于词语是否具有“权威性”。例如，如果搜索词语是已知的(例如注册商标)，则商标所有者的网站可以被认为对该商标词语具有“权威性”。如上所述，可以考虑各种证据源并且可以对全体证据进行加权。

返回参见图4的440和450、图6的660和670以及图7的770和780，可以以各种方式将所识别的信息与所识别的网页相关联。例如，诸如图2中所示的倒序索引226的倒序索引可以被修改，以反映所识别的信息与所识别的网页的关联。更具体地，词语(例如单词或短语)可以指向各种{网页标识符、权重}对。权重可以被称为命中计数。例如，考虑被映射到用于在辛辛那提的华美达旅馆的网页(ID#＝1234)的词语“Ramada(华美达)”。倒序索引最初可以包括信息：

Ramada->...，{ID#1234，5}，...

进一步假设用于华美达的网站的主页对关键词“Ramada(华美达)”具有权威性并且假设希望将“Ramada(华美达)”向下传播到网站的其它网页。在关联和保存动作之后，倒序索引现可以包括信息：

Ramada->...，{ID#1234，25}，...

权重因此可以被增加。

替选地，可以应用特定类型的权重提升，使得其可以选择性地在某些情形中使用，而在其它情形中不使用(例如基于搜索查询)。即，其在一些情形中可以被用来提升权重，而在其它情形中不提升权重(例如基于搜索查询)。在这样的实施例中，词语(例如单词或短语)可以指向各种{网页标识符、权重、权重提升}三元组。使用如上类似的示例，倒序索引最初可以包括信息：

Ramada->...，{ID#1234，5，nul}，...

在关联和保存动作之后，倒序索引然后可以包括信息：

Ramada->...，{ID#1234，5，3}，...

尽管权重提升被示为变量，但是其可以仅是指示是否提升权重的二进制值。在符合本发明的一些实施例中，即使二进制值指示应当提升权重，但在某些环境中(例如查询的因素)，提升权重可以被阻止或减少。

在符合本发明的至少一些实施例中，可以将“提升”应用于网页的分值(例如，IR分值和/或页面排名分值等等)或分值的组件。提升量可以是分值的函数，使得具有高分值的网页最初获得比具有较低初始分值的网页更大的提升。例如，提升可被应用为：

score’＝score*(1+boost*score)

其中boost(提升)和score(分值)都大于1。

尽管上面描述的实施例是在用户搜索查询的环境中，但是符合本发明的实施例可以被应用于其它应用，诸如广告导向生成或本地广告定向。

在符合本发明的至少一些实施例中，查询可以根据在处理查询时是希望使用修订的网页信息还是希望使用原始的网页信息来处理。作为一个示例，可以将两个过滤器应用于查询以在查询包括地理词语信息时决定要使用哪些修订的页面信息。在下面论述了这些过滤器的每一个。

对于第一过滤器，可以基于其在查询中是否以地理词语出现的方式出现，离线生成可能是地理词语的词语的列表。例如，地理词语通常在如“hotels in X(在X的旅馆)”的查询中出现。如果在类似查询中的潜在地理词语的所有出现的分数(fraction)显著低于用于多数地理词语的相应分数，则该词语可以被认为是非地理的。例如，尽管“MS”(“Mississippi(密西西比)”的缩写)是地理词语，但是其可以指许多其它事物，如在短语“MS California”中。作为规则，可能希望不将“MS”作为地理词语对待，除非其在查询中以短语出现，如通常在地理上下文中出现的“Jackson MS”。因而，可以基于具有在如“hotels inX(在X的旅馆)”的查询中其的出现的显著高分数的词语、以及指示地理的类似查询形式，来生成地理词语的列表。然后，在为查询对网页进行评分时，仅使用用于已被证实为地理的词语的修订的地理网页信息。这样做避免了对于如“MS California”的查询的问题。

对于第二过滤器，可以离线生成在查询中非常频繁出现的如“hotel(旅馆)”、“pizza(匹萨)”等等的词语的列表。然后，即使查询的一些词语被识别为是地理的，仍然可以不使用修订的信息除非查询的至少一个其它单词不是常见单词。这避免了对于如“London Hotels(伦敦旅馆)”的查询的问题，其中希望提供与关于一般意义上的伦敦旅馆的网页相对应的搜索结果，而不是仅仅与各个旅馆相对应的一些搜索结果。

在上述至少一些实施例中，与网站的网页相关联地保存的信息(例如词语)(使得该网页对于包括这些信息的搜索查询具有比该网页在其他情况下具有的搜索分值更高的搜索分值)来自于同一网站的另一个网页。然而，在符合本发明的至少一些实施例中，这样的信息(例如词语)可以来自不属于该网站的文档。例如，假设第一网站的第一网页包括地址和靠近该地址、指向第二网站的第二网页的引用(例如链接)。这可以暗示在第一网站的第一网页上找到的地址可能与第二网站的第二网页有关。因而，可以将该地址与第二网页相关联地保存，使得第二网页对于包括该地址(或可能该地址的部分)的搜索查询具有比该第二网页在其他情况下具有的搜索分值更高的搜索分值。

实际上，信息的源不必是网页，并且关系不必是链接。例如，考虑包括企业名称和企业的地址(例如，公司的主营业地)的SEC档案、企业执照档案等等。如果网站被注册给企业、或具有包括企业名称的URL、或突出显示企业名称，但是没有地址信息，则符合本发明的至少一些实施例可以获取SEC档案、企业收录(第一文档)等等的地址(信息)，确定指定的企业的网站(与第一文档相关的第二文档)，并且与该网站的主页相关联地保存该地址，使得该主页对于包括该地址(或可能该地址的部分)的搜索查询具有比其在其他情况下具有的搜索分值更高的搜索分值。注意，第二示例与使用其它信息源来获取证据以验证信息是某一类型稍微不同。

如前述示例所说明，信息的源不必是同一网站上的网页，并且甚至不必是网页。

在符合本发明的至少一些实施例中，信息(例如词语)可以必须属于可能与其它文档有关的某类信息(例如地址)。换言之，信息不需要不加区别地与网页相关联地被保存。相反，可以将信息限于某些种类或类型的信息。信息的种类的示例可以包括地址、电话号码、企业类型、页面风格等等。

在符合本发明的至少一些实施例中，信息的源根本不必是特定的文档。相反，信息的源可以是词语之间的关系。关系应当密切。例如，如果网页包括词语“Cleveland(克利夫兰)”，则信息可以是“Ohio(俄亥俄州)”。作为另一个示例，如果网页包括带有在芝加哥的区号的电话号码，则信息可以是“Chicago(芝加哥)”。作为又一个示例，词语“Michelangelo(米开朗基罗)”和“Sistine Chapel(西斯廷教堂)”极度相关。因而，可以将带有词语“Sistine Chapel(西斯廷教堂)”的网页与词语“Michelangelo(米开朗基罗)”相关联，使得如果搜索查询包括“Michelangelo(米开朗基罗)”，则该网页将接收比其在其他情况下具有的搜索分值更高的搜索分值。因而，信息(例如，Ohio(俄亥俄州)、Chicago(芝加哥)、Michelangelo(米开朗基罗)等等)可以不是源自文档或网页，所述文档或网页与信息将与之相关联的网页具有特定关系。相反，可以基于与网页上的信息的关系来确定信息。词语的关系的力度可以是取决于关系的方向。例如，将词语“virus(病毒)”与关于“computer security(计算机安全)”的网页相关联可以是有用的，但将词语“computer security(计算机安全)”与关于“virus(病毒)”的网页相关联可能是不会有用的。可以使用各种信息扩展技术来确定与种子词语相关的一个或多个词语。

§4.3 示例性实施例的操作的示例

§4.3.1 示例1：向下传播权威性信息

图8示出了将权威性网站内信息向下传播到网站的网页的示例。(例如，回想图6的示例性方法600。)假设华美达的网站800的主页810对词语“Ramada(华美达)”具有权威性。例如，假设包括文本“Ramada(华美达)”的多数链接指向Ramada.com网站上的网页。(回想图6的框620。)可以使用额外的检查来验证在查询中的词语，以证实当用户使用该词语时事实上其通常是想要该网站。

在该示例中，假设除包括网页www.ramada.com/Ramada/control/press_releases_list 828和下面的836外，网站上的所有其它网页都与主页“相关”。(回想图6的框640和650。)即，不会将所识别的信息“Ramada(华美达)”与网站800的“新闻稿”类型网页828、836相关联。

可以将所识别的信息-“Ramada(华美达)”-与在华美达的网站800上的与主页810相关的未排除的网页822和其子页831、832、833、842、844、846，网页824和其子页834，以及网页826和其子页835相关联。可以通过将ramada.com中每一个未排除的网页的副本(例如，回想图2的库214)、或得自这样的网页用于IR的信息注解为对于词语“ramada(华美达)”具有主题性，来进行这样的关联。应当进行这些关联，使得搜索引擎使用的技术将考虑与词语“ramada(华美达)”更相关的这些网页。例如，当处理查询时，如果查询包含整个词语，则每一个所注解的网页可以被认作为：具有指向其的N(例如6)个额外的网页、将短语用作为锚点文本，因此当使用Google搜索技术时提升该页面的页面排名分值。

§4.3.2 示例2：向上传播高度描述性信息

图9示出了将高度描述性网站内信息向上传播到网站900的网页910的第一示例。网站900用于越南餐馆“Saigon II(西贡II)”。假设网站900的主(或根)网页910不包括餐馆的地址，但是网站900的较低网页922包括地址123 Main Street，Anytown，CA(加利福尼亚州Anytown的Main街123号)。地址可以被识别(回想图7的720。)。进一步假设“123 Main Street，Anytown，CA”可以被认为是具有所希望的水平的置信度的地址或位置(例如，因为词语“street(街)”、州缩写“CA”、地址的语法等等)。用于网站900的主页910可以被给予关于(例如被视为包括)位置“123 Main Street，Anytown，CA”的信用(例如对于搜索的目的)，即使位置的名称没有在主页910上出现。

另外，网站900的网页924包括餐馆的菜单项。菜单项之一是“pho”(牛肉面汤)。假设“pho”被认为是高度描述性词语(例如，因为其在网页的宽泛集合中很少被用到)。该词语也可以被识别并被向上传播到网站900的主页910。因而，网站900的主页910可以被给予关于(例如被视为包括)词语“pho”的信用(例如对于搜索的目的)，即使该词语没有在主页910上出现。

假设来自位于(或靠近)加利福尼亚州Anytown的客户端设备的查询提交了对“pho restaurants(pho餐馆)”的查询并且假设该查询信息补充有该客户端设备的位置。主页910与餐馆相匹配。此外，由于主页910已补充有来自网页922的位置和来自网页924的词语“pho”，所以主页910也与来自查询的词语“pho”和所识别出的客户端设备的位置相匹配。因而，主页910因为被补充有位置和描述性词语“pho”而被发现为比其在其他情况下与该搜索更加相关。

§4.3.3 示例3：向上传播高度描述性类别信息

图10示出了将网站内信息向上传播到网站1000的网页1010的第二示例。在该示例中，网站1000用于电子零售商Best Buy(百思买)。主(或根)页面1010包括指向与各种产品类别相对应的各种网页1021-1025的链接。这些网页1021-1025又包括指向与特定产品相对应的各种网页1031-1035的链接。

假设产品类别被认为是高度描述性的。在该示例中，这样的产品类别可以在网页1021-1025中被识别并且被向上传播到网站1000的主页1010。因而，网站1000的主页1010可以被给予关于(例如被视为包括)词语“televisions(电视)”、“computers(计算机)”、“videogames(视频游戏)”、“DVD”、“CD”、“cameras(照相机)”和“video cameras(视频照相机)”的信用(例如对于搜索的目的)，即使这些词语没有在主页1010上出现。(注意，词语“best buy”也可以被向下传播到网站1000的网页1021-1025和1031-1035。)

假设接收了对“televisions and video games(电视和视频游戏)”的搜索。在该示例中，用于Best Buy的主页1010对于这样的查询将比其在其他情况下更相关。

§4.4 结论

如可以从前述所理解的，改进搜索引擎使得其比仅使用与网页直接有关的信息(例如，在网页和其结构上的词语、在指向网页的锚点中的词语、网页的页面排名等等)的自动搜索引擎返回更好的搜索结果将是有用的。

Claims

1.一种计算机实现的方法，包括：

a)接受与网站有关的信息；

b)识别与所述网站的第一网页有关的词语，所述词语对于处理包括所述词语的搜索查询的目的可能应当与所述网站的另一个网页有关；

c)确定与所述第一网页具有特定关系的所述网站的第二网页；

d)确定是否应当将所识别的词语与所述第二网页相关联；以及

e)如果确定应当将所述词语与所述第二网页相关联，则保存所识别的词语与所述第二网页的所述关联，使得所述第二网页对于包括所识别的词语的搜索查询将具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值。

2.如权利要求1所述的计算机实现的方法，其中确定是否应当将所述词语与所述第二网页相关联的所述动作包括：

1)使用对第一组信息的第一测试来确定所述词语是否可能与所述第二网页有关，以及

2)如果确定所述词语可能与所述第二网页有关，则使用对第二组信息的第二测试来确定是否应当将所述词语与所述第二网页相关联。

3.如权利要求1所述的计算机实现的方法，其中使用除所述特定关系外的证据来识别与所述网站的第一网页有关的所述词语，所述词语对于处理包括所述词语的搜索查询的目的可能应当与所述网站的另一个网页有关。

4.如权利要求3所述的计算机实现的方法，其中所述特定关系是在两个网页之间存在的链接。

5.如权利要求1所述的计算机实现的方法，其中识别词语的所述动作识别与所述网站极度相关联的词语。

6.如权利要求5所述的计算机实现的方法，其中所述词语是搜索查询词语，并且其中识别与所述网站极度相关联的搜索查询词语的所述动作使用过去的用户搜索查询和对与所述网站相对应的搜索查询的过去的用户选择。

7.如权利要求5所述的计算机实现的方法，其中识别与所述网站极度相关联的词语的所述动作使用指向所述网站的一个或多个网页的引用的锚点文本，所述锚点文本包括所述词语。

8.如权利要求5所述的计算机实现的方法，其中识别与所述网站极度相关联的词语的所述动作使用黄页条目，所述黄页条目列出(1)作为企业名称的所述词语，以及(2)作为用于所述企业的主页的所述网站的网页。

9.如权利要求5所述的计算机实现的方法，其中识别与所述网站极度相关联的词语的所述动作使用商标注册信息，所述商标注册信息列出(1)作为商标的所述词语，以及(2)作为主页的所述网站的网页。

10.如权利要求5所述的计算机实现的方法，其中识别与所述网站极度相关联的词语的所述动作使用域名注册信息，所述域名注册信息列出(1)在域名中的所述词语，以及(2)所述网站的所述主页。

11.如权利要求2所述的计算机实现的方法，其中如果确定所述词语可能与所述第二网页有关则使用对第二组信息的第二测试来确定是否应当将所述词语与所述第二网页相关联的所述动作包括

-确定所述第二网页是否是某一类型，以及

-如果所述第二网页是某一类型，则确定不应当将所述词语与所述第二网页相关联。

12.如权利要求11所述的计算机实现的方法，其中某一类型选自包括以下的网页类型的组：(A)新闻稿网页、(B)留言板网页、(C)论坛网页以及(D)外语网页。

13.如权利要求2所述的计算机实现的方法，其中如果确定所述词语可能与所述第二网页有关则使用对第二组信息的第二测试来确定是否应当将所述词语与所述第二网页相关联的所述动作包括：

-确定在所述第二网页和所述第一网页之间的最短链接数，以及

-如果所确定的最短链接数大于预定值，则确定不应当将所述词语与所述第二网页相关联。

14.如权利要求5所述的计算机实现的方法，其中保存所识别的词语与所述第二网页的所述关联，使得所述第二网页对于包括所识别的搜索查询词语具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的信息检索组件。

15.如权利要求5所述的计算机实现的方法，其中保存所识别的词语与所述第二网页的所述关联，使得所述第二网页对于包括所识别的搜索查询词语的搜索查询具有比所述第二网页在其他情况具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的页面排名组件。

16.如权利要求1所述的计算机实现的方法，其中所识别的词语是短语。

17.如权利要求1所述的计算机实现的方法，进一步包括：

(f)接收包括所识别的词语的搜索查询；以及

(g)增加具有所保存的与所识别的搜索词语的关联的所述第二网页的所述搜索结果分值。

18.如权利要求17所述的计算机实现的方法，其中所述搜索结果分值增加的量值是所述第二网页的未增加的搜索结果分值的函数。

19.如权利要求1所述的计算机实现的方法，其中所识别的词语是高度描述性信息。

20.如权利要求19所述的计算机实现的方法，其中所述高度描述性信息是位置。

21.如权利要求19所述的计算机实现的方法，其中所述高度描述性信息是地址。

22.如权利要求19所述的计算机实现的方法，其中所述高度描述性信息是罕见词语。

23.如权利要求22所述的计算机实现的方法，其中罕见词语是在网页和网站的集合中以少于预定的频率出现的词语。

24.如权利要求19所述的计算机实现的方法，其中所述高度描述性信息是产品类别。

25.如权利要求19所述的计算机实现的方法，其中保存所识别的高度描述性信息与所述第二网页的所述关联，使得所述第二网页对于包括所述高度描述性信息中的至少一些的搜索查询具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的信息检索组件。

26.如权利要求19所述的计算机实现的方法，其中保存所识别的高度描述性信息与所述第二网页的所述关联，使得所述第二网页对于包括所述高度描述性信息中的至少一些的搜索查询具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的页面排名组件。

27.如权利要求19所述的计算机实现的方法，其中在所述网站的主网页或根网页上找不到所述高度描述性信息，并且

其中所述第二网页是所述网站的所述主网页或根网页。

28.如权利要求2所述的计算机实现的方法，其中所识别的词语是高度描述性信息，并且其中对第二组信息的所述第二测试包括：

A)确定对所述候选高度描述性信息的置信度水平，以及

B)确定所确定的置信度水平是否大于预定的阈值，其中仅在确定所确定的置信度大于预定的阈值时才将所识别的候选高度描述性信息与所述第二网页相关联。

29.如权利要求28所述的计算机实现的方法，其中确定对所述候选高度描述性信息的置信度水平的所述动作包括分析所述候选高度描述性信息是高度描述性信息的证据。

30.如权利要求29所述的计算机实现的方法，其中所分析的所述证据来自于除了所接受的与所述网站有关的信息外的源。

31.如权利要求29所述的计算机实现的方法，其中分析所述候选高度描述性信息是高度描述性信息的证据的所述动作包括将所述证据应用为到已训练的机器学习分类器的输入。

32.如权利要求1所述的计算机实现的方法，其中所述网站具有拓扑结构并且，

其中所述第二网页在所述网站拓扑结构中比所述第一网页更高。

33.如权利要求32所述的计算机实现的方法，其中第二网页是所述网站的根页或主页。

34.如权利要求1所述的计算机实现的方法，其中所述网站具有拓扑结构并且，

其中所述第一网页在所述网站拓扑结构中比所述第二网页更高。

35.如权利要求34所述的计算机实现的方法，其中第一网页是所述网站的根页或主页。

36.一种计算机实现的方法，包括：

a)识别与第一文档有关的词语。

b)确定所识别的词语对于处理包括所述词语的搜索查询的目的是否属于可能与一个或多个其它文档有关的信息种类；以及

c)如果确定所识别的词语对于处理包括所述词语的搜索查询的目的属于可能与一个或多个其它文档有关的信息种类，则

1)确定与所述第一文档具有特定关系的第二文档，使得所述种类的信息可能与具有所述关系的文档有关，

2)确定是否应当将所识别的词语与所述第二文档相关联，以及

3)如果确定应当将所述词语与所述第二文档相关联，则保存所识别的词语与所述第二文档的关联，使得所述第二文档对于包括所识别的词语的搜索查询具有比所述第二文档在其他情况下具有的搜索分值更高的搜索分值。

37.如权利要求36所述的计算机实现的方法，其中所述第一文档是属于第一网站的网页，并且其中所述第二网页属于除所述第一网站外的网站。

38.如权利要求36所述的计算机实现的方法，其中所述第一文档是第一网页并且其中所述第二网页与所述第一网页的所述特定关系是从所述第一网页到所述第二网页的链接。

39.如权利要求36所述的计算机实现的方法，其中所述第一文档是第一网页并且其中所述第二网页与所述第一网页的所述特定关系是从所述第二网页到所述第一网页的链接。

40.如权利要求36所述的计算机实现的方法，其中识别与第一文档有关的词语并且确定所识别的词语对于处理包括所述词语的搜索查询的目的是否属于可能与一个或多个其它文档有关的信息种类的所述动作：

-识别与所述第一文档所属的网站极度相关联的词语。

41.如权利要求36所述的计算机实现的方法，其中所述词语是搜索查询词语，

其中所述第一文档属于网站，并且

其中识别与第一文档有关的词语并且确定所识别的词语对于处理包括所述词语的搜索查询的目的是否属于可能与一个或多个其它文档有关的信息种类的所述动作：

-使用与所述网站相对应的过去的用户搜索查询和对搜索结果的过去的用户选择来识别与所述网站极度相关联的搜索查询词语。

42.如权利要求36所述的计算机实现的方法，其中识别与第一文档有关的词语并且确定所识别的词语对于处理包括所述词语的搜索查询的目的是否属于可能与一个或多个其它文档有关的信息种类的所述动作：

-使用黄页条目来识别与所述网站极度相关联的词语，所述黄页条目列出(1)作为企业名称的所述词语，以及(2)作为用于所述企业的主页的所述网站的网页。

43.如权利要求36所述的计算机实现的方法，其中识别与第一文档有关的词语并且确定所识别的词语对于处理包括所述词语的搜索查询的目的是否属于可能与一个或多个其它文档有关的信息种类的所述动作：

-使用商标注册信息来识别与所述网站极度相关联的词语，所述商标注册信息列出(1)作为商标的所述词语，以及(2)作为主页的所述网站的网页。

44.如权利要求36所述的计算机实现的方法，其中识别与第一文档有关的词语并且确定所识别的词语对于处理包括所述词语的搜索查询的目的是否属于可能与一个或多个其它文档有关的信息种类的所述动作：

-使用域名注册信息来识别与所述网站极度相关联的词语，所述域名注册信息列出(1)在域名中的所述词语，以及(2)所述网站的所述主页。

45.如权利要求36所述的计算机实现的方法，进一步包括：

(d)接收包括所识别的词语的搜索查询；以及

(e)增加具有所保存的与所识别的词语的关联的所述第二文档的所述搜索结果分值。

46.如权利要求36所述的计算机实现的方法，其中所识别的词语是高度描述性信息。

47.如权利要求46所述的计算机实现的方法，其中所述高度描述性信息是位置。

48.如权利要求46所述的计算机实现的方法，其中所述高度描述性信息是地址。

49.如权利要求46所述的计算机实现的方法，其中所述高度描述性信息是罕见词语。

50.如权利要求49所述的计算机实现的方法，其中罕见词语是在网页和网站的集合中以少于预定的频率出现的词语。

51.如权利要求46所述的计算机实现的方法，其中所述高度描述性信息是产品类别。

52.如权利要求46所述的计算机实现的方法，其中保存所识别的高度描述性信息与所述第二文档的所述关联，使得所述第二文档对于包括所述高度描述性信息中的至少一些的搜索查询具有比所述第二文档在其他情况下具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的信息检索组件。

53.一种装置，包括：

a)用于接受与网站有关的信息的装置；

b)用于识别与所述网站的第一网页有关的词语的装置，所述词语对于处理包括所述词语的搜索查询的目的可能应当与所述网站的另一个网页有关；

c)用于确定与所述第一网页具有特定关系的所述网站的第二网页的装置；

d)用于确定是否应当将所识别的词语与所述第二网页相关联的装置；以及

e)用于如果确定应当将所述词语与所述第二网页相关联，则保存所识别的词语与所述第二网页的所述关联，使得所述第二网页对于包括所识别的词语的搜索查询具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值的装置。

54.如权利要求53所述的装置，进一步包括：

(f)用于接收包括所识别的词语的搜索查询的装置；以及

(g)用于增加具有所保存的与所识别的搜索词语的关联的所述第二网页的所述搜索结果分值的装置。