CN1601528B

CN1601528B - 用于基于客户机的web蠕动的系统和方法

Info

Publication number: CN1601528B
Application number: CN2004100769424A
Authority: CN
Inventors: E·D·布里尔; C·A·米克
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-09-25
Filing date: 2004-09-03
Publication date: 2011-04-13
Anticipated expiration: 2024-09-03
Also published as: US7685296B2; AU2004205329A1; TW200516466A; TWI367428B; US20050071766A1; RU2383920C2; CA2478358A1; KR101153138B1; ZA200407180B; BRPI0403803A; MY143875A; EP1519281A3; CN1601528A; JP2005135381A; AU2004205329B2; RU2004125187A; MY146316A; JP4668567B2; KR20050030542A; EP1519281A2

Abstract

本发明提供了各种系统和方法，用于利用分布式web爬虫来从联网系统获得信息。利用服务器的客户机的分布式性质来提供快速、准确的web蠕动数据。将服务器的web爬虫所搜集的信息与该服务器的客户机所检索的数据进行比较，以更新该爬虫的数据。在本发明的一个实例中，通过利用经由搜索引擎结果网页而加以传播的信息，来实现数据比较。在本发明的另一个实例中，由概括web爬虫数据的客户机词典(从服务器发出)来实现数据证实。本发明也通过提供用于抵抗web爬虫的电子欺骗法的方法，以提高数据准确度，来促进数据分析。

Description

用于基于客户机的WEB蠕动的系统和方法

技术领域

本发明一般涉及数据分析，更具体地说，涉及用于利用分布式web爬虫(crawler)来从联网系统获得信息的系统和方法。

发明背景

计算机和联网技术从高成本、低性能的数据处理系统发展为低成本、高性能的通信、问题求解和娱乐系统，这提供了一种有成本效益并节省时间的方法，可减轻执行诸如通信联系、帐单支付、购物、预算和信息搜集等日常任务的负担。例如，经由有线或无线技术而与因特网接口的计算机系统可以为用户提供通道，用于对来自位于全世界的web站点和服务器的仓库的大量信息进行几乎瞬间的访问，而这只运作于该用户的指尖。

通常，经由在web客户机(例如，计算机)上执行的web浏览器，来访问经由web站点和服务器可获得的信息。例如，通过将web站点“统一资源定位器”(URL)(例如，web地址和/或因特网地址)输入web浏览器的地址栏，并且通过按压键盘上的回车键或利用鼠标来单击“进行(go)”按钮，web用户可以部署web浏览器并访问web站点。该URL通常包括促进访问的四个信息：指出关于信息交换的一套规则和标准的协议(供计算机彼此通信的语言)、到该web站点的位置、维持该web站点的组织的名称和识别组织类型的后缀(例如，com、org、net、gov和edu)。

在一些实例中，用户先验地知道站点或服务器的名称，以及/或者到用户希望访问的站点或服务器的URL。在这类情况中，如上所述，通过在地址栏中输入URL并连接到该站点，用户可以访问站点。但是，在大多数实例中，用户不知道URL或站点名。用户而是使用搜索引擎，以促进根据用户所提供的关键字来定位站点。一般而言，该搜索引擎由可执行应用程序或程序组成，这些可执行应用程序或程序在web站点和服务器的内容中搜索关键字，并将链接清单返回到在那里发现这些关键字的web站点和服务器。基本上，该搜索引擎并入web “爬虫”(aka，“蜘蛛”或“机器人”)，该web“爬虫”检索与其关联的URL一样尽可能多的文档。然后，存储该信息，以便索引器可以处理被检索的数据。该索引器读取这些文档，并根据每个文档中所包含的这些关键字和该文档的其他属性来创建区分优先次序的索引。各自的搜索引擎通常使用专用算法来创建索引，以便为查询返回有意义的结果。

这样，web爬虫对于搜索引擎的操作而言至关重要。为了提供当前和最新的搜索结果，该爬虫必须不断地搜索web，以发现新的网页、更新旧的网页信息并除去被删除的网页。在因特网上发现的网页数量庞大得无法估计。所以，要求web爬虫极端快速。由于大多数web爬虫通过轮询提供这些web网页的服务器来搜集其数据，因此，当访问特定的服务器时，爬虫也必须尽可能地谨慎。否则，该爬虫会非常迅速地吸收该服务器的所有资源，并导致该服务器关闭。通常，爬虫在访问服务器的web网页之前，向服务器识别自身，并寻求许可。这时，服务器可以拒绝对窃取该服务器的所有资源的滥用的爬虫进行访问。web网页宿主服务器通常受益于搜索引擎，因为这些搜索引擎允许用户更容易地找到其web网页。这样，只要爬虫不耗尽该服务器的所有资源，大多数服务器就欢迎爬虫，以便该服务器的内容可以被用户更好地利用。

爬虫向服务器识别自身的下降趋势之一是：该服务器随后会“欺骗”该爬虫。服务器通常具有它们不想向通用因特网暴露的保护区。当爬虫识别自身时，它也被告知它无法访问什么区域。如果该爬虫想要保持与那个特定服务器的工作关系，则它会遵守该服务器的要求。但是，如果服务器想要欺骗或伪装其真实的内容，则它会将该爬虫提交给模仿那个服务器的真实的URL、但包含“替换”内容的网页区。这样，通常只提供关于猫的信息的服务器可以在只有web爬虫访问的部分中设立具有关于狗的信息的其URL。实行这一点，以便当用户搜索“狗”时，搜索引擎将示出该服务器的关于猫的web网页。通常，当服务器的内容引起社会反对时，利用电子欺骗法，但该服务器希望将其内容扩散到其正常的“关键字”以外。利用这种方式，可以通过使用诸如花、狗、猫、天气等普通的词，在搜索引擎清单中返回引起反对的材料。电子欺骗法降低了利用该被欺骗的web爬虫数据的搜索引擎的准确度和信誉。

发明概述

为了提供对本发明的一些方面的基本理解，下文呈现了本发明的简化的概述。此概述不是本发明的广泛纵览。它并不意在识别本发明的关键/紧要的元件或勾画出本发明的范围。它唯一的目的是：用简化的形式来呈现本发明的一些概念，作为以后提出的更加详细的说明的序言。

本发明一般涉及数据分析，更具体地说，涉及用于利用分布式web爬虫来从联网系统获得信息的系统和方法。利用服务器的客户机的分布式性质来提供快速、正确的web蠕动(crawling)数据。将服务器的web爬虫所搜集的信息与该服务器的客户机所检索的数据进行比较，以更新该爬虫的数据。在本发明的一个实例中，通过利用经由搜索引擎结果网页而传播的信息，来实现数据比较。在本发明的另一个实例中，由概括web爬虫数据的客户机词典(从服务器发出)来实现数据证实。在本发明的一个方面中，来自弱指示器函数集的“弱指示器”函数被随机地发送到客户机。这些弱指示器函数比服务器的web爬虫发现的所有URL的总清单小得多，从而极大地减少了服务器-客户机通信量。这促进了对服务器-客户机接口的简化，同时保持了web爬虫的数据的最佳准确度。

本发明通过提供用于抵抗web爬虫的电子欺骗法的方法来提高数据准确度，还可促进数据分析。使用本发明的服务器通过将其web爬虫数据与客户机所提供的数据进行比较，可以抵抗电子欺骗法。这允许该服务器从其搜索引擎中排除被欺骗的数据，从而可获得更高质量的搜索引擎结果。这个性能促进过滤出通常在无害搜索期间不被返回的引起反对的材料，从而提供了关于该搜索引擎的客户机的更具用户友好性的体验。

为了实现前述目标和有关的目标，这里连同下文和附图来描述本发明的某些说明性方面。但是，这些方面只表现出可以使用本发明的原理的各种方法中的一些方法，并且，本发明意在包括所有这类方面及其相等物。通过本发明的以下的详细说明并结合这些附图，本发明的其他优点和新颖的特点可以变得一目了然。

附图简述

图1是根据本发明的某个方面的数据分析系统的框图。

图2是根据本发明的某个方面的数据分析系统的另一幅框图。

图3是根据本发明的某个方面的数据分析系统的另一幅框图。

图4是根据本发明的某个方面的数据分析系统的又一幅框图。

图5根据本发明的某个方面的、利用搜索网页结果的数据分析系统的插图。

图6是根据本发明的某个方面的、涉及web爬虫系统的电子欺骗过程的框图。

图7是根据本发明的某个方面的、涉及web爬虫系统的反电子欺骗过程的框图。

图8是根据本发明的某个方面的基于客户机的web蠕动的方法的流程图。

图9是根据本发明的某个方面的基于客户机的web蠕动的方法的另一幅流程图。

图10是根据本发明的某个方面的基于客户机的web蠕动的方法的另一幅流程图。

图11是根据本发明的某个方面的基于客户机的web蠕动的方法的另一幅流程图。

图12是根据本发明的某个方面的、用于为基于客户机的web蠕动生成弱指示器函数的适当集合的方法的流程图。

图13展示了本发明可以在其中运作的范例操作环境。

图14展示了本发明可以在其中运作的另一个范例操作环境。

发明详述

现在参照这些附图(其中，各处使用相似的参考数字来提及相似的元件)来描述本发明。在下文中，出于解释的目的，陈述了众多特殊的细节，以提供对本发明的彻底的理解。但是，可能显而易见，本发明可以在没有这些特殊细节的条件下加以实践。在其他实例中，用框图形式表现了众所周知的结构和设备，以促进对本发明的描述。

如本申请中所使用的，术语“部件”意在指计算机相关实体——硬件、硬件和软件的组合、软件或执行中的软件。例如，部件可能是(但不局限于是)在处理器上运行的进程、处理器、对象、可执行项、执行线程、程序和/或计算机。举例说明，在服务器上运行的应用程序和该服务器都可以是计算机部件。一个或多个部件可能驻留在执行进程和/或线程内，并且，部件可能定位在一台计算机上并/或被分布在两台或更多台计算机之间。“线程”是该操作系统核心安排执行的进程内的实体。如该技术领域中众所周知的，每个线程具有关联的“上下文”，该关联的“上下文”是与该线程的执行相关联的易失数据。线程的上下文包括系统寄存器的内容，以及属于该线程的过程的虚拟地址。这样，包括线程的上下文的实际数据在执行时会发生变化。

本发明提供了保持web文档的索引的各种改进的系统和方法。它也可以被用来为其他类型的信息检索和保持数据。传统的web爬虫所具有的某些缺点通过本发明得到了缓和。每台客户机(例如，访问Web的任何人的机器)存储局部信息，所以，它可以了解：网页自从上次被该客户机访问以后是否已改变。如果它已改变，则该客户机随后可以将该信息传达给该搜索引擎。同样，服务器可以使用关于客户机所访问的网页的信息，来发现该服务器当前不知道的网页。对于内联网和因特网搜索而言，有效地找到文档并保持关于那些文档的当前消息是一项非常重要的任务。本发明也可以被用于诸如内联网搜索的上下文中，其中，使网页蠕动并使网页信息在服务器上保持刷新是一项更大的挑战。

搜索引擎(关于因特网、内联网或在其他方面)的重要部件是数据或文档爬虫。该文档爬虫执行两项主要任务：找到将要由该搜索引擎要被索引的未知文档，并尝试确保它具有关于每个已知文档的最新消息。这两项任务很难完成，并且(连同网页等级质量)在搜索引擎之中的最重要和可见的质量微分器之中。文档爬虫通常基于服务器模型。搜索引擎通过拓扑搜索来使Web蠕动。从已知网页的种子集合开始，该爬虫遵循来自那些网页的链接，从而能够找到经由来自该种子集合的路径(URL参考集)而加以连接的所有网页。为了确保该搜索引擎具有文档收集的最新消息，必须频繁地重复该蠕动。由于该爬虫每次蠕动时都再访问网页，因此，它可以了解网页(或子图)变化的频率，并可以根据其过去的变化频率来使某些网页比其他网页更加频繁地蠕动。

基于当前服务器的蠕动范例有许多弱点。首先，爬虫只能够找到可以由始于这些种子文档之一的以下链接来达到的web网页。最近的研究表明：很大百分比的web网页当前没有被任何搜索引擎编入索引。其次，当该爬虫碰巧再访问该网页时，该搜索引擎只能够了解对文档的更改(例如，内容更改或一网页不再存在)。

本发明提供了各种系统和方法，用于按补救上述弱点的方法来有效地找到文档(例如，数据)并保持关于已知文档的最新知识。经由基于分布式客户机的蠕动，来实现这一点。每台客户机(例如，访问Web的任何人的机器)存储局部信息，所以，它可以了解：网页自从上次被该客户机访问以后是否已改变。如果它已改变，则该客户机随后可以将该信息传达给该搜索引擎。同样，该服务器可以使用关于这些客户机所访问的网页的信息，来找到该服务器当前不知道的网页。

在图1中，展示了根据本发明的某个方面的数据分析系统100的框图。在本发明的这个实例中，数据分析系统100由编号从1到“N”的客户机102-106(其中，N表示从1到无穷大的任何数字)、通信系统108、搜索服务器110和网页服务器112组成。客户机102-106包括关于搜索服务器110的web网页信息的一组“分布式资源”。它们一般用于将新的URL、web网页更改和类似物经由通信系统108提供给搜索服务器110。通信系统108由因特网和/或内联网以及类似物组成。出于搜索服务器110与客户机102-106之间的通信目的，它提供了一种访问方法。它也允许客户机102-106与其他网页服务器112和/或搜索服务器110以及其他服务器之间的通信，用于搜集网页信息。本质上，web爬虫功能性被分布在搜索服务器110和客户机102-106之中，而不是只在搜索服务器中运行。搜索服务器110利用客户机102-106来从网页服务器112那里获得信息，以促进对其自己的信息的提炼。通过分配该功能性，本发明提供了搜索引擎可以从中利用数据的更加新式、更具鲁棒性的防欺骗的数据集。

参考图2，表现了根据本发明的某个方面的数据分析系统200的另一幅框图。数据分析系统200由客户机202和服务器204组成——具有在它们之间共同操作的通信装置。在典型操作期间，服务器204主宿-web爬虫，该web爬虫在诸如因特网等通信网络中搜索主宿网页的其他服务器。该爬虫编译关于这些网页的信息源，用于网页搜索引擎。然后，服务器204将该网页信息的表示发送到客户机202。这为客户机202提供了一种性能：当它访问主宿那个特定网页的服务器时，独立地验证网页信息。客户机202也可以检测服务器204不知道的网页。这允许客户机202编译关于已知和未知网页的更改/状态和/或新的信息。然后，将该信息传送到服务器204。服务器204利用该信息来提炼其原始的爬虫web网页数据。通过具有分布式资源，服务器204扩大其爬虫性能，而不会加重于其自己的直接资源(例如，处理器利用、存储空间等)的负担。此外，由于web爬虫通常向它访问的每个服务器识别自身，因此，它有被重定向到那个服务器上的假数据的危险。服务器也可能限制web爬虫可以施加于该服务器的资源的访问和时间的数量。访问服务器的客户机通常没有这些限制，并且不被重定向到假数据。这样，客户机的网页数据可以被用来纠正web爬虫所编译的假数据。以下更详细地描述本发明的这个方面。

参考图3，描绘了根据本发明的某个方面的数据分析系统300的另一幅框图。数据分析系统300由客户机系统部件302和服务器系统部件304组成——具有在它们之间共同操作的通信系统(CS)306。在本发明的这个实例中，客户机系统部件302由CS界面部件308、客户机控制部件310和数据存储部件312组成。CS图形用户界面(GUI)部件308为用户提供界面，该界面通常针对所使用的一种类型的通信系统。这种界面的一个例子是被用来至少在万维网上按用图形方式中继信息的web浏览器。Web浏览器也可以被用来在内联网(例如，在一家公司内供应的web网页)上“冲浪”。在本发明的其他实例中，可以利用基于文本的界面和类似物(而不是图形用户界面)来中继类似的信息。通常，是这个部件308允许用户在驻留于与通信系统306连接的远程服务器上的搜索引擎上运行搜索查询。这样，CS GUI部件308从通信系统306传送并/或接收信息。客户机控制部件310在促进web蠕动方面，提供对客户机的控制。客户机控制部件310接收并/或传送涉及诸如web网页和类似物等信息的数据。客户机控制部件310处理算法，跟踪数据更改和状态，并且/或者为数据分析系统300中的客户机控制局部数据存储。客户机控制部件310也可以利用从web爬虫接收到的信息来分析来自CS GUI部件308的信息，以确定差异和类似物。客户机控制部件310允许客户机作为关于web爬虫和类似物的“分布式资源”来参与。客户机控制部件310也可以访问被存储的数据，并将信息提供给CS GUI部件308。在本发明的一个实例中，CS GUI部件308传送并/或接收嵌入式爬虫数据。这样，客户机控制部件310与GUI部件308连接，以便按这种方式来接收并/或发送嵌入式爬虫相关数据。同样，客户机控制部件310也可以按相同的方式从服务器那里发送并/或接收控制。在本发明的另一个实例中，客户机控制部件310可以类似于服务器来进行运作，并可以按对等方式将控制提供给其他客户机。精通该技术领域的人将会认识到：客户机控制部件310和该CSGUI部件的功能性可以被组合在单一部件内。也可以将客户机用作分布式资源，而无须具备CS GUI部件308。本发明的这个实例的例子将会包括(但不局限于)客户机中继并/或控制另一台客户机。数据存储部件312被用来存储(例如)来自服务器的爬虫数据、来自客户机的爬虫数据、web网页更改、新的网页数据、客户机控制参数和类似物。数据存储部件312可以直接与客户机控制部件310和/或CS GUI部件308连接，这取决于所使用的本发明的这个实例。数据存储部件312也可以是诸如硬驱动器、随机存取存储器、只读存储器、可移动介质、CD-ROM和类似物等数据存储设备。在本发明的另一个实例中，被存储在数据存储部件312上的信息可以由服务器直接访问，而无须与CS GUI部件308或客户机控制部件310接口。在一些实例中，这允许更快的数据检索。

在本发明的一个实例中，通信系统306是互联网(例如，“因特网”)。通信系统306也可以是内联网系统(例如，广域网(WAN)和/或局域网(LAN)和类似物)。例如，通信系统306也可以利用更多传统的通信装置(例如，电话系统、无线电系统、光信号(光学)系统、音响系统和类似物)。精通该技术领域的人将会认识到：其他的全局和局部网络结构也可以被本发明用作通信系统306。

服务器系统部件304由搜索引擎部件314、分布式资源控制部件316、爬虫部件318、数据存储部件320和任选的CS数据主宿部件322组成。在本发明的一个实例中，爬虫部件318利用通信系统306来访问服务器和/或代理服务器，以获得网页相关信息(例如，网页内容、使用年限、规模、URL、嵌入式链接和类似物)。然后，将该信息存储在数据存储部件320中。数据存储部件320可以是诸如硬驱动器、随机存取存储器、只读存储器、可移动介质、CD-ROM和类似物等数据存储设备。搜索引擎部件314提供关于所有web网页的搜索性能，这所有的网页由web爬虫318揭示并被存储在数据存储部件320中。搜索引擎部件314从用户那里接收搜索请求/查询，并访问数据存储部件320上的信息，以编译将要发送给该用户的链接清单和web网页数据。这样，在典型的系统中，搜索部件314可以只依靠爬虫部件318所获得的信息。但是，在本发明的实例中，分布式资源控制器316促进被存储在数据存储部件320中的信息的编译，从而允许它更具鲁棒性、更新式、更具包含性。例如，分布式资源控制部件316提供对分布式资源(例如，作为单一分布式爬虫或“基于客户机的web爬虫”而相互作用的、服务器的各台客户机)的控制。例如，部件316提供这种功能性，诸如：分析从分布式资源(例如，客户机系统部件302和类似物)接收的数据；确定功能、数据分配及其定时，为这些分布式资源提供算法，以便确定已知的爬虫数据、接收数据更新和/或增加、将数据更新和/或增加存储在数据存储部件320中；确定这些分布式资源的优化利用，为搜索引擎部件314提供网页数据，以便允许为特定的搜索查询而将数据嵌入搜索结果网页，为互联网服务供应者提供网页数据，以便生成包括嵌入式网页链接信息的网页，并跟踪诸如计数、类型、欺骗百分比、来源和类似物等数据特征。在本发明的另一个实例中，搜索网页部件314为分布式资源控制部件316发送并/或接收信息，而不是部件316直接访问通信系统306。

在本发明的实例中，任选的CS数据主宿部件322跟通信系统306和分布式资源控制部件316接口。CS数据主宿部件322提供网页主宿性能，以便使用户能够访问网页。由于CS数据主宿部件322可与分布式资源控制部件316相互作用，因此，它可以接收网页链接信息并将其直接嵌入其被主宿的web网页。在本发明的其他实例中，CS数据主宿部件322直接与数据存储部件320接口，以访问用于嵌入web网页的信息。在本发明的另一个实例中，CS数据主宿部件322与搜索引擎部件314接口，以访问用于嵌入其web网页链接的信息。在本发明的又一个实例中，CS数据主宿部件322可以驻留在分布式资源(例如，客户机)中。CS数据主宿部件322也可以驻留在可以访问服务器系统部件304的另一个服务器中。在这个实例中，该客户机(或服务器)实际上将会成为关于被主宿的网页的服务器，并从其局部存储器和/或其他本地装置提供用于嵌入web网页链接的信息。

精通该技术领域的人将会理解：虽然独立地描述每个部件，但是，本发明的其他实例中的部件可以包括与其他部件关联的功能性。同样，可以排除一些部件，而无须改变本发明的范围。

继续进行到图4，展示了根据本发明的某个方面的数据分析系统400的另一幅框图。数据分析系统400由客户机系统部件402和服务器系统部件404组成——具有在它们之间共同操作的通信系统406。在本发明的这个实例中，服务器系统部件404由分布式资源控制部件414和数据存储部件416组成。缩写服务器系统部件404，以便在从客户机系统部件402接收网页信息方面，强调本发明的实例。通常，信息经由通信系统406流入和流出分布式资源控制部件414。客户机系统部件402由客户机控制部件408、数据存储部件410和任选的通知部件412组成。在本发明的这个实例中，通知部件412控制从客户机系统部件402流到服务器系统部件404的数据。在本发明的其他实例中，通知部件412也控制客户机系统部件402与其他客户机系统部件之间的对等通信。明确地说，通知部件412确定什么时候和/或什么数据将要从客户机系统部件402那里被加以传送。可以根据累积的web网页数据的规模来确定是否已发现服务器系统部件404不知道的链接、对web网页的更改的重要性(例如，50％或更多的内容更改和/或高优先级网页更改和类似的更改)、日时许可、以及/或者由分布式资源控制部件414和类似物设置的通用时间许可。通知部件412也可以利用算法来确定其自己的重要性因素和/或其自己的数据传送的定时时间表。精通该技术领域的人将会理解：通知部件412的功能性可以驻留在客户机控制部件408和/或图4中没有展示的其他客户机系统部件内。

为了充分地理解本发明，可描述操作例子。在本发明的一个实例中，基于分布式客户机的爬虫操作如下。假设存在服务器，该服务器接收关于潜在的新web网页和web网页的内容/状态更改、以及与该服务器进行通信的一组客户机的进入的客户机消息。这些客户机可以是被用于web浏览的个人计算机，也可以是被用来为个人计算机供应网页的代理服务器。用工具装备这些客户机，以便搜集关于所观看的web网页的信息，它可以包括(但不局限于)(1)被用来达到web网页的URL、(2)该web网页的内容的散列、(3)该web网页的内容和(4)访问时间。在本发明的一些实例中(例如，代理服务器和类似物)，持续所有的该信息可能是不切实际的，一些信息可能只持续某段时期。

在本发明的另一个实例中，客户机记录在特定时期内从特定的浏览器或代理服务器那里访问的web网页的URL，然后将这个URL集发送到服务器。然后，该服务器检验它以前不知道哪些URL，并将这些URL加入已知URL清单，供将来进行蠕动/下载/索引。这允许与该服务器关联的搜索引擎了解拓扑蠕动可能还没有发现的web网页。

为了减少从客户机被发送到服务器的信息量，客户机可以将信息保持在本地，该信息关于：它是否已向该服务器通知特定的URL；并且，如果它还没有这样做，则只可以将信息发送到该服务器。有一些众所周知的方法，用于：通过经由散列函数而将每个文档映射到整数，然后通过检验这两个散列值是否相同，来高效地确定两个网页是否相同。如果与URL关联的内容的最新近的散列不同于与该URL关联的该内容的以前的散列，那么，该内容已发生变化。每当客户机访问网页时，它都为那个网页计算散列值。如果该客户机以前访问过该网页，则它检验该散列值是否已发生变化。如果已发生变化，则该客户机已确定该网页自从上次被该客户机访问以后已发生变化，并可以通知服务器。该客户机将这个新的<url，hash value>对记录在本地。

客户机可以通过许多不同的方法来向服务器通知变化。最简单的方法是：仅仅发送“URL内容/状态已改变”的消息。然后，该服务器可以按排时间，以尽可能快地再蠕动那个网页。为了回避需要再访问网页的服务器，客户机可以发送附加信息。如果该客户机具有来自其上次访问的该网页的高速缓存副本，则它可以发送旧的散列值连同新、旧版本之间的差异以及新的散列值。该服务器首先为那个网页检验：该客户机的旧的散列值是否与该服务器的当前散列值相匹配。如果相匹配，则它可以相应地更新该网页内容。注意，一些文档更改比其他文档更改更重要。例如，在一种情况中，整个网页可能改变；而在另一种情况中，只有单个逗句号已被加入一个句子。该客户机可以计算变化的重要性，并且要么(a)利用该信息来为“它发送给该服务器的什么更新”区分优先次序，要么(b)将该重要性值连同其他网页信息一起发送给该服务器，所以，该服务器可以使用该信息来为其对该网页的再蠕动/再索引区分优先次序。变化重要性函数的例子包括(但不局限于)这类项目，诸如：已改变的文档百分比、变化的语言/语义重要性、以及将会受到该变化和类似物的影响的用户搜索百分比的估计。也可以通过估计网页的普及程度，来加权重要性。

前述通信装置的一个缺点是：它导致客户机与服务器之间的重大的通信量开销。例如，如果100台客户机第一次都访问网页“X”，则每台客户机向服务器发送消息：它已发现网页“X”。同样，一旦已向该服务器通知那个网页“Y”已改变，它就不需要额外的客户机来通知它。这样，以下提供了本发明的额外的实例，它们导致客户机与服务器之间的不需要的通信大大减少。

参考图5，表现了根据本发明的某个方面的、利用搜索网页结果的数据分析系统500的插图。数据分析系统500由客户机502(具有搜索结果网页506)和搜索服务器504(具有用于从客户机502到服务器504进行发送508和接收510的通信装置)组成。在本发明的实例的第一个例子中，客户机502向服务器504通知更改的web网页，但不发送任何额外的信息。当用户利用搜索引擎时，搜索服务器504为客户机提供结果，这些结果包括该内容的服务器版本的散列和刷新标记，该刷新标记为搜索结果网页506中的每个web网页指出：是否知道这些内容不是刷新的。如果客户机502访问搜索结果网页506中的网页之一，则它首先检验服务器504是否已经知道该网页不是刷新的(例如，另一台客户机已通知服务器504，但服务器504还没有刷新该网页)，计算该网页的内容的散列，并将它与该搜索引擎提供过的那个散列进行比较。如果它们不一致，则客户机502随后向服务器504发送通知：与那个URL关联的内容已改变。当服务器504接收到该通知时，它更改该刷新标记的状态，并将该URL加入优先队列，用于再蠕动。

对于客户机将网页差异信息发送到服务器的情况(它可以被用于供该服务器在不蠕动的条件下更新其关于web网页的信息，并且/或者可以被用于帮助为“该服务器何时应该再蠕动该web网页”区分优先次序)而言，可以扩展这个例子。可以通过让搜索引擎发送具有每个搜索结果的两个额外的字段(即上次客户机通知的时间和来自上次客户机通知的网页散列值)，来实现这一点。如果客户机访问由该搜索引擎返回的网页，并且，要么(a)已知未刷新的标记是假的，要么(b)已知未刷新的标记是真的，以及来自上次客户机通知的散列值不同于这台客户机为网页计算的散列值，那么，客户机通知服务器。也可以辨认网页更改的周期，以便如果网页重复地从A变成B、再变成C、再变成A，则本发明可以辨认那一点，并限制关于该网页的这些客户机更新。

除了减少客户机与服务器之间的不必要通信的数量以外，“经由搜索引擎结果网页的通信”的一个额外的好处是：它通过确保客户机只向服务器发送关于该服务器已经了解的web网页的信息，来避免一些可能的有关隐私的利害关系。利用这种方式，可确保：例如，该客户机不访问客户机认为被保密的网页，并将该网页的存在通知给该服务器。

本发明的前述实例的一个缺点是：服务器只可以了解关于它经由用户搜索查询而返回给客户机的网页的信息。通过向服务器通知经由任包搜索引擎而被返回给客户机的web网页，可以放松这个要求。用工具装备该客户机，以认识到：用户正在利用任何搜索引擎。当该客户机访问搜索结果时，它计算该内容的散列。如果该客户机以前访问过这个URL，那么，它将会已对关于该内容的散列进行高速缓存。如果这些散列不同，那么，该客户机可以将该URL和新的散列上载到该服务器(作为自从前一次访问以来的时间和其他信息的函数)。如果该客户机从未访问过该URL，那么，该客户机可以将该URL和新的散列上载到该服务器(作为自从前一次访问以来的时间和其他信息的函数)。

但是，如果客户机具有服务器知道的URL的完整清单的局部副本，那么，当它遇到潜在新颖的URL时，它可以只进行检验，以了解它是否在已知URL的清单内；并且，如果它已不在该清单内，则它可以只将该URL发送到该服务器。同样，如果该客户机具有关于该服务器知道的所有URL的<url，hash value>对的完整清单的本地副本，那么，若该信息对于该服务器而言是新的，则只需要发送更新信息。这种观念的问题是：将这些完整的清单传递给每台客户机是行不通的。例如，搜索引擎可能了解数十亿个URL，这是数亿字节的数据。除重要的带宽问题以外，期望每台客户机提供如此大量的本地存储器供这类清单专用也是不合理的。

作为选择，在本发明的另一个实例中，提供了一种通信装置，可排除这个重要的带宽问题。例如，假设：给出字母表S。于是，S*是包括来自S的字母的所有字符串的集合。将词典D定义为是集合S*中的字符串子集。关于词典D的指示器函数I——当且仅当d e D时，I：S*□{0，1}具有属性：I(d)＝1。关于词典D的弱指示器函数I_w是具有属性的函数，该属性是：I_w(d)＝0隐含d不在D中(换言之，对于所有的d e D，I_w(d)＝1，并且，关于不在D中的任何d，I_w(d)可以是0或1)。最后，将弱指示器函数I＝{I_w1，I_w2，...，I_wn}的适当的集合定义为具有关于不在D中的任何d的属性的弱指示器函数的有限集合，至少存在一个I_wi e I，使得I_wi(d)＝0。

这样，每台客户机从I接收随机选择的弱指示器函数。这些指示器函数比URL的总集小得多，所以，将它们发送到客户机是切实可行的。关于服务器已知的任何URL，指示器函数正确地确定：它是已知的。关于该服务器不知道的URL，它可能会虚假地将它标注为“已知”，在这种情况下，客户机不采取任何行动，或正确地将它标注为“未知”，在这种情况下，该客户机可以通知该服务器。通过弱指示器函数的适当集合的定义，可保证：在服务器不知道的客户机访问web站点的任何时候，都会有非零概率：客户机的指示器函数将把那个站点辨认为是新的。

为了进一步简化上文给出的那个例子，可假设：S＝{a，b，c，d}，S*中的所有字符串的长度小于4，并且，词典D＝{abc，adc，b，cbd，ddd}。关于这个词典的弱指示器函数的例子是：

当且仅当(第二个字符是{b，d，空}中的一个)时，I(字符串)＝1。

弱指示器函数可以为D而随机地构造如下：

(1)随机地将D分成两个非重叠的子词典D和D”。

(2)随机地选择关于D’的弱指示器函数I’，它包括形式“第i个字符是集合S(S是S的子集)的成员”的一个或多个术语的连接词。

(3)用相同的方法来任随机选择关于D”的弱指示器函数I”。

(4)当且仅当I’(x)＝1或I”(x)＝1时，创建函数I(x)＝1。

所有这类弱指示器函数的集合产生弱指示器函数的适当集合。通过让词典包括<url，page hash value>对，客户机词典也可以扩展到检测网页近来性的问题。

本发明的一个独特的方面是：它能够从专用爬虫的观点和客户机的观点来比较爬虫数据。随着服务器的复杂程度的提高，这尤其重要。利用“更智能”的软件，服务器能够更好地控制驻留在其内的数据的流动和访问。这包括：能够阻止任何或所有的用户访问在服务器上发现的部分或全部信息。在服务器访问和(甚至)访问时间特权方面，甚至可以为不同类型的用户提供不同的“许可级”。通常，这种提高的灵活性被用于建设性目的(例如，安全性、推行付费访问和防止恶意的剽窃)。但是，它经常被用来掩饰在该服务器上发现的web网页的真实内容。在图6中，表现了根据本发明的某个方面的、涉及web爬虫系统602的电子欺骗过程600的框图。过程600涉及web爬虫系统602和服务器604——具有在它们之间共同操作的通信系统606。web爬虫系统602由爬虫部件608和数据存储部件610组成。服务器604由服务器访问控制器612、欺骗数据614和实际数据616组成。当典型的爬虫部件608访问服务器604时，爬虫部件608向服务器634将自身识别为web爬虫。这被认为是“有礼貌”。有礼貌是自我管辖的，这体现在：通过忽视服务器规则来滥用服务器的web爬虫一般将来会被拒绝对该服务器的访问。对于依靠服务器访问来将内容提供给搜索引擎的用户的搜索引擎而言，被拒绝对服务器的访问特别关键。这样，爬虫通常遵守这些礼貌规则。其他的礼貌规则包括日时访问、服务器资源运用、数据的非破坏性检索和类似物。在这个例子中，服务器访问控制器612识别爬虫部件608，并且，服务器访问控制器612将爬虫部件608指引到欺骗数据614，而不是指示对实际数据616的访问。该欺骗数据通常包含与实际数据616相同、但具有不同内容的URL信息。通常实行这一点，来掩饰引起反对的内容。举例来讲，服务器604可以哄骗搜索引擎将具有狗内容的URL返回给搜索猫玩具的热情的爱猫者。服务器604利用这些正确的URL来编译欺骗数据614，但该内容已被更改为与猫有关的信息。但是，实际数据616包含与狗有关的信息。这样，爬虫部件608检索欺骗数据614，从而认为这些URL涉及猫，而实际上，它们涉及狗。然后，爬虫部件608将欺骗数据614存储在可由搜索引擎存取的数据存储部件610中。其后，经由该搜索引擎的、关于猫的搜索也将返回包含狗信息的URL。这个狗/猫例子可能看起来没有什么危险，但相同的技术也可以被用来掩饰诸如广告、色情文学、极端文学、颠覆团体、其他具有主观攻击性的资料和类似物等事物。

在图7中，表现了根据本发明的某个方面的、涉及web爬虫系统702的反电子欺骗过程700的框图。过程700涉及web爬虫系统702、客户控制部件704、web服务器706和提供互连性(interconnectivity)的通信系统708。Web爬虫系统702由爬虫部件710、具有欺骗数据714的数据存储部件712以及具有比较部件718的分布式资源控制部件716组成。如为图6而展示和描述的，爬虫部件710从web服务器706中检索欺骗数据714。然后，欺骗数据714被存储在数据存储部件712中。这时，典型的搜索引擎(在图7中未示出)访问欺骗数据714，并将其传播给不知其真实内容的该搜索引擎的用户。但是，通过利用本发明，可以排除欺骗数据714。可以实现这一点是因为这个事实：虽然服务器欺骗爬虫，但是，它通常不会欺骗访问其web网页的用户。由于本发明使用诸如客户机控制部件704等分布式资源，因此，客户机控制部件704可以作为用户来访问服务器706，并从服务器706中检索实际数据。然后，客户机控制部件704可以将该实际数据(或“客户机数据”)和/或该实际数据的表示转送到分布式资源控制部件716。然后，分布式资源控制部件716内的比较部件718可以检索被存储的欺骗数据714，并将它与从客户机接收的该实际数据进行比较。如果该数据不同，则分布式资源控制部件716可以重写驻留在数据存储部件712中的欺骗数据714，从而排除了这种不准确度。这允许搜索引擎访问它否则将不会获得的准确的数据。

鉴于以上所示和所描述的这些示范系统，将参照图8-12中的流程图来更好地理解可以根据本发明来加以实施的方法。出于简单解释的目的，这些方法被表现和描述为一系列方框，但将要理解：本发明并没有受到这些方框的顺序的限制，因为根据本发明，一些方框可能按与这里所示和所描述的顺序不同的顺序发生并且/或者与其他方框进发地发生。而且，可能并不是要求所有被展示的方框根据本发明来实施这些方法。

可以在由一个或多个部件执行的计算机可执行指令(例如，程序模块)的一般上下文中描述本发明。通常，程序模块包括执行特殊任务或实施特殊的抽象数据类型的例行程序、程序、对象、数据结构等。通常，在各种实施例中，可以按需要来组合或分配这些程序模块的功能性。

参考图8，展示了根据本发明的某个方面的基于客户机的web蠕动的方法800的流程图。通过客户机记录所获得的网页信息，同时访问网页804，方法800起动802。在本发明的简单的实例中，该信息只包含这些被访问的网页的URL。例如，本发明的更复杂的实例可以包括URL、该网页的内容的散列数据、时间标记和类似物。然后，该客户机将该网页信息发送到服务器806。在本发明的实例中，该客户机也可以向其他客户机通知该web网页信息。在简单的实例中，该信息又可以只包括URL；或者，在复杂的实例中，该信息又可以包括关于这些web网页的几种不同类型的数据。在本发明的一个实例中，该客户机生成从该web网页信息中得到的附加信息。例如，该数据可以包括可访问web网页的时限、访问的容易性(过载、再尝试连接等)、嵌入式链接状态和类似物。此外，该web网页信息可以被加以调度，以控制何时发送该信息。该调度可以由该客户机和/或该服务器来发起。用于发送该信息的标准可以包括(但不局限于)日时、时间长度、日期、所搜集的数据数量、所搜集的数据类型(例如，未知数据对已知数据、被发现的欺骗数据等)和类似物。为了减少从客户机被发送到服务器的信息量，在本发明的一个实例中，客户机可以将信息保持在本地，该信息关于：它是否已经向该服务器通知特定的URL；并且，如果它还没有这样做，则可以只将信息发送到该服务器。当该服务器接收该web网页信息时，它检查该信息，以确定：相对于它已累积的数据而言，是否有任何新的数据808。在本发明的简单的实例中，这包括：确定：与已存在于该服务器上的URL的累积清单相比较，任何URL是否是新的。当已发现未知的信息时，该服务器将该未知的信息加入其累积的或“已知的”数据810，从而结束该流程812。在本发明的一个实例中，该已知数据是URL清单，该URL清单被该服务器用于进行将来的web蠕动、下载和/或索引以及类似的操作。

参考图9，表现了根据本发明的某个方面的基于客户机的web蠕动的方法900的另一幅流程图。通过客户机为其已访问过的web网页的内容计算散列值，方法900起动904。当该客户机已访问该网页一次以上时，已为那个web网页计算并存储前一个散列值。然后，该客户机为web网页906而将刚刚计算的或“新近的”散列值与这前一个散列值进行比较。该客户机在执行这项比较的过程中，可以建立所发现的差异的重要性。例如，在一种情况中，整个web网页可能已改变；而在另一种情况中，只有一个逗号已被加入句子。该客户机可以计算变化的重要性，并且，(a)使用该信息来为“它发送到服务器的什么更新”区分优先次序并/或(b)将该重要性值连同其他web网页信息一起发送到该服务器，于是，该服务器可以使用该信息来为其对该网页的再蠕动/再索引区分优先次序。变化重要性的例子可以包括(但不局限于)已更改的文档百分比、变化的语言/语义重要性、受到变化影响的用户搜索百分比的估计和类似物。也可以通过估计网页的普及程度，来加权重要性。通常，该客户机web将网页状态信息存储在本地，并且在必要时更新该被存储的信息908。然后，客户机向服务器通知该web网页状态信息910。在本发明的实例中，该客户机也可以向其他客户机通知该网页状态信息。通知该服务器和/或客户机的方式可以包括(但不局限于)只有URL、URL加上新的散列和/或URL加上新的散列与旧的散列、以及类似物。然后，该服务器(或其他客户机)将该客户机网页状态信息(如果它除了URL以外还包含附加信息)与其自己的服务器网页状态信息进行比较912。如果该服务器只接收关于网页的URL，作为状态更改，则该服务器通常发起那个网页的再访问/蠕动，以获得新的状态信息，用于跟其先前的服务器网页状态信息进行比较。然后，该服务器在必要时更新其网页状态信息914，从而结束该流程916。为了回避需要再访问web网页的该服务器，客户机可以发送附加信息。如果该客户机具有来自其上次访问的该网页的高速缓存副本，则它可以发送这个旧的散列值，连同新、旧版本之间的差异以及这个新的散列值。该服务器首先检验该客户机的旧的散列值是否为那个网页而与该服务器的当前散列值相匹配。如果相匹配，则它可以相应地更新该网页内容。

在图10中，描绘了根据本发明的某个方面的基于客户机的web蠕动的方法1000的另一幅流程图。通过客户机启动搜索服务器1004上的搜索查询，方法1000起动1002。该搜索服务器解析该搜索查询，并响应于该查询来编译搜索结果清单1006。然后，该搜索服务器利用嵌入式网页链接信息来创立搜索结果网页1008。典型的信息可以包括(但不局限于)网页内容的服务器版本的散列和/或用于指出“对于每个网页而言，是否知道内容不是刷新的”标记(例如，另一台客户机已向该搜索服务器通知关于该web网页的新的更新，但该搜索服务器还没有刷新该web网页)。这样，具有“已知不是刷新的”标记的web网页是该搜索服务器不想要请求该搜索的该客户机发送关于它的更新信息的网页。然后，该搜索服务器将具有嵌入式链接的该搜索结果网页发送到请求过该搜索的那台客户机1010。当该客户机访问被列在该搜索结果网页上的web网页时，它检验该搜索服务器所提供的嵌入式刷新标记(或刷新状态)1012。当该刷新状态是“刷新”时，该客户机计算它访问的web网页的这些内容的散列1014。刷新状态指出：该搜索服务器相信它拥有web网页的最近的或最刷新的版本。这样，该客户机计算该网页的内容的新的散列，并将它与搜索服务器所提供的嵌入式散列进行比较1016。然后，只要在这个新的散列与该搜索服务器提供散列之间发现差异或Δ，该客户机就通知该搜索服务器1018。然后，该搜索服务器接收该通知，并将该刷新状态更新为“已知不是刷新的”，还将该web网页加入关于再蠕动的清单1020，从而结束该流程1022。在本发明的这个实例中，该再蠕动清单是该搜索服务器所利用的方法，用于更新具有“已知不是刷新的”状态的被列出网页的内容的其散列。该搜索服务器“再蠕动”或再访问该网页，以完成该更新。

在另一个实例中，上述方法被扩展成创立一种方法——其中，通过让该搜索服务器发送具有每个搜索结果的附加字段(包括(但不局限于)上次客户机通知的时间和来自上次客户机通知的web网页散列值)，客户机将网页差异信息发送到搜索服务器(它随后被用于供该搜索服务器在无须蠕动的条件下更新其关于web网页的信息，并且/或者在该搜索服务器应该再蠕动网页时用于促进区分优先次序)。如果客户机访问被该搜索服务器返回的网页，并且，要么(a)“已知不是刷新的”标记是假的，要么(b)“已知不是刷新的”是真的，以及来自上次客户机通知的散列值不同于该客户机为web网页计算的散列值，那么，该客户机通知该搜索服务器。也可以辨认网页更改的周期，以便如果网页重复地从A变成B、再变成C、再变成A，则它可以认出那一点，并限制关于这个网页的这些客户机更新。

通过利用搜索结果网页，如本发明所表示的，在基于客户机的web爬虫中，客户机与服务器之间的通信量急剧地减少。此外，由于“只有服务器已在搜索结果网页中提供的web网页被客户机更新”这个事实，客户机隐私得到保持。利用这种方式，如果客户机访问了已限制访问的web网页，则该信息不会因疏忽而被发送到搜索服务器。这种方法的优点也是一个缺点，这体现在：即使新的web网页不是私人的，该搜索服务器也无法利用客户机来扩大用于搜索中的其已知网页。

在本发明的另一个实例中，一种方法(未示出)不仅利用一个搜索服务器的网页信息，也利用其他搜索服务器的web网页信息。这样，另一个搜索服务器返回给客户机的新web网页可以被用来通知该搜索服务器：存在新的网页。这仍然为客户机保持隐私，因为它只向该搜索服务器通知该搜索服务器还没有列出的可公用的网页。这允许该搜索服务器增加未知的网页，而不会损害该客户机的委托。该通知可以包括(但不局限于)关于该web网页的URL、该web网页的内容的散列、web网页访问的时间标记、为该web网页而与前一个散列进行比较的新散列的Δ、以及类似物。

参考图11，表现了根据本发明的某个方面的基于客户机的web蠕动的方法1100的另一幅流程图。通过搜索服务器生成弱(有损的)指示器函数集1104，方法1100起动1102。以下讨论用于生成这些函数的该方法。该搜索服务器将随机地选择的弱指示器函数传送到包括基于客户机的web爬虫的客户机1106。然后，客户机为web网页生成网页数据，这些web网页被指出是该随机选择的弱指示器函数所不知道的1108。通常，只有这些未知的web网页被该弱指示器函数准确地表现。“已知的”web网页可能是或可能不是被真正地知道。然后，该客户机将该未知的web网页数据传送到服务器1110。然后，该服务器利用该数据来更新涉及网页的其信息1112，从而结束该流程1114。

参考图12，展示了根据本发明的某个方面的、用于生成关于基于客户机的web蠕动的弱指示器函数的适当集合的方法1200的流程图。通过将表示驻留在搜索服务器上的web网页信息的词典随机地分成非重叠的子词典1204，方法1200起动1202。通常，选择这些子词典，以便它们每个表示web网页信息分组之中的共同特性。然后，为每个子词典任意地选择弱(有损的)指示器函数，以表示在特定的子词典中发现的web网页信息1206。然后，当且仅当至少一个子词典的弱函数等于一时1208，创建函数，使得I(x)＝1，从而结束该流程1210。利用这种方式，生成弱指示器函数的“适当集合”。这样，例如，关于服务器已知的任何URL，该指示器函数正确地确定：它是已知的。关于该服务器不知道的URL，它可能虚假地将其标注为“已知”，在这种情况下，客户机不采取任何行动；或者，它可能正确地将其标注为“未知”，在这种情况下，该客户机可以通知该服务器。通过定义，弱指示器函数的适当集合保证：在服务器不知道的客户机访问web站点的任何时候，都有非零概率：该客户机的指示器函数将会把那个站点辨认为是新的。

为了提供用于实施本发明的各个方面的额外的上下文，图13和下文意在简要、概括地描述其中可以实施本发明的这各个方面的合适的计算环境1300。以上已在运行于本地计算机和/或远程计算机上的计算机程序的计算机可执行指令的一般上下文中描述了本发明，但精通该技术领域的人将会认识到：也可以结合其他程序模块来执行本发明。通常，程序模块包括执行特殊任务和/或实施特殊的抽象数据类型的例行程序、程序、部件、数据结构等。而且，精通该技术领域的人将会理解：这些发明的方法可以利用其他计算机系统配置(包括单一处理器或多处理器计算机系统、小型计算机、大型计算机、以及个人计算机、手持计算设备、基于微处理器的和/或可编程的消费电子设备和类似物，其中的每一项可以有效地与一个或多个关联的设备进行通信)来加以实践。本发明的所展示的各个方面也可以在分布式计算环境中加以实践，在这些分布式计算环境中，由通过通信网络而连接的远程处理设备来执行某些任务。但是，本发明的一些(如果不是全部的话)方面可以在独立的计算机上加以实践。在分布式计算环境中，程序模块可以位于本地记忆存储设备和/或远程记忆存储设备中。

如本申请中所使用的，术语“部件”意在指计算机相关实体、硬件、硬件和软件的组合、软件或执行中的软件。例如，部件可能是(但不局限于)在处理器上运行的过程、处理器、对象、可执行的、执行线程、程序和计算机。举例来讲，在服务器上运行的应用程序和/或该服务器可以是部件。此外，部件可能包括一个或多个子部件。

参照图13，用于实施本发明的各个方面的示范系统环境1300包括常规计算机1302，常规计算机1302包括处理单元1304、系统存储器1306和系统总线1308，系统总线1308将各种系统部件(包括该系统存储器)耦合到处理单元1304。处理单元1304可能是任何可购买到的或专用的处理器。此外，该处理单元可能作为由一个以上的处理器(例如，可能被并行连接)构成的多处理器来加以执行。

系统总线1308可能是几种类型的总线结构(包括存储总线或存储控制器、外围总线和使用各种常规总线结构(例如，说出一些有：PCI、VESA、微通道、ISA和EISA中的任何总线结构的局域总线)中的任何总线结构。系统存储器1306包括只读存储器(ROM)1310和随机存取存储器(RAM)1312。基本输入/输出系统(BIOS)1313被存储在ROM 1310中，该基本输入/输出系统包含有助于在计算机1302内的各个元件之间传送信息(例如，在启动期间)的这些基本例行程序。

例如，计算机1302也可能包括硬盘驱动器1316、磁盘驱动器1318(例如，用于从可移动磁盘1320读取或对其写入)和光盘驱动器1322(例如，用于从CD-ROM光盘1324或其他光学介质读取或对其写入)。硬盘驱动器1316、磁盘驱动器1318和光盘驱动器1322分别通过硬盘驱动器接口1326、磁盘驱动器接口1328和光驱接口1330而被连接到系统总线1308。驱动器1316-1322及其关联的计算机可读介质为计算机1302提供数据、数据结构、计算机可执行指令等的非易失存储。虽然对以上计算机可读介质的说明提及硬盘、可移动磁盘和CD，但是，精通该技术领域的人应该理解：计算机可读的其他类型的介质(例如，盒式磁带、快闪存储卡、数字化视频光盘、伯努里式磁带匣和类似的介质)也可以被用于示范操作环境1300中；并且，任何这类的介质都可能包含用于执行本发明的各种方法的计算机可执行指令。

许多程序模块可能被存储在驱动器1316-1322和RAM 1312中，包括操作系统1332、一个或多个应用程序1334、其他程序模块1336和程序数据1338。操作系统1332可能是任何合适的操作系统或各种操作系统的组合。举例来讲，应用程序1334和程序模块1336可以包括：根据本发明的一个方面，来促进基于客户机的web蠕动。

用户可以通过一个或多个用户输入设备(例如，键盘1340和指点设备(例如，鼠标1342))，来将命令和信息输入计算机1302。其他输入设备(未示出)可能包括话筒、操纵杆、游戏垫、圆盘式卫星电视天线、无线电遥控、扫描仪或类似的输入设备。这些和其他的输入设备经常通过被耦合到系统总线1308的串行端口接口1344而与处理单元1304连接，但也可能由其他接口(例如，并行端口、游戏端口或通用串行总线(USB))来加以连接。监视器1346或其他类型的显示设备也经由接口(例如，视频适配器1348)而连接到系统总线1308。除监视器1346以外，计算机1302可能包括诸如扬声器、打印机等其他外围输出设备(未示出)。

将会理解：计算机1302可以在使用与一台或多台远程计算机1360的逻辑连接的联网环境中进行操作。远程计算机1360可能是工作站、服务器计算机、路由器、对等设备或其他共同的网络节点，它通常包括相对于计算机1302而描述的许多或所有这些元件，尽管出于简洁的目的，图13中只展示了记忆存储设备1362。图13中所描绘的这些逻辑连接可以包括局域网(LAN)1364和广域网(WAN)1366。这类联网环境在办公室、企业范围的计算机网络、内联网和因特网中很普遍。

当被用于LAN联网环境中时，例如，计算机1302通过网络接口或适配器1368而连接到局域网1364。当被用于WAN联网环境中时，计算机1302通常包括调制解调器(例如，电话、DSL、电缆等)1370，或者被连接到LAN上的通信服务器，或者具有用于在WAN 1366(例如，因特网)上建立通信的其他装置。调制解调器1370(相对于计算机1302而言，可以是内置的或外置的)经由串行端口接口1344而连接到系统总线1308。在联网环境中，程序模块(包括应用程序1334)和/或程序数据1338可以被存储在远程记忆存储设备1362中。将会理解：所示的这些网络连接起示范的作用，并且，当执行本发明的某个方面时，可以使用在计算机1302与1360之间建立通信链路的其他装置(例如，有线的或无线的)。

根据精通计算机编程技术领域的人员的实践，除非另有指示，已参照计算机(例如，计算机1302或远程计算机1360)所执行的动作和操作的符号表示来描述本发明。这类动作和操作有时被称作“是计算机执行的”。将会理解：这些动作和用符号表示的操作包括：由表现数据比特的电信号的处理单元1304来进行处理，这引起该电信号表示的因此而产生的变换或减少；以及，将数据比特保存在该存储系统(包括系统存储器1306、硬驱动器1316、软盘1320、CD-ROM 1324和远程存储器1362)中的各个存储位置，从而重新配置或改变该计算机系统的操作和其他的信号处理。保存这类数据位的这些存储位置是具有与这些数据位相对应的特定的电、磁或光属性的物理位置。

图14是本发明可以与其相互作用的简单的计算环境1400的另一幅框图。系统1400进一步展示了包括一台或多台客户机1402的系统。客户机1402可以是硬件和/或软件(例如，线程、过程、计算设备)。系统1400也包括一个或多个服务器1404。服务器1404也可以是硬件和/或软件(例如，线程、进程、计算设备)。例如，服务器1404可以收容线程，以便通过使用本发明来执行变换。客户机1402与服务器1404之间的一种可能的通信可能采取适合在两个或更多的计算机过程之间被传送的数据包的形式。系统1400包括通信框构1408，通信框构1408可以被用来促进客户机1402与服务器1404之间的通信。客户机1402被切实可行地连接到一个或多个客户机数据存储器1410，客户机数据存储器1410可以被用来存储客户机1402本地的信息。同样，服务器1404被切实可行地连接到一个或多个服务器数据存储器1406，服务器数据存储器1406可以被用来存储服务器1404本地的信息。

在本发明的一个实例中，数据包在促进web蠕动的两个或更多的计算机部件之间被加以传送，该数据包至少部分地由涉及web蠕动的信息构成，该web蠕动至少部分地利用用于web蠕动的分布式系统。

在本发明的另一个实例中，计算机可读介质存储用于促进web蠕动的、系统的计算机可执行部件，该计算机可读介质至少部分地由web蠕动系统构成，该web蠕动系统至少部分地确定关于由用于web蠕动的分布式系统来编译的web网页的信息。

将会理解：可以在促进计算机部件并同样促进非计算机相关部件的web蠕动系统中利用本发明的各种系统和/或方法。另外，精通该技术领域的人将会认识到：本发明的这些系统和/或方法可用于大量的电子相关技术中，包括(但不局限于)计算机、服务器和/或手持电子设备、可以是有线的和/或无线的类似物、以及类似物。

精通该技术领域的人也将会理解：本发明不仅可以被用于基于服务器-客户机的蠕动系统，而且可以被用于对等蠕动系统。也有一种可能：客户机可以执行通常与“服务器”行为关联的任务分配，因此在本发明的一些实例中可将与该服务器关联的一些特征传送到该客户机。本发明的一个实例的例子是客户机，该客户机对其他客户机执行“子蠕动”，以确定并/或检索将发送到服务器的信息。例如，在某些客户机与服务器之间有瓶颈的网络中，这个实例会是有益的。可以将数据传送到具有对该服务器的最佳访问的客户机。在本发明的其他实例中，客户机可以通过启动内联网系统中的子蠕动来展示出服务器行为，从而只从存在于该内联网上的单一的和/或数量大大减少的客户机向服务器汇报信息。利用这种方式，搜索服务器可以启动客户机中的多个子蠕动，以扩大其蠕动资源。

以上的描述包括本发明的例子。当然，出于描述本发明的目的，不可能描述部件或方法的每个想得到的组合，但掌握该技术领域的普通技能的人可能会认识到：本发明的许多另外的组合和变更是可能的。相应地，本发明意在包含处于所附加的权利要求书的精神和范围以内的所有这类改变、修改和变化。此外，就术语“包括(includes)”被用于详细说明或权利要求书中而言，这种术语意在起包含的作用，其方式类似于术语“包括(comprising)”，因为“包括(comprising)”在使用时被解释为是权利要求中的传统词。

Claims

1.一种数据分析系统，其特征在于包括：

第一部件，用于促进生成与经由通信系统而获得的web网页信息有关的第一数据集；以及，

第二部件，用于协调来自与该通信系统交互作用的至少一个分布式资源的与web网页信息相关的第二数据集；该第二数据集被用来提炼该第一数据集；

其中提炼第一数据集包括以下至少之一：当通过该第二数据集从该分布式资源接收到新的信息时，将未知的信息添加进入该第一数据集中；和当如该第二数据集指出的那样在web网页信息的内容内发生更改时，更新该第一数据集内的现有信息；

其中该第二部件被进一步用来比较该第一数据集和该第二数据集，以检测由该第一部件检索的欺骗数据。

2.权利要求1的系统，其特征在于：该第一部件包括互联网web爬虫。

3.权利要求1的系统，其特征在于：该第一部件包括内联网web爬虫。

4.权利要求1的系统，其特征在于：该第二部件被进一步用来优化数据从至少一个分布式资源的接收。

5.权利要求1的系统，其特征在于：该第二部件提供调度功能，以控制该第二数据集从至少一个分布式资源的接收。

6.权利要求1的系统，其特征在于：通过使用表示该第一数据集的弱指示器函数的适当集合，可利用该第二部件来促进经由该通信系统的通信量的减少。

7.权利要求6的系统，其特征在于：该第二部件被进一步用来随机地选择弱指示器函数并将从弱指示器函数的这个适当集合中选择的弱指示器函数传送到至少一个分布式资源。

8.权利要求1的系统，其特征在于：该第二部件被进一步用来生成与该第一数据集相关的有关数据的状态信息；该状态信息被传送到至少一个分布式资源。

9.权利要求8的系统，其特征在于：该状态信息至少部分地包括用于指出与该第一数据集相关的信息的刷新的刷新标记。

10.权利要求8的系统，其特征在于：该状态信息至少部分地包括与该第一数据集相关的信息的内容的散列。

11.权利要求8的系统，其特征在于：该状态信息至少部分地包括该第一数据集的信息的副本。

12.权利要求1的系统，其特征在于：该通信系统包括互联网。

13.权利要求1的系统，其特征在于：该通信系统包括万维网。

14.权利要求1的系统，其特征在于：该通信系统包括内联网。

15.权利要求14的系统，其特征在于：该内联网包括局域网。

16.权利要求14的系统，其特征在于：该内联网包括广域网。

17.权利要求1的系统，其特征在于：至少一个分布式资源包括服务器的客户机。

18.权利要求1的系统，其特征在于：至少一个分布式资源包括跟该通信系统和该第二部件交互作用的被委托的实体。

19.权利要求1的系统，其特征在于：该第一数据集包括互联网web网页数据。

20.权利要求1的系统，其特征在于：该第一数据集包括内联网网页数据。

21.权利要求1的系统，其特征在于：该第二数据集被用来将附加的数据加入该第一数据集。

22.权利要求1的系统，其特征在于：该第二数据集至少部分地包括至少一个网页的内容的散列。

23.权利要求1的系统，其特征在于：该第二数据集至少部分地包括至少一个web网页的统一资源定位器URL。

24.权利要求1的系统，其特征在于：该第二数据集至少部分地包括涉及关于至少一个web网页的信息的采集时间的时间标记。

25.权利要求1的系统，其特征在于：该第二数据集至少部分地包括对至少一个web网页的内容的更改的Δ指示。

26.权利要求25的系统，其特征在于：该Δ指示至少部分地包括web网页的先前内容的散列和该网页的新近内容的散列。

27.权利要求1的系统，其特征在于：该第二数据集至少部分地包括对至少一个web网页的内容的更改的状态指示。

28.权利要求27的系统，其特征在于：该状态指示至少部分地包括涉及web网页内容的更改数量的百分比。

29.权利要求27的系统，其特征在于：该状态指示至少部分地包括用于表示web网页内容的更改的重要性的重要性指示器。

30.权利要求1的系统，其特征在于：该第二数据集包括互联网web网页数据。

31.权利要求1的系统，其特征在于：该第二数据集包括内联网网页数据。

32.权利要求1的系统，其特征在于：该第二数据集包括利用从弱指示器函数集中随机选择的至少一个弱指示器函数来加以编译的数据；这个弱指示器函数集表示该第一数据集。

33.权利要求1的系统，其特征在于：进一步包括搜索部件，用于接受至少一个搜索查询并生成至少一个搜索答复，该搜索答复具有被嵌入该搜索答复的信息所表示的该第一数据集的至少一个部分。

34.权利要求1的系统，其特征在于：进一步包括web网页服务器部件，用于创立web网页，这些网页具有被嵌入在至少一个被创立的web网页上发现的至少一个链接的信息所表示的该第一数据集的至少一个部分。

35.权利要求1的系统，其特征在于：进一步包括用于存储该第一数据集的存储部件。

36.一种用于促进数据分析的方法，其特征在于包括：

生成涉及从与通信系统交互作用的web网页获得的第二数据集的第一数据集；

从与该通信系统交互作用的至少一个分布式资源接收第三数据集；该第三数据集包括由至少一个分布式资源生成的web网页相关信息；以及，

提炼该第二数据集，以反映从该第三数据集获得的信息，其中提炼该第二数据集包括：

当经由该第三数据集而从该分布式资源接收新的信息时，将未知的信息加入该第二数据集；

当如该第三数据集所指出的那样已发生更改时，更新该第二数据集中的现有信息；以及，

在已分析来自该第三数据集的信息之后，重新设置被用来将状态信息传递给至少一个分布式资源的任何指示器；

将该第三数据集与该第二数据集进行比较，以揭示该第二数据集中所包括的欺骗数据。

37.权利要求36的方法，其特征在于：该第一数据集包括该第二数据集的表示。

38.权利要求37的方法，其特征在于：该第二数据集的这个表示至少部分地包括该第二数据集中所包含的至少一个web网页的内容的散列。

39.权利要求37的方法，其特征在于：该第二数据集的这个表示至少部分地包括该第二数据集中所包含的至少一个web网页的状态指示。

40.权利要求39的方法，其特征在于：该状态指示包括刷新标记，用于指出该web网页信息是否是当前的。

41.权利要求36的方法，其特征在于：该第一数据集包括该第二数据集的副本。

42.权利要求36的方法，其特征在于：该第二数据集包括由web爬虫编译的web网页信息。

43.权利要求36的方法，其特征在于：该第三数据集包括基于有关该通信系统的客户机访问的web网页信息的网页信息。

44.权利要求36的方法，其特征在于：该分布式资源包括分布式爬虫系统的客户机。

45.权利要求36的方法，其特征在于：该通信系统包括互联网。

46.权利要求36的方法，其特征在于：该通信系统包括内联网。

47.权利要求36的方法，其特征在于：进一步包括：

将该第一数据集传送到与该通信系统交互作用的至少一个分布式资源，从而使该第一数据集可以被该至少一个分布式资源用来生成该第三数据集。

48.权利要求37的方法，其特征在于：进一步包括：

生成弱指示器函数集，来表示该第二数据集；以及，

从这个弱指示器函数集中选择随机的弱指示器函数，以便作为该第一数据集而发送到至少一个分布式资源。

49.权利要求48的方法，其特征在于：这个弱指示器函数集包括弱指示器函数的适当集合，使得存在非零概率：随机选择的弱指示器函数可以识别新的网页。

50.权利要求48的方法，其特征在于：生成弱指示器函数集包括：

提供表示该第二数据集的词典；

将该词典随机地分成非重叠的子词典；以及，

当且仅当至少一个子词典的弱指示器函数等于一时，创建-等于一的词典弱指示器函数。

51.权利要求36的方法，其特征在于：进一步包括：

通过至少一个分布式资源的调度，来优化至少一个第三数据集的接收。

52.权利要求36的方法，其特征在于：进一步包括：

从至少一个分布式资源接收web网页搜索查询；

响应于来自该至少一个分布式资源的该web网页搜索查询，来生成web搜索结果网页；

将该第一数据集的各个部分嵌入在该web搜索结果网页上发现的链接中；以及，

将该web搜索结果网页作为该第二数据集的至少一个部分的表示来发送到该至少一个分布式资源。

53.权利要求36的方法，其特征在于：进一步包括：

利用该第一数据集的至少一个部分来创立web网页，以嵌入关于在该网页中发现的链接的信息；以及，

传送该网页，以便将该第一数据集传播给至少一个分布式资源。

54.一种数据分析系统，其特征在于包括：

用于从通信系统中生成至少一个与web网页信息有关的第一数据集的装置；

用于接收并协调来自与该通信系统交互作用的至少一个分布式资源的至少一个与web网页信息相关的第二数据集的装置；以及，

用于利用至少一个第二数据集来提炼该第一数据集的装置，其中提炼第一数据集包括以下至少之一：当通过该第二数据集从该分布式资源接收到新的信息时，将未知的信息添加进入该第一数据集中；和当如该第二数据集指出的那样在该web网页信息的内容内发生更改时，更新所述第一数据集内的现有信息；

用于比较该第一数据集和该第二数据集，以揭示欺骗数据的装置。

55.权利要求54的系统，其特征在于：该用于生成该第一数据集的装置包括web爬虫。

56.权利要求55的系统，其特征在于：该第一数据集包括涉及由该web爬虫获得的web网页的数据。

57.权利要求54的系统，其特征在于：该第二数据集包括web网页比较数据，该网页比较数据由至少一个分布式资源来编译并且至少部分地基于该第一数据集的代表数据。

58.一种数据分析系统，其特征在于包括：

第一部件，该第一部件与分布式web蠕动系统的至少一个客户机关联，该第一部件从至少一个被访问的web站点中生成web网页信息，用于该分布式web蠕动系统中；

第二部件，该第二部件与服务器关联，该第二部件通过通信系统接收由该第一部件传送的web网页信息，其中该第一部件从第二部件接收数据集，以用于该web网页信息的生成过程中，该第一部件根据该web网页信息和该接收的数据集来生成比较数据；该第一部件使该第二部件可以经由该通信系统来任意地获得该比较数据。

59.权利要求58的系统，其特征在于：该第一部件提供与在生成该网页信息的过程中所利用的数据的采集时间有关的至少一个时间标记。

60.权利要求58的系统，其特征在于：该第一部件从至少一个搜索结果网页接收嵌入式web爬虫数据集，以用于该web网页信息的生成过程中。

61.权利要求58的系统，其特征在于：该第一部件从至少一个web网页接收嵌入式web爬虫数据集，以用于该web网页信息的生成过程中。

62.权利要求58的系统，其特征在于：该第一部件可被用来经由该分布式web蠕动系统的至少一台其他的客户机而间接地获得web网页数据，以便将网关提供给第二部件，从而大大减少流到该第二部件的通信量。

63.权利要求58的系统，该生成的web网页信息至少部分地包括对至少一个web网页的内容的更改的状态指示。

64.权利要求63的系统，其特征在于：该状态指示至少部分地包括涉及web网页内容的更改数量的百分比。

65.权利要求63的系统，其特征在于：该状态指示至少部分地包括用于表示网页内容的更改的重要性的重要性指示器。

66.权利要求58的系统，其特征在于：该生成的web网页信息的至少一部分变得可用于经由该通信系统的对等客户机传输。

67.权利要求58的系统，其特征在于：利用从表示由web爬虫编译的web网页数据的弱指示器函数的适当集合中随机选择的弱指示器函数，来编译该生成的web网页信息。

68.权利要求58的系统，其特征在于：该通信系统包括互联网。

69.权利要求58的系统，其特征在于：该通信系统包括内联网。

70.权利要求58的系统，其特征在于：进一步包括用于存储该web网页信息的存储部件。

71.权利要求58的系统，其特征在于：进一步包括通知部件，该通知部件确定何时和是否将要经由该通信系统来传达该生成的web网页信息。

72.权利要求71的系统，其特征在于：该通知部件从第二部件接收调度信息；该调度信息涉及获得并传送该生成的web网页信息。

73.权利要求58的系统，其特征在于：该第一部件在该分布式web蠕动系统以外利用web搜索服务器，以检索该第二部件不知道的数据。

74.权利要求58的系统，其特征在于：该比较数据至少部分地包括至少一个web网页的至少一个统一资源定位器URL。

75.权利要求58的系统，其特征在于：该比较数据至少部分地包括表示新近的web站点访问的至少一个web网页的内容的散列。

76.权利要求58的系统，其特征在于：该比较数据至少部分地包括对至少一个web网页的内容的更改的Δ指示。

77.权利要求76的系统，其特征在于：该Δ指示至少部分地包括web网页的先前内容的散列和该网页的新近内容的散列。

78.权利要求58的系统，其特征在于：该第二部件包括该分布式web蠕动系统的服务器。

79.权利要求58的系统，其特征在于：该第二部件包括该分布式web蠕动系统的客户机。

80.权利要求58的系统，其特征在于：该生成的web网页信息包括该第二部件不知道的数据。

81.权利要求58的系统，其特征在于：该接收的数据集的至少一部分变得可用于经由该通信系统的对等客户机传输。

82.权利要求58的系统，其特征在于：该接收的数据集包括关于web爬虫所编译的数据的词典。

83.权利要求58的系统，其特征在于：该接收的数据集包括web爬虫所编译的数据的表示；该数据的表示通过利用弱指示器函数来生成。

84.权利要求58的系统，其特征在于：该接收的数据集包括web爬虫所编译的数据的副本。

85.权利要求58的系统，其特征在于：进一步包括用于存储从该第二部件接收的该数据集的存储部件。

86.一种用于促进数据分析的方法，其特征在于包括：

编译经由通信系统而从访问web网页中导出的第一数据集；以及，

有选择地将该第一数据集传送到与该通信系统交互作用的分布式蠕动系统的实体；

接收由web爬虫编译的第二数据集的表示；该第二数据集涉及来自该通信系统的至少一个web网页；

利用该第二数据集，来控制要访问哪些web网页以便编译该第一数据集；

比较该第二数据集和该第一数据集以揭示欺骗数据。

87.权利要求86的方法，其特征在于：该实体包括该分布式蠕动系统的服务器。

88.权利要求86的方法，其特征在于：该实体包括该分布式蠕动系统的至少一台客户机。

89.权利要求86的方法，其特征在于：该第一数据集至少部分地包括关于至少一个web网页的统一资源定位器URL。

90.权利要求86的方法，其特征在于：该第一数据集至少部分地包括至少一个web网页的内容的散列。

91.权利要求86的方法，其特征在于：根据一天的时间来有选择地传送。

92.权利要求86的方法，其特征在于：根据至少一个web网页的优先级来有选择地传送。

93.权利要求86的方法，其特征在于：根据至少一个web网页的内容更改的百分比来有选择地传送。

94.权利要求86的方法，其特征在于：根据对至少一个新web网页的识别来有选择地传送。

95.权利要求86的方法，其特征在于：通过接收web网页来实现接收该第二数据集的这个表示，该网页具有从该第二数据集中导出的并由使用对该第二数据集访问的主宿web网页的服务器生成的嵌入式信息。

96.权利要求86的方法，其特征在于：通过接收搜索结果网页来实现接收该第二数据集的这个表示，该搜索结果网页具有从该第二数据集中导出的并响应于被传送到具有对该第二数据集访问的搜索服务器的查询而生成的嵌入式信息。

97.权利要求86的方法，其特征在于：进一步包括：

确定：何时根据该第二数据集来经由该通信系统传送该第一数据集。

98.权利要求97的方法，其特征在于：该第二数据集包含刷新指示器，用于指出何时其数据是陈旧的并要求经由该第一数据集来进行更新。

99.权利要求97的方法，其特征在于：该第二数据集包含关于何时将要传送该第一数据集的调度时间表。

100.权利要求86的方法，其特征在于：进一步包括：

将该第二数据集的至少一个部分与通过访问web网页而获得的信息的至少一部分进行比较，以创建比较数据；以及，

生成该比较数据的表示，以导出该第一数据集。

101.权利要求100的方法，其特征在于：该第一数据集包括该第二数据集不知道的数据。

102.权利要求101的方法，其特征在于：该不知道的数据只包括从来自该分布式蠕动系统以外的搜索服务器的至少一个搜索结果网页中导出的未知数据。

103.权利要求100的方法，其特征在于：该第一数据集包括对该第二数据集所表示的web网页的内容更改。

104.权利要求100的方法，其特征在于：该第一数据集包括涉及该第二数据集所表示的web网页的状态信息。

105.权利要求36的方法，其特征在于：所述方法能在以下至少一项中使用：计算机、服务器和手持电子设备。

106.权利要求1的系统，其特征在于：所述系统能在以下至少一项中使用：计算机、服务器和手持电子设备。