CN101305371A - 对博客文档进行排名 - Google Patents

对博客文档进行排名 Download PDF

Info

Publication number
CN101305371A
CN101305371A CNA2006800422026A CN200680042202A CN101305371A CN 101305371 A CN101305371 A CN 101305371A CN A2006800422026 A CNA2006800422026 A CN A2006800422026A CN 200680042202 A CN200680042202 A CN 200680042202A CN 101305371 A CN101305371 A CN 101305371A
Authority
CN
China
Prior art keywords
blog documents
blog
documents
quality
score value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800422026A
Other languages
English (en)
Inventor
安德里·比胡恩
杰森·勾德曼
阿里克斯·凯辛
韦诺德·玛卢尔
爱德华多·莫拉里斯
杰夫·雷纳尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101305371A publication Critical patent/CN101305371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

一种博客搜索引擎可以接收搜索查询。所述博客搜索引擎可以响应于所述搜索查询而对一组博客文档确定分值,其中所述分值基于该组博客文档与所述搜索查询的相关度以及该组博客文档的质量。所述博客搜索引擎还可以基于所确定的分值提供关于该组博客文档的信息。

Description

对博客文档进行排名
技术领域
与本发明原理相一致的实施方式总体上涉及信息检索,并且更具体地,涉及响应于搜索查询提供一组经排名的博客文档。
背景技术
万维网(“网络”)包含巨量的信息。然而,定位信息的所需要的部分却是具有挑战性的。由于网络上的信息量和不具备网络搜索经验的新用户的数目均迅速增加,该问题被复杂化了。
搜索引擎试图返回用户感兴趣的网页的超链接。通常,搜索引擎基于用户所输入的搜索术语(称作搜索查询)来进行它们对用户兴趣的确定。搜索引擎的目标是基于搜索查询向用户提供高质量的相关结果(例如,网页)的链接。典型地,搜索引擎通过将搜索查询中的术语与预存网页的语料库进行匹配来实现这一目标。包含用户的搜索术语的网页被识别为搜索结果并作为链接返回给用户。
在过去几年中,一种称作博客的新媒体出现在网络上。博客(网络日志的简称)是通常利用被称为帖子的日志项来频繁更新个人思想的发布。
发明内容
依据与本发明原理相一致的一种实施方式,一种方法可包括在博客搜索引擎接收搜索查询,响应于所述搜索查询检索博客文档,基于博客文档与所述搜索查询的相关度确定所述博客文档的第一分值,基于所述博客文档的质量改变所述第一分值,并且基于所改变的第一分值提供关于所述博客文档的信息。
依据与本发明原理相一致的另一种实施方式,一种计算机执行的方法包括获取博客文档,对所述博客文档的质量的正指标或所述博客文档的质量的负指标中的至少一个进行识别,并且基于所识别至少一个的正指标或负指标确定所述博客文档的质量分值。
依据与本发明原理相一致的另一种实施方式,一种方法可包括在博客搜索引擎接收搜索查询;响应于所述搜索查询确定一组博客文档的分值,这些分值基于该组博客文档与所述搜索查询的相关度以及该组博客文档的质量;并且基于所确定的分值提供关于该组博客文档的信息。
依据与本发明原理相一致的另一种实施方式,一种方法可包括对博客文档质量的正指标或博客文档质量的负指标中的至少一个进行识别,所识别的至少一个正指标或负指标包括特定于博客文档的指标;基于所识别的正指标或负指标中的至少一个确定所述博客文档的质量分值;接收搜索查询;基于所述博客文档与所述搜索查询的相关度确定所述博客文档的分值;基于所述质量分值调整所述博客文档的分值;并且基于已调整的分值提供关于所述博客文档的信息。
附图说明
结合于该说明书中并且构成其一部分的附图示出了本发明的实施方式,并且与说明书一起对本发明进行解释。其中,
图1是示出与本发明原理相一致的概念的示例性示图;
图2是可以在其中实施与本发明原理相一致的系统和方法的网络的示例性示图;
图3是与本发明原理相一致的实施方式中的客户端和服务器实体的示例性示图;
图4是可由图2的服务器使用的部分示例性计算机可读介质的示图;
图5是可以在与本发明原理相一致的实施方式中与图2的服务器相关联的示例性数据库;
图6是在与本发明原理相一致的实施方式中用于对博客文档确定质量分值的示例性过程的流程图;
图7是在与本发明原理相一致的实施方式中用于呈现搜索结果的示例性过程的流程图;和
图8是在与本发明原理相一致的实施方式中可以被检索的示例性文档集的示图。
具体实施方式
以下参考附图对与本发明原理相一致的实施方式进行详细描述。不同示图中的相同参考标记可标记相同或相似的元件。而且,以下的详细描述并不对本发明进行限定。
概述
与本发明原理相一致的系统和方法改善了响应于搜索查询而提供的博客结果的质量。为了改善博客结果的质量,可以使用多个质量因数(正的或负的)来改变博客结果的分值。
图1是示出与本发明原理相一致的概念的示例性示图。如图1所示,两组不同的数据被用来响应于搜索查询而确定博客(或博客帖子)的分值一所述博客(或博客帖子)与所述搜索查询中的术语的主题相关度以及所述博客(或博客帖子)的质量,所述质量与所述查询术语无关。所述博客(或博客帖子)的质量可以正面地或负面地影响所述博客(或博客帖子)的分值。
这里所使用的短语“博客文档”将宽泛地解释为包括博客、博客帖子或者博客和博客帖子二者。将意识到的是,这里所描述的技术可等同的应用于博客和博客帖子。这里所使用的术语“文档”将宽泛地解释为包括任何机器可读和机器可存储的作品。例如,文档可包括电子邮件、网站、文件、文件组合、具有其它文件的嵌入链接的一个或多个文件、新闻群发、博客文档、网络广告等。在互联网背景下,普通文档是网页。网页通常包括文本信息并且可包括嵌入信息(诸如元信息、图像、超链接等)和/或嵌入指令(诸如Javascript等)。这里所使用的术语“链接”将宽泛地解释为包括从一个文档指向另一个文档或相同文档的另一部分的引用,或者从另一个文档或相同文档的另一部分指向该文档的引用。
示例性网络配置
图2是可以在其中实施与本发明原理相一致的系统和方法的网络200的示例性示图。网络200可包括经由网络250连接到多个服务器220-240的多个客户端210。为了简单,两个客户端210和三个服务器220-240被图示为连接到网络250。实际上,可以有更多或更少的客户端和服务器。而且,在一些实例中,客户端可以执行服务器的功能,并且服务器可以执行客户端的功能。
客户端210可包括客户端实体。实体可被定义为设备,诸如个人计算机、无线电话、个人数字助理(PDA)、笔记本电脑或其它类型的计算或通信设备,在这些设备之一上运行的线程或进程,和/或可由这些设备之一执行的对象。服务器220-240可包括服务器实体,所述服务器实体以与本发明原理相一致的方式进行聚集、处理、搜索和/或维护文档。
在与本发明原理相一致的一种实施方式中,服务器220可包括能够由客户端210使用的搜索引擎225。在一种实施方式中,搜索引擎225可包括仅搜索博客文档的博客搜索引擎。服务器220可抓取(crawl)文档的语料库,对文档进行索引以及将与文档相关联的信息存储在文档库中。服务器230和240可以对可由服务器220抓取和分析的文档进行存储和维护。
虽然服务器200-240被示为分离的实体,但是对于服务器220-240中的一个或多个而言,可以执行服务器220-240中的另一个或多个的一个或多个功能。例如,可以将服务器220-240中的两个或更多做为单个服务器来实现。也可以将服务器220-240中的单独一个做为两个或多个分离的(并可能是分布式的)设备来实现。
网络250可包括局域网(LAN)、广域网(WAN)、诸如公共交换电话网(PSTN)之类的电话网、内部网、互联网或者网络的组合。客户端210和服务器220-240可经由有线、无线和/或光连接而连接到网络250。
示例性客户端/服务器体系
图3是可对应于客户端210和/或服务器220-240中的一个或多个的客户端或服务器实体(此后称作“客户端/服务器实体”)的示例性示图。所述客户端/服务器实体可包括总线310、处理器320、主存储器330、只读存储器(ROM)340、存储设备350、输入设备360、输出设备370和通信接口380。总线310可包括允许在所述客户端/服务器实体的元件之间进行通信的路径。
处理器320可包括能够解释和执行指令的处理器、微处理器或处理逻辑。主存储器330可包括能够存储由处理器320执行的信息和指令的随机访问存储器(RAM)或其它类型的动态存储设备。ROM 340可包括能够存储由处理器320使用的静态信息和指令的ROM设备或其它类型的静态存储设备。存储设备350可包括磁和/或光记录介质及其相应的驱动器。
输入设备360可包括允许操作者向客户端/服务器实体输入信息的机制,诸如键盘、鼠标、笔、语音识别和/或生物测定机制等。输出设备370可包括向操作者输出信息的机制,包括显示器、打印机、扬声器等。通信接口380可包括类似收发器的机制,其允许客户端/服务器实体与其它设备和/或系统进行通信。例如,通信接口380可包括用于经由诸如网络250的网络与另一个设备或系统进行通信的机制。
如下将要详细描述的,与本发明原理相一致的客户端/服务器实体可执行与特定文档处理相关的操作。所述客户端/服务器实体可响应于处理器320执行软件指令来执行这些操作,所述软件指令包含于诸如存储器330的计算机可读介质中。计算机可读介质可被定义为物理或逻辑的存储设备和/或载波。
软件指令可以从诸如数据存储设备350的另一计算机可读介质读入存储器330,或者经由网络接口380从另一设备读入存储器330。存储器330中所包含的软件指令可使得处理器320执行处理,所述处理将在后面描述。或者,硬件电路可以代替软件指令或与其相结合来执行与本发明原理相一致的处理。因此,与本发明原理相一致的实施方式并不局限于硬件电路和软件的任何特定组合。
示例性计算机可读介质
图4是可由服务器220使用的部分示例性计算机可读介质400的示图。在一种实施方式中,计算机可读介质400可对应于服务器220的存储器330。图4所示的部分计算机可读介质400可包括操作系统410和博客质量软件420。
操作系统410可包括诸如Windows、Unix或Linux操作系统之类的操作系统软件。博客质量软件420可包括接收关于博客文档的数据并基于该数据确定所述博客文档的质量分值的软件。如将要在以下进一步详细描述的,所述数据可包括测量博客文档为低质量的概率的信号,博客文档为低质量将导致作为候选结果的博客文档的降级或排除。所述数据还可以包括测量博客文档的内容为高质量/高受欢迎度的信号,博客文档的内容为高质量/高受欢迎度将导致作为候选结果的博客文档的晋级。
图5是可以在与本发明原理相一致的实施方式中与服务器220相关联的示例性数据库500。数据库500可在服务器220本地存储,例如,存储在主存储器330或存储设备350中,或者存储在服务器220之外,例如,可能存储在远程位置。如图所示,数据库500可包括以下示例性字段:文档标识(ID)字段510和质量分值字段520。可以意识到的是,数据库500可包括不同于图5所示的其它字段。
文档ID字段510可存储识别博客文档的信息,如以上所述,所述博客文档可以是博客或博客帖子。所述信息可包括唯一标识符。质量分值字段520可存储字段510中所识别的每个博客文档的质量分值。可响应于服务器220所接收的搜索查询来访问数据库500。服务器220可基于来自字段520的质量分值而对一组搜索结果中的博客文档(即,博客和/或帖子)进行晋级、降级或者甚至排除。
为博客文档确定质量分值
图6是在与本发明原理相一致的实施方式中用于对博客文档确定质量分值的示例性过程的流程图。处理可以通过获得关于要打分的博客文档的信息而开始(动作610)。所述信息可包括博客自身、帖子、来自所述博客的元数据和/或与所述博客文档相关联的一个或多个馈给(feeds)。
可以识别针对博客文档的质量的正指示符(动作620)。这些指示符可包括博客文档的受欢迎度,博客文档的隐含受欢迎度,博客文档在博客列表(blogroll)中的存在,博客文档在高质量博客列表中的存在,博客文档的标签,其它资源对博客文档的引用以及博客文档的网页排名(pagerank)。可以意识到的是,也可以使用其它指示符。
博客文档的受欢迎度可以是该博客文档的质量的正指标。多个新闻聚合器(aggregator)网站(通常称作“新闻阅读器”或“馈给阅读器”)存在于个体能够(通过其馈给)订阅博客文档的地方。这样的聚合器存储描述有多少个体已经订阅了给定博客文档的信息。具有高订阅数的博客文档意味着所述博客文档质量更高。而且,能够通过验证订阅的唯一用户,或者通过过滤订阅者的唯一互联网协议(IP)地址来针对“订阅兜售信息(subscriptions spam)”(其中兜售信息者(spammer)订阅他们自己的博客文档以试图使其“更受欢迎”)验证订阅。
可以识别博客文档的隐含受欢迎度。例如,可以通过测试搜索结果的点击流来识别该隐含受欢迎度。例如,如果当出现在结果集中时,特定博客文档比其它博客文档被点击更多,这就可以作为该博客文档是受欢迎的指示,并且由此作为该博客文档的质量的正指示符。
博客文档存在于博客列表中可作为所述博客文档的质量的正指标。可以意识到的是,博客文档通常不仅包括最近的日志项(即,帖子),而且包括“博客列表”,所述博客列表是作者/博客撰写者所感兴趣的外部站点(通常是其它博客)的链接的密集收集。链接到博客文档的博客列表是该博客文档的受欢迎度的指标,所以能够计算链接到博客文档的聚合博客列表并将其用于推断所述博客文档的受欢迎度量级。
博客文档存在于高质量博客列表中可作为所述博客文档的质量的正指标。高质量博客列表是链接到著名的或可信的博客撰写者的博客列表。因此,还链接到博客文档的高质量博客列表是所述博客文档的质量的正指示符。
类似地,博客文档存在于著名的或可信的博客撰写者的博客列表也可以作为所述博客文档的质量的正指标。在这种情况下,假设所述著名的或可信的博客撰写者不会链接到兜售信息的博客撰写者。
博客文档的标签可以作为博客文档的质量的正指标。一些现有的站点允许用户向博客文档添加“标签”(即,进行“分类”)。这些定制分类是个体已经评估了博客文档内容并且确定了适当描述其内容的一个或多个分类的指示符,并且同样可以作为所述博客文档的正指示符。
其他源对博客文档的引用可作为所述博客文档的质量的正指标。例如,电子邮件的内容或聊天记录可包含博客文档的URL。包括对所述博客文档的引用的电子邮件或聊天讨论是所述博客文档的质量的正指示符。
博客文档的网页排名可作为所述博客文档的质量的正指示符。高网页排名(通常对于常规网页进行计算的信号)是高质量的指示符,并且由此能够应用于博客文档作为所述博客文档的质量的正指标。在一些实施方式中,博客文档(例如,帖子)可以不与网页排名相关联(例如,当帖子是新的时)。在那些情况下,新的帖子可继承其所关联的博客的网页排名,直至对该新的帖子确定了独立的网页排名。该继承的网页排名可作为所述新的帖子的质量的正指标。
可以识别针对博客文档的质量的负指示符(动作630)。这样的指示符可包括博客文档上新帖子的频率,博客文档中的帖子的内容,博客文档中帖子的大小,博客文档的链接分布以及出现在博客文档中的广告。可以意识到的是,也可以使用其他指示符。
新帖子添加到博客文档的频率可作为该博客文档的质量的负指示符。典型地,馈给仅包括来自博客文档的最近的帖子。兜售信息者经常突然生成大量新帖子(即,短时期内出现许多新帖子)或者以可预计的间隔(每10分钟发一个帖子,或者在每3个小时中每小时过去32分钟时发一个新帖子)。这两种行为都与恶意意图相关,并且能够用于识别可能的兜售信息者。因此,如果新帖子添加到博客文档中的频率与可预计模式相匹配。则这可以作为所述博客文档的质量的负指标。
博客文档中帖子的内容可作为该博客文档的质量的负指标。典型地,馈给包含来自给定博客文档的多个帖子的部分或全部内容。所述博客文档本身也包括这些帖子的内容。兜售信息者可以将一个版本的内容放入馈给中来提高他们在搜索结果中的排名,同时在他们的博客文档上放置不同的版本(例如,不相关广告的链接)。因此,这种不匹配(馈给和博客文档之间的)可作为所述博客文档的质量的负指标。
而且,在一些实例中,可以在博客文档的多个帖子中复制特定的内容,导致多个馈给包含相同的内容。这样的复制指示出所述馈给是低质量/兜售信息,并且由此能够作为所述博客文档的质量的负指标。
博客文档的帖子中使用的词语/短语也可作为该博客文档的质量的负指标。例如,可以从博客文档的集合以及评估者认为是兜售信息的馈给中提取出在兜售信息中频繁出现的词语和短语的列表(例如,双字重复、三字重复等)。如果博客文档包含高比例的来自所述列表的词语或短语,则这可作为所述博客文档的质量的负指标。
博客文档中帖子的大小可作为该博客文档的质量的负指标。许多自动帖子生成器生成多个相同或非常相似长度的帖子。结果,帖子大小的分布能够作为兜售信息行为的可靠量度。当博客文档包括多个长度相同或非常相似的帖子时,这可作为所述博客文档的质量的负指标。
博客文档的链接分布可作为该博客文档的质量的负指标。如上所述,一些帖子被创建来增加特定博客文档的网页排名。在一些情况下,来自这些帖子或博客文档的所有链接中的大部分都指向单个网页或者单个外部站点。如果到任意单个外部站点的链接数目超出阈值,则这可作为所述博客文档的质量的负指标。
广告在博客文档中的出现可作为所述博客文档的质量的负指标。如果博客文档包含大量广告,则这可作为所述博客文档的质量的负指标。
此外,典型地,博客文档包含三种类型的内容:最近帖子的内容,博客列表和博客元数据(例如,作者概况信息和/或关于所述博客文档或其作者的其他信息)。如果存在广告,典型地出现在博客元数据段内或者接近博客列表。广告在博客文档的最近帖子部分中的存在可作为所述博客文档的质量的负指标。
可基于这些指示符来确定博客文档的质量分值(动作640)。例如,在一种实施方式中,可以通过向不同指示符分配权重并且组合这些权重以获得质量分值来确定博客文档的质量分值。可以以任意的方式对这些指示符进行组合和/或设置权重。例如,在与本发明原理相一致的一种实施方式中,可以为每个指标赋予正或负值。可以将这些数值加在一起来确定博客文档的质量分值。或者,可以将每个指示符值乘以对应因数(或权重)并且将结果值加合来给出博客文档的质量分值。也可以使用用于确定质量分值的其他技术。
一旦确定了博客文档的质量分值,就可以将其与所述博客文档相关联。例如,所述质量分值可以在诸如数据库500的数据库中与对已经确定分值的博客文档进行识别的信息相关联。以这种方式,数据库500可以具有博客文档的质量分值。所述质量分值能够定期更新。
呈现搜索结果
图7是用于呈现搜索结果的示例性过程的流程图。在一种实施方式中,图7的处理可以由服务器220内的一个或多个软件和/或硬件部件来执行。在另一种实施方式中,所述处理可以由另一设备或一组设备内的一个或多个软件和/或硬件部件来执行,所述一组设备与服务器220分离或包括服务器220。
处理可以从正在接收的搜索查询开始(动作710)。例如,用户可以向与搜索引擎相关联的搜索框中提供搜索查询(例如,向搜索引擎界面或添加工具栏的搜索框中输入搜索术语)。网络浏览器(或添加工具栏)可以将所述搜索查询发送给搜索引擎,诸如与服务器220相关联的搜索引擎225。
可以基于所述搜索查询确定一组文档的相关性分值(动作720)。例如,服务器220可确定这些文档的信息检索(IR)分值。可以基于搜索查询的搜索术语与文档内容的匹配来确定所述文档的IR分值。多种已知技术可以用来确定文档IR分值。例如,可以基于搜索术语在文档中出现的数量来确定IR分值。可选地或另外地,可以基于所述搜索术语在文档中哪里(例如,标题、内容等)出现或者所述搜索术语的特征(例如,字体、大小、颜色等)来确定所述IR分值。可选地或另外地,当存在多个搜索术语时,对一个搜索术语设置权重可以不同于另一个搜索术语。可选地或另外地,当存在多个搜索术语时,搜索术语的近似度可以影响IR分值。对于本领域技术人员来说,用于确定文档的IR分值的其他的技术是已知的。
可以基于文档的质量确定所述文档的整体分值(动作730)。例如,可以将每个文档的IR分值与所述文档的质量分值进行组合来确定整体分值。组合这些分值使得所述文档的IR分值可以基于质量分值进行调整,由此提高或降低分值,或者在一些情况下,保持分值不变来获得整体分值。或者,可以单独基于质量分值而不生成IR分值来对文档进行评分。在任意情况下,可以使用质量分值对文档确定其整体分值。
可以基于文档的整体分值将一组经排名的文档提供给用户(动作740)。以这种方式,文档的质量可以被用来改善提供给用户的搜索结果。
示例
以下示例说明了以上处理。假设用户对关于幻想足球的博客感兴趣。所述用户可能向诸如搜索引擎225的搜索引擎提交搜索查询“幻想足球”。作为响应,假设搜索引擎225基于一组博客文档与所述搜索查询的相关度对它们进行检索(例如,使用IR技术)。
图8是响应于搜索查询而接收的示例性博客文档集的示图。如图所示,搜索引擎225检索到具有以下相关度(或IR)分值的五个博客文档(博客文档1-5):具有IR分值1.0的博客文档1,具有IR分值0.9的博客文档2,具有IR分值0.8的博客文档3,具有IR分值0.7的博客文档4和具有IR分值0.6的博客文档5。出于解释的目的,假设这五个博客文档具有以下质量分值:博客文档1具有正质量分值0.4,博客文档2具有负质量分值-0.4,博客文档3具有正质量分值0.8,博客文档4具有正质量分值0.3,以及博客文档5具有正质量分值0.3。
搜索引擎225可通过将相关度分值添加到质量分值来确定博客文档的整体分值。在这种情况下,博客文档1将具有整体分值1.4,博客文档2将具有整体分值0.5,博客文档3将具有整体分值1.6,博客文档4将具有整体分值1.0,以及博客文档5将具有整体分值0.9。因此,搜索引擎可以按照以下顺序向用户提供博客文档1-5:博客文档3,博客文档1,博客文档4,博客文档5和博客文档2。
如从图8的示例明显看到的,博客文档的质量可能导致那些文档的排名提高或降低。以这种方式,向用户提供了更高质量的结果。
结论
与本发明原理相一致的实施方式通过考虑博客质量来改善博客搜索。
本发明的示例性实施例的以上描述提供了说明和描述,但是并不意在是详尽的或者将本发明精确限制于所公开的内容。可能依据以上技术进行修改和变化或者从本发明的实践来获得。
例如,虽然已经关于图6和7描述了一系列动作,但是这些动作的顺序在与本发明原理相一致的其他实施方式中可以进行修改。此外,可以平行执行非从属性的动作。
之前的描述提及了用户。“用户”意指诸如客户端210(图2)的客户端,或者客户端的操作者。
对于本领域技术人员是显而易见的,在图中所示的实施方式中,如以上所述的本发明的各方面可以以许多不同形式的软件、固件和硬件来实现。用来实现与本发明原理相一致的各方面的实际软件代码或特定控制硬件并不是对本发明的限制。因此,各方面的操作和行为并没有参考特定的软件代码来描述一可以理解的是本领域技术人员将能够基于本说明书来设计软件和控制硬件以实施这些方面。
除非特别说明,不应当认为本申请中所使用的元件、动作或指令对于本发明是关键和实质性的。并且,如此处所使用的,不加数量限制的项旨在包括一个或者多个项。在仅仅指一个项的地方,使用了术语“一个”或者类似表述。此外,除非另外特别指出,短语“基于”旨在表示“至少部分地基于”。

Claims (27)

1.一种方法,包括:
由博客搜索引擎接收搜索查询;
响应于所述搜索查询检索博客文档;
基于所述博客文档与所述搜索查询的相关度确定所述博客文档的第一分值;
基于所述博客文档的质量改变所述第一分值;以及
基于所改变的第一分值提供关于所述博客文档的信息。
2.如权利要求1所述的方法,其中所述博客文档包括博客或博客帖子。
3.如权利要求1所述的方法,进一步包括:
基于多个指示符确定所述博客文档的质量。
4.如权利要求3所述的方法,其中所述多个指示符包括一个或多个正指示符或者一个或多个负指示符中的至少一个。
5.如权利要求4所述的方法,其中所述一个或多个正指示符包括所述博客文档的受欢迎度、在与其它博客文档相关联的一个或多个博客列表中存在的指向所述博客文档的链接、所述博客文档的标签、在其它文档中的对所述博客文档的引用或所述博客文档的网页排名中的一个或多个,以及
其中所述一个或多个负指示符包括帖子添加到所述博客文档的频率、所述博客文档的内容、所述博客文档中帖子的大小、与所述博客文档相关联的链接分布、所述博客文档中广告的数量或所述博客文档中广告的位置中的一个或多个。
6.如权利要求4所述的方法,其中确定所述博客文档的质量包括:
将所述一个或多个正指示符与所述一个或多个负指示符进行组合来确定所述博客文档的质量分值。
7.如权利要求6所述的方法,其中改变所述第一分值包括:
基于所述质量分值增加或减少所述第一分值。
8.如权利要求1所述的方法,其中所述博客文档的质量与所述搜索查询不相关。
9.一种系统,包括:
用于由博客搜索引擎接收搜索查询的装置;
用于响应于所述搜索查询获取博客文档的装置;
用于基于所述博客文档与所述搜索查询的相关度确定所述博客文档的第一分值的装置;
用于基于所述博客文档的质量调整所述第一分值的装置;以及
基于所调整的第一分值提供关于所述博客文档的信息的装置。
10.一种设备,包括:
博客搜索引擎,用来:
接收搜索查询;
响应于所述搜索查询检索多个博客文档;
基于所述多个博客文档中的每个博客文档与所述搜索查询的相关度确定所述每个博客文档的第一分值;
基于所述每个博客文档的质量改变所述每个博客文档的第一分值;以及
基于所改变的第一分值提供关于所述博客文档的信息。
11.一种包含指令的计算机可读介质,所述指令用于控制处理器执行方法,所述方法包括:
由博客搜索引擎接收搜索查询;
响应于所述搜索查询检索文档,所述文档包括博客文档;
基于所述文档与所述搜索查询的相关度确定所述文档的分值;
基于所述博客文档的质量改变所述博客文档的分值;以及
基于所确定的分值和所改变的分值提供关于所述文档的信息。
12.一种计算机实现的方法,包括:
获取博客文档;
识别所述博客文档的质量的正指示符或所述博客文档的质量的负指示符中的至少一个;
基于所识别的至少一个正指示符或负指示符确定所述博客文档的质量分值。
13.如权利要求12所述的计算机实现的方法,其中所述博客文档包括博客或博客帖子。
14.如权利要求12所述的计算机实现的方法,其中所述正指示符包括所述博客文档的受欢迎度、在与其它博客文档相关联的一个或多个博客列表中存在的指向所述博客文档的链接、博客文档的标签、在其它文档中的对所述博客文档的引用或所述博客文档的网页排名中的一个或多个。
15.如权利要求12所述的计算机实现的方法,其中所述负指示符包括帖子添加到所述博客文档的频率、所述博客文档中帖子的大小、与所述博客文档相关联的链接分布、所述博客文档中广告的质量或所述博客文档中广告的位置中的一个或多个。
16.如权利要求12所述的计算机实现的方法,其中所述负指示符包括所述博客文档的内容和与所述博客文档相关联的馈给内容不相匹配的指示。
17.如权利要求12所述的计算机实现的方法,其中所述负指示符包括所述博客文档包括高百分比的预定词语或短语的指示。
18.如权利要求12所述的计算机实现的方法,其中所述负指示符包括所述博客文档包括复制内容的指示。
19.如权利要求12所述的计算机实现的方法,进一步包括:
响应于搜索查询使用所述质量分值对所述博客文档进行排名。
20.一种设备,包括:
用于接收博客文档的逻辑;
用于对所述博客文档的质量的正指示符或所述博客文档的质量的负指示符中的至少一个进行识别的逻辑;
用于基于所识别的至少一个正指示符或负指示符确定所述博客文档的质量的逻辑。
21.一种方法,包括:
在博客搜索引擎接收搜索查询;
响应于所述搜索查询确定多个博客文档的分值,所述分值基于所述多个博客文档与所述搜索查询的相关度以及所述多个博客文档的质量;以及
基于所确定的分值提供关于所述多个博客文档的信息。
22.如权利要求21所述的方法,其中所述确定分值包括:
确定所述多个博客文档的相关度分值;以及
基于所述多个博客文档的质量调整所述相关度分值。
23.如权利要求21所述的方法,进一步包括:
基于多个指示符确定所述多个博客文档中的每个博客文档的质量。
24.如权利要求23所述的方法,其中所述多个指示符包括一个或多个正指示符和一个或多个负指示符。
25.如权利要求24所述的方法,其中所述一个或多个正指示符包括所述博客文档的受欢迎度、在与其它博客文档相关联的一个或多个博客列表中存在的指向所述博客文档的链接、博客文档的标签、在其它文档中的对所述博客文档的引用或博客文档的网页排名中的一个或多个,以及
其中所述一个或多个负指示符包括帖子添加到所述博客文档的频率、所述博客文档的内容、所述博客文档中帖子的大小、与所述博客文档相关联的链接分布、所述博客文档中广告的数量或所述博客文档中广告的位置中的一个或多个。
26.如权利要求24所述的方法,其中所述确定每个博客文档的质量包括:
将所述一个或多个正指示符和所述一个或多个负指示符进行组合来确定所述每个博客文档的质量分值。
27.一种方法,包括
识别博客文档的质量的正指示符或者所述博客文档的质量的负指示符中的至少一个,所识别的至少一个正指示符或负指示符包括特定于博客文档的指示符;
基于所识别的至少一个正指示符或负指示符确定所述博客文档的质量分值;
接收搜索查询;
基于所述博客文档与所述搜索查询的相关度确定所述博客文档的分值;
基于所述质量分值调整所述博客文档的分值;以及
基于所调整的分值提供关于所述博客文档的信息。
CNA2006800422026A 2005-09-13 2006-09-13 对博客文档进行排名 Pending CN101305371A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/224,321 2005-09-13
US11/224,321 US8244720B2 (en) 2005-09-13 2005-09-13 Ranking blog documents

Publications (1)

Publication Number Publication Date
CN101305371A true CN101305371A (zh) 2008-11-12

Family

ID=37432282

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800422026A Pending CN101305371A (zh) 2005-09-13 2006-09-13 对博客文档进行排名

Country Status (9)

Country Link
US (2) US8244720B2 (zh)
EP (1) EP1934830A1 (zh)
JP (2) JP4837040B2 (zh)
KR (1) KR101005510B1 (zh)
CN (1) CN101305371A (zh)
AU (1) AU2006290977B2 (zh)
BR (1) BRPI0615915B1 (zh)
CA (1) CA2622784A1 (zh)
WO (1) WO2007033202A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385576A (zh) * 2010-08-27 2012-03-21 腾讯科技(深圳)有限公司 博主影响力计算方法及系统
WO2013117147A1 (zh) * 2012-02-09 2013-08-15 腾讯科技(深圳)有限公司 微博排序、搜索、展示方法和系统
CN103914491A (zh) * 2013-01-09 2014-07-09 腾讯科技(北京)有限公司 对优质用户生成内容的数据挖掘方法和系统

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421429B2 (en) * 2005-08-04 2008-09-02 Microsoft Corporation Generate blog context ranking using track-back weight, context weight and, cumulative comment weight
US8244720B2 (en) 2005-09-13 2012-08-14 Google Inc. Ranking blog documents
US7856445B2 (en) * 2005-11-30 2010-12-21 John Nicholas and Kristin Gross System and method of delivering RSS content based advertising
US9202241B2 (en) * 2005-11-30 2015-12-01 John Nicholas and Kristin Gross System and method of delivering content based advertising
US8417569B2 (en) * 2005-11-30 2013-04-09 John Nicholas and Kristin Gross Trust System and method of evaluating content based advertising
US8924558B2 (en) 2005-11-30 2014-12-30 John Nicholas and Kristin Gross System and method of delivering content based advertising
US8117195B1 (en) 2006-03-22 2012-02-14 Google Inc. Providing blog posts relevant to search results
US20070239674A1 (en) * 2006-04-11 2007-10-11 Richard Gorzela Method and System for Providing Weblog Author-Defined, Weblog-Specific Search Scopes in Weblogs
US20070255701A1 (en) * 2006-04-28 2007-11-01 Halla Jason M System and method for analyzing internet content and correlating to events
US20090070683A1 (en) * 2006-05-05 2009-03-12 Miles Ward Consumer-generated media influence and sentiment determination
US20070271259A1 (en) * 2006-05-17 2007-11-22 It Interactive Services Inc. System and method for geographically focused crawling
US8452777B2 (en) * 2007-02-01 2013-05-28 Linkedin Corporation Dynamic submission and preference indicator
US8527594B2 (en) * 2007-02-16 2013-09-03 Ecairn, Inc. Blog advertising
US8346763B2 (en) * 2007-03-30 2013-01-01 Microsoft Corporation Ranking method using hyperlinks in blogs
US20090006341A1 (en) * 2007-06-28 2009-01-01 Bruce Chapman Method of website ranking promotion using creation of mass blog posting links
US8572094B2 (en) * 2007-08-17 2013-10-29 Google Inc. Ranking social network objects
CN100545847C (zh) * 2007-09-25 2009-09-30 腾讯科技(深圳)有限公司 一种对博客文章进行排序的方法及系统
KR100932841B1 (ko) * 2007-11-09 2009-12-21 엔에이치엔(주) 검색 문서 품질 측정 방법 및 그 시스템
KR100932842B1 (ko) * 2007-12-06 2009-12-21 엔에이치엔(주) 검색랭킹의 품질 평가 방법 및 시스템
KR100975502B1 (ko) * 2008-01-30 2010-08-11 엔에이치엔(주) 블로그 포스트의 랭킹 판단 방법 및 시스템
US8078197B2 (en) * 2008-02-20 2011-12-13 Agere Systems Inc. Location-based search-result ranking for blog documents and the like
KR101004999B1 (ko) * 2008-08-27 2011-01-04 서강대학교산학협력단 콘텐츠와 콘텐츠 제공 사이트의 파급력 측정 방법 및 장치
US8073947B1 (en) * 2008-10-17 2011-12-06 GO Interactive, Inc. Method and apparatus for determining notable content on web sites
KR101013761B1 (ko) * 2008-10-27 2011-02-14 한국과학기술원 블로그 권위값 추정 기법을 사용한 블로그 검색 장치 및 방법
US20100114910A1 (en) * 2008-10-27 2010-05-06 Korea Advanced Institute Of Science And Technology Blog search apparatus and method using blog authority estimation
KR101049648B1 (ko) 2009-02-23 2011-07-14 성균관대학교산학협력단 블로그 랭크 알고리즘을 이용해서 효율적으로 블로그를 검색하기 위한 블로그 랭크 방법
JP5216654B2 (ja) * 2009-03-27 2013-06-19 Kddi株式会社 重要度判定装置、重要度判定方法、およびプログラム
US8577909B1 (en) 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8538957B1 (en) * 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
US8745067B2 (en) * 2009-08-12 2014-06-03 Google Inc. Presenting comments from various sources
KR101284788B1 (ko) * 2009-10-13 2013-07-10 한국전자통신연구원 신뢰도에 기반한 질의응답 장치 및 그 방법
US8606792B1 (en) 2010-02-08 2013-12-10 Google Inc. Scoring authors of posts
US20110258560A1 (en) * 2010-04-14 2011-10-20 Microsoft Corporation Automatic gathering and distribution of testimonial content
US20110276554A1 (en) * 2010-05-10 2011-11-10 Chen-Yu Sheu Query and note based search system
AU2013203650B2 (en) * 2010-05-17 2014-08-14 Buzzmetrics Ltd. Methods, apparatus and articles of manufacture to rank web site influence
US8560530B2 (en) 2010-05-17 2013-10-15 Buzzmetrics, Ltd. Methods, apparatus, and articles of manufacture to rank web site influence
US8849807B2 (en) 2010-05-25 2014-09-30 Mark F. McLellan Active search results page ranking technology
US9009065B2 (en) 2010-12-17 2015-04-14 Google Inc. Promoting content from an activity stream
JP2012141837A (ja) * 2011-01-04 2012-07-26 Sony Corp 情報処理装置、情報処理方法及びプログラム
US20120210240A1 (en) * 2011-02-10 2012-08-16 Microsoft Corporation User interfaces for personalized recommendations
US9251269B2 (en) * 2011-10-27 2016-02-02 International Business Machines Corporation Accounting for authorship in a web log search engine
US9135291B2 (en) * 2011-12-14 2015-09-15 Megathread, Ltd. System and method for determining similarities between online entities
US9589303B2 (en) * 2012-01-09 2017-03-07 Google Inc. Selective presentation of content types and sources in search
JP5962213B2 (ja) * 2012-05-28 2016-08-03 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
KR101630136B1 (ko) * 2012-07-06 2016-06-13 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 온라인 서비스를 위한 입력들의 구조화
US9553783B2 (en) * 2012-09-14 2017-01-24 Salesforce.Com, Inc. Spam flood detection methodologies
JP6130270B2 (ja) * 2013-08-21 2017-05-17 Kddi株式会社 メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法
US10303684B1 (en) * 2013-08-27 2019-05-28 Google Llc Resource scoring adjustment based on entity selections
WO2015042860A1 (en) * 2013-09-27 2015-04-02 Intel Corporation Mechanism for facilitating dynamic and proactive data management for computing devices
CN105488151A (zh) * 2015-11-27 2016-04-13 小米科技有限责任公司 参考文档的推荐方法及装置

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6598046B1 (en) * 1998-09-29 2003-07-22 Qwest Communications International Inc. System and method for retrieving documents responsive to a given user's role and scenario
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US7693830B2 (en) * 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US7716199B2 (en) * 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
US7016889B2 (en) * 2003-01-30 2006-03-21 Hewlett-Packard Development Company, Lp. System and method for identifying useful content in a knowledge repository
US7739281B2 (en) * 2003-09-16 2010-06-15 Microsoft Corporation Systems and methods for ranking documents based upon structurally interrelated information
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
KR20050077242A (ko) 2004-02-10 2005-08-01 엔에이치엔(주) 검색 작업 요청에 응답하여 출력되는 검색 결과에 광고를제공하는 방법 및 시스템
US8930239B2 (en) * 2005-03-23 2015-01-06 Douglas Ashbaugh Distributed content exchange and presentation system
US7761447B2 (en) * 2004-04-08 2010-07-20 Microsoft Corporation Systems and methods that rank search results
US20070067297A1 (en) * 2004-04-30 2007-03-22 Kublickis Peter J System and methods for a micropayment-enabled marketplace with permission-based, self-service, precision-targeted delivery of advertising, entertainment and informational content and relationship marketing to anonymous internet users
US7596571B2 (en) * 2004-06-30 2009-09-29 Technorati, Inc. Ecosystem method of aggregation and search and related techniques
US7890871B2 (en) * 2004-08-26 2011-02-15 Redlands Technology, Llc System and method for dynamically generating, maintaining, and growing an online social network
US8335785B2 (en) * 2004-09-28 2012-12-18 Hewlett-Packard Development Company, L.P. Ranking results for network search query
US8060463B1 (en) * 2005-03-30 2011-11-15 Amazon Technologies, Inc. Mining of user event data to identify users with common interests
WO2006128136A2 (en) * 2005-05-25 2006-11-30 Insider Pages Structured blogging with reciprocal links
US9158855B2 (en) * 2005-06-16 2015-10-13 Buzzmetrics, Ltd Extracting structured data from weblogs
US7421429B2 (en) * 2005-08-04 2008-09-02 Microsoft Corporation Generate blog context ranking using track-back weight, context weight and, cumulative comment weight
US20070050389A1 (en) * 2005-09-01 2007-03-01 Opinmind, Inc. Advertisement placement based on expressions about topics
US7765209B1 (en) * 2005-09-13 2010-07-27 Google Inc. Indexing and retrieval of blogs
US8244720B2 (en) 2005-09-13 2012-08-14 Google Inc. Ranking blog documents
US8688673B2 (en) * 2005-09-27 2014-04-01 Sarkar Pte Ltd System for communication and collaboration
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US7657585B2 (en) * 2005-10-25 2010-02-02 Innternational Business Machines Corporation Automated process for identifying and delivering domain specific unstructured content for advanced business analysis
US7917519B2 (en) * 2005-10-26 2011-03-29 Sizatola, Llc Categorized document bases
US20070255702A1 (en) * 2005-11-29 2007-11-01 Orme Gregory M Search Engine
US7734610B2 (en) * 2005-12-12 2010-06-08 Google Inc. Decentralised web annotation
US7685144B1 (en) * 2005-12-29 2010-03-23 Google Inc. Dynamically autocompleting a data entry
US7634463B1 (en) * 2005-12-29 2009-12-15 Google Inc. Automatically generating and maintaining an address book
US20070203891A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Providing and using search index enabling searching based on a targeted content of documents
US8117195B1 (en) * 2006-03-22 2012-02-14 Google Inc. Providing blog posts relevant to search results
US20090171866A1 (en) * 2006-07-31 2009-07-02 Toufique Harun System and method for learning associations between logical objects and determining relevance based upon user activity
WO2008018064A2 (en) * 2006-08-07 2008-02-14 Yeda Research And Development Co. Ltd. Data similarity and importance using local and global evidence scores
US20080104128A1 (en) * 2006-10-24 2008-05-01 Drayer Jay A system and method for secure, anonymous, and pertinent reposting of private blog posting, etc.
US20080154887A1 (en) * 2006-12-01 2008-06-26 S.L.I. Systems, Inc. Method and system for displaying information
US8180717B2 (en) * 2007-03-20 2012-05-15 President And Fellows Of Harvard College System for estimating a distribution of message content categories in source data
US7873635B2 (en) * 2007-05-31 2011-01-18 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US7664726B2 (en) * 2007-06-25 2010-02-16 Microsoft Corporation Influence based rewards for word-of-mouth advertising ecosystems
US8010527B2 (en) * 2007-06-29 2011-08-30 Fuji Xerox Co., Ltd. System and method for recommending information resources to user based on history of user's online activity
US9283476B2 (en) * 2007-08-22 2016-03-15 Microsoft Technology Licensing, Llc Information collection during game play
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
US8150842B2 (en) * 2007-12-12 2012-04-03 Google Inc. Reputation of an author of online content
JP2011516938A (ja) * 2008-02-22 2011-05-26 ソーシャルレップ・エルエルシー 分散型オンライン会話の測定および管理のためのシステムと方式
US8069179B2 (en) * 2008-04-24 2011-11-29 Microsoft Corporation Preference judgements for relevance
US20100131455A1 (en) * 2008-11-19 2010-05-27 Logan James D Cross-website management information system
US8694496B2 (en) * 2008-11-26 2014-04-08 At&T Intellectual Property I, L.P. Harvesting application metadata
US8886636B2 (en) * 2008-12-23 2014-11-11 Yahoo! Inc. Context transfer in search advertising
US8321463B2 (en) * 2009-08-12 2012-11-27 Google Inc. Objective and subjective ranking of comments
US8745067B2 (en) * 2009-08-12 2014-06-03 Google Inc. Presenting comments from various sources
US10019518B2 (en) * 2009-10-09 2018-07-10 Excalibur Ip, Llc Methods and systems relating to ranking functions for multiple domains

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385576A (zh) * 2010-08-27 2012-03-21 腾讯科技(深圳)有限公司 博主影响力计算方法及系统
WO2013117147A1 (zh) * 2012-02-09 2013-08-15 腾讯科技(深圳)有限公司 微博排序、搜索、展示方法和系统
US9785677B2 (en) 2012-02-09 2017-10-10 Tencent Technology (Shenzhen) Company Limited Method and system for sorting, searching and presenting micro-blogs
CN103914491A (zh) * 2013-01-09 2014-07-09 腾讯科技(北京)有限公司 对优质用户生成内容的数据挖掘方法和系统
CN103914491B (zh) * 2013-01-09 2017-11-17 腾讯科技(北京)有限公司 对优质用户生成内容的数据挖掘方法和系统
US10198480B2 (en) 2013-01-09 2019-02-05 Tencent Technology (Shenzhen) Company Limited Method and apparatus for determining hot user generated contents

Also Published As

Publication number Publication date
WO2007033202A1 (en) 2007-03-22
JP2011238276A (ja) 2011-11-24
JP4837040B2 (ja) 2011-12-14
US20070061297A1 (en) 2007-03-15
CA2622784A1 (en) 2007-03-22
US8244720B2 (en) 2012-08-14
AU2006290977B2 (en) 2011-04-21
JP2009508267A (ja) 2009-02-26
EP1934830A1 (en) 2008-06-25
KR101005510B1 (ko) 2011-01-04
AU2006290977A1 (en) 2007-03-22
BRPI0615915B1 (pt) 2019-09-10
KR20080044915A (ko) 2008-05-21
BRPI0615915A2 (pt) 2012-04-10
US20120265757A1 (en) 2012-10-18

Similar Documents

Publication Publication Date Title
CN101305371A (zh) 对博客文档进行排名
US8630972B2 (en) Providing context for web articles
CN102483745B (zh) 共同选择图像分类
US8290927B2 (en) Method and apparatus for rating user generated content in search results
US8443384B2 (en) Systems and methods for targeted advertising
CN101454781B (zh) 扩展的摘录
US8355997B2 (en) Method and system for developing a classification tool
CN104885081A (zh) 搜索系统和相应方法
US20100094826A1 (en) System for resolving entities in text into real world objects using context
CN102317936A (zh) 识别评论以连同文档一起示出
CN1853183A (zh) 用于改进对新闻文章分级的系统和方法
US20170300564A1 (en) Clustering for social media data
US20090171986A1 (en) Techniques for constructing sitemap or hierarchical organization of webpages of a website using decision trees
CN103136360A (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
US9569438B1 (en) Ranking content using content and content authors
CN113297457B (zh) 一种高精准性的信息资源智能推送系统及推送方法
US8577866B1 (en) Classifying content
US20110218991A1 (en) System and method for automatic detection of needy queries
JP2009187384A (ja) 検索装置、検索方法、検索プログラム、および、記録媒体
CN111460307B (zh) 一种移动终端精确搜索方法和装置
AU2011204929B2 (en) Ranking blog documents
CN105589871A (zh) 资讯处理方法和装置
Alkwai Expanding the Usage of Web Archives by Recommending Archived Webpages Using Only the URI
Ardi et al. Web-scale content reuse detection (extended)
Urabi et al. FPGA: Implementation of Association Rule in Web Usage Mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20081112