CN1954321A - 具有实体检测的查询改写 - Google Patents
具有实体检测的查询改写 Download PDFInfo
- Publication number
- CN1954321A CN1954321A CNA2005800157187A CN200580015718A CN1954321A CN 1954321 A CN1954321 A CN 1954321A CN A2005800157187 A CNA2005800157187 A CN A2005800157187A CN 200580015718 A CN200580015718 A CN 200580015718A CN 1954321 A CN1954321 A CN 1954321A
- Authority
- CN
- China
- Prior art keywords
- search
- phrase
- inquiry
- entity title
- search inquiry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Abstract
一种系统,接收搜索查询,确定所接收的搜索查询是否包括实体名称,以及确定该实体名称是否与常用字或者短语相关联。当该实体名称与常用字或者短语相关联时,该系统生成到改写的查询的链接,基于所接收的搜索查询执行搜索以获得第一搜索结果,以及提供第一搜索结果和到该改写的查询的链接。当该实体名称与常用字或者短语不相关联时,该系统改写所接收的搜索查询以包括与该实体名称相关联的限制标识符,生成到所接收的搜索查询的链接,基于改写的搜索查询执行搜索以获得第二搜索结果,以及提供第二搜索结果和到所接收的搜索查询的链接。
Description
技术领域
根据本发明原理的系统和方法通常涉及信息检索,并且尤其涉及基于对搜索查询中某些实体名称的检测而改写该查询。
背景技术
万维网(“web”)包含巨量的信息。搜索引擎通过分类网络文档来帮助用户定位这些信息的期望部分。通常,响应于用户的请求,搜索引擎返回到与该请求相关的文档的链接。
搜索引擎可以基于由用户提供的搜索项(被称为搜索查询)来确定用户的兴趣。搜索引擎的目标是标识到基于该搜索查询的相关结果的链接。通常,搜索引擎通过将搜索查询中的项目(term)与预先存储的web文档的文集(corpus)进行匹配来实现它。包含用户搜索项的web文档被认为是“命中”,并且被返回到用户。
一些搜索引擎通过在搜索查询中包括特殊字符或者项目而允许用户将搜索限制到诸如与相同网站相关联的文档之类的相关文档集合。然而,时常地,用户忘记了包括这些特殊字符/项目或者不知道它们。
发明内容
根据按照本发明原理的一个方面,一种方法可以包括:接收搜索查询;确定所接收的搜索查询是否包括实体名称;以及确定该实体名称是否与常用字或者短语相关联。该方法还可以包括:基于该实体名称是否被确定为与常用字或者短语相关联,来有选择地改写所接收的搜索查询;基于所接收的搜索查询或者改写的搜索查询来执行搜索,以获得搜索结果;以及给出该搜索结果。
根据另一方面,一种系统可以包括:用于接收搜索查询的装置;用于确定所接收的搜索查询是否包括实体名称的装置;以及用于确定该实体名称是否与常用字或者短语相关联的装置。该系统还可以包括:用于当确定该实体名称与常用字或者短语相关联时、改写所接收的搜索查询的装置;用于基于改写的搜索查询执行搜索以获得搜索结果的装置;以及用于提供该搜索结果的装置。
根据又一个方面,一种系统包括:存储器;和连接到该存储器的处理器,用于:接收搜索查询;确定所接收的搜索查询是否包括实体名称;以及当确定所接收的搜索查询包括实体名称时,有选择地改写所接收的搜索查询以获得改写的搜索查询。
根据进一步的方面,一种方法可以包括:确定一组实体名称;确定每个实体名称是否与常用字或者短语相关联;以及生成与常用字或者短语相关联的实体名称的表格。
根据另一方面,一种方法可以包括:接收搜索查询;确定所接收的搜索查询是否包括实体名称;以及确定该实体名称是否与常用字或者短语相关联。当该实体名称与常用字或者短语相关联时,该方法可以包括:生成到改写的查询的链接;基于所接收的搜索查询执行搜索,以获得第一搜索结果;以及提供第一搜索结果和到该改写的查询的链接。当该实体名称与常用字或者短语不相关联时,该方法可以包括:改写所接收的搜索查询,以包括与该实体名称相关联的限制标识符;生成到所接收的搜索查询的链接;基于改写的搜索查询执行搜索,以获得第二搜索结果;以及提供第二搜索结果和到所接收的搜索查询的链接。
附图说明
并入这个说明书中并且构成其一部分的附图,举例说明了本发明的实施例,而且它连同该描述一起来阐述本发明。在附图中,
图1是其中可以实现根据本发明原理的系统和方法的示范性网络的图示;
图2是根据按照本发明原理的实现方式的、图1中的客户端和/或服务器的示范性图示;
图3是根据按照本发明原理的实现方式的、图1中的服务器的一部分的示范性功能框图;
图4是根据按照本发明原理的实现方式的、候选字符串列表的示范性图示;
图5是根据按照本发明原理的实现方式的、生成候选字符串列表的示范性处理的流程图;
图6是根据按照本发明原理的实现方式的、有选择地改写查询的示范性处理的流程图;
图7和8是根据按照本发明的原理的实现方式的、在新闻环境中的自动查询改写示例的图示;以及
图9-11是根据按照本发明原理的实现方式的、在新闻环境中的查询改写建议示例的图示。
具体实施方式
下面对本发明的详细说明需要参考附图。在不同附图中的相同参考数字可以标识相同或者类似的单元。此外,以下的详细说明不用来限制本发明。
概述
根据本发明原理的系统和方法可以在检测到某些实体的名称时,改写搜索查询或者生成到改写的搜索查询的建议链接。此处使用的“实体”可以指任何可以被标记为与某些文档相关联的事物。实体的示例可以包括新闻来源、诸如在线商店之类的商店、产品类别、商标或者生产商、特定产品模型、状态(例如,新的、用过的、整修的等)、作者、艺术家、人、地点、和组织。
一些实体名称是明确的并且唯一地标识特定实体。然而,大量的名称多少有一些是不明确或者通用的,这使得当将它们包括在用户搜索查询中时更加难以标识它们想要对应的实体。根据本发明原理的系统和方法提供了用于确定实体名称所对应的实体、并且基于该实体名称有选择地改写用户的搜索查询的机制。因此,可以将用户的搜索查询限制为对与用户在该搜索中想要的实体相关联的文档(一个或多个)的搜索。
示范性网络配置
图1是其中可以实现根据本发明原理的系统和方法的网络100的示范性图示。网络100可以包括经由网络150连接到多个服务器120-140的多个客户端110。网络150可以包括局域网(LAN)、广域网(WAN)、诸如公共交换电话网(PSTN)之类的电话网络、企业内部网、Internet、存储器设备、或者网络的组合。为了简化起见,已经示出了有两个客户端110和三个服务器120-140连接到网络150。实际上,可以有更多或更少的客户端和服务器。此外,在有些情况下,客户端可以执行服务器的功能,而服务器可以执行客户端的功能。
客户端110可以包括客户端部件。部件可以被定义为诸如无线电话、个人计算机、个人数字助理(PDA)、膝上型或者其它类型的计算或者通讯设备之类的设备,在这些设备之一上运行的线程或者处理,和/或可由这些设备之一执行的对象。服务器120-140可以包括服务器部件,其以根据本发明原理的方式收集、处理、搜索、和/或维护文档。客户端110和服务器120-140可以经由有线、无线、和/或光学连接而连接到网络150。
在根据本发明原理的实现方式中,服务器120可以包括可由客户端110使用的搜索引擎125。服务器120可以在文档(例如,网页)的文集上爬行(crawl),索引该文档,并且在所爬行文档的储存库(repository)中存储与这些文档相关联的信息。服务器130和140可以存储或者维护可由服务器120爬行的文档。虽然服务器120-140被示为是单独的实体,但是有可能让服务器120-140中的一个或者多个执行其它一个或者多个服务器120-140的一个或者多个功能。例如,服务器120-140中的两个或多个有可能被实现为单个服务器。还有可能将单个服务器120-140实现为两个或多个单独的(并且有可能是分布式的)设备。
此处使用的术语“文档”被广泛地解释为包括任何机器可读的和机器可存储的工作成果。文档可以包括电子邮件、网站、文件、文件的组合、具有到其它文件的嵌入式链接的一个或者多个文件、新闻组发布(posting)、博客、网络广告等。在Internet的环境中,常见的文档是网页。网页经常包括文本信息,而且可以包括嵌入的信息(诸如元信息、图像、超链接等)和/或嵌入的指令(诸如Javascript(Java脚本)等)。此处使用的术语“链接”被广泛地解释为包括任何对文档的引用或者来自文档的引用。
示范性客户端/服务器结构
图2是根据按照本发明原理的实现方式、可以对应于客户端110和服务器120-140中的一个或多个的客户端或者服务器部件(在下文中被称为“客户端/服务器部件”)的示范性框图。该客户端/服务器部件可以包括总线210、处理器220、主存储器230、只读存储器(ROM)240、存储设备250、输入设备260、输出设备270、和通信接口280。总线210可以包括允许在该客户端/服务器部件的单元当中进行通信的路径。
处理器220可以包括传统的处理器或者微处理器,或者用于解释和执行指令的另一类型的处理逻辑。主存储器230可以包括随机存取存储器(RAM)或者另一类型的动态存储设备,其存储信息以及由处理器220执行的指令。ROM240可以包括传统的ROM设备或者另一类型的静态存储设备,其存储用于由处理器220使用的静态信息和指令。存储设备250可以包括磁和/或光记录介质以及其相应的驱动器。
输入设备260可以包括诸如键盘、鼠标、笔、语音识别和/或生物机构等之类的、允许操作者将信息输入到该客户端/服务器部件中的传统机构。输出设备270可以包括一个包含显示器、打印机、扬声器等在内的、将信息输出到操作者的传统机构。通信接口280可以包括任何类似于收发信机的机构,其允许该客户端/服务器部件与其它设备和/或系统进行通信。例如,通信接口280可以包括用于经由诸如网络150之类的网络与另一设备或者系统进行通信的机构。
如下面详细描述的那样,根据本发明原理的客户端/服务器部件可以执行某些与搜索相关的操作。该客户端/服务器部件可以响应于处理器220执行包含在诸如存储器230之类的计算机可读介质中的软件指令,而执行这些操作。计算机可读介质可被定义为物理或者逻辑存储设备和/或载波。
软件指令可以从诸如数据存储设备250之类的另一计算机可读介质中、或者经由通信接口280从其它设备中读入到存储器230中。包含在存储器230中的软件指令可以导致处理器220执行稍后所述的处理。作为选择,可以使用硬布线的电路来代替软件指令或者与软件指令相结合以实现根据本发明原理的处理。因此,根据本发明原理的实现方式不局限于任何硬件电路和软件的特定组合。
示范性服务器
图3是根据按照本发明原理的实现方式的、服务器120的一部分的示范性功能框图。根据一个实现方式,如下所述的一个或多个功能可以由搜索引擎125执行。根据另一实现方式,这些功能中的一个或多个可以由诸如与服务器120相关联的计算机或者服务器130和140之一之类的、在服务器120外部的部件执行。
服务器120可以包括连接到储存库的实体标识单元310和查询处理单元320。储存库可以包括与先前例如由服务器120爬行和存储的文档相关联的信息。
实体标识单元310可以生成实体名称列表。实体标识单元310可以获得在特定环境中的实体的实体名称的初始集合(例如,在新闻来源环境中的新闻来源名称或者在商店环境中的商店名称)。有很多种实体标识单元310可以获得在特定环境中的实体名称的初始集合的方法。例如,实体标识单元310可以通过分析文档文集等从在线目录、列表、组发布中获得实体名称。
对于这些名称中的每一个,实体标识单元310还可以标识与该名称相关联的、诸如主页域名或者类别标识符之类的实体标识符。例如,如果名称是华盛顿邮报(Washington Post),则相关联的实体标识符可以是washingtonpost.com。实体标识单元310可以根据例如对储存库中的文档信息的分析而标识出相关联的实体标识符。
实体标识单元310然后可以处理该实体名称以生成名称变体列表。实体标识单元310可以向该名称和/或其实体标识符应用几个转换,诸如:按原样使用实体名称;按原样使用实体标识符;从实体名称中删除诸如“一”、“该”、“公司”、“股份有限公司”之类的修饰词;在实体名称内用连字符或者下划线替换空格,或者反过来用空格代替连字符或者下划线;删除实体名称中的单引号;在实体名称和/或实体标识符中互换“和”和“&”;删除实体名称和/或实体标识符中的“和”和“&”;删除实体标识符中的开头的“www.”和/或结尾的“.com”;和/或将实体标识符中两边没有空格的句点视为空格或者删除这些句点。还可以使用其它或者不同的转换。
实体标识单元310可以将这些名称变体形成为候选字符串列表。图4是根据按照本发明原理的实现方式的、候选字符串列表400的示范性图示。候选字符串列表400可以包括与实体名称的各个版本相关联的许多条目(候选字符串)和它们的相关联的实体标识符。列表400中的条目可以包括实体名称字段410和实体ID字段420。实体名称字段410可以包括实体名称的变体或者其相关联的实体标识符。实体ID字段420可以包括诸如域、URL、或者类别标识符之类的、唯一地标识与实体名称字段410中的实体名称相对应的实体。用于新闻来源华盛顿邮报的条目示例可以在实体名称字段410中包括“华盛顿邮报”以及在实体ID字段420中包括“www.washingtonpost.com”。
返回图3,查询处理单元320可以处理候选字符串列表,以确定是否应该自动改写搜索查询或者是否应该建议改写查询。例如,查询处理单元320可以确定查询是否包括实体名称或者其任何变体。查询处理单元320可以相对于候选字符串列表400(图4)检查该查询中的项目。在一个实现方式中,查询处理单元320可以检查在该查询的最左边或者最右边位置处的字或者短语(在下文中,将使用“项目”来包含“字”和“短语”这二者)是否与候选字符串之一相匹配。在另一个实现方式中,查询处理单元320可以检查在该查询中的任何项目是否与候选字符串之一相匹配。
如果一个项目与候选字符串之一相匹配,则查询处理单元320可以可选地确定在该查询中、与该项目相邻的字是否指示不应当再进一步进行对该查询的处理。例如,查询处理单元320可以确定与该项目相邻(例如,接近或者靠近该项目)的字是否与该项目形成了常用短语以致这个字和该项目的组合形成了不应当被分解的短语。
为了对此进行说明,假定查询包括字“时间旅行”,而且项目“时间”已经被标识为实体名称。提供该查询的用户可能意指两件事情。首先,用户可能想要查找有关短语“时间旅行”的信息。作为选择,用户可能想要从新闻来源“Time”查找有关“旅行”的信息。在这种情况下,查询处理单元320可以将短语“时间旅行”识别为常用短语,并且确定该短语不应当被分解。
查询处理单元320可以从详尽的短语列表中标识出常用短语。该短语列表可以从多个来源获得。一个这样的来源可以包括文档储存库。例如,可以分析该储存库中的文档,以便标识出在不同的文档中出现超过次数阈值的短语。
当查询处理单元320确定应当不再进行对该查询的进一步处理时,查询处理器320可以使用原有的查询执行搜索,并且向用户给出搜索结果。在这种情况下,查询处理单元320可以可选地与该搜索结果一起包括一个到改写的查询的链接。该改写的查询可以将搜索限制到与该查询中的实体名称(或者变体)相关联的实体标识符(例如,域)。
当查询处理单元320确定应当进行对该查询的进一步处理时,查询处理单元320可以确定该项目是否与常用字或者短语相关联。存在有几种查询处理单元320可以确定该项目是否与常用字或者短语相关联的方法。例如,查询处理单元320可以将该项目与英文字典相比较。作为选择,查询处理单元320可以使用逆文档频率(IDF)加权技术或者传统的语言学建模技术。一种这样的技术可能涉及分析文档文集并且基于该文档中的项目创建散列(哈希)表。例如,可以标识和哈希计算文档中的每个项目。然后,可以递增在该散列表中相应条目的计数值。一旦分析了该文集后,则该计数值可以反映哪些项目更频繁地出现以及哪些项目较不频繁出现。查询处理单元320可以将已经出现超过了阈值量的项目标识为常用项目。
如果查询处理单元320确定查询项目与常用字或者短语不相关联,则查询处理单元320可以改写该查询。该改写的查询可以基于对实体名称的标识,并且将该查询限制为与实体名称相关联的搜索。例如,如果用户查询包括“washingtonpost”,则该查询可以被改写为“source:washingtonpost”,以指示该搜索被限制到与新闻来源华盛顿邮报相关联的实体标识符(域)。“source:”可以对应于在新闻环境中的限制标识符,其指示该搜索应该被限制到在该限制标识符之后的新闻来源。在其它环境中可以使用类似的限制标识符。
查询处理单元320然后可以基于该改写的查询执行搜索,并且向用户给出结果。查询处理单元320还可以向用户提供与原有查询相关联的查询链接。如果由用户选择了查询链接,则该查询链接可以导致查询处理单元320基于原有查询执行搜索(即,不将搜索限制到特定实体)。
如果查询处理单元320确定该查询项与常用字或者短语相关联,则该查询处理单元320可以使用原有的查询来执行搜索(即,不将该搜索限制到特定实体)。查询处理单元320还可以生成与改写的查询相关联的查询链接。查询处理单元320可以如上所述改写该查询,并且向用户提供到这个改写了的查询的链接。如果由用户选择了查询链接,则该查询链接可以导致查询处理单元320基于改写的查询执行搜索。
示范性处理
图5是根据按照本发明原理的实现方式的、生成候选字符串列表的示范性处理的流程图。处理可以从获得用于特定环境的实体名称的列表开始(动作510)。对于每个实体名称,还可以标识相应的实体标识符(动作520)。存在几种用于标识用于该列表的实体名称和/或实体标识符的技术。例如,可以通过分析文档文集等、从在线目录、列表、组发布中标识出实体名称和/或实体标识符。
然后,可以通过转换实体名称和/或实体标识符生成候选字符串列表(动作530)。例如,用于特定实体名称及其相关联实体标识符的候选字符串列表可以包括:按照原样的实体名称,按照原样的实体标识符,没有修饰词(例如,“一”、“该”、“股份有限公司”、“公司”)的实体名称,用连字符或者下划线代替空格以及反过来用空格代替连字符或者下划线的实体名称,没有单引号的实体名称,用“和”代替“&”以及反过来用“&”代替“和”的实体名称和/或实体标识符,没有“和”和“&”的实体名称和/或实体标识符,没有开头的“www.”和/或结尾的“.com”的实体标识符,以及用空格代替在两边都没有空格的句点或者删除了该句点的实体标识符。还可以使用其它或者不同的转换。图4说明了一种这样的候选字符串列表。
图6是根据按照本发明原理的实现方式的、有选择地改写搜索查询的示范性处理的流程图。处理可以从接收来自用户的搜索查询开始(动作610)。该搜索查询可以包含一个或多个项目,这些项目可以或者未必包括实体名称。
该搜索查询可以被评估以便基于候选字符串列表标识可能的实体名称(动作620)。例如,可以将搜索查询中的项目与候选字符串列表中的、包括该实体名称的变体在内的实体名称进行比较。在一个实现方式中,可以评估在该搜索查询的最左边位置和/或最右边位置上的项目,以确定它们是否对应于候选字符串列表中的实体名称之一。在另一个实现方式中,可以评估该查询中的每个项目。
如果在该搜索查询中的项目匹配于实体名称之一,则然后可以可选地确定是否应该进一步处理该搜索查询(动作630)。例如,可以确定该搜索查询中的、与该实体名称相邻的字是否与该实体名称形成了常用短语以致这个字和该实体名称的组合形成了不应当被分解的短语。如上所述,可以从详尽的短语列表中标识出常用短语。
当确定不应当对该查询进行进一步处理时,诸如当该搜索查询中的字与该实体名称形成常用短语时,可以执行使用原有查询的搜索,并且向用户给出搜索结果。可选地,可以与该搜索结果一起给出到改写的查询的链接。该改写的查询可以将搜索限制到与该查询中的实体名称相关联的实体标识符(例如,域)。
当确定应当进行对该查询的进一步处理时,然后可以确定该实体名称是否与常用字或者短语相关联(动作640)。例如,可以将该实体名称与英文字典相比较,以确定其是否与常用字或者短语相关联。作为选择,如上所述,可以使用IDF加权技术或者传统的语言学技术。
在一个实现方式中,可以事先执行动作640中的部分,以生成作为常用字或者短语的实体名称的表格。在这种情况下,可以通过简单的表格查找操作来执行对该实体名称是否与常用字或者短语相关联的确定。
如果确定该实体名称与常用字或者短语不相关联,则可以改写该查询,以便将该查询限制为与该实体名称相关联的搜索(动作650)。例如,可以改写该查询以包括与特定环境相关联的限制标识符。限制标识符可以因此将与该查询相关联的搜索限制为与实体名称相关联的搜索。然后,可以基于改写的查询执行搜索。
还可以生成一个链接到原有查询(即,没有将该搜索限制到特定实体名称)的查询链接(动作660)。在其中用户不想要基于所改写的查询的那些情况下,该查询链接可能是有益的。
如果确定该实体名称与常用字或者短语相关联,则可以生成到改写的查询的查询链接(动作670)。例如,如上所述,可以改写该查询。由用户选择该查询链接,可以导致基于改写的查询执行搜索。然后,可以使用原有的查询执行搜索(即,没有将该搜索限制到特定实体名称)(动作680)。
该搜索(如果可应用改写的查询,则基于该改写的查询执行,或者如果可应用原有查询,则基于该原有查询执行)可以标识与该改写/原有的查询相关的文档。例如,可以搜索文档储存库,以便标识出包括该查询中的一个或多个项目的文档。所产生的文档可以形成可向用户给出的搜索结果(动作690)。在一个实现方式中,该搜索结果可以采用到该文档的链接的形式。
自动查询改写示例-新闻环境
图7和8是根据按照本发明的原理的实现方式的、在新闻环境中的自动查询改写示例的图示。如图7所示,用户可以经由与诸如搜索引擎125(图1)之类的搜索引擎相关联的图形用户接口输入搜索查询。在这个示例中,用户输入搜索查询“george bush msnbc”。假定项目“msnbc”标识新闻来源msnbc.com,并且因此其被包括在候选字符串列表(例如,参见图4)中。
搜索引擎125可以将“msnbc”标识为实体名称。假定搜索引擎125确定短语“bush msnbc”和/或短语“george bush msnbc”不是常用短语。搜索引擎125然后可以评估实体名称“msnbc”,以确定它是否与常用字或者短语相关联。在这种情况下,搜索引擎125确定“msnbc”与常用字或者短语不相关联。如图8所示,搜索引擎125然后可以将该查询改写为“george bush source:msnbc”。
搜索引擎125在储存库中搜索与改写的查询相关的、与来源msnbc.com相关联的文档(例如,新闻文档)。有许多确定文档相关性的方法。例如,可以将包含该改写的查询中的一个或多个搜索项的文档标识为是相关的。包括更多数量的搜索项的文档可以被标识为比包含较少数量的搜索项的文档更相关。
搜索引擎125然后可以将相关的文档作为搜索结果向用户给出。如图8所示,每个搜索结果可以包括到相应文档的链接810、新闻来源标识符以及文档创建时间的指示符820、以及相应文档的简短描述830。搜索引擎125还可以提供到由用户输入的原有查询的查询链接850。在这种情况下,查询链接850可以对应于与对搜索项“george”、搜索项“bush”、和/或搜索项“msnbc”的搜索相关联的查询。
建议查询改写示例-新闻环境
图9-11是根据按照本发明原理的实现方式的、在新闻环境中的查询改写建议示例的图示。如图9所示,用户可以经由与诸如搜索引擎125(图1)之类的搜索引擎相关联的图形用户接口输入搜索查询。在这个示例中,用户输入搜索查询“time korea”。假定项目“time”标识新闻来源time.com,并且因此被包括在候选字符串列表(例如,参见图4)中。
搜索引擎125可以将“time”标识为实体名称。假定搜索引擎125确定短语“time korea”不是常用短语。搜索引擎125然后可以评估实体名称“time”,以确定它是否与常用字或者短语相关联。在这种情况下,搜索引擎125确定“time”与常用字或者短语相关联。如图10所示,搜索引擎125然后可以将该查询改写为“korea source:time”,并且生成到该改写的查询的链接1010(“Search News Source Time for
Korea(在新闻来源Time中搜索Korea)”)。
搜索引擎125在储存库中搜索与原有搜索查询相关的文档(例如,新闻文档)。如上所述,有许多确定文档相关性的方法。例如,可以将包含该改写的查询中的一个或多个搜索项的文档标识为是相关的。包括更多数量的搜索项的文档可以被标识为比包含较少数量的搜索项的文档更相关。在这种情况下,搜索引擎125搜索包括搜索项“time”和/或“korea”的文档。
搜索引擎125然后可以将相关的文档作为搜索结果向用户给出。如图10所示,每个搜索结果可以包括到相应文档的链接1020、新闻来源标识符以及文档创建时间的指示符1030、以及相应文档的简短描述1040。因为搜索不局限于新闻来源Time,所以搜索结果与多个不同的新闻来源(例如,New York Times(纽约时报)、BritishBroadcasting Corporation(BBC,英国广播公司)、以及AtlantaJournal Constitution(亚特兰大日报))相关联。
如果用户选择了与改写的查询相关联的链接1010,则搜索引擎125在储存库中搜索与该改写的查询相关的、与新闻来源time.com相关联的文档(例如,新闻文档)。搜索引擎125然后可以将相关的文档作为搜索结果向用户给出。如图11所示,每个搜索结果可以包括到相应文档的链接1110、新闻来源标识符以及与该文档创建时间相对应的日期指示符1120、以及相应文档的简短描述1130。可选地,搜索引擎125还可以提供到由用户输入的原有查询的链接1150。在这种情况下,链接1150可以对应于与对搜索项“time”和/或搜索项“korea”的搜索相关联的查询。
结论
根据本发明原理的系统和方法可以在检测到某些实体的名称时,有选择地改写搜索查询。
对本发明的优选实施例的上述描述提供了举例说明和描述,但是它不是穷举的,而且也不打算将本发明限制为所公开的准确形式。根据上述示教,许多修改和变化都是可能的,或者可以从本发明的实践中获取这些修改和变化。
例如,已经描述了查询处理单元320可以基于原有或者改写的搜索查询执行搜索。在其它实现方式中,查询处理单元320可以不执行该搜索,但是可以将该原有或者改写的搜索查询提供给诸如搜索引擎125(图1)之类的搜索引擎,以执行搜索以及提供搜索结果。
此外,已经就图5和6描述了一系列动作,但是在根据本发明原理的其它实现方式中,可以修改这些动作的次序。此外,不相关的动作可以并行执行。
在一个实现方式中,服务器120可以执行大多数(如果不是全部的话)的就图5和/或6中的处理所描述的动作。在按照本发明原理的另一个实现方式中,这些动作中的一个或者多个、或者其全部都可以由诸如另一个服务器130和/或140或者客户端110之类的另一部件所执行。
本领域的普通技术人员还将会明白,在附图中所说明的实现方式中,如上所述的本发明的各个方面可以用软件、固件、和硬件的许多不同形式实现。用于实现根据本发明原理的各个方面的实际软件代码或者专用控制硬件不是对本发明的限制。因此,在没有参考特定的软件代码的情况下描述了各个方面的操作和动作——应当理解,基于此处的描述,本领域的普通技术人员将能够设计出软件和控制硬件以实现这些方面。
除非被明确描述为这样,否则在当前申请中使用的要素、动作、或者指令都不应该被看作是本发明关键和必要的。此外,此处使用的冠词“一“意图包括一或多项。在意图表示仅仅一项的地方,使用了术语“一个”或者类似的语言。此外,除非明确申明不是这样,否则短语“基于”意指“至少部分地基于”。
Claims (22)
1、一种方法,包含:
接收搜索查询;
确定所接收的搜索查询是否包括实体名称;
确定实体名称是否与常用字或者短语相关联;
基于该实体名称是否被确定为与常用字或者短语相关联,来有选择地改写所接收的搜索查询;
基于所接收的搜索查询或者所改写的搜索查询执行搜索,以获得搜索结果;以及
给出该搜索结果。
2、如权利要求1所述的方法,还包含:
当基于所改写的搜索查询执行搜索时,提供到所接收的搜索查询的链接。
3、如权利要求2所述的方法,还包含:
接收对到所接收的搜索查询的链接的选择;以及
基于所接收的搜索查询执行搜索。
4、如权利要求1所述的方法,还包含:
当基于所接收的搜索查询执行搜索时,提供到所改写的搜索查询的链接。
5、如权利要求4所述的方法,还包含:
接收对到所改写的搜索查询的链接的选择;以及
基于所改写的搜索查询执行搜索。
6、如权利要求1所述的方法,还包含:
确定在所接收的搜索查询中接近该实体名称的字是否与该实体名称一起形成了常用短语;
当确定接近该实体名称的字与该实体名称一起形成常用短语时,基于所接收的搜索查询执行搜索。
7、如权利要求1所述的方法,其中,确定该实体名称是否与常用字或者短语相关联的步骤包含:
将该实体名称与单词或者短语字典进行比较。
8、如权利要求1所述的方法,其中,确定该实体名称是否与常用字或者短语相关联的步骤包含:
使用逆文档频率加权技术或者语言学建模技术来标识该实体名称是否与常用字或者短语相关联。
9、如权利要求1所述的方法,其中,确定该实体名称是否与常用字或者短语相关联的步骤包含:
生成与常用字或者短语相关联的实体名称的表格;以及
基于该表格确定该实体名称是否与常用字或者短语相关联。
10、如权利要求1所述的方法,其中,有选择地改写所接收的搜索查询的步骤包含:
当确定该实体名称与常用字或者短语不相关联时,修改所接收的搜索查询,以包括与该实体名称相关联的限制标识符。
11、如权利要求1所述的方法,其中,确定所接收的搜索查询是否包括实体名称的步骤包含:
标识多个实体名称的多个变体;以及
确定所接收的搜索查询是否包括实体名称的变体之一。
12、如权利要求1所述的方法,其中,执行搜索的步骤包含:
当该实体名称被确定为与常用字或者短语相关联时,基于所接收的搜索查询进行搜索。
13、如权利要求1所述的方法,其中,执行搜索的步骤包含:
当该实体名称被确定为与常用字或者短语不相关联时,基于所改写的搜索查询进行搜索。
14、一种系统,包含:
用于接收搜索查询的装置;
用于确定所接收的搜索查询是否包括实体名称的装置;
用于确定该实体名称是否与常用字或者短语相关联的装置;
用于当确定该实体名称与常用字或者短语相关联时、改写所接收的搜索查询的装置;
用于基于所改写的搜索查询执行搜索以获得搜索结果的装置;以及
用于提供该搜索结果的装置。
15、如权利要求14所述的系统,还包含:
用于提供到所接收的搜索查询的链接的装置。
16、如权利要求15所述的系统,还包含:
用于接收对到所接收的搜索查询的链接的选择的装置;以及
用于基于所接收的搜索查询执行搜索的装置。
17、一种系统,包含:
存储器;以及
处理器,连接到该存储器,用于:
接收搜索查询;
确定所接收的搜索查询是否包括实体名称;以及
当确定所接收的搜索查询包括实体名称时,有选择地改写所接收的搜索查询,以获得改写的搜索查询。
18、一种方法,包含:
确定多个实体名称;
确定每个实体名称是否与常用字或者短语相关联;以及
生成与常用字或者短语相关联的实体名称的表格。
19、如权利要求18所述的方法,其中,确定每个实体名称是否与常用字或者短语相关联的步骤包含:
将每个实体名称与单词或者短语字典进行比较。
20、如权利要求18所述的方法,其中,确定每个实体名称是否与常用字或者短语相关联的步骤包含:
使用逆文档频率加权技术或者语言学建模技术来标识每一实体名称是否与常用字或者短语相关联。
21、一种系统,包含:
处理器,用于:
标识多个实体名称;
确定每个实体名称是否与常用字或者短语相关联;以及
生成包含与常用字或者短语相关联的多个实体名称的表格;
以及
存储器,用于存储所述表格。
22、一种方法,包含:
接收搜索查询;
确定所接收的搜索查询是否包括实体名称;
确定实体名称是否与常用字或者短语相关联;
当实体名称与常用字或者短语相关联时:
生成到改写的查询的链接;
基于所接收的搜索查询执行搜索,以获得第一搜索结果;以及
提供第一搜索结果和到该改写的查询的链接;以及当实体名称与常用字或者短语不相关联时:
改写所接收的搜索查询,以包括与该实体名称相关联的限制标识符;
生成到所接收的搜索查询的链接;
基于改写的搜索查询执行搜索,以获得第二搜索结果;以及
提供第二搜索结果和到所接收的搜索查询的链接。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/813,572 US7536382B2 (en) | 2004-03-31 | 2004-03-31 | Query rewriting with entity detection |
US10/813,572 | 2004-03-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1954321A true CN1954321A (zh) | 2007-04-25 |
CN100478949C CN100478949C (zh) | 2009-04-15 |
Family
ID=34964200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005800157187A Active CN100478949C (zh) | 2004-03-31 | 2005-03-28 | 具有实体检测的查询改写 |
Country Status (4)
Country | Link |
---|---|
US (4) | US7536382B2 (zh) |
EP (1) | EP1735724A1 (zh) |
CN (1) | CN100478949C (zh) |
WO (1) | WO2005098679A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262632A (zh) * | 2010-05-28 | 2011-11-30 | 国际商业机器公司 | 进行文本处理的方法和系统 |
CN102314435A (zh) * | 2010-06-30 | 2012-01-11 | 腾讯科技(深圳)有限公司 | 搜索网页内容的方法及系统 |
CN101868797B (zh) * | 2007-09-21 | 2013-05-01 | 谷歌公司 | 跨语言搜索 |
CN106557480A (zh) * | 2015-09-25 | 2017-04-05 | 阿里巴巴集团控股有限公司 | 查询改写的实现方法及装置 |
CN110622153A (zh) * | 2017-05-15 | 2019-12-27 | 电子湾有限公司 | 用于查询分割的方法和系统 |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536382B2 (en) | 2004-03-31 | 2009-05-19 | Google Inc. | Query rewriting with entity detection |
US7996419B2 (en) | 2004-03-31 | 2011-08-09 | Google Inc. | Query rewriting with entity detection |
US8131647B2 (en) | 2005-01-19 | 2012-03-06 | Amazon Technologies, Inc. | Method and system for providing annotations of a digital work |
US9275052B2 (en) | 2005-01-19 | 2016-03-01 | Amazon Technologies, Inc. | Providing annotations of a digital work |
US20070043736A1 (en) * | 2005-08-22 | 2007-02-22 | Microsoft Corporation | Smart find |
US20070067291A1 (en) * | 2005-09-19 | 2007-03-22 | Kolo Brian A | System and method for negative entity extraction technique |
US8352449B1 (en) | 2006-03-29 | 2013-01-08 | Amazon Technologies, Inc. | Reader device content indexing |
US20070239735A1 (en) * | 2006-04-05 | 2007-10-11 | Glover Eric J | Systems and methods for predicting if a query is a name |
US7483894B2 (en) * | 2006-06-07 | 2009-01-27 | Platformation Technologies, Inc | Methods and apparatus for entity search |
US8001114B2 (en) * | 2006-07-18 | 2011-08-16 | Wilson Chu | Methods and apparatuses for dynamically searching for electronic mail messages |
US8725565B1 (en) | 2006-09-29 | 2014-05-13 | Amazon Technologies, Inc. | Expedited acquisition of a digital item following a sample presentation of the item |
US9672533B1 (en) | 2006-09-29 | 2017-06-06 | Amazon Technologies, Inc. | Acquisition of an item based on a catalog presentation of items |
US7865817B2 (en) | 2006-12-29 | 2011-01-04 | Amazon Technologies, Inc. | Invariant referencing in digital works |
US8024400B2 (en) | 2007-09-26 | 2011-09-20 | Oomble, Inc. | Method and system for transferring content from the web to mobile devices |
US7751807B2 (en) | 2007-02-12 | 2010-07-06 | Oomble, Inc. | Method and system for a hosted mobile management service architecture |
US9665529B1 (en) | 2007-03-29 | 2017-05-30 | Amazon Technologies, Inc. | Relative progress and event indicators |
US7716224B2 (en) * | 2007-03-29 | 2010-05-11 | Amazon Technologies, Inc. | Search and indexing on a user device |
US8059126B2 (en) * | 2007-03-30 | 2011-11-15 | Computer Associates Think, Inc. | System and method for indicating special characters to be interpreted literally |
US8234282B2 (en) | 2007-05-21 | 2012-07-31 | Amazon Technologies, Inc. | Managing status of search index generation |
US8195655B2 (en) * | 2007-06-05 | 2012-06-05 | Microsoft Corporation | Finding related entity results for search queries |
US8046339B2 (en) * | 2007-06-05 | 2011-10-25 | Microsoft Corporation | Example-driven design of efficient record matching queries |
US7987176B2 (en) * | 2007-06-25 | 2011-07-26 | Sap Ag | Mixed initiative semantic search |
CN101132420B (zh) * | 2007-10-16 | 2012-03-14 | 杭州华三通信技术有限公司 | 一种基于ssl vpn的链接改写方法和设备 |
US8326847B2 (en) * | 2008-03-22 | 2012-12-04 | International Business Machines Corporation | Graph search system and method for querying loosely integrated data |
US8423889B1 (en) | 2008-06-05 | 2013-04-16 | Amazon Technologies, Inc. | Device specific presentation control for electronic book reader devices |
US8161036B2 (en) * | 2008-06-27 | 2012-04-17 | Microsoft Corporation | Index optimization for ranking using a linear model |
US8171031B2 (en) * | 2008-06-27 | 2012-05-01 | Microsoft Corporation | Index optimization for ranking using a linear model |
US9087032B1 (en) | 2009-01-26 | 2015-07-21 | Amazon Technologies, Inc. | Aggregation of highlights |
US8378979B2 (en) | 2009-01-27 | 2013-02-19 | Amazon Technologies, Inc. | Electronic device with haptic feedback |
US8832584B1 (en) | 2009-03-31 | 2014-09-09 | Amazon Technologies, Inc. | Questions on highlighted passages |
CN101887436B (zh) * | 2009-05-12 | 2013-08-21 | 阿里巴巴集团控股有限公司 | 一种检索方法和装置 |
US8692763B1 (en) | 2009-09-28 | 2014-04-08 | John T. Kim | Last screen rendering for electronic book reader |
US8346795B2 (en) * | 2010-03-10 | 2013-01-01 | Xerox Corporation | System and method for guiding entity-based searching |
US9158846B2 (en) | 2010-06-10 | 2015-10-13 | Microsoft Technology Licensing, Llc | Entity detection and extraction for entity cards |
US9043296B2 (en) | 2010-07-30 | 2015-05-26 | Microsoft Technology Licensing, Llc | System of providing suggestions based on accessible and contextual information |
US9495322B1 (en) | 2010-09-21 | 2016-11-15 | Amazon Technologies, Inc. | Cover display |
US8977625B2 (en) | 2010-12-15 | 2015-03-10 | Microsoft Technology Licensing, Llc | Inference indexing |
US8799312B2 (en) | 2010-12-23 | 2014-08-05 | Microsoft Corporation | Efficient label acquisition for query rewriting |
US9158741B1 (en) | 2011-10-28 | 2015-10-13 | Amazon Technologies, Inc. | Indicators for navigating digital works |
US9665643B2 (en) * | 2011-12-30 | 2017-05-30 | Microsoft Technology Licensing, Llc | Knowledge-based entity detection and disambiguation |
US9864817B2 (en) | 2012-01-28 | 2018-01-09 | Microsoft Technology Licensing, Llc | Determination of relationships between collections of disparate media types |
CN104428767B (zh) * | 2012-02-22 | 2018-02-06 | 谷歌公司 | 用于识别相关实体的方法、系统和装置 |
US9063983B1 (en) | 2012-06-01 | 2015-06-23 | Google Inc. | Detecting name-triggering queries |
US9229974B1 (en) | 2012-06-01 | 2016-01-05 | Google Inc. | Classifying queries |
US8862609B2 (en) | 2012-09-28 | 2014-10-14 | International Business Machines Corporation | Expanding high level queries |
US9047278B1 (en) | 2012-11-09 | 2015-06-02 | Google Inc. | Identifying and ranking attributes of entities |
US9116918B1 (en) * | 2012-11-14 | 2015-08-25 | Google Inc. | Methods, systems, and media for interpreting queries |
US9646062B2 (en) | 2013-06-10 | 2017-05-09 | Microsoft Technology Licensing, Llc | News results through query expansion |
US9436918B2 (en) * | 2013-10-07 | 2016-09-06 | Microsoft Technology Licensing, Llc | Smart selection of text spans |
US20150178289A1 (en) * | 2013-12-20 | 2015-06-25 | Google Inc. | Identifying Semantically-Meaningful Text Selections |
US10324964B2 (en) * | 2014-01-16 | 2019-06-18 | Massachusetts Institute Of Technology | Method and systems for enhanced ontology assisted querying of data stores |
US9881010B1 (en) | 2014-05-12 | 2018-01-30 | Google Inc. | Suggestions based on document topics |
US9251141B1 (en) | 2014-05-12 | 2016-02-02 | Google Inc. | Entity identification model training |
US9959296B1 (en) | 2014-05-12 | 2018-05-01 | Google Llc | Providing suggestions within a document |
US9607032B2 (en) | 2014-05-12 | 2017-03-28 | Google Inc. | Updating text within a document |
US10838995B2 (en) * | 2014-05-16 | 2020-11-17 | Microsoft Technology Licensing, Llc | Generating distinct entity names to facilitate entity disambiguation |
US9798708B1 (en) | 2014-07-11 | 2017-10-24 | Google Inc. | Annotating relevant content in a screen capture image |
US9965559B2 (en) | 2014-08-21 | 2018-05-08 | Google Llc | Providing automatic actions for mobile onscreen content |
US9547690B2 (en) | 2014-09-15 | 2017-01-17 | Google Inc. | Query rewriting using session information |
US9703541B2 (en) | 2015-04-28 | 2017-07-11 | Google Inc. | Entity action suggestion on a mobile device |
US10970646B2 (en) | 2015-10-01 | 2021-04-06 | Google Llc | Action suggestions for user-selected content |
US10178527B2 (en) | 2015-10-22 | 2019-01-08 | Google Llc | Personalized entity repository |
US10055390B2 (en) | 2015-11-18 | 2018-08-21 | Google Llc | Simulated hyperlinks on a mobile device based on user intent and a centered selection of text |
US10535005B1 (en) | 2016-10-26 | 2020-01-14 | Google Llc | Providing contextual actions for mobile onscreen content |
US11237696B2 (en) | 2016-12-19 | 2022-02-01 | Google Llc | Smart assist for repeated actions |
US11443004B1 (en) * | 2019-01-02 | 2022-09-13 | Foundrydc, Llc | Data extraction and optimization using artificial intelligence models |
JP7354019B2 (ja) * | 2020-03-02 | 2023-10-02 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US55831A (en) * | 1866-06-26 | Improved car for transporting petroleum | ||
US120712A (en) * | 1871-11-07 | Improvement in screw-die presses | ||
US46311A (en) * | 1865-02-07 | Improved machine for making metallic tubes | ||
US5404506A (en) * | 1985-03-27 | 1995-04-04 | Hitachi, Ltd. | Knowledge based information retrieval system |
US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5640553A (en) * | 1995-09-15 | 1997-06-17 | Infonautics Corporation | Relevance normalization for documents retrieved from an information retrieval system in response to a query |
US5797136A (en) * | 1995-10-05 | 1998-08-18 | International Business Machines Corporation | Optional quantifiers in relational and object-oriented views of database systems |
US5745900A (en) * | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for indexing duplicate database records using a full-record fingerprint |
US5765147A (en) * | 1996-11-21 | 1998-06-09 | International Business Machines Corportion | Query rewrite for extended search capabilities |
US6134540A (en) * | 1997-05-09 | 2000-10-17 | International Business Machines Corporation | System, method, and program for applying query rewrite technology to object building |
US6151624A (en) * | 1998-02-03 | 2000-11-21 | Realnames Corporation | Navigating network resources based on metadata |
US6185558B1 (en) * | 1998-03-03 | 2001-02-06 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
US6421675B1 (en) | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6424980B1 (en) * | 1998-06-10 | 2002-07-23 | Nippon Telegraph And Telephone Corporation | Integrated retrieval scheme for retrieving semi-structured documents |
US6006225A (en) * | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6735585B1 (en) * | 1998-08-17 | 2004-05-11 | Altavista Company | Method for search engine generating supplemented search not included in conventional search result identifying entity data related to portion of located web page |
US6654813B1 (en) * | 1998-08-17 | 2003-11-25 | Alta Vista Company | Dynamically categorizing entity information |
US6411950B1 (en) * | 1998-11-30 | 2002-06-25 | Compaq Information Technologies Group, Lp | Dynamic query expansion |
US6460029B1 (en) * | 1998-12-23 | 2002-10-01 | Microsoft Corporation | System for improving search text |
US6418434B1 (en) * | 1999-06-25 | 2002-07-09 | International Business Machines Corporation | Two stage automated electronic messaging system |
AU7534100A (en) * | 1999-09-24 | 2001-04-24 | Wordmap Limited | Apparatus for and method of searching |
US7630986B1 (en) * | 1999-10-27 | 2009-12-08 | Pinpoint, Incorporated | Secure data interchange |
US6772150B1 (en) * | 1999-12-10 | 2004-08-03 | Amazon.Com, Inc. | Search query refinement using related search phrases |
US6397211B1 (en) * | 2000-01-03 | 2002-05-28 | International Business Machines Corporation | System and method for identifying useless documents |
US6615209B1 (en) * | 2000-02-22 | 2003-09-02 | Google, Inc. | Detecting query-specific duplicate documents |
US6564210B1 (en) * | 2000-03-27 | 2003-05-13 | Virtual Self Ltd. | System and method for searching databases employing user profiles |
US6578022B1 (en) * | 2000-04-18 | 2003-06-10 | Icplanet Corporation | Interactive intelligent searching with executable suggestions |
US6564213B1 (en) * | 2000-04-18 | 2003-05-13 | Amazon.Com, Inc. | Search query autocompletion |
CA2307155A1 (en) * | 2000-04-28 | 2001-10-28 | Ibm Canada Limited-Ibm Canada Limitee | Execution of database queries including filtering |
GB2362971B (en) | 2000-05-30 | 2004-03-24 | Com Nation Ltd | A method of searching the internet and an internet search engine |
US6671681B1 (en) * | 2000-05-31 | 2003-12-30 | International Business Machines Corporation | System and technique for suggesting alternate query expressions based on prior user selections and their query strings |
WO2002003234A2 (en) * | 2000-06-30 | 2002-01-10 | Troy Schultz | Method and apparatus for a gis based search engine utilizing real time advertising |
US7925967B2 (en) * | 2000-11-21 | 2011-04-12 | Aol Inc. | Metadata quality improvement |
US6873980B2 (en) * | 2000-12-15 | 2005-03-29 | Sun Microsystems, Inc. | System for interfacing an application program with diverse databases |
US20020099720A1 (en) * | 2001-01-23 | 2002-07-25 | Pradeep Bansal | Directory search using additional information and resources |
US20020120712A1 (en) * | 2001-02-27 | 2002-08-29 | Seth Maislin | Providing information to a user based on the user's search patterns |
US6976017B1 (en) * | 2001-02-27 | 2005-12-13 | Verizon Data Services Inc. | Method and apparatus for context based querying |
US20020129026A1 (en) * | 2001-03-09 | 2002-09-12 | Reardon Patrick O. | Process for accessing information via a communications network |
US7269545B2 (en) * | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
CA2446262A1 (en) * | 2001-05-04 | 2002-11-14 | Paracel, Inc. | Method and apparatus for high-speed approximate sub-string searches |
WO2002103578A1 (en) * | 2001-06-19 | 2002-12-27 | Biozak, Inc. | Dynamic search engine and database |
DE10134128A1 (de) | 2001-07-13 | 2002-09-26 | Siemens Ag | Verfahren zum Erhalten eines Suchergebnisses mit einer Suchmaschine |
US7389307B2 (en) * | 2001-08-09 | 2008-06-17 | Lycos, Inc. | Returning databases as search results |
US7398201B2 (en) * | 2001-08-14 | 2008-07-08 | Evri Inc. | Method and system for enhanced data searching |
US7139755B2 (en) * | 2001-11-06 | 2006-11-21 | Thomson Scientific Inc. | Method and apparatus for providing comprehensive search results in response to user queries entered over a computer network |
US7379933B1 (en) * | 2002-11-27 | 2008-05-27 | Oracle International Corporation | Union all rewrite for aggregate queries with grouping sets |
US20050149507A1 (en) * | 2003-02-05 | 2005-07-07 | Nye Timothy G. | Systems and methods for identifying an internet resource address |
US20040225681A1 (en) * | 2003-05-09 | 2004-11-11 | Chaney Donald Lewis | Information system |
US7454393B2 (en) * | 2003-08-06 | 2008-11-18 | Microsoft Corporation | Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US7130819B2 (en) * | 2003-09-30 | 2006-10-31 | Yahoo! Inc. | Method and computer readable medium for search scoring |
US7165063B2 (en) * | 2003-11-19 | 2007-01-16 | International Business Machines Corporation | Context quantifier transformation in XML query rewrite |
US20050131872A1 (en) * | 2003-12-16 | 2005-06-16 | Microsoft Corporation | Query recognizer |
US7376642B2 (en) * | 2004-03-30 | 2008-05-20 | Microsoft Corporation | Integrated full text search system and method |
US7536382B2 (en) * | 2004-03-31 | 2009-05-19 | Google Inc. | Query rewriting with entity detection |
US7409383B1 (en) * | 2004-03-31 | 2008-08-05 | Google Inc. | Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems |
US7333976B1 (en) * | 2004-03-31 | 2008-02-19 | Google Inc. | Methods and systems for processing contact information |
US7840547B1 (en) * | 2004-03-31 | 2010-11-23 | Google Inc. | Methods and systems for efficient query rewriting |
US7996419B2 (en) * | 2004-03-31 | 2011-08-09 | Google Inc. | Query rewriting with entity detection |
EP1839124A4 (en) * | 2005-01-18 | 2009-12-30 | Yahoo Inc | COMPARISON AND CLASSIFICATION OF SPONSORED SEARCH LISTS WITH WEB SEARCH TECHNOLOGY AND WEB CONTENT |
US7818315B2 (en) * | 2006-03-13 | 2010-10-19 | Microsoft Corporation | Re-ranking search results based on query log |
US7483894B2 (en) * | 2006-06-07 | 2009-01-27 | Platformation Technologies, Inc | Methods and apparatus for entity search |
US8112422B2 (en) * | 2008-10-27 | 2012-02-07 | At&T Intellectual Property I, L.P. | Computer systems, methods and computer program products for data anonymization for aggregate query answering |
CN101887436B (zh) * | 2009-05-12 | 2013-08-21 | 阿里巴巴集团控股有限公司 | 一种检索方法和装置 |
-
2004
- 2004-03-31 US US10/813,572 patent/US7536382B2/en not_active Expired - Fee Related
-
2005
- 2005-03-28 WO PCT/US2005/010344 patent/WO2005098679A1/en active Application Filing
- 2005-03-28 EP EP05731094A patent/EP1735724A1/en not_active Withdrawn
- 2005-03-28 CN CNB2005800157187A patent/CN100478949C/zh active Active
-
2009
- 2009-04-08 US US12/420,696 patent/US8112432B2/en active Active
-
2012
- 2012-02-06 US US13/367,114 patent/US8452799B2/en not_active Expired - Lifetime
-
2013
- 2013-05-24 US US13/902,448 patent/US8805867B2/en not_active Expired - Lifetime
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101868797B (zh) * | 2007-09-21 | 2013-05-01 | 谷歌公司 | 跨语言搜索 |
CN102262632A (zh) * | 2010-05-28 | 2011-11-30 | 国际商业机器公司 | 进行文本处理的方法和系统 |
CN102262632B (zh) * | 2010-05-28 | 2014-03-19 | 国际商业机器公司 | 进行文本处理的方法和系统 |
US8862460B2 (en) | 2010-05-28 | 2014-10-14 | International Business Machines Corporation | System, method, and program for processing text using object coreference technology |
CN102314435A (zh) * | 2010-06-30 | 2012-01-11 | 腾讯科技(深圳)有限公司 | 搜索网页内容的方法及系统 |
CN106557480A (zh) * | 2015-09-25 | 2017-04-05 | 阿里巴巴集团控股有限公司 | 查询改写的实现方法及装置 |
CN106557480B (zh) * | 2015-09-25 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 查询改写的实现方法及装置 |
CN110622153A (zh) * | 2017-05-15 | 2019-12-27 | 电子湾有限公司 | 用于查询分割的方法和系统 |
US11640436B2 (en) | 2017-05-15 | 2023-05-02 | Ebay Inc. | Methods and systems for query segmentation |
CN110622153B (zh) * | 2017-05-15 | 2023-12-19 | 电子湾有限公司 | 用于查询分割的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US20090204592A1 (en) | 2009-08-13 |
WO2005098679A1 (en) | 2005-10-20 |
US8452799B2 (en) | 2013-05-28 |
US20130262499A1 (en) | 2013-10-03 |
US8112432B2 (en) | 2012-02-07 |
US8805867B2 (en) | 2014-08-12 |
US20050222977A1 (en) | 2005-10-06 |
CN100478949C (zh) | 2009-04-15 |
EP1735724A1 (en) | 2006-12-27 |
US7536382B2 (en) | 2009-05-19 |
US20120136885A1 (en) | 2012-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100478949C (zh) | 具有实体检测的查询改写 | |
CN101027667B (zh) | 具有实体检测的查询改写 | |
US10169354B2 (en) | Indexing and search query processing | |
CN103177075B (zh) | 基于知识的实体检测和消歧 | |
Kushmerick | Wrapper verification | |
CN101454750B (zh) | 命名实体的消歧 | |
US7917493B2 (en) | Indexing and searching product identifiers | |
US8645385B2 (en) | System and method for automating categorization and aggregation of content from network sites | |
US8032511B1 (en) | System and method for presenting categorized content on a site using programmatic and manual selection of content items | |
US8166013B2 (en) | Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis | |
US8037068B2 (en) | Searching through content which is accessible through web-based forms | |
CN100375090C (zh) | 通过任意国家语言的查询来检索匹配的文档的方法和系统 | |
CN101124609B (zh) | 使用内联上下文查询的搜索系统及方法 | |
US8321396B2 (en) | Automatically extracting by-line information | |
Zhu et al. | ESpotter: Adaptive named entity recognition for web browsing | |
US20080263032A1 (en) | Unstructured and semistructured document processing and searching | |
US20080072140A1 (en) | Techniques for inducing high quality structural templates for electronic documents | |
JP2007122732A (ja) | ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム、およびサービス方法(ウェブドキュメントの集合において効率的に日付を検索するシステムおよび方法) | |
CN101128822A (zh) | 权威性文档识别 | |
CN102122295A (zh) | 包括确信结果的突出显示的文档搜索引擎 | |
WO2008097856A2 (en) | Search result delivery engine | |
Martinez-Romo et al. | Updating broken web links: An automatic recommendation system | |
Sivakumar | Effectual web content mining using noise removal from web pages | |
Debnath et al. | Identifying content blocks from web documents | |
US20080033953A1 (en) | Method to search transactional web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: GOOGLE Inc. |