CN1834964A - 依照自然语言查询进行文献检索的系统和方法 - Google Patents

依照自然语言查询进行文献检索的系统和方法 Download PDF

Info

Publication number
CN1834964A
CN1834964A CNA2006100573846A CN200610057384A CN1834964A CN 1834964 A CN1834964 A CN 1834964A CN A2006100573846 A CNA2006100573846 A CN A2006100573846A CN 200610057384 A CN200610057384 A CN 200610057384A CN 1834964 A CN1834964 A CN 1834964A
Authority
CN
China
Prior art keywords
result
retrieval
document
question
question sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100573846A
Other languages
English (en)
Other versions
CN100511228C (zh
Inventor
高知尾胜彦
笹气光一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN1834964A publication Critical patent/CN1834964A/zh
Application granted granted Critical
Publication of CN100511228C publication Critical patent/CN100511228C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Abstract

第一界面(111)接收用户指定的第一问句。问题分析单元(13)分析所述第一问句。当所述第一问句查询多个事项时,问题分析单元(13)生成多个第二问句,其用于对来自所述第一问句的所述多个事项中的每一个单独地进行查询。搜索引擎(15)依照所述多个第二问句,从词法索引数据库(16),对与由所述多个第二问句查询的各个事项相匹配的文献进行检索。第二界面(112)向用户提供所述第一问题的检索结果,在所述检索结果上反映了通过所述搜索引擎(15)的所述多个第二问句的文献检索的结果。

Description

依照自然语言查询进行文献检索的系统和方法
技术领域
本发明涉及依照自然语言查询进行文献检索的系统。特别地,本发明涉及适合于向用户提供多个事项查询的检索结果的用于对文献进行检索的系统和方法。
背景技术
常规地,众所周知,一种系统(文献检索系统)用于依照用户的检索请求(查询)从数据库检索符合所述检索请求的文献(文献数据)。关键字或自然语言被用于所述检索请求。例如,已经对其应用了在日本专利申请公开7-182373(以后称为现有技术)中描述的技术的文献检索系统被认为是这种类型的文献检索系统。现有技术的特征在于,检索到的文献的摘要被作为检索结果生成,并且所述摘要与所述文献(原始文献)一起被提供给用户。根据现有技术,用户可以容易地从提供的摘要中判断与该摘要一起提供的原始文献是否基于本人的意愿。
然而,在上述的现有技术中,没有假设通过利用自然语言(问句)的用户查询对多个事项(用户感兴趣的事项)进行查询。存在一种可能性,如果在查询中包括诸如“讲解XX和YY”的两个或多个事项,多个单独的文献(命中文献(hit document))或摘要被当作检索结果获取。
例如,当查询诸如“讲解行李的颜色和制造商”的两个(多个)事项的查询语句时,利用上面描述的现有技术,可以获得如下的命中文献:
a)包括所有单词“行李”、“颜色”以及“制造商”的文献;
b)包括单词“行李”与“颜色”的文献;
c)包括单词“颜色”与“制造商”的文献;以及
d)包括单词“行李”与“制造商”的文献。
在此,尽管可能找到落入上述a)项的文献,但不能总是找到这样的文献。例如,在一些情况下,没有找到落入上述a)项的文献,而只能找到落入b)和d)项的文献。在这种情况下,落入b)和d)项的文献被作为分离的信息项分别提供。然而,作为问题的答案,所提供的这些单项的信息是不够的。
发明内容
本发明的目的是提供一种系统和方法,其用于向用户提供能够阐明单个词语(term)查询的相互关系的检索结果,所述查询与来自用户的查询多个事项的问句相关。
根据本发明的实施例,提供了一种用于依照自然语言查询进行文献检索的系统。所述系统包括:第一界面,用于接受以自然语言表示的用户指定的第一问句;问题分析装置,用于分析通过所述第一界面接受的所述第一问句,当所述第一问句查询多个事项时,所述问题分析装置生成多个第二问句,该第二文句用于对来自所述第一问句的所述多个事项中的每一个单独地进行查询;搜索引擎,其被配置为根据由所述问题分析装置生成的所述多个第二问句,通过索引检索从词法索引数据库(morphological indexdatabase)检索与由所述多个第二问句查询的各个事项相匹配的文献,所述词法索引数据库存储多篇文献的词法分析结果作为索引;以及第二界面,用于向用户提供所述第一问题的检索结果,在所述检索结果中反映了通过所述搜索引擎的所述多个第二问句的文献检索的结果。
附图说明
所述附图,其被并入并且构成本说明书的一部分,与上面给出的一般性描述以及下面给出的实施例的详细描述一起,用于解释本发明的原理。
图1是框图,示出了根据本发明实施例的文献检索系统的构造;
图2是流程图,示出了在本实施例中通过问题分析单元13的问题分析处理的程序,所述处理包括问句生成处理;
图3是示图,示出了在本实施例中用户指定的问句Q的例子;
图4A和4B是示图,分别示出了从问句Q生成的问句Q1和问句Q2的例子;
图5A和5B是示图,分别示出了作为问句Q1的检索结果的命中文献D1和文献摘要A1的例子;
图6A和6B是示图,分别示出了作为问句Q2的检索结果的命中文献D2和文献摘要A2的例子;
图7是示图,示出了问句Q1和Q2的检索结果已经被互相联系起来的例子;
图8A和8B是示图,分别示出了当已获取了作为问句Q1的检索结果的命中文献D1a和命中文献D1b时,命中文献D1a和文献摘要A1a的例子;
图8C和8D是示图,分别示出了当已获取了作为问句Q1的检索结果的命中文献D1a和D1b时,命中文献D1b和文献摘要A1b的例子;
图9A和9B是示图,分别示出了当已获取了作为问句Q2的检索结果的命中文献D2a和命中文献D2b时,命中文献D2a和文献摘要A2a的例子;
图9C和9D是示图,分别示出了当已获取了作为问句Q2的检索结果的命中文献D2a和命中文献D2b时,命中文献D2b和文献摘要A2b的例子;以及
图10是示图,示出了在本实施例中应用的检索请求/调整屏幕的例子。
具体实施方式
下面将参照附图描述本发明的实施例。图1是框图,其示出了根据本发明实施例的文献检索系统的结构。所述文献检索系统被提供为用于依照用户的请求(查询)进行自然语言检索的系统。所述文献检索系统包括用户界面11,检索/响应服务器12,问题分析单元13,词法分析单元14,词法搜索引擎15,词法索引数据库16,摘要生成单元17,连接单元18以及调整信息存储单元19。
用户界面11包括条件输入界面111,结果显示界面112以及连接调整界面(concatenation tuning interface)113。条件输入界面(第一界面)111具有将基于用户的检索请求的,例如,自然语言查询(即,问句)的检索请求作为检索条件输入的界面功能。结果显示界面(第二界面)112具有响应于检索请求向用户提供检索结果的界面功能。连接调整界面(第三界面)113具有后面描述的连接调整功能。在本实施例中,用户界面11被包括在文献检索系统中。然而,所述用户界面11也可以独立于所述文献检索系统而被提供。例如,用户界面11可以被包括在经由通信线路(例如,网络)连接到图1所示的文献系统的客户终端中。
检索/响应服务器12传送指示由用户界面11输入(接受)的检索请求的问句到用于依照所述问句执行检索的问题分析单元13。检索/响应服务器12使得用户界面11向用户提供摘要或文献,作为检索请求的响应。所述摘要由摘要生成单元17生成。上述提供给用户的文献是由连接单元18生成的新文献,例如,在其中已经将摘要和检索的文献互相连接起来的新文献。
问题分析单元13通过利用词法分析单元14对问句执行词法分析和语义分析。当所分析的问句是用于查询多个事项的问句(第一问句)时,问题分析单元13生成用于对来自所述问句的多个事项中的各个事项进行独立地查询的多个问句(第二问句)。
词法分析单元14对从问题分析单元13请求的问句执行词法分析。词法搜索引擎15对由问题分析单元13生成的每一个问句进行词法(索引)检索。利用构成相应问句的语素,参照词法索引数据库16进行所述词法检索。数据库16存储关于多篇文献的信息,所述文献是通过词法搜索引擎15进行检索的目标。更详细地,数据库16存储上述的多篇文献的词法分析结果作为索引(词法索引)。所述词法索引的每一个为由多篇文献的词法分析和语义分析所提取的每个语素作准备。所述词法索引包括关于存在相应语素的所有文献的文献信息。所述文献信息包括指示每一篇存在相应语素的文献以及在每篇文献中的所述语素的位置的信息。因此,词法搜索引擎15获取对应于所述问句的检索结果,即,通过利用存储在数据库16中的词法索引对每一个问句进行词法检索而对于所述问句命中的文献。
摘要生成单元17利用词法分析单元14对由词法搜索引擎15检索到的文献,执行词法分析和语义分析。摘要生成单元17使得所述检索到的文献的词法分析和语义分析的结果与对应于所述文献的问句的词法分析和语义分析的结果相关联。摘要生成单元17基于这种关联从检索到的文献生成所述文献的摘要。该摘要可以被视为问句的检索结果,其与用于生成摘要的文献相似,即,作为所述问句的检索结果而获得的文献。
连接单元18,基于对于由问题分析单元13生成的问句(第二问句)而检索的文献(命中文献),以及从所述文献生成的摘要,生成新文献(检索结果文献)。此检索结果文献是通过连接文献或摘要(即,检索结果)生成的,所述文献或摘要对应于多个生成的问句(即,不同的问句)。如此,从对应于多个生成的问句(第二问句)的词法搜索引擎15和摘要生成单元17的检索结果,连接单元18生成新的文献,在其中连接了对应于所述多个问句的检索结果。调整信息存储单元19存储调整信息,所述调整信息包括由连接单元18进行的连接处理的条件(连接条件)。
可以通过这样的方式获得用户界面11,检索/响应服务器12,问题分析单元13,词法分析单元14,词法搜索引擎15,摘要生成单元17以及连接单元18,例如,计算机读取和执行存储在计算机的外部存储单元的具体软件程序。当所述程序被预先存储在计算机可读存储介质中时,它可以是分布式的。另外,可以经由网络下载所述程序。
现在,将描述图1所示的文献检索系统的检索处理。首先,假定检索请求/调整屏幕由在客户终端的显示单元上的用户界面11的条件输入界面111显示。所述检索请求/调整屏幕被提供为图形用户界面屏幕,并且正如后面所述包括问句输入区F1(参照图10)。通过利用所述客户终端,用户能够在检索请求/调整屏幕上的问句输入区F1中进行输入自然语言的问句的操作。
现在假定,通过输入问句的操作,用户已经根据由所述问句指示的检索条件向图1所示的文献检索系统请求了检索(自然语言检索)。条件输入界面111依照用户的问句输入操作从客户终端输入问句。条件输入界面111接受输入的问句作为使用自然语言的用户查询(检索请求)。条件输入界面111将这个问句传送到检索/响应服务器12。
已经从条件输入界面111接收到所述问句的检索/响应服务器12,传送所述问句到用于依照所述问句执行自然语言检索的问题分析单元13。已经从检索/响应服务器12接收到所述问句的问题分析单元13,传送所述问句到词法分析单元14,从而向所述单元14请求所述问句的词法分析。如此,词法分析单元14对从问题分析单元13传送的问句进行词法分析,并且以单词为单位划分所述问句。词法分析单元14向问句分析单元13返回所述问句的词法分析结果。
问题分析单元13通过利用由词法分析单元14获得的词法分析结果来分析所述问句的含义,所述词法分析结果与从检索/响应服务器12接收的问句有关。如此,问题分析单元13通过利用词法分析单元14,对从检索/响应服务器12接收的问句执行词法分析和语义分析。问题分析单元13基于所述问句的词法分析和语义分析的结果,确定所述问句是否查询多个事项。
如果上述问句为用于查询多个事项的问句(第一问句),问题分析单元13生成多个问句(第二问句),其用于对来自所述第一问句的多个事项中的各个事项单独地进行查询。即,所述多个生成的第二问句被生成为每一个查询一个事项的问句。问题分析单元13将从所述第一问句生成的多个第二问句传送到词法搜索引擎15,从而由所述引擎15基于所述多个第二问句的每一个,进行词法检索。
词法搜索引擎15基于从用户指定的第一问句生成的多个第二问句中的每一个执行检索。也就是说,词法搜索引擎15利用存储在词法索引数据库16中的词法索引,从所述数据库16检索符合所述多个第二问句的每一个的文献(命中文献)。这时,包括了所有包含在所述问句中的单词的文献可以被定义为命中文献。此外,包括了任何一个包含在所述问句中的单词的文献可以被定义为命中文献。
词法搜索引擎15传送与所述第二问句相匹配的命中文献到摘要生成单元17和连接单元18,作为所述多个第二问句的词法分析结果。词法搜索引擎15还向摘要生成单元17传送与所述多个第二问句有关的由问题分析单元13获得的词法分析和语义分析的结果。
接收到了来自词法搜索引擎15的所述多个第二问句的检索结果,摘要生成单元17执行下面描述的摘要生成处理。首先,摘要生成单元17利用词法分析单元14对相关于所述多个第二问句的命中文献进行词法分析和语义分析。摘要生成单元17对相关于所述多个第二问句的命中文献的每一篇进行下面的比较和相关。摘要生成单元17将所述命中文献的词法分析和语义分析的结果与所述第二问句的词法分析和语义分析的结果进行比较和相关(第二问句对应与所述命中文献)。摘要生成单元17通过对每篇命中文献的这种比较和相关,在所述命中文献中指定适用于摘要的部分,来生成每篇命中文献的摘要。
现在,将给出关于通过摘要生成单元17的进行摘要生成的详细描述。在本实施例中,可以被指定为摘要的文献部分被称为目标范围(targetrange)。摘要生成单元17将命中文献划分为多个文献部分,例如,以逐段为基础,以逐个换行为基础,或以表示句子结束的逐个符号为基础。摘要生成单元17将所述划分的文献部分的每一个处理为目标范围。摘要生成单元17以逐个范围为基础,将相应文献部分的词法分析和语义分析的结果与相应第二问句的词法分析和语义分析的结果进行比较和相关。
通过这种比较和相关,摘要生成单元17为相关于第二问句的每篇命中文献,指定与所述第二问句最接近的范围。摘要生成单元17在为每篇命中文献所指定的范围中生成文献部分(即,至少为命中文献的一部分),作为每篇命中文献的摘要。相似地,摘要生成单元17生成与所述多个第二问句中的余下的一个(或一些)相关的一篇命中文献(或多篇命中文献)的摘要(或多条摘要)。摘要生成单元17将相关于所述多个第二问句的命中文献的摘要传送到检索/响应服务器12和连接单元18,作为所述多个第二问句的检索结果。
连接单元18通过利用由词法搜索引擎15传送的所述多个第二问句的检索结果(命中文献),以及由摘要生成单元17传送的所述多个第二问句的检索结果(所述命中文献的摘要),执行连接处理。连接单元18依照由存储在调整信息存储单元19中的调整条件所表示的连接条件,执行此连接处理。
在通过连接单元18进行的连接处理中,响应于从所述用户指定的第一问句生成的多个第二问句中的每一个,选择所述检索结果(例如,命中文献的摘要)中的相应一个。于是,已经与所述选择的检索结果相连接的一篇文献被当作所述第一问句的检索结果(检索结果文献)而生成。依照通过连接单元18的连接处理而生成的文献,被经由检索/响应服务器12传送到所述用户界面11的结果显示界面112,以及通过界面112向用户提供传送的文献。
现在,参照在图2中示出的流程图,将给出问题分析处理的详细描述,所述处理包括通过问题分析单元13进行的问句生成处理。首先,问题分析单元13利用词法分析单元14对从检索/响应服务器12接收的第一问句执行词法分析(步骤S1)。在步骤S1中,词法分析单元14利用词法分析单元14对于第一问句的的词法分析结果,分析所述问句的含义。所述语义分析允许词法分析单元14,关于满足预定条件的特定单词,指定该单词的含义(例如,时间、人物、地点等等)。
接下来,问题分析单元13将包括在得到语义分析的第一问句中的每个名词分类到能够与所述查询相关的词语的类型(步骤S2)。这里,作为能够与所述查询相关的词语的类型,已经被预先确定:普通名词;专有名词;与组织(organization)有关的词语;与区域(area)有关的词语;与单位有关的词语(例如,结合数字使用的后置词);与估计(evaluation)有关的词语;等等。
然后,问题分析单元13对在步骤S2中分类的名词之间的连接关系进行估计(步骤S3)。这里,当所述第一问句为日语时,基于存在于名词之间的后置词(对应于在英语中的前置词“of”)的连接关系被估计。当所述第一问句为英语时,基于存在于名词之间的前置词“of”的连接关系被估计。问题分析单元13基于在步骤S3中的连接关系的估计结果,指定(提取)对应于以上问句的主格的名词(步骤S4)。
问题分析单元13确定在所述第一问句中是否包括未处理的名词(即,除了对应于主格的名词之外的未处理名词)(步骤S5)。如果在所述第一问句中包括了未处理的名词,问题分析单元13从所述第一问句提取一个未处理的名词(步骤S6)。问题分析单元13连接(结合):对应于在步骤S4中指定的主格的名词;在步骤S6中提取的名词;以及包括在所述第一问句中表示查询的词语,从而生成用于查询一个事项的一个问句(第二问句)(步骤S7)。当第一问句为日语时,表示查询的词语包括动词(诸如“oshiete”(讲解))或表示所述第一问句特有的,例如,对象、地点以及方向的指示代词(诸如nani(什么?)与doko(哪里?))。这些日语指示代词对应于英语的疑问指示代词或疑问副词。
问题分析单元13在步骤S5到S7中重复所述处理操作,直到已经从所述第一问句中消除了未处理的名词。如此,问题分析单元13从用于查询多个事项的第一问句生成与所述多个事项同样数目的第二问句,所述第二问句用于查询各自的一个事项。所述生成的多个第二问句被传送到词法搜索引擎15。
现在,将参照图3、图4A和4B、图5A和5B、图6A和图6B以及图7描述上面所描述的问题分析处理和连接处理的示例性例子。所述问题分析处理包括从用于查询多个事项的第一问句生成多个用于查询一个事项的第二问句的处理。所述连接处理包括例如,用于通过利用所述多个第二问句的检索结果连接命中文献的摘要的处理。
首先,假定已经通过用户的操作,向图1所示的文献检索系统1的用户界面11请求了图3所示的通过问句(第一问句)Q的查询(检索请求)。所述问句Q是“讲解ABC书的销售价格和特征”。这里,假定问句Q用日语输入。在图3中,日语罗马字母表示“ABC bukku no urine to tokuchouwo oshiete”也可以被表示为问句Q,对应于日语表示的表示。问句Q查询被称为“ABC书”的个人计算机的销售价格和特征。利用词法分析单元14通过词法分析将这个问句Q分成“ABC bukku”(专有名词)、“no”、“urine”、“to”、“tokuchou”、“wo”、“oshie”和“te”。
问题分析单元13通过利用所述词法分析结果执行上面的步骤S1到S4。如此,问题分析单元13从图3所示的问句Q中提取“ABC书(ABCbukku)”作为对应于主格的名词。
接下来,问题分析单元13随后从问句Q提取作为除了充当对应于主格的名词“ABC书(ABC bukku)”之外的名词的“销售价格(urine)”和“特征(tokuchou)”(步骤S6)。问题分析单元13通过利用对应于主格的名词“ABC书”,以及“销售价格”和“特征”,如下生成多个问句(问句Q1和问句Q2)(步骤S7)。首先,问题分析单元13通过将“销售价格”和“特征”关于“ABC书”进行连接,生成“ABC书的销售价格”和“ABC书的特征”。接下来,问题分析单元13从问句Q提取这样的词语,其用于表示能够被“ABC书的销售价格(ABC bukku no urine)”和“ABC书的特征(ABC bukku no tokuchou)以及后置词(在日语中)连接的查询。表示所述查询的词语是“动词”,“什么?”,“哪里?”等等。这里,提取了动词“讲解(oshiete)”。然后,问题分析单元13将“ABC书的销售价格(ABC bukku no urine)”和“ABC书的特征(ABCbukku no tokuchou)的每一个与“讲解(oshiete)”相连接。该连接使得能够生成在图4A和4B中示出的问句(第二问句)Q1和Q2,即从问句(第一问句)Q分解得到的问句。问句Q1为“讲解ABC书的销售价格”(ABCbukku no urine wo oshiete),以及问句Q2为“讲解ABC书的特征”(ABCbukku no tokuchou wo oshiete)。在日语中,将“ABC bukku no urine”(ABC书的销售价格)和“ABC buuku no tokuchou”(ABC书的特征)的每一个与“oshiete”(讲解)和后置词“wo”连接。
词法搜索引擎15通过根据问句Q1“讲解ABC书的销售价格”和问句Q2“讲解ABC书的特征”的检索处理,从词法索引数据库16对与问句Q1和Q2匹配的文献进行检索。另一方面,摘要生成单元17生成与问句Q1和Q2匹配的文献(命中文献)的摘要。
在本实施例中,假定已经获取了在图5A中示出的命中文献D1作为与问句Q1匹配的命中文献,并且然后,已经获取了在图5B中示出的摘要A1作为命中文献D1的摘要。这里,摘要A1被作为命中文献D1的一部分提供。相似地,假定已经获取了在图6A中示出的命中文献D2作为与问句Q2匹配的命中文献,并且然后,生成了在图6B中示出的摘要A2,作为命中文献D2的摘要。这里,摘要A2被提供作为命中文献D2本身。如此,获取命中文献D1和摘要A1作为问句Q1的检索结果,以及获取命中文献D2和摘要A2作为问句Q2的检索结果。
连接单元18从问句Q1的两类检索结果(D1和A1)以及问句Q2的两类检索结果(D2和A2),生成(获取)图3所示的问句Q的检索结果(检索结果文献)。依照存储在调整信息存储单元19中的调整信息生成问句Q的检索结果。这里,连接单元18使得问句Q1的两类检索结果(D1和A1)之一,例如,摘要A1,和问句Q2的两类检索结果(D2和A2)之一,例如,摘要A2,互相连接。这使得能够生成在图7中示出的文献RD。此外,通过指定上述的调整信息,能够使得问句Q1的两类检索结果之一,例如,命中文献D1,和问句Q2的两类检索结果之一,例如,摘要A2,互相连接。相反,能够使问句Q1的两类检索结果之一,例如,摘要A1,和问句Q2的两类检索结果之一,例如,命中文献D2,互相连接。另外,还能够使得所述命中文献,即命中文献D1和D2,互相连接。如此,可以依照本实施例中的调整信息选择连接目标。如后面所描述的,可以依照用户的操作设置调整信息。因为这个原因,可以向用户提供能够覆盖更多用户所要的信息的回答。
如此,当已经获取了从用户指定的问句Q生成的两个问句Q1和Q2中的每一个的检索结果时,连接单元18使得问句Q1的检索结果之一与问句Q2的检索结果之一互相连接。该连接使得连接单元18可能生成问句Q(在图3中示出的原始问句Q)的检索结果(检索结果文献)。生成的检索结果包括问句Q1和Q2的每一个的检索结果。即,生成的检索结果反应了问句Q1和Q2的每一个的检索结果。这意味着生成的结果包括了用于由原始问句Q引起的两个事项的查询的检索结果。因此,向用户提供如此生成的检索结果,即,相关于问句Q1的检索结果(检索结果文献),从而使得用户能够清晰地认识到,与通过问句Q查询的单独事项的相关性。这里,通过连接单元18,可以为相关于问句Q的检索结果文献,设置链接信息。所述链接信息被用于参看原始文献,所述原始文献(也就是分别相关于问句Q1和Q2的查询的命中文献D1和D2)被用于生成检索结果文献。
同时,问句Q1和Q2分别为一个事项的查询。因此,期望所述问句Q1和Q2的查询的检索结果(命中文献和它们的摘要)与问句Q1和Q2的查询完全匹配,而与诸如原始问句Q的两个事项的查询不同。因而,可以向用户提供问句Q1和Q2的查询的检索结果(例如,命中文献及其摘要中的至少一个),以便分别与问句Q1和Q2相联系。在这种情况下,用户可以容易地从问句Q1和Q2的每一个的检索结果来设想原始问句的检索结果。这里,删去了通过连接单元18进行的上述连接处理。
现在,参照图8A、8B、8C和8D;以及图9A、9B、9C和9D,将给出对于连接处理的示例性例子的描述,在该情况下,已经为从问句Q生成的问句Q1和Q1的每一个检索了多篇文献。连接单元18基本上生成了在相关于问句Q1的多篇命中文献的摘要与相关于问句Q2的多篇命中文献的摘要之间的所有组合,作为原始问句Q的检索结果。
然而,当在相关于一个问句的多篇命中文献的摘要中包括了被确定为相似内容的多个摘要时,连接单元18如下处理所述多篇命中文献的摘要。即,连接单元18只对被确定为相似内容的多个摘要中的一个,作为多篇命中文献的相应摘要进行处理。这里,在其中将多个摘要确定为相似内容的条件如下。首先,通过问句Qi表示对应于多个摘要的一个问句。在这种情况下,上述条件为,在所述多个摘要中第一名词的特征彼此相似,且在所述多个摘要中第二名词的特征彼此相似,以及在所述多个摘要中词语(对应于查询的回答)的特征彼此相似。所述第一名词、第二名词和所述词语被包括在所述多个摘要中。第一名词对应于包括在问句Qi中的主格名词。所述主格名词意味着对应于主格的名词。第二名词表示与所述第一名词具有连接关系的名词,并且对应于与包括在问句Qi中的主格名词具有连接关系的名词。在日语的情形,具有与所述第一名词的连接关系的名词,意味着通过后置词连接到所述第一名词的名词。
现在,假定相关于问句Q1的命中文献分别是在图8A和8C中示出的命中文献D1a和D1b,并且它们的摘要分别是在图8B和8D中示出的摘要A1a和A1b。相似地,相关于问句Q2的命中文献分别是在图9A和9C中示出的命中文献D2a和D2b,并且它们的摘要分别是在图9B和9D中示出的摘要A2a和A2b。
连接单元18基本上将,在对应于问句Q1的摘要A1a和A1b的每一个与对应于问句Q2的摘要A2a和A2b的每一个之间的所有组合,处理为原始问句Q的检索结果。即,连接单元18生成下面的文献,作为原始问句Q的检索结果:
(1)已经将摘要A1a和A2a互相连接的文献;
(2)已经将摘要A1a和A2b互相连接的文献;
(3)已经将摘要A1b和A2a互相连接的文献;
(4)已经将摘要A1b和A2b互相连接的文献。
然而,当对应于问句Q1的摘要A1a和A1b互相类似时,连接单元18使得通过摘要A1a和A1b中的一个来表示对应于问句Q1的摘要。相似地,在对应于问句Q2的摘要A2a和A2b互相类似的情况下,连接单元18使得通过摘要A2a和A2b中的一个来表示对应于问句Q2的摘要。
从图8B和8D可以明显看出,包括在对应于问句Q1的摘要A1a和A1b的每一个中的第一名词(专有名词)为“ABC书”。包括在摘要A1a和A1b的每一个中的第二名词,即,对应于连接到问句Q1的主格名词“ABC书”的名词“销售价格”的名词是“价格”。包括在摘要A1a和A1b的每一个中的,用于表示对查询“讲解销售价格”的回答的词语,是220,000日元(数值+单位)。即,在对应于问句Q1的摘要A1a和A1b中,单词或词语的特征是彼此相同(相似)的。因此,连接单元18确定对应于问句Q1的摘要A1a和A1b在其内容上是彼此相似的。连接单元18使得对应于问句Q1的摘要由摘要A1a和A1b中的任何一个来表示,例如,由摘要A1a表示。在这种情况下,连接单元18从上面四种组合中生成在项(1)和(2)中示出的两种组合,作为原始问句Q的检索结果。当连接问句Q1和Q2的检索结果作为原始问句Q的检索结果时,这能够减少不必要的组合的数目。相似地,这还能应用于相关于问句Q1和Q2的命中文献被作为连接目标进行处理的情况,如后面所描述的。
现在,参照图10,将给出通过用户界面11的连接调整界面113来设置调整信息的描述。图10示出了检索请求/调整屏幕的例子。首先,假定用户为了输入问句,已经通过使用客户终端(或文献检索系统的输入装置)进行了预定操作。然后,连接调整界面113在客户终端的显示单元上显示图10所示的检索请求/调整屏幕。
所述检索请求/调整屏幕包括问句输入区101,连接调整器区102以及检索指令区103。问句输入区101包括问句输入栏F1,用于使得用户输入问句(第一问句)。连接调整器区102包括复选框CB1、CB2、CB3、CB4和CB5,用于使得用户可以设置关于通过连接单元18进行的连接处理的连接条件。检索指令区103包括检索执行按钮B1。所述按钮B1使得用户能够指示图1所示的系统根据在问句输入栏F1中输入的问句执行检索,并且根据在连接调整器区102中输入的连接条件来执行连接处理。
复选框CB1使得用户能够指示图1所示的系统,是否将在问句输入栏F1中输入的用户指定的第一问句分解成多个第二问句,并且然后,是否连接所述多个第二问句的检索结果。上面的实施例假定了这样的情况,即在复选框CB1中已经指示了检索结果的连接。
复选框CB2使得用户能够指示所述系统,是否在检索结果的连接中,相比于摘要连接,更优先考虑文献连接。即,通过使用复选框CB2,用户能够指示所述系统,摘要和文献的连接中的哪一个应该被优先考虑。上面的实施例假定了这样的情况,即在复选框CB2中已经指示,无法相比于摘要连接更优先地考虑文献连接(即,相比于文献连接更优先地考虑摘要连接)。如果已经指示优先考虑文献连接,则使得图5A所示的命中文献D1和图6A所示的命中文献D2互相连接。
复选框CB3使得用户能够指示所述系统,是否在连接文献时设置文献的最大行数“x”。连接调整器区102包括最大行数输入栏F2,用于用户输入文献的最大行数“x”。所述栏F2被分配与复选框CB3相关。如果已经指示设置文献的最大行数“x”并且将被连接的文献的行数超过了“x”,例如,可以用摘要来代替所述文献。复选框CB4使得用户能够指示所述系统,当在一个第二问句中已经获取了多个检索结果时,是否将相关于多个第二问句中的一个(即,相同问句)的多个检索结果互相连接。
复选框CB5使得用户能够指示所述系统,是否为所述第二问句的每一个指定将被连接的检索结果(即,连接目标)的类型(摘要或者目标文献)。当通过利用复选框CB5指示了指定将被连接的检索结果的类型时,连接调整界面113在复选框CB5附近显示输入栏,其用于用户为所述第二问句的每一个指定将被连接的检索结果的类型。通过利用该输入栏,用户能够指示连接调整界面113,例如,将摘要A1用作为问句Q1的检索结果并且将命中文献D2用作为问句Q2的检索结果。
还能够在连接调整器区102中分配复选框,其用于使得用户能够指示,是否以问句顺序或以其逆序,使对应于多个第二问句的检索结果互相连接。
本领域技术人员将容易地想到额外的优点和变型。因此,本发明在其广义方面不受限于在这里示出和描述的具体细节和代表性实施例。因此,无需偏离由所附权利要求及其等同内容所定义的一般发明概念的精神或范围,可以进行各种的变型。

Claims (14)

1.一种用于依照自然语言查询进行文献检索的系统,包括:
第一界面,用于接受以自然语言表示的用户指定的第一问句;
问题分析装置,用于分析通过所述第一界面接受的所述第一问句,当所述第一问句查询多个事项时,所述问题分析装置生成多个第二问句,所述第二问句用于对来自所述第一问句的所述多个事项中的每一个单独地进行查询;
搜索引擎,其被配置为根据由所述问题分析装置生成的所述多个第二问句,通过索引检索从词法索引数据库检索与由所述多个第二问句查询的各个事项相匹配的文献,所述词法索引数据库存储多篇文献的词法分析结果作为索引;以及
第二界面,用于向用户提供所述第一问题的检索结果,在所述检索结果中反映了通过所述搜索引擎的所述多个第二问句的文献检索的结果。
2.根据权利要求1的系统,其特征在于,进一步包括连接装置,其用于通过连接所述多个第二问句的检索结果来生成检索结果文献,所述检索结果文献表示所述第一问题的检索结果,其中通过所述搜索引擎的所述多个第二问句的文献检索的结果被反映在所述多个第二问句的所述检索结果上,
其中,所述第二界面向用户提供由所述连接装置生成的检索结果文献,作为所述第一问题的检索结果。
3.根据权利要求2的系统,其特征在于,当关于所述多个第二问句中的一个的多个检索结果存在并且所述多个检索结果包括多个互相类似的检索结果时,所述连接装置只处理所述类似的检索结果中的一个,作为所述一个第二问句的检索结果。
4.根据权利要求2的系统,其特征在于,进一步包括存储单元,其用于存储包括连接条件的调整信息,所述连接条件与所述连接装置进行的连接有关,
其中,所述连接装置依照存储在所述存储单元中的所述调整信息,连接所述多个第二问句的检索结果。
5.根据权利要求4的系统,进一步包括摘要生成装置,其用于生成通过所述搜索引擎对所述多个第二问句的每一个进行文献检索而获取的文献的摘要,
其中,所述调整信息,在通过所述搜索引擎的所述文献检索而获取的文献和通过所述摘要生成装置生成的所述文献的摘要中,指定哪一个被用作将被通过所述连接装置互相连接的所述多个第二问句的每一个的检索结果,以及
所述连接装置,在通过所述搜索引擎的所述文献检索而获取的所述文献和通过所述摘要生成装置生成的所述文献的所述摘要中,选择任何一个作为将被依照所述调整信息互相连接的所述多个第二问句的每一个的检索结果。
6.根据权利要求4的系统,其特征在于,进一步包括第三界面,其用于向用户提供用户界面屏幕,该屏幕使得所述用户指定所述连接条件,所述第三界面还用于在所述存储单元中存储所述调整信息,所述调整信息包括在所述用户界面屏幕上由所述用户指定的所述连接条件。
7.根据权利要求6的系统,其特征在于,所述用户界面屏幕包括这样的区域,其使得用户,在通过所述搜索引擎的所述文献检索而获取的所述文献和通过所述摘要生成装置生成的所述文献的所述摘要中,指定哪一个被用作为将被通过所述连接装置互相连接的所述多个第二问句的每一个的检索结果。
8.根据权利要求6的系统,其特征在于:
所述用户界面屏幕包括这样的区域,其使得用户指定可用于所述连接装置的连接的文献的最大行数;以及
当将被连接文献的行数超过在所述用户界面屏幕上由所述用户指定的所述最大行数时,所述连接装置用所述文献的摘要取代将被连接的所述文献。
9.根据权利要求6的系统,其特征在于,当关于所述多个第二问句中的一个存在多个检索结果时,所述用户界面屏幕包括这样的区域,其使得用户指示所述系统,是否将所述多个检索结果互相连接作为所述一个第二问句的检索结果。
10.根据权利要求2的系统,其特征在于,所述连接装置设置链接信息,其用于从表示所述第一问句的检索结果的检索结果文献查阅通过所述搜索引擎的所述多个第二问句的文献检索而获取的文献。
11.一种依照自然语言查询进行文献检索的方法,包括:
接受以自然语言表示的用户指定的第一问句;
分析所述接受的第一问句,所述分析包括生成多个第二问句,其用于当所述第一问句查询多个事项时,对来自所述第一问句的所述多个事项中的每一个单独地进行查询;
根据所述多个第二问句,通过索引检索从词法索引数据库,对与由所述多个第二问句查询的各个事项相匹配的文献进行检索,所述词法索引数据库存储多篇文献的词法分析结果作为索引;以及
向用户提供所述第一问题的检索结果,在所述检索结果中反映了所述多个第二问句的文献检索的结果。
12.根据权利要求11的方法,其特征在于,进一步包括生成检索结果文献,其用于通过连接所述多个第二问句的检索结果来表示所述第一问句的检索结果,其中所述多个第二问句的文献检索的结果被反映在所述多个第二问句的所述检索结果上;
其中,向用户提供所述生成的检索结果文献,作为所述第一问句的检索结果。
13.一种计算机程序产品,用于依照自然语言查询的文献检索,其特征在于,包括:
计算机可读程序代码装置,用于使得计算机接受以自然语言表示的用户指定的第一问句;
计算机可读程序代码装置,用于使得所述计算机分析所述接受的第一问句并且生成多个第二问句,所述多个第二问句用于当所述第一问句查询多个事项时,对来自所述第一问句的所述多个事项的每一个单独地进行查询;
计算机可读程序代码装置,用于使得所述计算机依据所述多个第二问句,通过执行索引检索从词法索引数据库检索与由所述多个第二问句查询的各个事项相匹配的文献,所述词法索引数据库存储多篇文献的词法分析结果作为索引;
计算机可读程序代码装置,用于使得所述计算机向用户提供所述第一问句的检索结果,在所述结果中反映了所述多个第二问句的文献检索的结果。
14.根据权利要求13的计算机程序产品,其特征在于,进一步包括这样的计算机程序代码装置,其用于使得所述计算机生成检索结果文献,所述检索结果文献通过连接所述多个第二问句的检索结果来表示所述第一问句的检索结果,其中所述多个第二问句的文献检索的结果被反映在所述多个第二问句的所述检索结果上,
其中,向用户提供所述生成的检索结果文献,作为所述第一问句的检索结果。
CNB2006100573846A 2005-03-14 2006-03-14 依照自然语言查询进行文献检索的系统和方法 Expired - Fee Related CN100511228C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP071032/2005 2005-03-14
JP2005071032A JP4185500B2 (ja) 2005-03-14 2005-03-14 文書検索システム、文書検索方法及びプログラム

Publications (2)

Publication Number Publication Date
CN1834964A true CN1834964A (zh) 2006-09-20
CN100511228C CN100511228C (zh) 2009-07-08

Family

ID=36972245

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100573846A Expired - Fee Related CN100511228C (zh) 2005-03-14 2006-03-14 依照自然语言查询进行文献检索的系统和方法

Country Status (3)

Country Link
US (1) US7765201B2 (zh)
JP (1) JP4185500B2 (zh)
CN (1) CN100511228C (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150387A1 (en) * 2007-11-08 2009-06-11 Marchewitz Jodi L Guided research tool
JP5106155B2 (ja) * 2008-01-29 2012-12-26 株式会社東芝 文書処理装置、方法及びプログラム
US9069814B2 (en) * 2011-07-27 2015-06-30 Wolfram Alpha Llc Method and system for using natural language to generate widgets
KR101529120B1 (ko) * 2013-12-30 2015-06-29 주식회사 케이티 바이오 문헌 정보의 마이닝을 위한 마이닝 패턴 생성 방법 및 시스템
JP6414956B2 (ja) * 2014-08-21 2018-10-31 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
CN105786874A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 基于百科词条构建问答知识库数据项的方法和装置
US9916533B2 (en) 2015-03-10 2018-03-13 International Business Machines Corporation Enhancement of massive data ingestion by similarity linkage of documents
JP6805927B2 (ja) * 2017-03-28 2020-12-23 富士通株式会社 インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
US11055495B2 (en) * 2017-11-16 2021-07-06 Ntt Docomo, Inc. Utterance sentence generation system and utterance sentence generation program
US10838951B2 (en) 2018-04-02 2020-11-17 International Business Machines Corporation Query interpretation disambiguation

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
JP2957875B2 (ja) 1993-03-17 1999-10-06 株式会社東芝 文書情報検索装置及び文書検索結果表示方法
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US6078914A (en) * 1996-12-09 2000-06-20 Open Text Corporation Natural language meta-search system and method
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6460029B1 (en) * 1998-12-23 2002-10-01 Microsoft Corporation System for improving search text
US20010053968A1 (en) * 2000-01-10 2001-12-20 Iaskweb, Inc. System, method, and computer program product for responding to natural language queries
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US7209876B2 (en) * 2001-11-13 2007-04-24 Groove Unlimited, Llc System and method for automated answering of natural language questions and queries
KR100849272B1 (ko) * 2001-11-23 2008-07-29 주식회사 엘지이아이 마크업 문서 자동 요약 방법
JP4389102B2 (ja) 2002-10-08 2009-12-24 宍戸 広信 技術文献検索システム
US20040193596A1 (en) * 2003-02-21 2004-09-30 Rudy Defelice Multiparameter indexing and searching for documents

Also Published As

Publication number Publication date
US7765201B2 (en) 2010-07-27
CN100511228C (zh) 2009-07-08
JP2006252419A (ja) 2006-09-21
JP4185500B2 (ja) 2008-11-26
US20060206463A1 (en) 2006-09-14

Similar Documents

Publication Publication Date Title
CN1834964A (zh) 依照自然语言查询进行文献检索的系统和方法
US9378285B2 (en) Extending keyword searching to syntactically and semantically annotated data
CN1278263C (zh) 在一个或多个网络上进行通用搜索管理的系统
US10140295B2 (en) Method, system and software for searching, identifying, retrieving and presenting electronic documents
CN1310175C (zh) 搜索引擎管理系统和方法
CN1871603B (zh) 处理查询的系统和方法
US7447683B2 (en) Natural language based search engine and methods of use therefor
US7266553B1 (en) Content data indexing
US8014997B2 (en) Method of search content enhancement
US20060224570A1 (en) Natural language based search engine for handling pronouns and methods of use therefor
US7533088B2 (en) Database reverse query matching
US7634469B2 (en) System and method for searching information and displaying search results
US20070038608A1 (en) Computer search system for improved web page ranking and presentation
US20050065774A1 (en) Method of self enhancement of search results through analysis of system logs
CN1282934A (zh) 相似字选取和文件检索的方法和系统
CN1898670A (zh) 提高搜索质量的系统和方法
CN1694101A (zh) 用于搜索术语建议的多种类型数据的加强群集
US7024405B2 (en) Method and apparatus for improved internet searching
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
CN1815471A (zh) 信息检索系统、方法和程序
CN1871601A (zh) 将文档与上下文广告相关联的系统和方法
JP5613536B2 (ja) 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体
KR100885527B1 (ko) 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법
Zheng et al. An improved focused crawler based on text keyword extraction
Dinesh Real world evaluation of approaches to research paper recommendation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090708

Termination date: 20120314