CN100573520C

CN100573520C - 为检索对多个文档进行预处理的方法和装置

Info

Publication number: CN100573520C
Application number: CNB2006101265791A
Authority: CN
Inventors: 费贲; 张俐; 王庆波; 苏中
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-08-29
Filing date: 2006-08-29
Publication date: 2009-12-23
Anticipated expiration: 2026-08-29
Also published as: US20080086457A1; CN101136018A; US8838650B2

Abstract

本发明提供了一种为检索对多个文档进行预处理及呈现检索结果的方法和装置以及包括这些装置的搜索文档的系统。其中该检索结果包括至少一个候选的文档，并且该至少一个文档的每一个被指定了一个表示其内容的树结构，该树结构包括至少一个节点，上述呈现检索结果的方法包括：呈现该检索结果中上述至少一个候选文档对应的树结构的至少一部分。

Description

为检索对多个文档进行预处理的方法和装置

技术领域

本发明涉及信息处理技术，具体地，涉及为检索对多个文档进行预处理的方法和装置、呈现检索结果的方法和装置及包括这些装置的搜索文档的系统。

背景技术

目前，搜索引擎一般都通过从检索得到的文档中截取与用户所输入的查询关键字最邻近的部分的内容来生成该文档的文档描述(snippet)，以作为查询结果呈现给用户。文档描述能够使用户获得对根据查询关键字而检索得到的文档的大致主题的立即认知，从而用户可根据自己的需要确定该文档是否与其查询有关。目前的搜索引擎的这种用于生成文档描述的方法称作基于最邻近词的文档描述生成方法。

但是，基于最邻近词的文档描述生成方法并不能向用户提供检索得到的文档的结构的整体概观，从而使得所生成的文档描述忽略了文档的粒度(文档的层次结构)信息。尤其对于在企业环境内普遍存在的例如学术材料、项目白皮书等篇幅较长的文档来说，基于最邻近词的文档描述生成方法更不能向查询用户提供被检索得到的这些文档的充分概要信息，从而无法帮助用户快速理解这些文档的大致内容。

因此，需要提出一种新的生成文档描述进而呈现检索结果的方法，以向查询用户提供检索得到的文档的整体概观，从而使用户能够快速理解该文档的大致内容，以确定该文档与其查询的相关性，进而提高用户对检索结果的浏览速度。

发明内容

本发明正是鉴于上述现有技术中的问题提出的，其目的在于提供为检索对多个文档进行预处理的方法和装置、呈现检索结果的方法和装置以及包括这些装置的搜索文档的系统，以便能够在文档检索中向用户呈现检索结果中的各文档的树状描述，从而使用户立即获得对检索得到的文档的整体认知，从而提高对检索结果的浏览速度。

根据本发明的一个方面，提供了一种为检索对多个文档进行预处理的方法，包括：为上述多个文档中的每一个，生成表示该文档的内容的树结构，该树结构包括至少一个节点；以及为上述多个文档生成用于检索的索引，该索引的每个条目中表明与该条目相关联的至少一个文档以及该文档的树结构中相关联的至少一个节点。

根据本发明的另一个方面，提供了一种呈现检索结果的方法，该检索结果包括至少一个候选的文档，并且该至少一个文档的每一个被指定了一个表示其内容的树结构，该树结构包括至少一个节点，该方法包括：呈现该检索结果中上述至少一个候选文档对应的树结构的至少一部分。

根据本发明的再一个方面，提供了一种搜索文档的方法，包括：根据用户的查询(query)检索得到多个候选文档；以及利用上述的呈现检索结果的方法，呈现上述检索的结果。

根据本发明的一个方面，提供了一种为检索对多个文档进行预处理的装置，包括：树结构生成单元，其为上述多个文档中的每一个，生成表示该文档的内容的树结构，该树结构包括至少一个节点；以及索引生成单元，其为上述多个文档生成用于检索的索引，该索引的每个条目中表明与该条目相关联的至少一个文档以及该文档的树结构中相关联的至少一个节点。

根据本发明的另一个方面，提供了一种呈现检索结果的装置，该检索结果包括至少一个候选的文档，并且该至少一个文档的每一个被指定了一个表示其内容的树结构，该树结构包括至少一个节点，该装置包括：树结构获取单元，其至少获取该检索结果中上述至少一个候选文档对应的树结构的至少一部分；以及呈现单元，其呈现上述树结构获取单元获得的上述至少一个候选文档对应的树结构的至少一部分。

根据本发明的再一个方面，提供了一种搜索文档的装置，包括：检索单元，其根据用户的查询(query)检索得到多个候选文档；以及上述的呈现检索结果的装置。

根据本发明的再一个方面，提供了一种搜索文档的系统，包括：上述的为检索对多个文档进行预处理的装置；以及上述的搜索文档的装置。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是示出根据本发明实施例的搜索文档的方法的流程图；

图2是示出根据本发明实施例的为检索对多个文档进行预处理的方法的流程图；

图3是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据内容目录生成文档的树结构的方法的示意图；

图4是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据字体标签生成文档的树结构的方法的示意图；

图5是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据检索历史生成文档的树结构的方法的流程图；

图6是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据文档分析生成文档的树结构的方法的流程图；

图7是示出根据本发明实施例的呈现检索结果的方法的流程图；

图8是示出利用本发明的呈现检索结果的方法呈现的检索结果的一个例子；

图9是示出根据本发明实施例的搜索文档的系统的方框图；

图10是示出根据本发明实施例的为检索对多个文档进行预处理的装置的方框图；以及

图11是示出根据本发明实施例的搜索文档的装置92的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

图1是示出根据本发明实施例的搜索文档的方法的流程图。如图1所示，首先，在步骤105，对供检索的文档中的每一个进行预处理以生成表示该文档的内容的树结构，并为这些文档生成用于检索的索引，存储在系统数据库中。该步骤中对供检索的文档进行预处理的方法将在后面进行详细描述。

在步骤110，用户输入文档查询(query)条件(查询关键字)。在本实施例中，该查询条件可以是用户感兴趣的内容中包括的单字、词语或术语，或者是与文档密切相关且能独立区分的属性等，也就是说，所有与欲查询文档相关的内容都可以作为查询条件。需要说明的是，对查询条件的支持是基于搜索系统的数据库容量及匹配逻辑来实现的，并且由于其不是本发明的特征所在，本发明对此步骤没有特别的限定。

接着，在步骤115，根据用户输入的查询条件，在系统数据库的用于检索的索引中的供匹配的对象中进行匹配，而检索得到符合该查询条件的候选文档。本发明对于本步骤没有特别的限制，现有技术的各种各样的检索方法都可以应用于本实施例中。但是，如上所述，在本实施例中，上述数据库中除了以往的索引和其它相关数据以外，还存储了经上述预处理生成的供检索的文档的树结构，并且在以往的索引中还增加了与对应的树结构中节点位置相关的信息。这些在后面的实施例的描述中会进行详细的说明。

在步骤120，呈现根据上述候选文档而生成的检索结果。具体地，在该步骤中，获取这些候选文档对应的树结构中与上述查询条件相关的部分，作为检索结果进行呈现。此外，在其他实施例中，也可以呈现这些候选文档对应的树结构的全体。

此外，需要说明的是，在该步骤中，也可以同时呈现利用基于最邻近词的文档描述生成方法通过从上述候选文档中截取与上述查询关键字最邻近的部分的内容而生成的文档描述。

该步骤中呈现检索结果的方法将在后面进行详细描述。

另外，需要指出，本实施例中的步骤105与步骤110～120在时间上可以是相互独立的，也就是说，预处理的步骤可以按照每天、每周或者其它周期进行，查询和呈现的步骤则根据用户的需要进行。

以下，结合图2～6对上面图1的步骤105中对供检索的文档进行预处理的方法进行详细描述。

图2是示出根据本发明实施例的为检索对多个文档进行预处理的方法的流程图。如图2所示，首先，在第一阶段，即步骤205～步骤240，为供检索的多个文档中的每一个文档，生成表示该文档的内容的树结构。

具体地，在步骤205，判断上述文档是否包括内容目录。如果包括，则前进到步骤210，否则前进到步骤215。

在步骤210，根据该文档的内容目录，生成相应的树结构，作为表示该文档的内容的树结构。

具体地，首先，对于包含内容目录的上述文档，以内容目录作为树结构抽取对象，进行抽取。因为一般的内容目录都是作者自己创建的，是作者自己对文档内容的结构描述，因此可以认为，内容目录所反映的文档内容的结构是准确的。

然后，按照抽取出的内容目录的内容和层次结构，生成相应的树结构，作为表示该文档的内容的树结构。

在本实施例中，表示文档内容的树结构一般都是分层的树结构，包括有一个根节点及一个或多个叶子节点(leaf node)，有时还可包括一个或多个中间节点。其中，每个节点都包括以下内容：

1)标题(title)：可以为空，如果原始文档有自定义的目录，则把目录作为标题，如果没有，就设为空；

2)该节点所对应的关键字集合：不能为空。无论用何种方式抽取出来的树型结构和其中的节点，都应当保留原始文档相应的段落的关键字，也就是说，相应段落的文本经过抽取和过滤，留下来的关键字集合；

3)其他信息，例如：在原文的第几段，字数等等，用户可以根据实际情况(文档描述的粒度要求)自己定义。

下面举例说明根据文档的内容目录生成文档的树结构的过程。

图3是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据内容目录生成文档的树结构的方法的示意图。以图3(a)所示的文档的内容目录为例进行说明。如图3所示，该文档的内容目录包括若干章，每章又包括若干小节，则在根据该内容目录生成树结构时，将该文档整体映射为树结构中的根节点，将内容目录中的各章映射为树结构中相应的中间节点，而将各章中包括的各小节映射为树结构中该章所对应的节点下的叶子节点。

由此抽取成的树结构的一部分如图3(b)所示。其中，该树结构中的每个节点都包括标题、该节点所对应的关键字集合及其他信息。以图3(b)中的文档管理节点为例，如图3(c)所示，该节点的标题为文档管理，其所对应的关键字集合包括文档、管理、职责、有效地、组织、规划、文档、获得、归类、查找，提取等，其对应的其他信息有：在原文的第9段，字数是100字等。

对于包括内容目录的文档而言，根据内容目录生成表示该文档内容的树结构的方法是非常实用的，且由于该方法根据文档的原始内容结构来生成相应的树结构，所以所生成的树结构对文档内容的描述既准确又全面。从而利用该方法可提升树结构的生成效率。

此外，需要说明的是，本实施例中上述树结构的形式仅是示意性的，而并不是要对本发明的树结构的形式进行限定，任何能够达到本发明目的的形式都是可以采用的。

接着，返回到图2，在步骤215，判断该文档是否包括指示该文档中的章节标题的字体标签。如果包括，则前进到步骤220，否则，前进到步骤225。

在步骤220，根据该文档中指示章节标题的字体标签，生成相应的树结构，作为表示该文档的内容的树结构。

所谓字体标签，即例如html文件等标记语言的文档中指示文档中的章节小标题的标签，如Strong/H1/H2/H3。

图4是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据字体标签生成文档的相应树结构的方法的示意图。

如图4所示，首先，对于包含指示章节标题的字体标签的上述文档，以字体标签作为树结构抽取对象，进行抽取。因为一般的字体标签也都是作者自己创建的，是作者自己对文档内容的结构描述，因此可以认为，字体标签所反映的文档内容的结构也是准确的。因而树结构所表示的内容的准确性是有保障的。

然后，按照抽取出的字体标签的内容和层次结构，生成相应的树结构，作为表示该文档的内容的树结构。在该步骤中，所生成的树结构的形式与上述关于步骤210所描述的树结构的形式是相同的，所以在此不再重复。

对于包括字体标签的文档而言，根据字体标签生成表示该文档内容的树结构的方法是非常实用的，且由于该方法根据文档的原始内容结构来生成相应的树结构，所以所生成的树结构对文档内容的描述既准确又全面。从而利用该方法可提升树结构的生成效率。

接着，返回到图2，在步骤225，判断是否存在关于该文档的先前的检索历史的记录。如果存在，则前进到步骤230，否则前进到步骤235。

在步骤230，根据该文档的先前的检索历史记录，生成表示该文档的内容的树结构。下面结合图5详细描述该步骤。

图5是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据检索历史生成文档的相应树结构的方法的流程图。如图5所示，在第一阶段，即步骤505和510，首先记录用户对该文档的检索历史。具体地，在步骤505，在用户先前每次利用查询关键字进行检索后，记录该关键词并监视用户对根据该查询关键字而得到的检索结果的点击活动。在每一次根据用户输入的查询关键字而检索到文档之后，用户一般都会根据文档描述对感兴趣的文档进行点击，并花费一定的时间来阅读该文档。因此，在该步骤中，监视用户对于检索结果中的各文档的点击活动。

接着，在步骤510，对于此次查询用户所点击的文档，将该文档标识、此次的查询关键字以及该文档中与该查询关键字相关的内容，以表1的形式进行记录。

表1

Doc1	Q1，1	P1，1	Q1，2	P1，2	……	Q1，n	P1，n
Doc1	Q1，1	P1，1	Q1，2	P1，2	……	Q1，n	P1，n	Doc2	Q2，1	P2，1	Q2，2	P2，2	……	Q2，n	P2，n
Doc3	Q3，1	P3，1	Q3，2	P3，2	……	Q3，n	P3，n	Doc2	Q2，1	P2，1	Q2，2	P2，2	……	Q2，n	P2，n
Doc3	Q3，1	P3，1	Q3，2	P3，2	……	Q3，n	P3，n	……	……	……	……	……	……	……	……
Dock	Qk，1	Pk，1	Qk，2	Pk，2	……	Qk，n	Pk，n	……	……	……	……	……	……	……	……

其中，Q_i，j是相对于文档Doc_i的第j个查询关键字，P_i，j是文档Doc_i中特定于查询关键字Q_i，j的文档部分(文档内容)。P_i，j是利用传统的基于最邻近词的文档描述生成方法对于文档Doc_i生成的与查询关键字Q_i，j有关的文档描述的集合。P_i，j是一个列表，也就是说，一个查询关键字Q_i， _j可能对应于文档Doc_i中的多个内容部分。

在步骤515，根据上述文档的检索历史，利用其中与该文档有关的关键字，参照词典生成相应的树结构，作为表示该文档的内容的树结构。

一般地，用户所输入的查询关键字，必然是与文档内容密切相关的、能够体现文档主题的内容。对于大量的检索过程来说，大量用户所输入的查询关键字，必然是文档的核心内容所在。因此，利用以往的查询关键字来生成树结构，可以完整地呈现文档的整体内容。因此，在检索历史中所记录的信息可直接用来生成表示文档内容的树结构。

此外，由于词典(例如，WordNet词典等)本身已经规定了其中的内容的层次结构，所以在该步骤中，利用从该文档的检索历史中获得的有关关键字，直接参照词典中规定的这些关键字的层次结构，来生成相应的树结构。

此外，在该步骤中，所生成的树结构的形式与上述关于步骤210所描述的树结构的形式是相同的，所以在此不再重复。

此外，在其他实施例中，图5的根据检索历史生成表示文档的内容的树结构的方法还可包括以下步骤：根据上述文档的检索历史，定期更新该文档的树结构。该更新周期可以任意设置，例如一个星期或者一个月等。定期更新可以使文档的树结构所反映的文档内容趋于全面化。

对于存在检索历史记录的文档而言，根据所存储的检索历史记录生成表示该文档内容的树结构的方法是非常实用的，尤其是对于包含较多内容块的长篇文档而言，其先前的检索历史记录一般都并不仅涉及与某一关键字有关的某一内容块，而是涉及到分别与不同关键字有关的多个内容块，所以所生成的树结构对该文档内容的描述是比较准确且全面的。从而利用该方法可提升树结构的生成效率。

需要说明的是，在上面结合图5所说明的根据先前的检索历史生成文档的树结构的流程中，是为了方便起见而将记录检索历史的第一阶段与根据检索历史生成树结构的第二阶段结合在一起进行说明的，但是，在实际实现中，这两个阶段在时间上可以并不相互关联，而是第一阶段可以在系统后台实时进行，而第二阶段则在用户进行查询时进行。

接着，返回到图2，在步骤235，基于对该文档内容的分析，生成表示该文档的内容的树结构。

在该步骤中，根据对文档的分析生成表示该文档的内容的树结构，主要是找出该文档中内容相近(主题相同)的多个段落并将其合并为一个主题单元，以映射为表示该文档的内容的树结构中的一个叶子节点。并且，对于合并后的主题单元中内容相近的多个主题单元，进一步合并为一个更大的主题单元，以映射为树结构中的一个中间节点，并重复以上过程，以形成文档的层次结构，直至得到表示该文档的内容的整个树结构。

下面结合图6详细描述该过程。图6是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据文档分析生成文档的树结构的方法的流程图。如图6所示，首先，在步骤605，为该文档中的每个段落生成检索词向量(term vector)。

在该步骤中，例如，假定该文档包括有m个段落{c₁，…，c_i，…c_m}，并假定该文档共有N个检索词{t₁，…，t_N}，则为每个段落c_i，可生成代表该段的检索词向量：

{\overset{&RightArrow;}{v}}_{c_{i}} = {w_{i, 1}, . . ., w_{i, N}}

其中，w_i，j是第j个检索词在该段c_i中的权重，其可以通过下式来计算：

w_i，j＝tf_i，j*idf_j (1)

其中，tf_i，j是检索词t_j在段落c_i中出现的频率，而idf_j是检索词t_j在该文档中的反向频率。idf_j可通过下式来计算：

\log (\frac{K}{k_{j}})

其中，K是该文档中段落的总数，而k_j则是该文档中包括了检索词t_j的段落数目。

接着，在步骤610，根据该文档中各段的检索词向量，计算该文档中多个连续的段相互之间的相似度。

在该步骤中，对于该文档中的两个段落，例如c_i和c_l，可按下式计算它们之间的相似度：

Sim (c_{i}, c_{l}) = \cos (θ_{i, l}) = \frac{Σ_{j = 1}^{N} w_{i, j} * w_{l, j}}{\sqrt{Σ_{j = 1}^{N} w_{i, j}^{2}} * \sqrt{Σ_{j = 1}^{N} w_{l, j}^{2}}} - - - (2)

其中，表示文档c_i和c_l之间的相似度的Sim(c_i，c_i)，是段落c_i和c_l的检索词向量

和

之间的夹角的余弦，其取值范围在[0，1]之间。

当两个段落c_i和c_l具有相同的检索词和权重时，这两个段落的检索词向量将会相同，从而其夹角将为0度，因此所计算出的这两个段落之间的相似度将为1；相反，如果两个段落c_i和c_l之间不具有共同的检索词，则这两个段落的检索词向量将会完全不同，从而其夹角将为90度，因此所计算出的这两个段落之间的相似度将为0。

在步骤615，将上述相似度达到规定阈值的多个连续的段落合并为一个主题单元。

当两个段落的相似度为1时，意味着它们具有相同的检索词向量，即具有相同的检索词和权重，因此可以确定这两个段落的内容是关于相同主题的；相反，当两个段落的相似度为0时，意味着它们具有不相同的检索词向量，即具有不相同的检索词，因此可以确定这两个段落的内容不是关于相同主题的。

因此，在该步骤中，根据上面在步骤610中计算出的该文档中多个连续的段落相互之间的相似度Sim(c_i，c_l)，判断其是否超过了规定阈值，如果超过规定阈值，则将这多个段落合并为一个主题单元。

在步骤620，将上述合并后的主题单元映射为表示该文档的内容的树结构中的一个叶子节点。

需要说明的是，以上步骤605～620的过程仅是根据文档分析生成表示该文档的内容的树结构中叶子节点的过程，而对于合并后的多个主题单元，还可以进一步进行合并，以形成该文档的多个层次的树结构。

因此，以合并后的主题单元为对象，重复上述步骤605～620的过程。具体地，在步骤605，为这些合并后的多个主题单元中的每一个生成检索词向量。例如，当主题单元S_i，x是由x个段落合并成的主题单元时，可以使用下式来计算该主题单元的检索词向量

{\overset{&RightArrow;}{v}}_{s_{x}} = \frac{1}{x} Σ_{p = 0}^{x - 1} v_{c_{i + p}}

或者，将主题单元S_i，x看作一个段落，并利用前式(1)为其计算检索词向量。

在步骤610，根据上述备主题单元的检索词向量，计算该文档中多个合并后的连续的主题单元相互之间的相似度。

在步骤615，将上述相似度达到规定阈值的多个连续的主题单元进而合并为一个主题单元。

在步骤620，将上述合并后的主题单元映射为表示该文档的内容的树结构中的一个中间节点。

迭代上述605～620的过程，直至得到表示该文档的内容的整个树结构为止。

需要说明的是，图6的根据文档分析生成树结构的方法适合于任何形式的任何文档，无论该文档是否具有目录、标题标记或检索历史记录，是本发明中生成表示文档内容的树结构的通用方法。

此外，在步骤235中，利用图6的根据文档分析生成树结构的方法所生成的树结构的形式，与上述关于步骤210所描述的树结构的形式相同，所以在此不再重复。

此外，需要说明的是，上面结合图2对第一阶段进行的说明中，是为了方便起见而以一定的顺序对根据内容目录生成树结构的步骤210、根据字体标签生成树结构的步骤220、根据检索历史生成树结构的步骤230和基于文档分析生成树结构的步骤235进行说明的，但是，在实际实现中，这些步骤的执行是同等的，并不存在任何先后顺序，也不存在相互之间的依赖关系。也就是说，在为某一供检索的文档生成表示其内容的树结构时，根据情况选择上述四个步骤中适合于该文档的一个步骤来执行。

此外，在其他的实施例中，也可以不同时包括这四个生成树结构的步骤(方法)，而省略其中的某个步骤。

接着，返回到图2，在步骤240，将为上述文档生成的表示其内容的树结构与该文档以表2的形式相关联进行存储。

表2

Doc1	内容树1
Doc1	内容树1	Doc2	内容树2
Doc3	内容树3	Doc2	内容树2
Doc3	内容树3	……	……
Dock	内容树k	……	……

需要说明的是，上述表2中树结构的存储形式仅是示意性的，在实际实现中，树结构的存储方式可以是多种多样的。例如，在本实施例中，利用XML(可扩展标记语言)文件的形式来表示上述文档的树结构，并将该文档与其树结构相关联存储在系统数据库中，以便在用户进行检索时，形成树状的文档描述呈现给用户，从而使查询用户能够快速理解该文档的大体内容。

接着，在第二阶段，即步骤245，为上述多个供检索的文档生成用于检索的索引。在本步骤中，在以往生成索引(例如关键字倒排索引)的方法的基础上，利用第一阶段为上述多个供检索的文档生成的树结构，在该索引的每个条目中除了表明与该条目相关联的供检索的文档以外，还表明这些文档的树结构中相关联的节点。

具体地，在本实施例中，以传统的倒排索引为基础，在其中的每一个条目中增加表明与该条目相关联的文档的树结构中相关联的节点的字段。以下首先对传统的倒排索引进行介绍。

假设有两篇文档1和2，其中文档1的内容为：“Tom lives in Guangzhou，I live in Guangzhou too.”；文档2的内容为：“He once lived in Shanghai.”。

如果要为这两篇文档建立倒排索引，则首先要取得这两篇文档的关键字。具体地，按以下的考虑来进行。

首先，在目前的文档内容，即字符串的情况下，需要找出该字符串中的所有单词，即分词。一般地，在英文的情况下，由于英文单词之间用空格分隔，所以比较好处理。但中文单词间由于是连在一起的，所以需要特殊的分词处理。此外，英文文档中的“in”、“once”、“too”等词没有实际意义，中文文档中的“的”、“是”等字通常也无具体含义，从而可以将这些内容从关键字中过滤掉。

此外，一般情况下，用户通常希望查“He”时能将含有“he”、“HE”的文档也找出来，所以需要对所有单词统一大小写。此外，用户通常希望查询“live”时能将含有“lives”、“lived”的文档也找出来，所以需要将“lives”、“lived”还原成“live”。此外，文档中的标点符号通常不表示某种概念，也可以过滤掉。

根据上面的考虑，文档1的所有关键字将为：[tom]、[live]、[guangzhou]、[i]、[live]、[guangzhou]。文档2的所有关键字将为：[he]、[live]、[shanghai]。

在找出了文档1和2的关键字之后，就可以建立倒排索引。上面表述的各文档与其关键字的对应关系是：“文档号”对“文档中所有关键字”，而倒排索引则将这个关系倒过来，变成：“关键字”对“拥有该关键字的所有文档号”。从而，文章1，2经过倒排后将变成为表3的形式：

表3

关键字	文档号
关键字	文档号	Guangzhou	1
He	2	Guangzhou	1
He	2	I	1
Live	1，2	I	1
Live	1，2	Shanghai	2
Tom	1	Shanghai	2

通常，仅知道关键字在哪些文档中出现还不够，一般在倒排索引中还需要加入关键字在文档中的出现次数和出现位置等字段。

而在本实施例中，则以上面表3所示的最简单的倒排索引形式为基础，在各条目中增加表明与该条目相关联的文档的树结构中相关联的节点的字段，来记录该条目中的关键字在该树结构中的位置。而该位置，可由指向该树结构中包括该关键字的相应节点的指针来表示。具体地，本实施例的索引的形式如表4所示：

表4

关键字1	Doc1，1	P1，1	Doc 1，2	P1，2	……	Doc 1，n	P1，n
关键字1	Doc1，1	P1，1	Doc 1，2	P1，2	……	Doc 1，n	P1，n	关键字2	Doc2，1	P2，1	Doc 2，2	P2，2	……	Doc 2，n	P2，n
关键字3	Doc3，1	P3，1	Doc 3，2	P3，2	……	Doc 3，n	P3，n	关键字2	Doc2，1	P2，1	Doc 2，2	P2，2	……	Doc 2，n	P2，n
关键字3	Doc3，1	P3，1	Doc 3，2	P3，2	……	Doc 3，n	P3，n	……	……	……	……	……	……	……	……
关键字k	Doc k，1	Pk1	Doc k，2	Pk，2	……	Doc k，n	Pk，n	……	……	……	……	……	……	……	……

其中，Pi，j是指向关键字i在文档Doci，j的树结构(表2)中包含该关键字的节点的指针。并且，Pi，j可以是一个指针列表，也就是说，一个查询关键字i可能对应于文档Doci，j的树结构中多个包含该关键字的节点。

需要说明的是，以上是以关键字倒排索引为例来进行说明的，但是本发明对于索引的形式没有特别的限制，可以采用任何已知的和将来的索引形式，例如可以采用正排索引、分类索引等。并且，上述表明各条目中的关键字在相应的文档的树结构中的位置的字段是利用指针来实现的，但在其他实施例中，该字段也可以利用例如节点标识等其他的形式来实现。

以上，就是对本实施例的为检索对多个文档进行预处理的方法的描述。

以下，参照图7-8对上面图1的步骤120中呈现检索结果的方法进行详细描述。

图7是示出根据本发明实施例的呈现检索结果的方法的流程图。需要指出的是，本实施例的呈现检索结果的方法是基于前述的为检索对多个文档进行预处理的方法而进行的。并且，如上所述，该检索结果是在系统数据库的用于检索的索引中检索得到的符合查询条件的候选文档，并且这些候选文档经过预处理被指定了一个表示其内容的树结构，在用于检索的索引中的这些候选文档的条目中分别利用指针指向了这些候选文档的树结构中包含该查询条件(查询关键字)的节点。

如图7所示，首先，在步骤705，从上述用于检索的索引(表4)中的该查询关键字的条目中获取指向上述候选文档的树结构中包含该查询关键字的节点的指针。

其中，上述指向候选文档的树结构中包含该查询关键字的节点的指针可以是指针列表，即指向该树结构中包含该查询关键字的多个节点，在此情况下，获取该指针列表。

在步骤710，根据上述指针(指针列表)获取上述候选文档的树结构(表2)中相关联的节点，以形成该树结构的至少一部分。

具体地，在该步骤中，获取上述树结构中包含上述指针所指向的节点以及该节点的兄弟节点和父节点的子树。

此外，在指针列表的情况下，获取上述树结构中包含该指针列表所指向的多个节点的最大子树。

在步骤715，呈现从上述候选文档所对应的树结构中获取的部分以及这些候选文档的相应文档描述。

其中，上述候选文档的相应文档描述是利用基于最邻近词的文档描述生成方法通过从上述候选文档中截取与上述查询关键字最邻近的部分的内容而生成的文档描述。

图8是示出利用本发明的呈现检索结果的方法呈现的检索结果的快照。如图8所示，当输入查询关键字workflow时，呈现了如图所示的包括文档描述和相应的文档树结构在内的检索结果。

可以看出，利用本实施例，可以在有限的显示空间内向用户呈现更多的文档信息，从而用户可以无需打开或下载原始文档，便可获知该文档的概要信息。

此外，在本实施例中，呈现的是上述候选文档所对应的树结构中包括查询关键字在内的一部分，但在其他实施例中，也可以直接呈现上述候选文档所对应的树结构的全体。或者，例如，在用户选择了检索结果中的某一个文档时，还可以进一步显示该文档的树结构的全体。

此外，在本实施例中，在检索结构中同时呈现了利用基于最邻近词的文档描述生成方法通过从上述候选文档中截取与上述查询关键字最邻近的部分的内容而生成的文档描述。但是，在其他实施例中，也可以不呈现该文档描述而仅呈现检索结果中的候选文档的树结构。

以上，就是对本实施例的搜索文档的方法的描述。本发明首先在预处理阶段为供搜索的文档生成表示其内容的树结构，并为这些文档生成用于检索的索引，其中的每个条目中表明了与该条目相关联的文档的树结构中相关联的节点。这样，在检索阶段，可以根据用于检索的索引获取与查询关键字相关的文档及其树结构的相关节点，从而可以在检索结果中呈现检索得到的文档的树状描述。

因而，在本实施例中，由于在检索结果中呈现文档的树状描述，其中不但包括了文档中与检索内容相关的信息，还包括了文档内容的其他主要信息，从而可以在有限的显示空间内向用户呈现更多的文档信息，使用户无需打开或下载原始文档，便可获得该文档的整体概观，从而快速确定该文档与其查询的相关性，提高对检索结果的浏览速度。

在同一发明构思下，图9是示出根据本发明实施例的搜索文档的系统的方框图。

如图9所示，本实施例的搜索文档的系统90包括：为检索对多个文档进行预处理的装置91、搜索文档的装置92和系统数据库93。

为检索对多个文档进行预处理的装置91，用于对供检索的文档中的每一个进行预处理以生成表示该文档的内容的树结构，并为这些文档生成用于检索的索引，存储在系统数据库93中。

图10是示出根据本发明实施例的为检索对多个文档进行预处理的装置的方框图。如图10所示，本实施例的为检索对多个文档进行预处理的装置91包括树结构生成单元911、索引生成单元912。

树结构生成单元911，用于为上述供检索的多个文档中的每一个，生成表示该文档的内容的树结构。如图10所示，该树结构生成单元911进一步包括内容目录树结构生成单元9111、字体标签树结构生成单元9112、检索历史树结构生成单元9113和文档分析树结构生成单元9114。

内容目录树结构生成单元9111，用于对包含内容目录的上述文档，抽取出其中的内容目录，并根据抽取出的内容目录的内容和层次结构，生成相应的树结构，作为表示该文档的内容的树结构。

字体标签树结构生成单元9112，用于对包含指示章节标题的字体标签的上述文档，抽取出其中的字体标签，并按照抽取出的字体标签的内容和层次结构，生成相应的树结构，作为表示该文档的内容的树结构。

检索历史树结构生成单元9113，用于根据上述文档的检索历史，利用其中与上述文档有关的关键字，参照词典生成相应的树结构，作为表示该文档的内容的树结构。如图10所示，该检索历史树结构生成单元9113进一步包括检索历史监视单元91131和检索历史记录单元91132。

检索历史监视单元91131，用于监视用户先前每次利用查询关键字进行检索后对检索得到的文档的点击活动。

检索历史记录单元91132，用于对先前的检索中用户所点击的文档，将该文档标识、此次的查询关键字以及该文档中与该查询关键字相关的内容相关联进行记录。

接着，文档分析树结构生成单元9114，用于将上述文档中内容相近(主题相同)的多个段落(主题单元)合并为一个主题单元，以映射为表示该文档的内容的树结构中的一个叶子(中间)节点。如图10所示，该文档分析树结构生成单元9114进一步包括：检索词向量生成单元91141、相似度计算单元91142和合并单元91143。

检索词向量生成单元91141，用于上述文档中的每个段落(主题单元)生成检索词向量。关于检索词向量生成单元91141所采用的生成检索词向量的算法，已在结合图6的说明中进行了详细介绍，在此不再重复。

相似度计算单元91142，用于根据上述文档中各段(主题单元)的检索词向量，计算该文档中多个连续的段(主题单元)相互之间的相似度。关于相似度计算单元91142所采用的计算多个连续的段(主题单元)相互之间的相似度的算法，已在结合图6的说明中进行了详细介绍，在此不再重复。

合并单元91143，用于将上述相似度达到规定阈值的多个连续的段落(主题单元)合并为一个主题单元，以由该文档分析树结构生成单元9114将其映射为表示该文档的内容的树结构中的一个节点。

索引生成单元912，用于为上述多个供检索的文档生成用于检索的索引，并存储在系统数据库93中。具体地，该索引生成单元912在以往的索引的基础上增加了与对应的树结构中节点位置相关的信息。

需要说明的是，以上描述的内容目录树结构生成单元9111、字体标签树结构生成单元9112、检索历史树结构生成单元9113和文档分析树结构生成单元9114在使用上是相互独立的，并不存在任何先后顺序，也不存在相互之间的依赖关系。也就是说，在为某一供检索的文档生成表示其内容的树结构时，根据情况选择上述四个组件中适合于该文档的一个来使用。

此外，在其他的实施例中，也可以不同时包括这四个生成树结构的组件，而省略其中的某个组件。

返回到图9，搜索文档的装置92，用于根据用户输入的文档查询条件(查询关键字)，在系统数据库的用于检索的索引中检索得到符合该查询条件的候选文档，并呈现根据上述候选文档而生成的检索结果。

图11是示出根据本发明实施例的搜索文档的装置92的方框图。如图11所示，本实施例的搜索文档的装置92包括检索单元921和呈现检索结果的装置922。

检索单元921，用于根据用户输入的查询条件在系统数据库93的用于检索的索引中检索得到符合该查询条件的候选文档。

呈现检索结果的装置922，用于呈现根据上述候选文档而生成的检索结果。如图11所示，该呈现检索结果的装置922进一步包括：树结构获取单元9221和呈现单元9222。

树结构获取单元9221，用于根据上述用于检索的索引，获取上述候选文档的相应的树结构中相关的节点或获取该树结构的全体，以形成该树结构的至少一部分。

呈现单元9222，用于呈现从上述候选文档所对应的树结构中获取的部分或树结构全体以及这些候选文档的相应文档描述。

返回到图9，系统数据库93，用于存储上述检索历史、表示上述供检索的文档的内容的树结构以及用于检索的索引等。

以上，就是对本实施例的搜索文档的系统的描述。本发明首先利用预处理部分为供检索的文档生成表示其内容的树结构，并为这些文档生成用于检索的索引，其中的每个条目中表明了与该条目相关联的文档的树结构中相关联的节点。这样，在检索部分，可以根据用于检索的索引获取与查询关键字相关的文档及其树结构的相关节点，从而可以在检索结果中呈现检索得到的文档的树状描述。

本实施例的搜索文档的系统及其各个组成部分可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行相应的软件的方式实现，也可以由上述硬件电路和软件的结合实现。并且这些各个组成部分也可以物理上集中在一起实施，也可以物理上相互独立而操作上互相协作。

以上虽然通过一些示例性的实施例对本发明的为检索对多个文档进行预处理的方法和装置、呈现检索结果的方法和装置及搜索文档的方法和系统进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅以所附权利要求为准。

Claims

1.一种为检索对多个文档进行预处理的方法，包括：

为上述多个文档中的每一个，生成表示该文档的内容的树结构，该树结构包括至少一个根节点和至少一个叶子节点，其中为上述多个文档中的每一个生成表示该文档的内容的树结构包括将上述文档中内容相近的多个段落合并为一个单元，以映射为表示该文档的内容的树结构中的一个叶子节点；以及

为上述多个文档生成用于检索的索引，该索引的每个条目中表明与该条目相关联的至少一个文档以及该文档的树结构中相关联的至少一个节点。

2.根据权利要求1的所述的为检索对多个文档进行预处理的方法，其中上述多个文档中的每一个的树结构的每一个节点包括该节点所对应的在该文档中出现的关键字集合。

3.根据权利要求2所述的为检索对多个文档进行预处理的方法，其中上述多个文档中的每一个的树结构的每一个节点还包括该节点的标题以及该节点在该文档中的对应位置。

4.根据权利要求1～3的任意一项所述的为检索对多个文档进行预处理的方法，其中为上述多个文档中的每一个生成表示该文档的内容的树结构的步骤包括：

根据该文档中包含的内容目录生成相应的树结构。

5.根据权利要求1～3的任意一项所述的为检索对多个文档进行预处理的方法，其中为上述多个文档中的每一个生成表示该文档的内容的树结构的步骤包括：

根据该文档中包含的指示章节标题的字体标签生成相应的树结构。

6.根据权利要求1～3的任意一项所述的为检索对多个文档进行预处理的方法，其中为上述多个文档中的每一个生成表示该文档的内容的树结构的步骤包括：

根据先前的检索的历史记录，生成表示上述文档的内容的树结构。

7.根据权利要求6所述的为检索对多个文档进行预处理的方法，其中上述根据先前的检索的历史记录，生成表示上述文档的内容的树结构的步骤包括：

记录上述文档的检索历史；以及

根据上述文档的检索历史中的多个关键字，参照词典生成表示该文档的内容的树结构。

8.根据权利要求7所述的为检索对多个文档进行预处理的方法，还包括：

根据上述文档的检索历史，定期更新上述文档的树结构。

9.根据权利要求1所述的为检索对多个文档进行预处理的方法，其中为上述多个文档中的每一个生成表示该文档的内容的树结构的步骤还包括：

将上述合并后的单元中内容相近的多个单元进一步合并为一个单元，以映射为表示该文档的内容的树结构中的一个中间节点。

10.根据权利要求9所述的为检索对多个文档进行预处理的方法，其中为上述多个文档中的每一个生成表示该文档的内容的树结构的步骤还包括：

迭代上述单元合并步骤，直至得到表示该文档的内容的整个树结构。

11.根据权利要求1所述的为检索对多个文档进行预处理的方法，其中上述将文档中内容相近的多个段落合并为一个单元的步骤进一步包括：

为上述文档中的每个段落生成检索词向量；

根据上述文档中各段的检索词向量，计算该文档中多个连续的段相互之间的相似度；以及

将上述相似度达到规定阈值的多个连续的段落合并为一个单元。

12.根据权利要求9所述的为检索对多个文档进行预处理的方法，其中上述将合并后的单元中内容相近的多个单元进一步合并为一个单元的步骤进一步包括：

为上述合并后的每个单元生成检索词向量；

根据上述各单元的检索词向量，计算该文档中多个连续的单元相互之间的相似度；以及

将上述相似度达到规定阈值的多个连续的单元合并为一个单元。

13.根据权利要求1～3的任意一项所述的为检索对多个文档进行预处理的方法，其中上述树结构以XML文件的形式来表示。

14.根据权利要求1～3的任意一项所述的为检索对多个文档进行预处理的方法，其中上述多个文档中的每一个的树结构与该文档相关联进行存储。

15.根据权利要求1～3的任意一项所述的为检索对多个文档进行预处理的方法，其中上述索引的每个条目中表明该条目中的文档的树结构中相关联的节点列表。

16.一种为检索对多个文档进行预处理的装置，包括：

树结构生成单元，其为上述多个文档中的每一个，生成表示该文档的内容的树结构，该树结构包括至少一个根节点和至少一个叶子节点，其中树结构生成单元包括文档分析树结构生成单元，其基于对上述文档进行的分析，生成相应的树结构，其中将上述文档中内容相近的多个段落合并为一个单元，以映射为表示该文档的内容的树结构中的一个叶子节点；以及

索引生成单元，其为上述多个文档生成用于检索的索引，该索引的每个条目中表明与该条目相关联的至少一个文档以及该文档的树结构中相关联的至少一个节点。

17.根据权利要求16所述的为检索对多个文档进行预处理的装置，其中上述树结构生成单元进一步包括：

内容目录树结构生成单元，其根据该文档中包含的内容目录生成相应的树结构。

18.根据权利要求16所述的为检索对多个文档进行预处理的装置，其中上述树结构生成单元进一步包括：

字体标签树结构生成单元，其根据该文档中包含的指示章节标题的字体标签生成相应的树结构。

19.根据权利要求16所述的为检索对多个文档进行预处理的装置，其中上述树结构生成单元进一步包括：

检索历史树结构生成单元，其根据上述文档的检索历史中的多个关键字，参照词典生成表示该文档的内容的树结构。

20.根据权利要求16所述的为检索对多个文档进行预处理的装置，其中上述检索历史树结构生成单元进一步包括：

检索历史记录单元，其记录上述文档的检索历史。

21.根据权利要求16所述的为检索对多个文档进行预处理的装置，其中上述文档分析树结构生成单元进一步包括：

检索词向量生成单元，其为上述文档中的每个段落生成检索词向量；

相似度计算单元，其根据上述文档中各段的检索词向量，计算该文档中多个连续的段相互之间的相似度；以及

合并单元，其将上述相似度达到规定阈值的多个连续的段落合并为一个单元；

上述文档分析树结构生成单元将上述合并后的单元映射为表示该文档的内容的树结构中的一个叶子节点。

22.根据权利要求21所述的为检索对多个文档进行预处理的装置，其中

上述检索词向量生成单元还为上述合并后的每个单元生成检索词向量；

上述相似度计算单元根据上述各单元的检索词向量，计算该文档中多个连续的单元相互之间的相似度；

上述合并单元将上述相似度达到规定阈值的多个连续的单元合并为一个单元；

上述文档分析树结构生成单元将上述合并后的单元映射为表示该文档的内容的树结构中的一个中间节点。

23.根据权利要求22所述的为检索对多个文档进行预处理的装置，其中上述检索词向量生成单元、上述相似度计算单元以及上述合并单元迭代上述单元合并过程，直至得到表示该文档的内容的整个树结构。