CN1987866A

CN1987866A - 用于组织数据的方法和系统

Info

Publication number: CN1987866A
Application number: CNA2006101639291A
Authority: CN
Inventors: K·库玛姆鲁; P·坎卡
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-12-21
Filing date: 2006-11-14
Publication date: 2007-06-27
Also published as: US7502765B2; US20070143235A1

Abstract

描述了用于将半结构化数据组织为分类的方法、系统和计算机程序产品。半结构化数据被聚类为多个基于多个属性的聚类并且聚类被相互排列。属性同样基于适合于每个属性的共同排列量度被相互排列。分类可以被表示为包括根节点和多个子节点的层级树，其中根节点包含半结构化数据且每个子节点包含从半结构化数据中生成的聚类的数据指针。

Description

用于组织数据的方法和系统

技术领域

本发明涉及数据的组织和/或概括，特别是涉及将半结构化数据自动组织为概念层级结构或分类(taxonomy)。

背景技术

电子数据处于许多不同的形式或格式。数据可以是结构良好的，例如当以表格形式存储于关系数据库中时；或者为非结构化的，例如当以普通文本或电子邮件存储时。许多数据通常是不规则的和松散定义的，并且不遵守严格的模式(schema)或符合预先设定的格式。半结构化数据包含结构化和非结构化的成分。一些半结构化数据的例子包括：

●产品目录：目录典型地具有结构化数据字段，例如价格、品牌和功能规格；但是也包括一些非结构化数据，例如文本形式的产品描述。

●呼叫中心纪录：这种纪录典型地包含客户详情、呼叫接受者和概述呼叫的说明性文本。

●内容管理员：储存库(repository)中的文档典型地包括例如创建日期、作者、创始部门等的元数据，以及包含非结构化数据的文档实际内容。

●出版物数据库：如PUBMED和DBLP这样的数据库包含各种文章详情，例如出版日期，作者姓名和刊物/会议名称，以及包含非结构化数据的标题和摘要。

由于多种原因，需要提供改进的用于处理半结构化数据的方法和系统。一个这样的原因是万维网(WWW)上可利用信息的迅猛增长，万维网是一个无法用严格的模式约束的高容量数据源。另一个原因需要在不同种类的系统和数据库之间交换数据，这要求一个非常灵活的格式来表示数据。还有另一个原因是几种不同种类的数据源的集成，尽管各个数据源是高度结构化的。

半结构化数据发展的驱动力量包括：

●使用XML作为通过因特网的信息交换的标准。

●自然语言处理(NLP)的进展以及注释器(annotator)工具已经导致大量的非结构化数据被转换为半结构化数据。

●语义web和注释。

当半结构化数据的量在指数地增长，越来越需要以易于理解的和可导航的方式组织这种数据。文本数据和非结构化数据的指数增长也引发了相似的问题。

如Yahoo、Google和Dmoz这些web目录已经显示出文档的层级排列对于浏览文档集是非常有用的。Dmoz目录是大约52,000个编辑者手工创建的。手工生成的目录比自动生成的目录更加易于理解和更准确，但不是总是可行的并在一个动态世界里需要大量精力和时间进行维护。因此，自动分类生成(ATG)方法对于将文档自动排列为层级结构是有用的。

概括web搜索结果是ATG的一种重要应用。因特网搜索典型地返回数千个结果，且搜索引擎所返回的排列列表并不能有效处理用户的浏览需要。大多数用户仅浏览少数结果来响应，那样就有可能错过非常相关的信息。此外，用于排列搜索结果的标准可能没有反映用户的需要。将搜索结果组织为概念层级结构概括了结果，且帮助用户浏览这些搜索结果。然而，预先定义的层级结构和类别(category)可能在组织查询结果中没有用，无论所述层级结构是自动生成还是手工生成的。当查询结果被聚类(cluster)以生成概念层级结构时，获取后的文档聚类提供了优越的结果。

因此，文档的聚类是ATG中的重要部分。处于文档层级结构中每一层级上的节点可以被视为文档的一个聚类。单生(monothetic)聚类算法基于单一的特征将文档分配到聚类，而多生(polythetic)聚类算法基于多个特征将文档分配到聚类。已知的文档聚类算法包括所谓的K-Means算法及其变形，层级聚集聚类(hierarchical agglomerative clustering，HAC)方法，和最近的图分割(graph partitioning)方法。对于K-Means算法，文档间的最佳相似度量度是两个文档矢量之间的余弦量度。HAC算法开始于将单个的文档作为聚类，并迭代地合并两个最为相似的聚类。它们的区别在于它们所选择的聚类之间相似度量度。一旦完成聚类，下一个重要步骤是为聚类分配适当的标签以使他们易于理解。

多生ATG算法，如K-Means算法和HAC，以及单生成ATG算法，如CAARD、DSP和Discover，已被应用于非结构化数据以自动生成分类。Vivísimo内容集成器(Vivísimo Content Integrator)<www.vivisimo.com>为公众和私人组织提供了联合搜索(federated search)或元搜索的能力。联合搜索能力使用户能够通过所需要那样多的各种信息源同时执行多个搜索，无论所述信息源包括内部文档、内联网、合作者外部网、web资源、预订服务和数据库、辛迪加新闻供稿或者例如Hoover’s的智能门户。Vivisimo还提供一种称为聚类引擎(Clustering Engine)的产品，其将搜索结果自动聚类或组织为类别，所述类别是从结果或文档本身所包含的单词或短语中智能选择的。

一些更为普遍使用的用于结构化数据的分析和概括的技术是多维导航和OLAP。Endeca搜索和有指导导航技术<www.endeca.com>使能够进行搜索结果的多维导航，对于当前结果的集合确定重要的维或属性，并沿每一维将结果分组为相关类别。然而，Endeca不对维或属性进行排列，也不聚类文本或非结构化属性。

半结构化数据的存储、索引编制和搜索形成了新的挑战。标题为“Encoding semi-structured data for efficient search and browsing”的美国专利No.6,804,677，于2004年10月12日授权给Shadman等人并被转让给Ori软件开发有限公司。该专利涉及一种用于XML树数据的编码的方法，其包括以保持关于XML数据的非结构和结构信息的方式将半结构化数据编码为任意长度的串的步骤，并使得能够以便于有效搜索和浏览的方式对编码的XML数据编制索引。

搜索例如因特网的大容量半结构化数据返回无法简单浏览和导航的庞大数据集。将搜索结果自动组织为概念层级结构有助于浏览和导航搜索结果。这样的分类也有利地概括了搜索结果。标题为“Method and system forclassifying semi-structured documents”的美国专利No.6,606,620，于2003年8月12日授权给Sundaresan等人并被转让给国际商业机器公司。该专利中所披露的方法和系统需要预先定义的类别和用于学习的训练数据，其可能是昂贵的并且可能不是穷尽性的。此外，随着储存库中数据的发展，可能需要形成新的类别，而这在手工操作的情况下是不可行的。

近来技术的进步已使得半结构化数据的存储、检索、搜索和处理更加可行。然而，预先定义的分类对于半结构化数据没有任何帮助。这样，对于半结构化数据，需要能够自动发现或生成分类的方法和系统。

发明内容

本发明的实施例涉及用于以自动生成的分类的形式组织半结构化数据的方法、系统和计算机程序产品。数据(属性)中的重要概念在分类的层级结构的每一个层级上被突出。本发明的实施例还提供用于概括包括结构化、非结构化和半结构化混合数据的方法。所述数据可具有不同类型的属性，其中每一个属性类型可以以不同的方式处理。

根据本发明的一方面，提供了一种用于将半结构化数据组织为分类的方法。该方法包括以下步骤：基于多个属性将半结构化数据聚类为多个聚类，将多个聚类相互排列，以及基于一共同排列量度对所述属性进行排列，所述共同排列量度适合于将每个所述属性相互排列。可以基于用于每个属性的数据的熵来排列属性。

根据本发明的另一方面，提供了一种用于将半结构化数据组织为分类的方法。该方法包括以下步骤：基于多个不同的属性类型从半结构化数据中生成项目的词汇表，并通过对词汇表中的项目和包含词汇表项目的半结构化数据的数据样本应用单生聚类来聚类半结构化数据。

项目的词汇表可以通过以下方式生成：

对于每个类别属性，向词汇表添加对应于该类别属性的所有可能值的(属性，值)对；

对于每个数字属性，基于数字属性聚类数据，将基于数字属性的聚类视为类别属性并向词汇表添加相应的(属性，值)对；

对于每个文本属性，提取该属性中出现的所有可能的单词或短语并向词汇表添加相应的(属性，单词/短语)对；

对于每个注释文本属性，向词汇表添加所有可能的(属性，标记，标记文本)三元组。

在本发明的任一方面中，可以通过使用基于属性类型选择的多种单生聚类算法来执行聚类。聚类可以基于由聚类内数据点的数目所提供的覆盖范围(coverage)、一聚类相对于其他聚类的特殊性和/或平均聚类内距离而排列。

所述分类可以表示为包含根节点和多个子节点的层级树结构，其中根节点包括半结构化数据而每个子节点包括从半结构化数据中生成的聚类的数据点。

附图说明

接下来仅以示例方式参照附图描述少数实施例，在附图中：

图1为一种用于基于标记分隔(tag-separated，TS)聚类将半结构化数据组织为分类的方法的流程图；

图2为一种用于基于标记混合(tag-mixed，TM)聚类将半结构化数据组织为分类的方法的流程图；

图3为可以实施本发明的实施例的计算机系统的示意性结构图。

具体实施方式

接下来描述用于将半结构化数据组织为分类的方法、系统和计算机程序产品的实施例。本文中使用的短语“半结构化数据”意在表示包含一种或多种下列类型的属性的数据：类别的、数字的、注释文本的以及文本的或非结构的。

单生聚类算法确定出现在文档集的每一个文档中关键概念集合。例如，这些概念可以包括出现在文档中的单词或以某种形式的自然语言处理从文档中提取的短语。文档的单生聚类涉及选择这些概念的子集，使所述子集成为聚类的标签，并将包含一概念的文档分配到具有该概念作为其标签的聚类中。单生聚类算法可以被用于生成分类。作为开始，创建一个包含全部给定文档集的“根”节点。通过聚类这些文档获得的聚类构成该“根”节点的子节点。该过程被递归地应用于每一个子节点直到满足终止条件，以生成节点的层级结构，其中处于较低层级的节点相对于处于相对较高层级的节点代表更加具体的概念。有关单生聚类算法的其他信息，读者可参考Jain A.K.和Dubes R.C.所著、1989年由新泽西Englewood Cliffs的Prentice Hall出版的教科书《Algorithms for Clustering Data》。

接下来描述两种使用单生算法聚类半结构化数据以生成分类的方法。第一种称为标记分隔(TS)聚类而第二种称为标记混合(TM)聚类。

标记分隔(TS)聚类

一种用于将半结构化数据组织为分类的方法是基于标记分隔(TS)聚类的。该方法包括三个主要步骤：利用属性聚类数据，排列聚类，以及排列属性。属性被基于它们的等级排序。在每个属性中，使用基于该特定属性的类型而选择的适当的单生算法生成单一层级标记的聚类。聚类本身被排列。该过程对于每个聚类递归重复以生成概念层级结构。

图1为一种用于基于标记分隔(TS)聚类将半结构化数据组织为分类的方法的流程图。

在步骤110，输入包含半结构化数据或由半结构化数据所构成的数据。

在步骤120，选择一属性。在步骤130确定该属性的类型。属性类型的典型例子包括类别属性、数字属性、文本或非结构属性、以及具有注释文本的属性。

在步骤140，基于在步骤120选择的属性聚类数据。所使用的实际聚类算法依赖于所选择的属性的类型：

●对于类别属性，每个类别构成单个聚类。这样，聚类的数目和类别的数目相同。基于覆盖范围，即具有与类别相等的属性值的数据点的数目，来排列类别。

●对于数字属性，可以利用传统聚类算法例如K-Means算法和HAC来聚类投射于数字属性范围的数据。然而，例如基于谷值检测(valleydetection)和模型选择(model selection)的算法以及EM框架中的模式搜寻(mode hunting)算法的其他算法也可以被使用。

●对于文本属性，可以利用例如CAARD、发现算法和DSP的各种单生文档聚类算法来聚类数据。接下来简单描述CAARD聚类算法，有关进一步的信息，读者可参考Krishna K.和Krishnapuram R.的、2001年11月发表于美国亚特兰大CIKM 2001第571-573页的标题为”A ClusteringAlgorithm for Asymmetrically Related Data with its Applications to TextMining”的论文。有关DSP聚类算法的其他信息，读者可参考Lawrie D.J.和Croft W.B.发表于2003年SIGIR会议录第457-458页的标题为“Generating hierarchical summaries for web searches”的论文。有关发现算法的其他信息，读者可参考Kummamuru K.、Lotlikar R.、Roy S.、SingalK.和Krishnapuram R.发表于2004年5月年17到22日美国纽约WWW会议录的标题为“A Hierarchical Monothetic Document ClusteringAlgorithm for Summarization and Browsing Search Results”的论文。上述三篇关于单生聚类算法的论文中的每一篇在此被全文引入作为参考。

●注释文本属性可以利用非混合标记聚类或混合标记聚类进行聚类。

在非混合标记聚类中，利用与每个标记共同出现的文本构建一单独的词汇表。也就是说，存在一词汇表对应于每个在注释文本中出现的标记。一般可以使用任何单生聚类算法在每个词汇表中寻找聚类。一旦聚类被找到，如果数据点具有对应标记中的聚类标签，则将该数据点分配给该聚类。这种方法产生具有两个层级的聚类层级。第一层级包括各种注释/标记，而第二层级包括从对应的标记特定的词汇表中得到的聚类。第一层级中的聚类基于跨越第二层级中聚类的数据的分布的熵进行排列，这将在后文中说明。

在混合标记聚类中，生成包括表示(标记，值)对的记号(token)的单个词汇表。任何单生聚类算法一般可以被应用以利用该单个词汇表生成聚类。

在步骤150中，相对于每个属性获得的聚类被排列以便排序。可以使用多种排列标准，且排列将依赖于聚类所属的属性的类型。排列标准的一些例子包括覆盖范围(聚类中数据点的数目)、连同特殊性的覆盖范围以及平均聚类内距离。有关特殊性的其他信息，读者可参考Kummamuru K.、Lotlikar R.、Roy S.、Singal K.和Krishnapuram R.于2004年5月17-22日发表于美国纽约WWW会议录的标题为“A Hierarchical MonotheticDocument Clustering Algorithm for Summarization and Browsing SearchResults”的论文，该论文已在上文中被引入作为参考。为了浏览搜索结果，覆盖范围是最为重要的标准。

在步骤160，确定是否有更多的属性要被处理。如果是这样(是)，则处理返回步骤120以选择下一个属性。如果不是这样(否)，则处理继续进行步骤170。

在步骤170，基于适合于每个不同属性的共同量度对属性进行排列。在一个实施例中，根据一个属性的熵通过以下方法被用作排列属性的量度：

●利用步骤140中描述的方法对每个属性生成一聚类。

●基于根据该属性生成的聚类计算每个属性的熵(接下来描述)，并排列属性以生成一个概要。

用于计算熵的聚类的数目可以限于最高的少数聚类。例如，最高的少数聚类可包括聚类的排列列表(如根据步骤150)中最高的少数聚类。作为另一种选择，最高聚类可以被选择以覆盖预先确定的数据百分比(即排列最高的n个聚类可以被选择，其中n的取值使数据的90％被覆盖)。

基于生成的聚类计算属性熵

令n_ij表示第i个属性的第j个聚类中数据点的数目。

令N_i表示关于第i个属性的聚类的数目。

令

p_{ij} = n_{ij} / Σ_{l = 1}^{N_{i}} n_{il}

其中p_ij是当根据第i个属性聚类时数据点属于第j个聚类的概率。则，第i个属性的熵E_i由下式给出：

E_{i} = Σ_{j = 1}^{N_{i}} p_{ij} \log (p_{ij})

由于属性具有不同类型并且可以使用不同的聚类算法根据属性聚类数据，对于一属性计算的熵将依赖于所使用的算法及其参数。

在另一可选择实施例中同样使用熵作为排列量度，计算根据每个属性的数据的熵并根据该熵排列属性。然后对于排列列表中的每个属性，数据根据该属性被聚类。这将避免由于针对不同属性的聚类算法中的变化和/或聚类算法参数的变化而生成的偏离。

虽然这些实施例描述了使用熵作为排列标准，然而任何其他适合于跨越不同类型的属性的排列标准均可以使用。其他可以使用的排列标准的例子包括聚类内聚性(cohesiveness)和伪F统计(Pseudo F statistic)。关于聚类内聚性的其他信息，读者可参考Jain A.K.和Dubes R.C.的、1989年由新泽西Englewood Cliffs的Prentice Hall出版的教科书《Algorithmsfor Clustering Data》。关于伪F统计的其他信息，读者可参考Calinski T.和Harabasz J.公开于Communications in Statistics，3：1-27，1974的“Adendrite method for cluster analysis”。

标记混合(TM)聚类

另一种用于将半结构化数据组织为分类的方法是基于标记混合(TM)聚类的。这种方法包括基于数据构建(属性，值)对和/或元组的词汇表。数字属性在加入词汇表之前被聚类并被转换为类别属性。具有n个可能类别值的类别属性产生词汇表中的n个(属性，值)对。文本属性产生词汇表的(属性，单词/短语)对，其中单词/短语作为属性的值。注释文本属性产生词汇表中的(属性，标记，值)元组，其中“值”代表在具有标记的文本中出现的单词或短语。这样所构建的词汇表由也被称为记号的(属性，值)对和/或(属性，标记，值)元组构成。一旦构建了词汇表，可利用单生聚类算法(例如上文中提到的)生成数据的分类。

图2为一种用于基于标记混合(TM)聚类将半结构化数据组织为分类的方法的流程图。

在步骤210，输入包含半结构化数据或由半结构化数据所构成的数据。

步骤220包括用于基于步骤210中输入的数据构建词汇表的子步骤221到226。除数字属性之外，以基本上相同的方式考虑和处理不同属性类型。数字属性首先被聚类并且每个聚类被看作一个类别。这样数字属性被转换为类别属性。

在步骤221，选择一属性。在步骤222，确定所选择的属性是否是数字的。如果是这样(是)，则在步骤223聚类该属性。接着，在步骤224，每个聚类被当作类别并且数字属性被转换为类别属性。在步骤225，属性的所有可能值被加入词汇表。如果所选择的属性是非数字的(否)，则在步骤222，处理直接转到步骤225，在此将属性的所有可能值加入词汇表。

步骤225之后，在步骤226确定是否还有更多属性要处理。如果是这样(是)，则处理在步骤222继续，在些选择下一个属性。如果不是这样(否)，则处理在步骤230继续。

所构造的词汇表由也被称为记号的(属性，值)对和/或(属性，标记，值)元组构成。

每个数据样本被表示为一组记号，其中每个记号包含于该数据样本中并且是词汇表的一部分。用于一给定数据集和一词汇表的倒排索引包括该词汇表中的每个记号，以及对包含该记号的所有数据样本的引用。

词汇表的倒排索引在步骤230被初始化，并在步骤240产生每个数据样本的表示，步骤240包括子步骤241到245。在步骤241，选择一数据样本。在步骤242，确定步骤241所选择的数据样本的属性类型。如果属性类型是类别的或数字的(步骤243)，则存在单个记号或(属性，值)对。或者，如果属性类型是文本(步骤244)，则对于每个文本短语存在多个记号或(属性，短语)对。或者，如果属性类型是注释文本(步骤245)，则存在多个记号或(属性，标记，文本)元组。在步骤243、244和245中的每一个之后，在步骤241中选择的数据样本的相关表示在步骤246被加入倒排索引。

在步骤247，确定是否还有更多数据样本需要处理。如果是这样(是)，则处理返回步骤241以选择下一个数据样本。如果不是这样(否)，则在步骤250使用倒排索引中的数据将单生聚类应用于数据样本。

CAARD单生聚类算法

接下来将参照图2中的标记混合方法简单描述CAARD聚类算法。

1.一旦确定了词汇表(图2中的步骤220)，则创建一包含数据样本列表的倒排索引，其中数据样本包含给定的词汇表项目。令e₁，...，e_n为词汇表中的n个条目。然后令l₁，...l_n为n个对应数字集合，用于指示包含对应的词汇表条目的数据项目列表。就是说，每个l_i指示包含e_i的所有数据项目的列表。

2.聚类算法计算一个条目被包含入另一个条目。e_i被包含入e_i由公式l_i∩l_j/|l_j|给出，其中|l_j|表示l_j中元素的数目。

3.数据聚类的集合由作为词汇表中的条目的、它们的代表来表示。

4.通过考虑词汇表条目以它们的概率降序排列而生成代表S的集合。

5.排序中的第一个条目被加入S。然后，如果每个相继条目通过大于一定义阈值而被包含于S中的对应代表r_i，则将每个相继条目加入已有聚类C_i中的一个。如果数据样本没有通过大于一定义阈值而相关于任何已有条目，则该数据样本被加入S。就是说，形成了一个以该条目为其代表的新的聚类。

6.一旦生成了代表S的集合，如果聚类的代表包含于数据样本内，则将每个该数据样本分配给该聚类。这样，每个数据样本可以属于多于一个的聚类。如果一数据样本不属于任何一个聚类，则该数据样本被分配到“混杂”聚类。

有关CAARD聚类算法更为详细的描述，可参考Krishna K.和Krishnapuram R.于2001年11月发表于美国亚特兰大CIKM-2001第571-573页的标题为“A Clustering Algorithm for Asymmetrically RelatedData with its Application to Text Mining”的论文，该论文在此被全文引入作为参考。

然而，应当注意到其他单生聚类算法，例如DSP和Discover算法，也可以用于代替CAARD算法。有关DSP聚类算法的其他信息，读者可参考Lawrie D.J.和Croft W.B.于2003年发表于SIGIR会议录第457-458页的标题为“Generating hierarchical summaries for web searches”的论文。有关发现聚类算法的其他信息，读者可参考Kummamuru K.、Lotlikar R.、Roy S.、Singal K.和Krishnapuram R.于2004年5月17-22日发表于美国纽约WWW会议录的标题为“A Hierarchical Monothetic DocumentClustering Algorithm for Summarization and Browing Search Results”的论文。上述两篇关于单生聚类算法的论文均在此被全文引入作为参考。

示例分类

接下来说明在书目条目集合上生成的示例分类。

表1表示DBLP数据库中的书目条目的示例，该数据库提供主要计算机科学刊物和会议录的书目信息。

表1

<inproceedings mdate＝″2002-12-17″key＝″conf/kdd/AgrawalP95″><author>Rakesh Agrawal</author><author>Giuseppe Psaila</author><title>Active Data Mining.</title><pages>3-8</pages><year>1995</year><booktitle>KDD</booktitle><url>db/conf/kdd/kdd95.html#AgrawalP95</url></inproceedings><inproceedings mdate＝″2002-12-17″key＝″conf/kdd/AgrawalS96″><author>Rakesh Agrawal</author><author>Kyuseok Shim</author><title>Developing Tightly-Coupled Data Mining Applications on a Relational DatabaseSystem.</title><pages>287-290</pages><year>1996</year><booktitle>KDD</booktitle><url>db/conf/kdd/kdd96.html#Agrawal S96</url></inproceedings><inproceedings mdate＝″2004-03-31″key＝″conf/icde/AgrawalCDN03″><author>Rakesh Agrawal</author><author>Surajit Chaudhuri</author><author>Abhinandan Das</author><author>Vivek R.Narasayya</author><title>Automating Layout of Relational Databases.</title><pages>607-618</pages><year>2003</year><crossref>conf/icde/2003</crossref><booktitle>ICDE</booktitle><url>db/conf/icde/icde2003.html#AgrawalCDN03</url></inproceedings><inproceedings mdate＝″2004-03-31″key＝″conf/icde/Agrawal03″><author>Rakesh Agrawal</author><title>Database Technologies for E-Commerce.</title><pages>801</pages><ee>http://csdl.computer.org/comp/proceedings/icde/2003/2071/00/20710801abs.htm</ee><year>2003</year><crossref>conf/icde/2003</crossref><booktitle>ICDE</booktitle><url>db/conf/icde/icde2003.html#Agrawal03</url></inproceedings>

表2示出使用上文中参考图1描述的标记分隔(TS)方法从DBLP数据库的子集中生成的分类的一部分，从该数据库中提取出的示例已示出于表1。如可以从表2中看到的，第一层级的节点表示例如“作者”和“书名”这样的属性，而第二层级的节点表示这些属性的值。例如，属性节点“作者”中的节点表示作者“Ramakrishnan Srikant”和“H.V.Jagdish”。

表2

<ROOT LABEL＝″Rakesh Agrawal″><NODE LABEL＝AUTHOR><NODE LABEL＝″Ramakrishnan Srikant″><pub><article madate＝2003-11-20 key＝journals/tkde/AgrawalS03><author>Rakesh Agrawal</author><author>Ramakrishnan Srikant</author><tile>Search with Numbers.</title><pages>855-870</pages><year>2003</year><volume>15</volume><journal>IEEE Trans.Knowl.Data Eng.</journal><number>4</number><ee>http://csdl.computer.org/comp/trans/tk/2003/04/k0855abs.htm</ee><url>db/journals/tkde/tkdel5.html AgrawalS03</url></article></pub></NODE><NODE LABEL＝″H.V.Jagadish″><pub><article madate＝2003-11-28 key＝journals/debu/AgrawalJ98><author>Rakesh Agrawal</author><author>H.V.Jagadish</author><title>Multiprocessor Transitive Closure Algorithms.</title><pages>30-36</pages><year>1989</year><volume>12</volume><journal>IEEE Data Eng.Bull.</journal><number>1</number><url>db/journals/debu/debu12.html AgrawalJ89</url></article></pub></NODE></NODE><NODE LABEL＝BOOKTITLE><NODE LABEL＝″VLDB″><pub><inproceedings madate＝2002-01-03 key＝conf/vldb/AgrawalJ87><crossref>conf/vldb/87</crossref><author>Rakesh Agrawal</author><author>H.V.Jagadish</author><title>Direct Algorithms for Computing the Transitive Closure of DatabaseRelations.</title><pages>255-266</pages><year>1987</year><booktitle>VLDB</booktitle><url>db/conf/vldb/vldb87.html AgrawalJ87</url><cite>...</cite><cite>conf/vldb/De WittG85</cite><cite>...</cite></inproceedings></pub></NODE><NODE LABEL＝″ICDE″><pub><inproceedings madate＝2003-11-14 key＝conf/cide/Agrawal103><author>Rakesh Agrawal</author><title>Database Technologies for E-Commerce.</title><pages>801</pages><year>2003</year><crossref>config/icde/2003</crossref><booktitle>ICDE</booktitle><url>db/conf/icde/icde2003.html Agrawal103</url></inproceedings></pub></NODE></NODE:BOOKTITLE></ROOT>

表3示出使用上文中参考图2描述的标记混合(TM)方法生成的分类的一部分。

表3

<ROOT LABEL＝″Rakesh Agrawal″><NODE TAG＝AUTHOR；VALUE＝″Ramakrishnan Srikant″><pub><article madate＝2003-11-20 key＝journals/tkde/AgrawalS03><author>Rakesh Agrawal</author><author>Ramakrishnan Sriant</author><title>Search with Numbers.</title><pages>855-870</pages><year>2003</year><volume>15</volume><journal>IEEE Trans.Knowl.Data Eng.</journal><number>4</number><ee>http://csdl.computer.org/comp/trans/tk/2003/04/k0855abs.htm</ee><url>db/journals/tkde/tkde15.html AgrawalS03</url></article></pub></NODE><NODE TAG＝BOOKTITLE；VALUE＝″VLDB″><pub><inproceedings madate＝2002-01-03 key＝cont/vldb/AgrawalJ87><crossref>conf/vldb/87</crossref><author>Rakesh Agrawal</author><author>H.V.Jagadish</author><title>Direct Algorithms for Computing the Transitive Closure of DatabaseRelations.</title><pages>255-266</pages><year>1987</year><booktitle>VLDB</booktitle><url>db/conf/vldb/vldb87.html AgrawalJ87</url><cite>...</cite><cite>conf/vldb/De WittG85</cite><cite>...</cite></inproceedings></pub></NODE></ROOT>

表3示出的数据库的词汇表包括以下条目：

数字属性<year>被聚类。假定年份被聚类为十年期，则年份属性的值被映射到适当的十年期中。对应的词汇表将包含例如(year，2000-10)、(year，1999-2000)和(year，1980-90)的条目。

例如<author>和<booktitle>的属性是类别的，其值为预先指定数目的值中的一个。对应的词汇表条目将为(author，“Rakesh Agrawal”)、(author，“Surajit Chaudhuri”)、(booktitle，ICDM)、(booktitle，ICML)。

例如<title>的属性为文本的，且对应于<title>属性的词汇表包括例如(title，Automating)、(title，Relational)和(title，Databases)的条目。如果<title>标记由专有名词(proper nouns)所注释，则对应的词汇表条目为(title，proper-noun，“Relational Databases”)。

前述表2和3是被组织为分类的书目条目的示例，其仅是说明性质的。特别地，前述方法可应用于任何半结构化数据且并决不限于前述示例中所示的数据类型。

计算机硬件和软件

图3为可以实施此处所描述方法的计算机系统300的示意性框图。更具体地，提供计算机系统300以用于执行计算机软件，该计算机软件被编程为帮助执行用于将半结构化数据组织为分类的方法。该计算机软件在安装在计算机系统300上的例如MS Windows 2000、MS Windows XP^TM或Linux^TM的操作系统下执行。

该计算机软件包括一组可被计算机系统300执行的编程逻辑指令，用于指示计算机系统300执行那些指令所指定的预先确定的功能。该计算机软件可以以任何的语言、代码或符号表达和纪录，其包括一组指令，所述指令旨在使兼容的信息处理系统直接或在其转换为其他语言、代码或符号后执行特定的功能。

该计算机软件程序包括计算机语言的语句。该计算机程序可使用编译器被处理为适合于操作系统执行的二进制格式。该计算机程序以包括多种，执行前述方法的特定步骤的软件部件或代码的方式被编程。

计算机系统300的部件包括：计算机320，输入设备310、315以及视频显示器390。该计算机320包括：处理单元340，存储单元350，输入/输出(I/O)接口360，通信接口365，视频接口345和存储设备355。该计算机320可以包括多于一个的上述单元、接口和设备。

处理单元340可包括一个或多个处理器，用于执行操作系统以及执行于操作系统之下的计算机软件。存储单元350在处理单元340的指导下使用，其可包括随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器和/或本领域所知的任何其他类型的存储器。

视频接口345连接于视频显示器390，并提供用于在视频显示器390上显示的视频信号。用户用以操作计算机320的输入是通过输入设备310和315进行的，其分别包括键盘和鼠标。存储设备355可包括磁盘驱动器或任何其他适合的非易失性存储介质。

计算机320的每个部件均连接于总线330，该总线包括数据、地址以及控制总线，以使各部件通过总线330互相通信。

计算机系统300可通过通信接口365使用到表示为因特网的网络的通信通道385连接于一个或多个相似的计算机。

计算机软件程序可作为计算机程序产品提供，并记录在便携式存储介质上。在这种情况下，计算机软件程序可以由计算机系统300从存储设备355访问。作为另一种选择，计算机软件可以由计算机320从网络380直接访问。在任何一种情况下，用户可以使用键盘310和鼠标315与计算机系统300交互，以操作在计算机320上执行的编程计算机软件。

以上出于例示性目的描述了计算机系统300。因此，上述说明涉及特定类型的计算机系统例如个人计算机(PC)的示例，该计算机系统适于执行以上描述的方法和计算机程序产品。计算机编程领域的技术人员将容易地意识到其他配置或类型的计算机系统也可用于实施以上描述的方法和计算机程序产品。

以上描述了用于将半结构化数据组织为分类的方法、系统和计算机程序产品的实施例。上述详细说明仅提供示例性实施例，并非对本发明的范围、适用性或配置的限制。相反地，示例性实施例的说明为本领域技术人员提供了使其能够实施本发明实施例的说明。可做出部件的功能和安排上的各种变化，而不脱离本发明的、由后面的权利要求所限定的精神和范围。

当在此提到的特定特征、部件和步骤在本发明的相关领域具有已知的等价物的情况下，这些已知等价物被认为并入本说明书，如同被单独提出一样。此外，除非有相反说明，相对于特定实施例提到的特征、元件和步骤可以可选地形成任何其他实施例的部分。

Claims

1.一种用于将半结构化数据组织为分类的方法，所述方法包括以下步骤：

基于多个属性类型将所述半结构化数据聚类为多个聚类；

将所述多个聚类相互排列；以及

基于共同排列量度排列所述属性，该普遍排列量度适合于将每个所述属性相互排列。

2.如权利要求1所述的方法，其中所述聚类步骤是使用多个单生聚类算法执行的，其中所述算法基于所述属性类型选择的。

3.如权利要求1所述的方法，其中所述多个属性类型包括从包括以下各项的组中选择的属性类型：

数字属性；

类别属性；

文本属性；以及

注释文本属性。

4.如权利要求1所述的方法，其中所述聚类是基于从以下标准组中选择的至少一个标准排列的：

由聚类内数据点的数目所提供的覆盖范围；

一聚类区别于其他聚类的特殊性；以及

平均聚类内距离。

5.如权利要求1所述的方法，其中所述属性是基于用于每个属性的数据的熵排列的。

6. 如权利要求1所述的方法，其中所述分类被表示为包含根节点和多个子节点的层级树，所述根节点包含所述半结构化数据而每个所述子节点包括从所述半结构化数据中生成的聚类的数据点。

7.一种用于将半结构化数据组织为分类的方法，所述方法包括以下步骤：

基于多个不同的属性类型从所述半结构化数据中生成项目的词汇表；以及

通过对所述词汇表中的项目和包含所述项目的、所述半结构化数据的数据样本应用单生聚类，来聚类所述半结构化数据。

8.如权利要求7所述的方法，其中所述多个不同的属性类型包括从包括以下各项的组中选择的属性类型：

数字属性；

类别属性；

文本属性；以及

注释文本属性。

9.权利要求8所述的方法，其中所述生成词汇表的步骤包括以下子步骤：

对于所述多个属性中的每个数字属性：

基于所述数字属性聚类所述半结构化数据；和

将基于所述数字属性的聚类视为类别属性；

以及

将所述多个属性中的每一个的所有可能值加入所述词汇表。

10.如权利要求7所述的方法，其中所述生成项目的词汇表的步骤包括以下子步骤：

对于每个数字属性，基于该数字属性聚类数据，将基于数字属性的聚类视为类别属性并向词汇表添加相应的(属性，值)对；

对于每个文本属性，提取该属性的值中出现的所有可能的单词或短语并向词汇表添加相应的(属性，单词/短语)对；以及

11.如权利要求7所述的方法，其中所述聚类步骤是使用多个单生聚类算法执行的，其中所述算法是基于所述属性类型选择的。

12.如权利要求7所述的方法，其中所述分类被表示为包含根节点和多个子节点的层级树，所述根节点包含所述半结构化数据而每个所述子节点包含从所述半结构化数据中生成的聚类的数据点。

13.一种用于将半结构化数据组织为分类的装置，所述装置包括：

存储单元，用于存储数据和将由处理单元执行的指令；

连接于所述存储单元的处理单元，所述处理单元被编程为：

基于多个属性类型将所述半结构化数据聚类为多个聚类；

将所述多个聚类相互排列；以及

基于共同排列量度排列所述属性，该共同排列量度适合于将每个所述属性相互排列。

14.如权利要求13所述的装置，其中所述处理单元被编程为使用多个单生聚类算法执行所述聚类，其中所述算法是基于所述属性类型选择的。

15.一种用于将半结构化数据组织为分类的装置，所述装置包括：

存储单元，用于存储数据和将由处理单元执行的指令；

连接于所述存储单元的处理单元，所述处理单元被编程为：

16.如权利要求15所述的装置，其中所述处理单元被编程为：

对于每个数字属性，基于该数字属性聚类数据，将基于该数字属性的聚类视为类别属性并向词汇表添加相应的(属性，值)对；