CN100405363C

CN100405363C - 在数据处理系统中对类属数据集排序的方法和装置

Info

Publication number: CN100405363C
Application number: CNB028068513A
Authority: CN
Inventors: A·贝格尔兹莫; C-S·佩尔格; 马胜; J·赫勒斯坦
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-03-19
Filing date: 2002-03-11
Publication date: 2008-07-23
Anticipated expiration: 2022-03-11
Also published as: IL158023A0; WO2002075592A2; CN1659546A; WO2002075592A3; JP2004532453A; KR20040005889A; US20020161736A1; EP1412876A2; US6615211B2

Abstract

提供了用于使类属属性排序从而能更好地可视化的技术。根据本发明的一个实施例，一个排序算法包含如下步骤：(a)使离散排序问题变换为连续最优化问题；(b)求解该连续最优化问题；以及(c)把最优连续解映射为最接近的离散解。

Description

在数据处理系统中对类属数据集排序的方法和装置

技术领域

一般而言，本发明涉及数据发掘(data exploration)和分析技术，特别是涉及用于这种数据发掘和分析技术的对类属数据(categorical data)进行排序和可视化的系统和方法。

背景技术

可视表示在传递和解释来自大量数据的信息方面变得越来越重要。这是因为已经知道人类的视觉在识别有意义的图案和空间关系方面特别地好。好的、有效的可视表示能以一种最大限度地利用我们的视觉技能的方式展现信息，从而揭示隐藏在数据中的有意义的趋势和异常。在实际数据集中的大量数据属性是类属性的。一个类属值传递一个对象的类别。通常既没有一个自然顺序也没有距离与类属值关联。例如，考虑一个代表事件时间序列的数据集，它具有诸如宿主名、事件名、事件严重性等属性。尽管我们能可论证地定义事件严重性的一个有意义的顺序，但没有自然的方式定义宿主名和事件名的距离和顺序。在构建可视化方面，尽管对于通过直接利用其内在几何特性来可视化数值数据已进行过相当的研究，但在可视化和提取类属数据结构方面的工作却少得多。显然，属性值缺少顺序增加了额外的复杂性。这是因为有按指数增加的许多方式能使类属值完全地排序。然而，所有这些顺序未必能产生同样有效的可视化。Ma和Hellerstein鉴别了该问题并表示排序算法的质量对于有效地可视化类属数据是至关重要的，见欧洲专利申请No.00309231.9号；S.Ma和J.L.Hellerstein，“对类属数据排序以改进可视化”，IEEE信息可视化研讨会文集；1999；以及S.Ma和J.L.Hellerstein，“事件浏览器：用于事件管理的事件数据发掘性分析”，DSOM 1999，它们公开的内容在这里被纳入作为参考。

为说明对类属值排序的重要性，我们考虑Ma和Hellerstein在上文引用的公开内容中使用过的相同数据集。该数据集包含10,000个以上的事件，它们是由160个宿主在三天时间内产生的，具有20个事件类型。图1显示该数据集的散布图，其中x轴和y轴分别代表事件的时间和宿主名(例如一个计算设备网络中的主机标识符(id))。在这幅图中，因为宿主名是类属的，它们必须以某种方式映射到几何坐标上(在y轴上)。在图1中宿主名的顺序是宿主名的随机排列。可惜的是，因为这种随机排序方案，图1的散布图所产生的结果不是特别有揭示性的。这样，显然需要某种较好的排序或映射，以提供数据集的更高质量可视化。

Ma和Hellerstein在上文引用的公开内容中要解决的一个关键问题是如何找出能造成有效可视化的映射，这也是本发明的一个焦点。显然，在构建这种映射背后的指导原则是利用几何近似来捕获对象间的关系。就是说，我们想让类似的、有关联的对象彼此靠近放置。

大量的研究努力和商业产品已把可视化技术应用于类属数据集，例如，M.O.Word，“Xmdv Tool：用于可视化多元数据的多方法集成”，可视化大会文集(Los Alamitos，CA，USA)IEEE计算机学会出版社，第326-336页，1994年10月；来自IBM公司的钻石软件；以及由序列号09/359,874标识的美国专利申请，1999年7月27日提交，标题为“用于事件管理的数据发掘分析系统和方法”，它们公开的内容在这里被纳入作为参考。这些努力可被分类为四类。

一种简单的途径是根据一个辅助的数值属性对类属值排序或按字母顺序对这些类属值排序。在我们的上一个例子中，我们可按宿主名在数据集中第一次出现的时间对宿主名排序。这一途径是基于假定由系统产生的事件的顺序中存在某种因果关系。然而，这一途径与可视任务无关，因此，通常不能提供最好的可视化质量。随着数据集的大小和复杂性的增长，这一途径的性能会变差。

第二类主要是集中于基于集群的途径，例如参见V.Ganti等的“CACTUS：使用概要对类属数据集群”，第五届关于知识发现和数据挖掘的ACM SIGKDD国际会议文集，ACM出版社，第73-83页，1999年8月；D.Gibson等的“集群类属数据：基于动态系统的一个途径”，第24届关于甚大数据库VLDB的国际会议文集，311-322页，1998年8月；S.Guha等的“Rock：一种用于类属属性的稳建集群算法”，第15届数据工程国际会议文集，1999；以及S.Ma和J.L.Hellerstein的“对类属数据排序以改进可视化”，IEEE信息可视化研讨会文集，1999，它们公开的内容在这里被纳入作为参考。

集群是深入了解数据集的一种自然方式。然而，为了可视化的目的，有三个问题影响它的价值。第一，尽管能在几何空间中标识集群，但集群描述仍是无序的，而且需要一些附加的非平凡的方法对集群排序和可视化和对每个集群内的元素排序和可视化。第二，大多数集群算法偏好某些通常是很结构化的集群形状(例如上文引用的CACTUS途径中的矩形区)并且总是趋向于把数据分区到这种形状的集群中，尽管在该数据集中可能根本没有集群趋势。特别是，CACTUS途径显示，上文引用的Gibson途径不能发现若干自然的集群类别，例如在某些属性子集上有重叠投影的集群。我们感到，对于数据的集群结构做任何假定都会达不到使用集群算法提取结构的总体目的。本发明的目标是在不对数据作任何预先假定的情况下揭示其顺序的技术。为此，本发明使用一个最优化框架来使这一问题公式化。

与这第二类算法有关，在上述由序列号No.09/359,874标识的美国专利申请中提议的这第三个途径是基于层次排序。该途径提供迭代组合最靠近的点对(针对某种相似性函数)并用单点代替该对。这样，使这些点构成嵌套式排序子集的严格层次结构。任何两个子集之间最短路径的长度对应于它们的相似程度。全局排序的构成简化为以自底向上方式递归地局部排序子集对。以这一途径，严格的层次树不能反映出使这些点能关联起来的多种不同方式，而且随着数据集的大小和复杂性的增长，这种情况会变得更加严重。其次，层次排序在性质上是确定性的(一旦这些点被分组到一起，便没有机会重新评估这种分组，因而也没有机会重新评估这种排序)。

第四种途径是使用投影方法，如多维标度(MDS)或在C.Faloutsos等的“FastMap：对传统的和多媒体的数据集进行编索引、数据挖掘和可视化的快速算法”中提议的算法，关于数据管理的1995 ACM SIGMOD国际会议(San Jose，California，USA)文集，163-174页，1995年5月，所公开的内容在这里被纳入作为参考。存在一个基本的限制与这些技术的目标相关联。MDS产生数据的一个低维可视表示，它尽可能令人信服地保留原始数据点之间的距离(针对相似性函数)。问题在于为了可视发掘的目的，人们通常事先不知道在寻找什么而且也没有好的相似性函数。所以，针对特定相似性函数保留距离不应是它本身的目标，相反，该顺序应与合理的相似性函数一致。就是说，如果点u比w更与v相似，则按此顺序u应被映射到更接近于v而不是更接近于w；然而，保留实际相似性比值不应是目的。换言之，应该更希望其顺序是保留拓扑的而不是保留距离的(针对某特定相似性函数测量的距离)。再有，对于大的数据集，MDS过于昂贵，而且不允许增量式地把新点映射到已有投影上(一旦增加一个新点，基本上要重新计算整个映射)。

发明内容

本发明提供对类属属性排序的技术，从而使数据更好地可视化。在本发明的第一方面，基于计算机的对与数据集关联的一个或多个属性的类属值进行排序的技术包含如下步骤/操作：第一，得到要排序的类属值。如果给定这些类属值，则对这些类属值排序的任务被公式化为连续最优化排序问题。一旦该任务被公式化为连续最优化排序问题，则能计算出该连续最优化排序问题的至少一个连续的(优选地，优化的)排序解。该技术还可包括把计算出的连续排序解从一个连续空间映射到一个离散空间。至少是计算出的连续排序解中的一部分可被用于一个数据可视化系统(即可以显示给用户)。

在一个实施例中，使类属值排序任务成为连续最优化排序问题的步骤/操作可包含基于一个或多个属性的类属值计算一个相似性矩阵。相似性矩阵可基于一个或多个多重集操作。这一个或多个多重集操作可包含计算两类相似性量度，第一类是在来自同一属性的两个类属值之间计算出的相似性量度，第二类是在来自不同属性的两个类属值之间计算出的相似性量度。再有，使类属值排序任务成为连续最优化排序问题的步骤/操作可进一步包含由相似性矩阵计算拉普拉斯(Laplace)矩阵。然后，计算该连续最优化排序问题的至少一个连续排序结果的步骤/操作包含找出该拉普拉斯矩阵的最小正本征值，然后从拉普拉斯矩阵的最小正本征值得到相应的最优化本征矢量。然后，能根据与最优化本征矢量关联的相应值对这些类属值排序。

在本发明的第二方面，提供了用于对涉及多重属性的类属值进行排序的技术。根据这种技术，在使类属值排序任务成为连续最优化排序问题之前，涉及多重属性的类属值被映射到一个对象集，从而使上述的“成为”和“计算”步骤/操作是结合该对象集进行。

在本发明的第三方面，对与一个数据集关联的一个或多个属性的类属值进行排序的多级框架技术包含如下步骤/操作：第一，得到要排序的类属值。如果给定这些类属值，则这些类属值被模拟为一个原始图形结构，其各顶点为要排序的类属值，边缘的权重为被连接顶点的相似性。然后，由一个或多个较粗略的图形结构的层次序列近似该原始图形结构，这里具有相似局部结构的顶点被合并成较粗略的图形结构中的一个顶点。最粗略的图形结构被按照连续最优化排序操作进行排序。最粗略的图形结构的排序结被传播回到原始图形结构，于是至少是与原始图形结构关联的被传播的排序结果的一部分可被用于一个数据可视化系统。

由下文中结合附图对本发明实施例的详细描述，本发明的这些和其他目的、特点和优点将变得显然。

附图说明

图1显示一个散布图，这里y轴代表宿主id(标识符)，x轴代表时间，而且宿主id是随机赋予的；

图2A是一个通用可视化系统的方框图；

图2B是使用根据本发明的排序机制作为数据预处理一部分的系统的方框图；

图2C是使用根据本发明的排序机制作为数据管理一部分的系统的方框图；

图2D是使用根据本发明的排序机制作为一个观察器的一部分的系统的方框图；

图3A是流程图，显示根据本发明一个实施例进行排序的频谱算法；

图3B显示一个散布图，这里y轴代表宿主id(标识符)，x轴代表时间，而且宿主id是按照根据本发明一个实施例进行排序的频谱算法赋予的。

图4是流程图，显示根据本发明一个实施例进行排序的处置多重属性的频谱算法；

图5是流程图，显示根据本发明一个实施例进行排序的处置大数据集的多级频谱算法；

图6显示根据本发明一个实施例进行排序的多级频谱算法的结果举例；以及

图7显示根据本发明使用一个或多个排序算法的硬件实现示例。

具体实施方式

本发明提供对类属属性排序从而使数据更好地可视化的技术。为此，如下文中举例解释的那样，本发明可被认为是聚焦于如下三个问题。

(1)如何研发快速而有效的算法。对类属数据排序的问题可被公式化为一个组合最优化问题，它是一个NP-难题。这意味着其最优化结果不可能在多项式时间(polynomial time)内得到。结果，大多数研究努力依靠仅能给出近最优化结果的组合试探法。例如，先前Ma和Hellerstein把此排序问题归结为一个哈密尔顿路径问题，并使用贪婪试探去寻找对哈密尔顿路径的近似，它又定义一个排序。然而，试探算法或者可能是效率太低或者不能提供最好的结果(通常在算法的运行时间和由算法发现的近似结果的接近程度二者之间有一个折衷)。其他研究努力提出一些局部改进技术，如上文引用的Gibson工作中的动态系统途径，强迫定向放置等。尽管这些研究策略通常设法在相对较少的图形中捕获许多有意义的连接和图案，但对这些策略没有适当的理论理解。充其量也不过是对一些特定案例有一些理论分析，但尚未发展出一般理论。众所周知，关于排序的质量和使算法收敛所需的时间是很难说出理由的。所有这些使得难于得到对近似程度的保证。根据本发明，我们以根本上不同的方式表达此排序问题，它允许避免难于操作的组合公式化。

(2)如何对具有多重类属属性的数据排序。在实际生活中的数据往往有多重类属属性。例如，一个系统事件至少有两个类属属性：事件类型和宿主名。可视化技术，如3维散布图和平行坐标图，使我们能发掘多维数据。显然，使用这些技术有效地可视化更多维则需要对相应的类属属性排序。

(3)如何按比例放大排序算法以处置大量数据。当今，把大量数据存储在数据库中并非不寻常的事件。这提供了宝贵的机会去发现信息。然而，处置大量数据提出一个巨大的挑战，即要开发出与数据成线性比例的有效算法。当在分析大量数据时，为小量数据设计的算法会崩溃。

本发明提供一种对类属数据排序的新途径，它解决这三个问题以及其他问题。

为得到一个高效率的而又有效力的算法，我们开发了一个不同的途径，从而避免了先前公式化时的组合复杂性。本发明的一个关键思想是把排序问题公式化为一个连续最优化问题。这样，本发明的排序算法可包含三个步骤：(a)把离散排序问题变换为连续最优化问题；(b)求解该连续最优化问题；以及(c)把最优化连续解映射为最接近的离散解。为实现(a)，我们放松相应的离散公式化中的离散性约束。就是说，我们的目标不是找出最佳排序，而是在于找出把原始类属值映射到实数的最佳连续映射。步骤(b)求解(a)中得到的连续最佳化问题。

在下面的实施例中，我们将说明我们公式化的连续最优化有一个特殊的结构，这使它成为可追踪的，尽管原始的离散问题是NP-难题。这使我们能开发出给出最优化解的频谱算法。例如，我们的算法使用关于从数据的图形表示中导出的某些矩阵的频谱(代数的)信息。我们的算法使W.E.Donath等的“基于连接矩阵本征矢量的对图形分区算法和计算机逻辑”(IBM技术公开报告15(1972)，No.3，938-944页)以及M.Fiedler的“图形的代数连接性”(捷克斯洛代克数学杂志23(1973)，No.98，298-305页)中发展的对图形分区问题的代数工具通用化，从而能用于解决排序问题。上述文章公开的内容在这里被纳入作为参考。最后，在我们得到连续解之后，步骤(c)把连续值映射到离散空间。我们应该指出，即使对于连续问题的解是最佳的，把它映射到最靠近的离散点并不一定给出最佳的离散解(虽然它提供了一个好的近似)。然而，我们应该指出，构造一个数据集的顺序的问题根本上不同于构造分区：松驰提供了有其自己理由的有价值的可视化；因此，把连续解映射回离散空间并不是强制性的。

现在我们讨论如何使上述算法通用化以处理多重属性。现实生活中的数据往往有多重属性。已发展了许多可视化技术用于发掘多重属性值之间的关系。例如，3维散布图允许画出三维。平行图使用一系列平行轴，每个轴代表单个属性域。连接相继轴上值的直线段表明该数据集有至少一个条目含有这两个值(作为相应属性之值)。排序问题包含以能改善可视化的方式把属性值映射到轴线上(通常，其目的是使边缘交叉数减至最少)。请注意，由于有两个或更多个类属属性需要同时排序，因此不仅每个属性的顺序要它自己满意，而且该顺序还必须彼此满意，这一事实使这里的情况复杂化。不去独立地对每个属性域排序，本发明代之以创建“异质”线性排序，它代表所有属性域的值到单一线上的值的映射。这有利地解决了保持所有排序彼此同步的问题。为得到一个特定属性域的值的映射，本发明取此异质映射的相应条目(此异质映射分解成若干同质映射)。

尽管频谱算法一般能产生高质量的排序，但它可能比其他方法更昂贵。对于稀疏矩阵，Lancoz迭代在预期的O(n^1·4)时间内解决对称本征值问题。在实践中，对特别大的数据集它可能是慢的。再有，来自实际大数据集的图形通常是高度超定的，即它可能包含多个具有几乎完全相同的相邻结构的顶点。为了按比例增大我们的算法以对付大数据量，我们为图形分区问题开发了多级排序框架。其总体思想是以一系列较小的、较粗略的图形近似原始图形。通过把具有相似相邻结构的所有顶点瓦解成单个多重顶点，形成下一级较粗略的图形。最粗略的图形被排序。然后，造成的排序通过内插穿过中间图形序列传播回到原始图形(并在我们对排序去粗时细化此排序)。为此，我们线性减小图形大小，从而得到更大的时间节省。

总之，我们的发明提供对类属数据的排序技术，它包含下列中的一个或多个：(1)解决排序问题的有效的频谱算法；(2)处理多重类属属性的新技术；以及(3)使算法扩大到很大数据的通用层次解决方案。

我们应该指出，本发明的另一个吸引人的特点是：由于数值分析发现本征矢量以求生存，所以易于得到大量软件供这一目的使用，例如来自IBM公司的ESSL软件库。

详细描述的下一部分提供对本发明实施例的解释。首先，利用可视化系统描述排序问题，然后详细描述实现本发明的算法示例。

图2A描绘一个通用的可视化系统，例如上文引用的以序列号No.09/359,874标识的题为“用于事件管理的对数据进行发掘分析的系统和方法”的美国专利(1999年7月27日提交)中描述的系统，该申请公开的内容在这里被纳入作为参考，它的实施例也称作“EventBrowser(事件浏览器)”。该可视化系统有三个主要构件：数据源210，数据管理模块220和观察器230。该数据源存储要被可视化的数据。数据管理模块提供基本数据查询操作，维护存储器内数据，并提供各观察器当中的对应性。观察器提供使用预先定义的途径对数据可视化的机制，如可视化技术(如散布图)、概括技术等。观察器还负责与终端用户交互作用。

图2B、2C和2D显示三个可视化系统，其中可以以不同方式利用本发明的排序技术。就是说，为了产生不同的好处，可在可视化系统的不同位置实现利用本发明方法的排序算法或引擎，这将在下文中详细解释。

图2B显示一个本发明的排序机制或排序引擎240，它可用作可视化系统的数据预处理阶段的一部分。就是说，在被数据管理模块220和观察器230使用之前，存储在数据源210中的数据受到排序引擎的操作。这一系统的一个好处在于该排序机制对可视化系统是透明的，所以现有的可视化系统无需改变便能使用该排序机制。这一实现很适于其数据得到很好理解且比较稳定的那些应用。就是说，分析数据的过程被固定，所以每次可产生相似的报告并使用相同的排序算法。

在图2C显示的系统中，本发明的排序引擎(算法)240被作为可视化系统数据管理模块220的一部分纳入。这一实现为使用排序算法增加了更大的灵活性，因为能为多个观察器支持多个排序算法，于是排序能在“闲暇中”完成。

在图2D显示的系统中，排序引擎240是作为观察器230的一部分而实现的。这一实现不要对数据管理模块220做任何改变。此外，这一系统使其能够通过简单地创建特殊观察器容易修改排序算法以满足用户(或应用)的特殊需要。

总之，图2B、2C和2D显示三种不同的方式以可视化系统实现本发明的排序机制。应该理解，选择使用哪种系统实现很大程度上取决于应用。

现在我们转到详细描述本发明的排序算法。首先，我们在形式上陈述该问题，并展现排序的基本频谱算法。然后，我们讨论如何处置多重类属属性。最后，我们发展处置大量数据的多级解决方案。

首先我们引入一些符号。令{O₁，O₂，...O_n}代表要排序的几个对象。令S(i，j)代表对象O_i和O_j的相似性。排序问题包含找出{1，...n}的一个排列π，使∑_ij S(i，j)(π(i)-π(j))²达到极小。

显然，这一最优化函数鼓励把相似的对象放在靠近的位置。就是说，如果两个对象相似，即S(i，j)大，则这两个对象应放在靠近的位置，即(π(i)-π(j))²小。我们应该指出，上述公式化是离散最优化问题，而且是一个NP-难题。这意味着不大可能在多项式时间内得到最优化解。这样，本发明通过找出实放置{x₁，...x_n}使在规一化约束∑ix(i)²＝1下∑ijs(i，j)(x(i)-x(j))²达到极小，以此来把这一离散最优化问题转换成连续最优化问题。

这里x_i是一个实数，是对象O_i的放置位置。一旦我们得到最佳放置矢量X＝{x₁，...x_n}，我们便能用相应的x坐标对对象排序。请注意，目标函数可重写为在X^TX＝1的条件下使X^TLX极小化，这里L＝D-S。应该理解，X^T代表最佳放置矢量X的转置，而L代表拉普拉斯矩阵。矩阵D是其元素d_ii＝∑_js(i，j)的n×n对角矩阵，S是n×n相似性矩阵。应该理解，s(i，j)代表相似性矩阵S的第i行、第j列处的元素。已经表明，这一连续放置问题的解是与最小正本征值关联的拉普拉斯矩阵本征矢量，参见例如K.M.Hall的“r维二次放置算法”，管理科学17(1970)，No.3，219-229页。所公开的内容在这里被纳入作为参考。

利用上述背景说明，我们描述根据本发明一个实施例的排序频谱算法示例。该算法概括于图3A中。应该理解，原始对象数据用作该算法的输入。这一原始数据可以是一个数据集，如上文中描述的一个数据值，例如含有在三天内由160个宿主产生的有20个事件类型的超过10000个事件的数据集，这里的宿主名是要被排序或映射的对象。

首先，在步骤310，该离散排序问题被转换为一个连续最优化问题。就是说，步骤310通过计算相似性矩阵S和拉普拉斯矩阵L把该问题公式化为一个连续最优化问题。下面将描述计算相似性矩阵S的方法示例。拉普拉斯矩阵L可根据上文描述的关系L＝D-S计算出来，其中D被定义为n×n对角矩阵，其元素d_ii＝∑_js(i，j)，这样D可从S计算出来。

接下来，步骤320求解该连续最优化问题。这是通过找出L的最小正本征值再得到相应的最优本征矢量X来完成的。应该理解，能以本领域技术人员公知的任何传统方式得到相应的最优本征矢量。然后，步骤330以与最优本征矢量X关联的相应x值对对象排序。就是说，对象的新顺序是{O_i1，O_i2，...O_in}，这里x_i1≤x_i2≤...≤x_in。这样，结果被映射为原始对象的顺序。

图3B显示把上述排序算法应用于图1散布图中可视化的同一数据集所得到的结果。我们的目标仍是把宿主安排在y轴上。x轴是时间。图中坐标(x，y)处的点代表由第y个宿主在时间x产生的一个事件。尽管图1和图3B代表同样的数据集，但每个图使用不同的宿主顺序。图1中的宿主顺序是随机赋予的；而图3B中的宿主顺序是根据图3A中描述的排序算法确定的。显然，图3B提供关于数据的更多信息。例如，图3B中的排序显示宿主分布图案(例如，在散布图顶部云状分组所描绘的那样)和宿主的不同行为，从而提供事件数据的更高质量可视化。

我们现在说明如何根据本发明的一个实施例对多重类属属性排序。这里，本发明创建所有属性值到单一对象集的一对一映射。例如，假定我们有两个属性A和B。A有两个值a₁和a₂。B有两个值b₁和b₂。现在，我们能把a₁映射到o₁，a₂映射o₂，b₁映射到o₃，b₂映射到o₄，这里{o₁，o₂，o₃，o₄}是一个对象集。这样，我们把多重属性值排序问题简化为单一对象集排序问题。在该对象集由图3A上下文中描述的频谱算法排序之后，对象的排序被映射到相应属性值的排序。假定我们在上例中找到的最优排序是{o₃，o₂，o₄，o₁}。于是属性A和B的值被排序为{a₂，a₁}，因为o₂在o₁的前面；类似地，有{b₁，b₂}。图4详细说明这一过程。如图所示，步骤410使每个属性的值映射到对象并为每对对象计算相似性量度。在步骤420，该方法运行排序频谱算法(图3A)并得到排序后的对象集。步骤430把结果映射回到每个属性。

根据本发明，要排序的对象对应于一个或多个类属属性值。为使用前述算法，我们需要定义任何两个类属属性值的相似性量度。前述Ma和Hellerstain的工作讨论了如何基于其时间信息对事件数据测量类属值的相似性。本发明发展了一个基于多重集操作的相似性量度。例如，假定我们的数据有k个属性：A₁，...A_k，它们的域是D₁，...D_k。显然，我们需要定义两类相似性量度：(1)属性内的相似性；(2)属性间的相似性。前者度量来自同一属性的两个类属值之间的相似性；后者度量来自两个不同属性的两个值之间的相似性。为得到属性间的相似性，令

ψ_{x}^{i} = {d &Element; D | d_{i} = x}

为一个数据集，它的第i个属性有值x。属性间相似性S(υ_i，v_j)(这里υ∈D_i和v∈D_j)能由

S ({&upsi;}_{i}, v_{j}) = \frac{| ψ_{u}^{i} I ψ_{v}^{j} |}{\frac{1}{2} (| ψ_{u}^{i} | + | ψ_{v}^{j} |)}

计算出来。类似地，为得到属性内相似性，令

θ_{x}^{i} = {(d_{i}) j &NotEqual; i | d_{i} = x, d &Element; D} .

属性内相似性S(υ_i，v_j)可由

S ({&upsi;}_{i}, v_{j}) = \frac{| θ_{u} I θ_{v} |}{\frac{1}{2} (| θ_{u}^{i} | + | θ_{v}^{j} |)}

定义，这里υ_i和v_j是来自第i个属性的两个值。

我们现在讨论如何根据本发明的多级框架示例处置大量数据。为说明我们的排序用多级频谱算法，我们把数据模拟为稀疏异质图，以其顶点为要排序的类属值。边缘的权重代表相连顶点的相似性(如果相连顶点属于同一属性域，则为属性内相似性；否则为属性间相似性)。本发明以多级策略对大的原始图排序。就是说，我们以一系列较小的、较粗略的图形近似该原始图形。在较粗略的图形中，有相似局部结构的一组顶点被合并成一个顶点。然后，最粗略的图形被排序，并且通过内插将该顺序经由这一系列中间图形传回原始图，其传回方式是保留粗略图的排序。这样做要求把本发明的基本算法扩展到顶点加权图，其中的一个顶点可代表原始图中的一组顶点。

例如，假定一个较粗略图的第i个顶点代表原始图的w_i个顶点。把该算法扩展到多层顶点图的自然方式是把w_i′纳入该最优化问题的约束条件。修改后的最优化问题能被表述如下：在约束条件WX^TWX＝1之下使X^TLX极小，这里W是具有元素w_i ²的对角矩阵，w_i是由G中的多重顶点i代表的原始图中顶点个数。与原始的公式化相比较，上述最优化把约束条件改为

可以显示出，上述最优化问题的最优解是L′的第一非零本征矢量，这里L′＝W^-1L。

把原始的上文引用的K.M.Hall算法应用于实际数据集时产生的一个问题是原始的K.M.Hall算法产生的排序遭受强烈的点丛集的影响，特别是在原点周围。这是因为在此结构中的本征矢量通常由于规一化约束的限制只有少数大的分量。这迫使坐标的其余值接近于零，这而导致可视空间的高群集区。结果，选择对应于最小非零本征值的本征矢量不是必定会产生好的可视化。这样，本发明提供一个修正，它通过在选择本征矢量时加上两个结构性约束来避免这种退化。第一个约束要求选定的本征矢量的所有元素大于一个由用户定义的阈值，例如0.05，它是数据集大小的函数。第二个约束要求选定的本征矢量的任何两个元素之差大于一个由用户定义的阈值，例如0.1。这两个约束基本上坚持了放置矢量要有信息理论意义，即必须有高的最小熵(min-entropy)。

图5显示根据本发明一个实施例的多级排序算法的流程图。如图所示，该算法包含四个步骤。

在步骤510，该算法构成要被排序的类属值的异质图G_o。该异质图的节点代表类属值。边代表两个连接节点的相似性量度。

在步骤520，该算法通过把G_i的一组顶点聚结到较粗略的图G_i+1中一个新的节点(称作多重顶点)，它的权重是它代表的原始节点数，从而创建图G₀，G₁，...G_k(从原始图G₀开始)的一个层次结构。然后G_i+1作为使图粗化的另一迭代步骤的输入图形。当得到足够小的图形时，例如当达到100个节点或更少节点的图形大小时，这一粗化阶段便完成了。

在步骤530，该算法使用用于上述多层顶点的频谱算法(图3A)对该层次结构(上文中用G_k表示)中的最小(最粗略)图形进行排序。

在步骤540，该算法通过一系列中间图形把G_k的排序传回或内插回到G₀，从而在算法进行过程中对排序细化。

有若干理由说明为何上述多级算法工作得好。首先，粗化阶段隐藏了图形的所有不重要的、冗余的细节，只保留关于数据的最重要的连接性信息。这允许找出好的初始顺序，它能作为传回原始图的结果被迭代式地细化。第二个理由是这一多级途径显著地加速了计算，因为该顺序是在比原始图形小得多的图形上计算的。这使该算法可按比例地应用于很大的数据量。事实上，对最粗图形排序所需时间变为只是一个小的考虑，这样，实现这一途径的系统有能力使用甚至很昂贵的(但很有效的)排序算法。最后，多级细化(在最后的去粗阶段)改善了初始排序的质量。本质上，本发明的频谱算法采取对图形的全局观察并快速找出一个好的初始排序，然后，在它被投射回原始图形时，这一排序被局部细化。这样，这一途径通过使用不同粒度级别的图形组合了全局和局部技术二者的力量。

在下面的描述中，我们进一步描述上述算法的步骤520和540如何操作。对每一步有多种选择。我们只讨论它们中的一些。实际选择能由应用最好地确定。如果有了这里给出的技术，本领域技术人员将会理解其他实现。

在粗化阶段，具有高相似相邻结构的顶点子集被迭代地合并到下一级较粗图形的多重顶点中。这一粗化方案是由这样的事实启发出来的：实际数据集是高度超定的，其中多个项点可能有几乎相同的连接性。根据经验，在每一轮粗化过程中，顶点个数以因子1/3减少。这一比例清楚表明初始时在数据中有多么大的冗余。两顶点相邻性结构的相似性可作为它们的规一化相邻性矢量之间(即该图相似性矩阵相应行之间)的欧几里德距离来度量。在每次粗化过程中，其成对的相似性大于某一阈值的一组顶点被组合到一个多重顶点中。多重顶点的权重被设定为它包含的顶点的权重之和。原始图形各项点的权重被设为1。连接两个多重顶点A和B的边缘的权重被设为全部从A中某一项点到B中某一顶点的边缘的权重之和(请注意，所造成的较粗图形的权重已被重新规一化)。这保证较粗图形的连接性是从较细图形的连接性继承下来的。结果，最粗的图形保留着原始图形的许多重要的连接性特性。寻找要合并在一起的顶点子集的一种朴素的途径是计算该序列中每个图形的相似性矩阵。显然，这一途径在计算上是昂贵的(只计算初始图形的相似性矩阵要占用O(n²)时间)。本发明使用随机化算法计算子集，该算法近似一个图形的被高度连接的分量。在匹配理论、计算机影像等领域已知若干个这种随机化算法。在一个实现示例中，我们使用在图形分区中由Karypis等实现的重小集团匹配(heavy cliquematching)算法的变体，见G.Karypis等的“多级超图形分区：在VLSI域中的应用”，技术报告，明尼苏达大学，计算机科学系，1997，短文见第34届设计自动化大会，其公开内容在这里被纳入作为参考。

一旦由上述频谱算法构成最粗图形中节点的顺序，该顺序经由该中间图形序列传回原始图形。通常，下一级较细图形的顺序要尊重较粗图形的顺序。由于较粗图形的顶点恰是下一级较细图形的多重顶点，向回投射一级只是简化为对每个多重顶点内的顶点排序。如果一个多重顶点是大的，一个频谱算法能用于对这一多重顶点的相应节点排序。然而，这一排序得在该图形其余部分的前后关系中构建。我们发现，把频谱算法的递归应用与局部细化试探法组合起来可达到最好的结果。一个示例途径是使用众所周知的Rayleigh商数迭代。

图6通过一个示例显示多级算法。在此例中，我们需对7个对象(A、B、C、D、E、F、G)排序。原始图绘Go在图中左手侧。一个节点代表要排序的一个对象。边缘代表两上相连节点之间的相似性。如前文讨论的那样，有相似局部结构的节点在粗图(例如图形G₁)中被合并成一个多重顶点。例如，{A，B，C}和{D，E，F}分别被合并成多重顶点H和G。然后，我们通过频谱算法与局部试探法对最粗图排序。在这种情况下，我们得到顺序{G，J，H}。最后，我们需要通过扩展每个多重顶点将这一结果传播回去。对于我们的例子，我们需要进一步对与H关联的{A，B，C}和与G关联的{D，E，F}排序。这可通过应用本发明的频谱算法来完成。最后结果是{G，F，D，E，A，B，C}。

应该理解，对进行上述发明的排序过程中的粗化和细化所使用的方法进行实际选择取决于应用。这样，给出这里的技术，本领域技术人员将实现各种依赖于应用的具体实现。

现在参考图7，图中显示用于实现本发明的一个或多个排序算法的计算机系统示例。该计算机系统处理器702在操作上与存储器704及I/O设备706耦合。应该理解，这里使用的术语“处理器”是要包括任何处理设备，如包括CPU(中央处理单元)和/或其他处理电路的处理设备。这里使用的术语“存储器”包括与处理器或CPU相关的存储器，例如：RAM、ROM、固定存储器设备(例如硬盘)、可拆卸存储器设备(例如软盘)、闪速存储器等。此外，这里使用的术语“输入/输出设备”或“I/O设备”是要包括例如一个或多个用于向处理单元输入数据的输入设备(如键盘、鼠标器等)和/或一个或多个与该处理单元和/或终端用户图形用户接口关联的输出设备(如CRT显示器、打印机等)用于展现结果。例如，显示器可以是终端用户观察根据本发明的排序算法产生的可视化结果的地方。还应该理解，“处理器”可指不只一个处理设备，而且与一个处理设备关联的各种部件可由其他处理设备共享。

相应地，包括用于实现这里所述本发明方法的指令或代码的软件构件(例如一个或多个程序)可存储在相关联的一个或多个存储设备中(例如ROM，固定或可卸存储器)作为一个制造部件，当准备利用时被部分地或全部地加载(例如加载到ROM中)并由处理器执行。这样，应该理解，图7中所示硬件实现可以优选地用于实现排序列擎240(这里可利用一个或多个本发明的排序算法)以及图2A至2D中显示的可视化系统的构件。

虽然这里已参考附图描述了本发明的实施示例，但应该理解，本发明不限于那些精确的实施例，本领域技术人员可实现对它们的各种其他改变和修改而不脱离本发明的范围和精神。

Claims

1.一种在数据处理系统中对与数据集关联的一个或多个属性的类属值进行排序的基于计算机的方法，该方法包含如下步骤：

得到与该数据集关联的一个或多个属性的类属值；

使与该数据集关联的一个或多个属性的类属值的排序任务成为连续最优化排序问题；

对此连续最优化排序问题计算出至少一个连续排序解；以及

使计算出的连续排序解的至少一部分可用于一个数据可视化系统。

2.权利要求1的方法，进一步包含把计算出的连续排序解从连续空间映射到离散空间的步骤。

3.权利要求1的方法，其中使对类属值排序的任务成为连续最优化排序问题的步骤包含基于所述一个或多个属性的类属值计算一个相似性矩阵的步骤。

4.权利要求3的方法，其中相似性矩阵是基于一个或多个多重集操作。

5.权利要求4的方法，其中一个或多个多重集操作包含计算两类相似性量度，第一类是在来自同一属性的两个类属值之间计算出的相似性量度，第二类是在来自不同属性的两个类属值之间计算出的相似性度量。

6.权利要求3的方法，其中使对类属值排序的任务成为连续最优化排序问题的步骤进一步包含由此相似性矩阵计算拉普拉斯矩阵的步骤。

7.权利要求6的方法，其中对连续最优化排序问题计算出至少一个连续排序解的步骤包含找出该拉普拉斯矩阵最小正本征值的步骤。

8.权利要求7的方法，其中对连续最优化排序问题计算出至少一个连续排序解的步骤进一步包含从该拉普拉斯矩阵的最小正本征值得到相应的最优本征矢量的步骤。

9.权利要求8的方法，进一步包含如下步骤：在使所述至少一个连续排序解可用于数据可视化系统之前，根据与最优本征矢量关联的相应值对类属值排序。

10.权利要求1的方法，其中所述类属值涉及多个属性，进一步包含如下步骤：在使类属值的排序任务成为连续最优化排序问题之前，把涉及多个属性的类属值映射到一个对象集，从而使得针对该对象集进行“成为”和“计算”步骤，其中在所述“成为”步骤中，使该对象集的排序任务成为连续最优化排序问题。

11.权利要求1的方法，其中“得到”、“成为”和“计算”步骤是与数据可视化系统的预处理操作关联在一起实现的。

12.权利要求1的方法，其中在数据可视化系统的数据管理模块中实现“得到”、“成为”和“计算”步骤。

13.权利要求1的方法，其中在数据可视化系统的数据观察器模块中实现“得到”、“成为”和“计算”步骤。

14.一种在数据处理系统中对与数据集关联的一个或多个属性的类属值进行排序的基于计算机的方法，该方法包含如下步骤：

得到与该数据集关联的一个或多个属性的类属值；

将类属值模拟为一个原始图形结构，其各顶点为要排序的类属值，边缘的权重代表被连接的顶点的相似性；

由一个或多个较粗略的图形结构的层次序列近似该原始图形结构，其中具有相似局部结构的顶点被合并成较粗略的图形结构中的一个顶点；

按照连续最优化排序操作对最粗略的图形结构排序；

将最粗略图形结构的排序传播回到原始图形结构；以及

使被传播的与原始图形结构关联的排序中的至少一部分可被用于一个数据可视化系统。

15.用于对与数据集关联的一个或多个属性的类属值进行排序的数据处理装置，该装置包含：

至少一个处理器，其操作为：(i)得到与该数据集关联的一个或多个属性的类属值；(ii)使与该数据关联的一个或多个属性的类属值的排序任务成为连续最优化排序问题；(iii)对此连续最优化排序问题计算出至少一个连续排序解；以及(iv)使计算出的连续排序解的至少一部分可用于一个数据可视化系统。

16.权利要求15的装置，其中该处理器进一步操作为把计算出的连续排序解从连续空间映射到离散空间。

17.权利要求15的装置，其中使对类属值排序的任务成为连续最优化排序问题包含基于一个或多个属性的类属值计算一个相似性矩阵。

18.权利要求17的装置，其中相似性矩阵是基于一个或多个多重集操作。

19.权利要求18的装置，其中一个或多个多重集操作包含计算两类相似性量度，第一类是在来自同一属性的两个类属值之间计算出的相似性量度，第二类是在来自不同属性的两个类属值之间计算出的相似性量度。

20.权利要求17的装置，其中使对类属值排序的任务成为连续最优化排序问题进一步包含由此相似性矩阵计算拉普拉斯矩阵。

21.权利要求20的装置，其中对连续最优化排序问题计算出至少一个连续排序解包含找出该拉普拉斯矩阵的最小正本征值。

22.权利要求21的装置，其中对连续最优化排序问题计算出至少一个连续排序解进一步包含从该拉普拉斯矩阵的最小正本征值得到相应的最优本征矢量。

23.权利要求22的装置，其中该处理器进一步操作，以在使所述至少一个连续排序解可用于数据可视化系统之前，根据与最优本征矢量关联的相应值对所述类属值排序。

24.权利要求15的装置，其中所述类属值涉及多个属性，其中该处理器进一步操作，以在使类属值的排序任务成为连续最优化排序问题之前，把涉及多个属性的类属值映射到一个对象集，从而使得针对该对象集进行“成为”和“计算”步骤，其中在所述“成为”步骤中，使该对象集的排序任务成为连续最优化排序问题。

25.权利要求15的装置，其中该处理器与数据可视化系统的预处理操作相关联地进行“得到”、“成为”和“计算”步骤。

26.权利要求15的装置，其中该处理器所进行的“得到”、“成为”和“计算”功能是在数据可视化系统的数据管理模块中实现的。

27.权利要求15的装置，其中该处理器所进行的“得到”、“成为”和“计算”功能是在数据可视化系统的数据观察器模块中实现的。

28.用于对与数据集关联的一个或多个属性的类属值排序的数据处理装置，该装置包含：

至少一个处理器，其操作为：(i)得到与该数据集关联的一个或多个属性的类属值；(ii)将类属值模拟为一个原始图形结构，其各顶点为要排序的类属值，边缘的权重代表被连接顶点的相似性；(iii)由一个或多个较粗略的图形结构的层次序列近似该原始图形结构，其中具有相似局部结构的顶点被合并成较粗略的图形结构中的一个顶点；(iv)按照连续最优化排序操作对最粗略的图形结构排序；(v)将最粗略图形结构的排序传播回到原始图形结构；以及(vi)使被传播的与原始图形结构关联的排序中的至少一部分可被用于一个数据可视化系统。