CN1249620C - 分类试探方法 - Google Patents

分类试探方法 Download PDF

Info

Publication number
CN1249620C
CN1249620C CNB018137202A CN01813720A CN1249620C CN 1249620 C CN1249620 C CN 1249620C CN B018137202 A CNB018137202 A CN B018137202A CN 01813720 A CN01813720 A CN 01813720A CN 1249620 C CN1249620 C CN 1249620C
Authority
CN
China
Prior art keywords
data
aggregate
vector
group
chromosome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB018137202A
Other languages
English (en)
Other versions
CN1446344A (zh
Inventor
本·希特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ahn Gook Pharmaceutical Co Ltd
Original Assignee
Correlogic Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Correlogic Systems Inc filed Critical Correlogic Systems Inc
Publication of CN1446344A publication Critical patent/CN1446344A/zh
Application granted granted Critical
Publication of CN1249620C publication Critical patent/CN1249620C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/90Fuzzy logic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/902Application using ai with detail of the ai system
    • Y10S706/932Mathematics, science, or engineering

Abstract

本发明涉及分类对象的试探(heuristic)算法。第一学习算法包括用于提取与每个对象相关联的数据流的遗传算法,以及用于分类对象和衡量遗传算法的染色体的适应性的模式识别算法。学习算法应用于训练数据组。学习算法生成用于分类或归类未知对象的分类算法。本发明可用在分类文本和医学样本,预测基于价格随其它因素而改变的金融市场的行为,和监视复杂处理设施的状态,以便检测即将发生的故障的领域中。

Description

分类试探方法
本发明要求2000年6月19日提出的专利申请第60/212,404号的优先权的、基于35U.S.C.sec.111(e)(1)的利益,特此引用,以供参考。
技术领域
本发明涉及一种分析和分类对象的方法,这些对象可以被表示成像文档那样的字符串或像股票市场价格的变化、表示通过对基因片(gene chip)进行mRNA(信使核糖核酸)杂化检测到的组织的细胞中的不同基因的级别或通过质谱分析检测到的样本中不同蛋白质的数量那样的数字数据的串或表。更具体地说,本发明涉及一种从由要分类的一组对象的预分类样本组成的学习数据组中生成和核实分类算法的通用方法。在文档的情况中,通过阅读,在市场数据的情况中,通过历史经验,或在生物数据的情况,通过病理检查,已经对预分类样本进行了分类。然后,分类算法可以用于分类以前未分类的样本。这样的算法通常被称为数据开采(mining)技术。最常用的数据开采技术,譬如,多元线性回归(multivariate linear regression)和非线性前馈神经网络(nonlinear feed-forward neural networks)的固有缺陷在于,一旦被开发出来,它们是静态的,不能识别数据流中的新事件。最终结果是,那些新事件往往被分类错了。本发明涉及一种通过可以识别数据流中的新事件的自适应机制克服这个缺陷的解决方案。
背景技术
本发明使用了遗传算法和自组织自适应模式识别算法。遗传算法最初是由John.H.Holland教授加以描述的(J.H.Holland,Adaptation in Naturaland Artificial Systems,MIT Press1992,see also U.S.patent No.4,697,242and No.4,881,178)。颁发给Koza的美国专利第5,136,686号描述了把遗传算法用于模式识别(参见第87栏)。
自组织模式识别已经由Kohonen作了描述(T.Kohonen,Self Organizingand Associative Memory,8 Series in Information Sciences,SpringerVerlag,1984;Kohonen,T,Self-organizing Maps,Springer Verlag,Heidelberg 1997)。把自组织映射应用在自适应模式识别中由麻省理工学院(Massachusetts Institute of Technology)的Richard Lippman先生作了描述。
发明内容
本发明包括两种相关试探算法,即,用于实现分类方法和学习方法的分类算法和学习算法。分类算法的参数通过把学习算法应用在训练或学习数据组中来确定。训练数据组是每个项目已经被分类的数据组。尽管描述如下的方法没有涉及数字计算机,但是,本领域的普通技术人员应该明白,本发明是通过像计算机软件那样的工具实现的。任何通用计算机都可以使用;基于本方法的计算不是过分地大。虽然含有并行处理设施的计算机可以用于本发明,但是,这样的处理能力并不是实现使用本发明的学习算法所必需的。分类算法只需要最低程度的计算量。
本发明的分类方法根据与对象相联系的数据流分类对象。本发明中每个对象的特征在于,大量的,至少约100个数据点,可以是10,000或甚至更多个数据点的数据流。数据流以使同一类型对象的不同样本的数据流中的各个数据相互关联的方式生成。
对象的样本包括文本、在预测金融市场的方向或复杂处理设施的行为的情况下的时间点和用于医疗诊断的生物样本。这些对象的相关数据流是文本中三字母组的分布、公开交易的股票或商品的价格的逐日变化、压力和温度的瞬时读数和诸如炼油厂之类的处理设施中的流动读数和在样本中找到的某个蛋白质分组的质谱或对一列不同试验多核苷酸进行mRNA杂分的强度。
因此,一般说来,无论什么时候想要把对象分类到例如通常是两个或三个类目的几个类目之一中,都可以应用本发明,并且,这些对象与大量数据例如通常数千个数据点相联系。术语“对象(Object)”在这里用大写字母开头,以表示对象在这里具有特殊含义,它的特殊含义在于,它用来统指有形对象例如特定样本、无形对象例如作品或文本和完全抽象的对象例如在复杂处理设施中出现不幸事件之前的时刻,或外币价格的变动。
分类方法的第一步是计算对象矢量,即,从与要分类的对象相联系的数据流中取出的小量数据点或标量(在4到100之间,更通常地,在5到30之间)的有序组。把数据流转换成对象矢量称为“提取(abstraction)”。最简单的提取处理是选择数据流的若干个点。但是,原则上,可以对数据流的任何函数进行提取处理。在如上所述的实施例中,通过从数据流中选择少数几个特定强度进行提取。
在一个实施例中,分类方法的第二步是,如果存在的话,确定矢量处在哪个数据簇中。数据簇是作为矢量空间中固定规模的不重叠“超球面”的多维等效物的数据结构。每个数据簇的位置和相关分类或“状态”通过学习算法从训练数据组中确定。每个数据簇的范围或规模和矢量空间的维数被设置成在运行学习算法操作之前,由操作人员完成的常规实验。如果矢量位于已知的数据簇之内,则对对象进行与那个簇相关的分类。在最简单实施例中,矢量空间的维数等于在提取处理中选择的数据点的个数。但是,可替换地,对象矢量的每个标题可以利用数据流的多个数据点来计算。如果对象矢量位于任何已知簇之外,可以对异型物或异型样本进行分类。
在一个可替代实施例中,放弃把每个数据簇定义成超球面,和第二步通过计算数据参数ρ=∑min(|Ii|,|Wi|)/∑|Wi|)来完成,其中,Ii是对象矢量的标量,和Wi是预先形成分类矢量的质心的标量。匹配参数ρ也被称为归一化“模糊(Fuzzy)”AND(“与”)。然后,通过这个尺度,根据与之最相似的预先形成矢量的分类,分类对象。当对象矢量和预先形成矢量相同时,匹配参数是1,在所有其它情况下,匹配参数都小于1。
学习算法确定利用已知数学技术和两个预置参数的组合,确定提取处理的细节和数据簇的特性(identity)两者。用户预置矢量空间的维数和数据簇的规模,或者,可替换地,“模糊AND”匹配参数ρ的最小可接受量级。正如这里所使用的那样,术语“数据簇”指的是利用欧几里得尺度(Euclideanmetric)的超球面和利用“模糊AND”尺度的预先形成分类矢量两者。
通常,数据簇所处的矢量空间是归一化矢量空间,使得在每一维中强度的差异是不变的。通过这样的表示方式,利用欧几里得尺度的数据簇的规模可以表示为位于簇内的矢量之间的最小相似度(百分比)。
在一个实施例中,学习算法可以通过把两种不同类型的可公开买到的普通软件组合在一起来实现,这两种软件是由别人开发的,并且是本领域的普通技术人员所熟知的,它们是:(1)遗传算法(J.H.Holland,Adaptation inNatural and Artificial Systems,MIT Press 1992),用于处理一组逻辑染色体(logical chromosome)1,以识别控制数据流的提取的最佳逻辑染色体;和(2)可从Group One Software,Greenbelt,MD购买到的自适应自组织模式识别系统(参见T.Kohonen,Self Organizing and Associative Memory,8 Series in Information Sciences,Springer Verlag,1984;Kohonen,T,Self-organizing Maps,Springer Verlag,Heidelberg 1997),用于根据通过逻辑染色体生成的任何一组矢量,识别一组数据簇。具体地说,自适应模式识别软件使位于同质(homogeneous)数据簇,即,包含只含有一种分类类型的学习数据组的矢量的数据簇中的矢量个数达到最大。
为了使用遗传算法,必须把“适应性(fitness)”指定给每个逻辑染色体。每个逻辑染色体的适应性是通过位于与那个染色体有关的一组最佳数据簇的同质簇中的、在训练数据组中的矢量的个数来确定的。因此,本发明的学习算法把识别最佳逻辑染色体的遗传算法、生成一组最佳数据簇的自适应模式识别算法和基于位于同质簇中的样本矢量的个数的适应性计算组合在一起。在它的最概括实施例中,本发明的学习算法包括遗传算法、模式识别算法和衡量模式识别算法的输出的同质性(homogeneity),以控制遗传算法的适应性函数的使用的组合。
为了避免混乱,应该注意到,数据簇的个数比类目的个数要大得多。下面举例的分类算法把对象分类成两个类目例如把文档分类成感兴趣的那些文档和不感兴趣的那些文档,或者,把临床样本分类成良性的或恶性的。但是,这些分类算法利用了许多个数据簇来进行分类。当对象是时间点时,分类算法可以使用多于两个的类目。例如,当本发明用作外币汇率的预测器时,与上升、下跌和前景难测相对应的三部分(tripartite)方案是合适的。此外,可以预计,这样的三部分分类算法存在个数比三大得多的数据簇。
具体实施方式
为了实际应用本发明,常规专业人员必须通过应用学习算法,开发分类
1把术语“逻辑染色体”与遗传学习算法联系在一起使用是因为,算法的逻辑运算与复制、选择、重组和变异类似。当然,在DNA等中还没有逻辑染色体的生物实施例。本发明的遗传学习算法纯粹是一种计算手段,不应与用于基于生物的信息处理的方案相混淆。算法。对于任何试探法,需要一些常规实验。为了应用学习算法,常规专业人员利用训练数据组,并且必须通过实验优化两个参数,维数和数据簇规模。
尽管对矢量的维数没有绝对的或固有的限制,但是,在每次实施时,学习算法本身固有地限制维数。如果维数太低或簇的规模大大,学习算法就不能生成正确分类具有可接受水平的同质性的所有样本的任何逻辑染色体。相反,维数可能太大。在这种情况下,学习算法在学习处理过程的早期生成可能适应性最大的许多逻辑染色体。因此,存在着结果却中途夭折的选择。类似地,当数据簇的规模太小时,将发现簇的个数与训练数据组中样本的个数接近,此外,常规专业人员将发现,大量逻辑染色体将形成一组完全同质的数据簇。
尽管上文提供了为分类算法选择维数和数据簇规模的一般性指导,但是,应该明白,分类算法的值的真假检验是其正确分类与训练数据组中的数据流无关的数据流的能力。因此,常规专业人员应该明白,必须保留学习数据组的一部分,以便核实分类算法随对于指定目的可接受的出错率而变化的情况。下面更详细地描述本发明的具体部分。
A.数据流和对象的类型
对象的分类和相关数据流的生成取决于要解决的问题的性质。这些原则通过如下的实例加以说明。
文档:在一个实施例中,本发明提供了用于计算机化分类文档的方法。例如,你可能想要从由多得难以一个一个单独查看的大量文档组成的数据库中提取感兴趣的文档。对于这些情况,本发明提供了一种计算机化算法,以识别最有可能包含感兴趣文档的一个数据库分组。每个文档是一个对象,每个文档的数据流由直方图组成,直方图表示在去掉空格和标点符号之后,在文档中找到的17576(263)种三字母组合(三字母组(trigrams))每一个出现的频率。可替换地,在从文档中进一步去掉元音之后,可以制作辅音的9261种三字母组的直方图。根据用户的需要,训练数据组由已经被分类成“感兴趣”或“不感兴趣”的适当文档的样本组成。
金融市场:不言而喻,金融市场会对外部事件作出反应,并且,以协调的方式相互联系;例如,外汇汇率受投资机会的吸引力的影响。但是,对单独事件作出反应的方向和程度却难以预测。在一个实施例中,本发明提供了在一个基于价格随其它因素而变动的市场中价格的计算机化预测算法。每个时间点是一个对象例如以小时计的间隔,一个小时的数据流由相关国家的主要股票市场例如对英镑和美元的汇率感兴趣的纽约和伦敦股票交易所中公开交易证券的价格变化的直方图组成。训练数据组由已经被分类成在美元-英镑汇率的上升或下降之前的价格变化的历史记录组成。
处理设施:在复杂的处理设施,譬如,炼油厂、油田或石化厂中,不断监视和记录许多阀门和其它控制器的压力、温度、流动和状态(统称为“状态值”)。需要在不幸事件变成灾难性故障之前,检测出即将来临的不幸事件。本发明提供了把每个时间点分类成高风险时间点或一般风险时间点的计算机化算法。数据流由每个时间点的状态值组成。训练数据组由分类成在不幸事件之前或在一般操作之前的状态值的历史记录组成。
医疗诊断:本发明可以用在为医疗诊断分析组织样本中例如用于分析血清或血浆。数据流可以是得出2,000或更多个可以被量化成至少千分之一(三位有效数字)的测量结果的组织样本的任何可再现物理分析。蛋白质的飞行时间质谱尤其适合于本发明的实际应用。更具体地说,就是基体促进型激光器退吸电离飞行时间(matrix assisted laser desorption ionization timeof flight,MALDI-TOF)和表面增强型激光器退吸电离飞行时间(surfaceenhanced laser desorption ionization time of flight,SELDI-TOF)谱测量。有关内容请参阅WO00/49410。
数据流还可以包括不是固有地通过诸如分子重量之类的单个有序参数组织的,而是具有任意次序的测量结果。因此,当组织样本是活体解剖标本时,同时衡量2,000或更多个基因的表示级的DNA微阵列数据可以用作数据流,对各个基因的次序是数据流的认识是任意的。
对于早期诊断很重要,但是由于症状不明而造成技术上的困难,和由于病理组织的代谢活动,可以预计疾病在血清中产生可检测出来的变异的特定疾病,本发明特别有用。恶性肿瘤(癌症)的早期诊断是本发明应用的基本焦点。工作样本显示了前列腺癌的诊断,还为卵巢症的诊断进行了相似测试。
应该注意到,利用本发明的方法,可以对来自一个患者样本的单个数据流进行分析,供多种诊断使用。由于专用于每种诊断的步骤仅仅由计算机来完成,因此,这种多种诊断的附加成本是微不足道的。
B.提取处理和逻辑染色体
在本发明的分类处理中第一步骤是把数据流转换成特征矢量或从数据流中提取特征矢量。在提取之前,通过把总峰值指定成独立值1和把所有其它点变成相应分数值,可以方便地归一化数据。数据流的最简单提取包括选择少数几个数据点。本领域的普通技术人员应该认识到,可以构造出多个点的更复杂函数,譬如,在某个区间上的平均值函数或在相对于所选原始数据点预定距离的数据点之间的更复杂和或差函数。也可以使用数据流的强度值的函数,并且,可以预测,这样的函数起与在工作样本中所示的简单提取等效的作用。
本领域的普通技术人员还应该懂得,常规实验可以确定在任意点上求出瞬时斜率的提取在本发明中是否也有效。因此,所示工作样本这种可通过常规方法获得的变型在本发明的范围之内。
本发明的特征是把遗传算法用于确定用于计算特征矢量的数据点。为了与现有技术的名称保持一致,要选择的特定点的列表被称为逻辑染色体。逻辑染色体包含与特征矢量的维数一样多的“基因”。只要假设不能复制染色体的基因,任何适当个数据点的组都可以是逻辑染色体。基因的次序对本发明来说并不重要。
本领域的普通技术人员应该懂得,遗传算法可以应用在两个条件得到满足的时候。对于这个问题的具体解决方案必须能够通过一组或一串固定长度离散元素来表示,这些单元可以是数字或字符,和可以重组这些串,进一步形成解决方案。你还必须能够计数每种解决方案的优缺点的数值,即它的适应性。在这些情况下,遗传算法的细节与寻求解决的问题无关。因此,对于本发明,可以应用遗传算法软件。可从阿贡国家实验室(Argonne NationalLaboratory)购买到的PGAPack程序库中的算法是适用的。下面讨论具体逻辑染色体的适应性的计算。
第一个示范性实例涉及到100个文档的文集,把这100文档随机分成46个文档的训练组和54个文档的测试组。该文档包括国会(State of the Union)演说、书籍《战争艺术》(The Art of War)的选段和来自《金融时报》(theFinancial Time)的文章。对每个文档计算三字母组的分布。选择25维的矢量空间和在每维中是那个维中的值域的0.35倍数据簇规模。遗传算法用大约1,500个随机选择的逻辑染色体初始化。随着算法进行下去,复制出更合适的逻辑染色体,终止掉不那么合适的逻辑染色体。在染色体与通过随机取代染色体的元素发生的变异之间存在重组。最初随机选择的逻辑染色体的集合不是本发明的基本特征。对数据流的所有组进行某种预先筛分,以便识别出那些具有最高可变性的的数据点也许是有用的,尽管这样的技术也有可能引入不希望有的初始偏差。本领域的普通技术人员应该懂得,遗传算法的初始染色体组、变异率和其它边界条件对于它的函数来说不是关键性的。
C.模式识别处理和适应性分数生成
计算通过遗传算法生成的逻辑染色体每一个的适应性分数(score)。适应性分数的计算需要为测试的每一个逻辑染色体生成一组最佳数据簇。数据簇只不过是训练数据组的对象矢量所在的矢量空间中的体积。生成一组最佳数据簇的方法对于本发明来说不是关键性的,下面将对此加以研究。但是,无论什么方法用于生成数据簇映像,该映像都受如下规则约束:每个数据簇都应该位于处在数据簇内的数据点的质心上,两个数据簇不可以重叠,和在生成映像之前,归一化矢量空间中每个簇的维数是固定的。
数据簇的规模由用户在训练期间设置。把规模设置得太大会导致难以找到可以成功分类整个训练组的任何染色体,相反,把规模设置得小一点会导致簇的个数接近训练组中数据点的个数的一组最佳数据簇。更重要的是,数据簇的规模被设置得太小会导致如下所述的“过分适应(overfiting)”。
用于定义数据簇的规模的方法是本发明的一部分。簇规模可以通过数据簇的任何两个成员之间的欧几里得距离(平方和的根)的等效物的最大值来定义。当数据流通过SELDI—TOF质谱测量数据生成时,与90%相似性的要求相对应的数据簇规模适合于本发明。对于文本的分类,发现稍微大一点的数据簇更有用。从数学上,90%相似性通过要求簇的任何两个成员之间的距离小于归一化矢量空间中两个点之间的最大距离的0.1来定义。对于这样的计算,归一化矢量空间,以便训练数据组内矢量的每个标量的范围在(1.0和1.0之间。然后,矢量空间中任何两个矢量之间如此归一化的、最大可能距离是
Figure C0181372000111
,其中,N是维数。然后,每个簇的欧几里得距离是 0.1 × N
矢量空间的具体归一化不是本发明的关键性特征。前述方法是为了易于计算而选择的。可替换的归一化可以通过不是把每一维定标成一定范围,而是使每一维具有相等的变异性来实现。可以使用诸如矢积尺度之类的非欧几里得尺度。
本领域的普通技术人员还应该认识到,数据流内值的分布是对数正态分布,而不是一般分布,那么,可以把数据流转换成对数形式。
一旦已经生成逻辑染色体的一组最佳数据簇,就可以计算那个染色体的适应性分数。对于本发明,染色体的适应性分数大体上对应于位于同质的簇,即,包含来自具有单一分类的样本的特征矢量的簇中的训练数据组的矢量数。更明确地说,适应性分数通过把同质性分数指定给每个簇来计算,同质性分数从对于同质簇为0.0变化到对于包含相等个数的恶性和良性样本矢量的簇为0.5。染色体的适应性分数是数据簇的平均适应性分数。因此,0.0的适应性分数是最合适的。存在有助于生成更多数据簇的逻辑染色体的偏差,这时因为,当在指定数据的过程中,两个逻辑染色体存在相同个数的错误时,生成更多个数的簇的逻辑染色体将具有更低的平均同质性分数,因此,具有更好的适应性分数。
可公开买到的利用自组织映射生成的软件有好几个,其中之一是“LeadCluster Map”,可以通过作为Model 1从Group One Software(Green-belt,MD)获得的通用软件来实现。
本发明的可替换实施例利用非欧几里得尺度来建立数据簇的边界。尺度指的是在矢量空间中测量距离的方法。本发明的可替换尺度可以基于如上面所定义的归一化“模糊AND”。根据“模糊AND”实现自适应模式识别算法的软件可从波士顿大学(Boston University)获得,这个软件名叫Fuzzy ARTMAP。
D.特定实施例的描述和核实
本领域的普通技术人员应该明白,整个训练数据组到同质数据簇的指定本身不是分类算法以可接受水平的精度有效运行的证据。因此,通过学习算法生成的分类算法的值必须通过它分类除了训练数据组之外的其它一组数据的能力来测试。当学习算法生成成功指定训练数据组,但是仅仅很差地指定测试数据组的分类算法时,就认为这个训练数据被学习算法过分适应了。当维数太大和/或数据簇的规模太小时会导致过分适应。
文档簇:文档(文本)是各行各业都感兴趣的。这些行业包括法律、医疗和情报团体。当面对文本性材料的流水作业量的精确性时,已经证明基于布尔(Boolean)的搜索和检索方法是不合适的。并且,布尔搜索不能捕获到概念性信息。
对这个问题的建议方法是设法以服从数值分析的方式提取概念性信息。一种这样的方法是把文档编制成三字母组的集合和记录它们出现的频率。三字母组是任何三个字符的集合,譬如,AFV、KLF、OID等。因此,有263种三字母组。空格和标点称号不包括在内。然后,可以通过把文档分段成从源自那个文档的文本的开头开始的三字母组的特定集合来表示这个文档。从那个文档得出的三字母组集合和它们的频率是特征量。如果在一个集合中的文档具有相似的三字母组集合和频率,那么,它们很可能涉及相同主题。如果只检查和计数三字母组的特定子集,这就特别正确。问题是,三字母组的哪个子集描述了任何概念。基于本发明的学习算法可以回答这个问题。
把来自《金融时报》、《战争艺术》和总统国会演说的100个英文文档汇编成一个文集。把分类随机地划分成训练和测试文集。把0或1的某个值指定给所有文档,其中,0表示令人讨厌的,1表示赏心悦目的。学习算法对整个三字母组集合进行搜索,并且识别将文档分成两类的三字母组集合。最后的模型处在25维空间中,以及判别边界被设置在该空间中允许的最大距离的0.35倍上。分类算法只利用了17,576种可能三字母组中的25种。一旦进行测试,就会获得下表的结果。
 实际分类0  1  总数
 指定分类0  22  2  24
 1  6  24  30
 总数  28  26  54
表A:从垂直方向读出含混矩阵(confusion matrix)实际值,和从水平方向读出根据本发明的算法的结果。
结果表明,算法正确地识别出26个感兴趣文档中的24个,和正确地筛出或舍弃了26个不感兴趣文档中的22个。
生物状态的评估:把上述学习算法用于开展利用55个患者血清样本的SELDI-TOF质谱(MS)对前列腺癌逐步进行分类,在这55个患者血清样本中,30个通过活体解剖被诊断为前列腺癌和前列腺血清抗原(PSA)水平大于4.0ng/ml,和25个正常体PSA水平低于1ng/mI。MA数据是通过选择7个分子量值提取的。
生成把训练数据组中的每个矢量指定给同质数据簇的簇映像。簇映像包含34个簇,其中,17个是良性的,和17个是恶性的。表1显示了映像的每个数据簇的位置和指定给每个簇的训练组的样本数。
分类算法是利用把训练数据组排除在外的231个样本进行测试的。使用了来自经历过各种临床和病理诊断的患者的6组样本。临床和病理描述和算法结果如下:1)24个患者PSA>4ng/ml,和通过活体解剖证明得了癌症,其中,22个被映射到有病数据簇,2个被映射到无病数据簇;2)6个正常,均被映射到健康数据簇;3)39个得了前列腺肥大(BPH)或前列腺炎,和PSA<4ng/ml,其中,7个被映射到有病数据簇,0个被映射到健康数据簇,和32个被映射到无病数据族;4)139个得了BPH或前列腺炎,并且,4ng/ml<PSA<10ng/ml,其中,42个被映射到有病数据簇,2个被映射到健康数据簇,和95个被映射到无病数据族;5)19个得了BPH或前列腺炎,并且,PSA>10ng/ml,其中,9个被映射到有病数据簇,0个被映射到健康数据簇,和10个被映射到无病数据族。第6组数据是从通过活体解剖证明得了恶性肿瘤和PSA>10ng/ml的患者身上取出前列腺切除之前和之后的样本得到的。正如所期望的那样,7个手术前样本的每一个都被指定到有病数据组。但是,在做完手术6个星期之后,PSA水平已经降到1ng/ml以下,那时取出的样本没有一个不可以被指定到任何数据组。
当评估前述测试的结果时,应当回想到,在PSA为2-4ng/ml和通过活体解剖诊断为良性的患者中隐藏着恶性肿瘤的比率为约30%。因此,虽然对癌症没有进行组织诊断,但发现18%和47%之间的患者PSA高,这与正确预测恶性肿瘤的存在是一致的。

Claims (20)

1.一种利用含有多个预分类数据簇的矢量空间分类对象的方法,包括如下步骤:
a.输入描述对象的数据流;
b.提取数据流,以便计算刻划数据流的对象矢量;
c.如果存在的话,识别对象矢量所在的数据族;和
d.把识别的数据族的状态指定给对象,或者,如果没有识别出数据簇,则把异型的状态指定给对象。
2.根据权利要求1所述的方法,其中,提取是通过包括从数据流中选择5到25个之间的数据点的处理完成的。
3.根据权利要求1所述的方法,其中,识别是通过包括计算数据族的质心与对象矢量之间的欧几里得距离的处理完成的。
4.根据权利要求1所述的方法,其中,识别是通过包括计算对象矢量的归一化矢积和表示数据族的质心的处理完成的。
5.根据权利要求1所述的方法,其中,每个数据簇被预分类成具有一个或两个状态条件。
6.根据权利要求1所述的方法,其中,每个数据簇被预分类成具有三个状态条件之一。
7.根据权利要求1所述的方法,其中,数据流由1,000到20,000个之间的数据点组成。
8.根据权利要求1所述的方法,其中,数据流的长度由至少1,000个数据点组成。
9.一种利用一组预分类对象构造分类算法的方法,每个对象与数据流相联系,其中,该算法的特征在于,在维数固定的矢量空间中含有预定范围的多个数据簇,该方法包括如下步骤:
a.提供一组与预分类对象相联系的数据流;
b.选择指定数据流的预定个点的位置的最初一组逻辑染色体;
c.利用每个染色体为该组数据流的每个成员计算对象矢量;
d.通过在预定范围的多个不重叠数据簇的矢量空间中,找出使位于只包含同质分类对象矢量的数据簇中的对象矢量的个数最大化的位置,确定每个染色体的适应性,这样的矢量的个数越多,逻辑染色体的适应性就越大;
e.通过包括步骤(c)和(d)的叠代、终止适应性低的逻辑染色体,复制适应性高的逻辑染色体,染色体的重组和变异的叠代处理,优化该组逻辑染色体;
f.终止叠代处理和选择为不重叠数据簇的最佳同质组作好准备的逻辑染色体,其中,最佳同质组的每个簇的归属状态是位于数据簇内的对象矢量的分类;和
g.通过包括利用所选逻辑染色体计算未知对象矢量和根据未知对象矢量所处的不重叠数据簇的最佳同质的数据簇的归属状态,分类未知对象矢量的处理,构造分类未知对象的分类算法。
10.根据权利要求9所述的方法,其中,固定维数在5到25之间。
11.根据权利要求9所述的方法,其中,预分类对象的个数在20到200之间。
12.根据权利要求9所述的方法,其中,最初一组逻辑染色体是随机选择出来的。
13.根据权利要求9所述的方法,其中,最初一组逻辑染色体由100到2,000个之间的逻辑染色体组成。
14.根据权利要求9所述的方法,其中,每个数据簇的范围是相等的。
15.根据权利要求9所述的方法,其中,每个数据簇的范围是通过欧几里得尺度确定的。
16.根据权利要求15所述的方法,其中,每个数据簇在一维中的内容是对象矢量在该维中的范围的预定分数。
17.根据权利要求9所述的方法,其中,确定每个数据簇的范围的尺度是模糊AND匹配参数随数据簇的矢量特征量变化的函数。
18.根据权利要求9所述的方法,其中,最佳同质组的每个数据簇的位置是位于数据簇中的预分类对象的对象矢量的质心。
19.根据权利要求9所述的方法,其中,最佳同质组的每个数据簇的位置是位于数据簇中的预分类对象的对象矢量的质心。
20.根据权利要求9所述的方法,其中,最佳同质组的每个数据簇的位置是位于数据簇中的预分类对象的对象矢量的质心。
CNB018137202A 2000-06-19 2001-06-19 分类试探方法 Expired - Fee Related CN1249620C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US21240400P 2000-06-19 2000-06-19
US60/212,404 2000-06-19

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CNA2005100893182A Division CN1741036A (zh) 2000-06-19 2001-06-19 构造分类属于不同状态的生物样本的模型的方法

Publications (2)

Publication Number Publication Date
CN1446344A CN1446344A (zh) 2003-10-01
CN1249620C true CN1249620C (zh) 2006-04-05

Family

ID=22790864

Family Applications (2)

Application Number Title Priority Date Filing Date
CNA2005100893182A Pending CN1741036A (zh) 2000-06-19 2001-06-19 构造分类属于不同状态的生物样本的模型的方法
CNB018137202A Expired - Fee Related CN1249620C (zh) 2000-06-19 2001-06-19 分类试探方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNA2005100893182A Pending CN1741036A (zh) 2000-06-19 2001-06-19 构造分类属于不同状态的生物样本的模型的方法

Country Status (19)

Country Link
US (3) US7096206B2 (zh)
EP (1) EP1292912B1 (zh)
JP (1) JP2003536179A (zh)
KR (2) KR20030051435A (zh)
CN (2) CN1741036A (zh)
AT (1) ATE406627T1 (zh)
AU (1) AU2001269877A1 (zh)
BR (1) BR0111742A (zh)
CA (1) CA2411906A1 (zh)
DE (1) DE60135549D1 (zh)
EA (1) EA006272B1 (zh)
HK (1) HK1059494A1 (zh)
IL (1) IL153189A0 (zh)
MX (1) MXPA02012167A (zh)
NO (1) NO20026087L (zh)
NZ (1) NZ522859A (zh)
SG (1) SG143055A1 (zh)
WO (1) WO2001099043A1 (zh)
ZA (1) ZA200209845B (zh)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993186B1 (en) * 1997-12-29 2006-01-31 Glickman Jeff B Energy minimization for classification, pattern recognition, sensor fusion, data compression, network reconstruction and signal processing
EP1287157A1 (en) * 2000-06-02 2003-03-05 Large Scale Proteomics Corporation Protein markers for pharmaceuticals and related toxicity
CN1741036A (zh) * 2000-06-19 2006-03-01 科雷洛吉克系统公司 构造分类属于不同状态的生物样本的模型的方法
KR101054732B1 (ko) * 2000-07-18 2011-08-05 더 유나이티드 스테이츠 오브 아메리카 애즈 리프리젠티드 바이 더 세크레터리 오브 더 디파트먼트 오브 헬쓰 앤드 휴먼 써비시즈 생물학적 데이터의 숨겨진 패턴에 근거한 생물학적 상태의 식별 방법
US6980674B2 (en) * 2000-09-01 2005-12-27 Large Scale Proteomics Corp. Reference database
US6539102B1 (en) * 2000-09-01 2003-03-25 Large Scale Proteomics Reference database
CN1262337C (zh) * 2000-11-16 2006-07-05 赛弗根生物系统股份有限公司 质谱分析方法
US20030009293A1 (en) * 2001-01-09 2003-01-09 Anderson Norman G. Reference database
JP2005521138A (ja) * 2002-03-15 2005-07-14 パシフィック エッジ バイオテクノロジー リミティド 遺伝子発現データを使用する適応学習システムの医療適用
US7756804B2 (en) * 2002-05-10 2010-07-13 Oracle International Corporation Automated model building and evaluation for data mining system
AR040711A1 (es) * 2002-07-29 2005-04-13 Us Agriculture Un metodo para verificacion de calidad/control de calidad para proceso de bioensayo de alto rendimiento
US7321364B2 (en) * 2003-05-19 2008-01-22 Raytheon Company Automated translation of high order complex geometry from a CAD model into a surface based combinatorial geometry format
US7337154B2 (en) * 2003-05-19 2008-02-26 Raytheon Company Method for solving the binary minimization problem and a variant thereof
US7321881B2 (en) * 2004-02-27 2008-01-22 Aureon Laboratories, Inc. Methods and systems for predicting occurrence of an event
CA2534336A1 (en) * 2003-08-01 2005-02-10 Correlogic Systems, Inc. Multiple high-resolution serum proteomic features for ovarian cancer detection
JP4774534B2 (ja) * 2003-12-11 2011-09-14 アングーク ファーマシューティカル カンパニー,リミティド 集中化適応モデル及び遠隔操作サンプルプロセッシングの使用を介した生物学的状態の診断方法
WO2005078629A2 (en) * 2004-02-10 2005-08-25 Koninklijke Philips Electronics, N.V. Genetic algorithms for optimization of genomics-based medical diagnostic tests
US20050209785A1 (en) * 2004-02-27 2005-09-22 Wells Martin D Systems and methods for disease diagnosis
EP1745424A1 (en) * 2004-03-02 2007-01-24 Cloudmark, Inc. Method and apparatus to use a genetic algorithm to generate an improved statistical model
US7733339B2 (en) * 2004-05-04 2010-06-08 Raytheon Company System and method for partitioning CAD models of parts into simpler sub-parts for analysis of physical characteristics of the parts
US8275772B2 (en) * 2004-05-14 2012-09-25 Yin Aphinyanaphongs Content and quality assessment method and apparatus for quality searching
US8527442B2 (en) * 2004-05-14 2013-09-03 Lawrence Fu Method for predicting citation counts
US7379939B2 (en) * 2004-06-30 2008-05-27 International Business Machines Corporation Methods for dynamic classification of data in evolving data stream
US20060036566A1 (en) * 2004-08-12 2006-02-16 Simske Steven J Index extraction from documents
US8805803B2 (en) * 2004-08-12 2014-08-12 Hewlett-Packard Development Company, L.P. Index extraction from documents
US7545986B2 (en) * 2004-09-16 2009-06-09 The United States Of America As Represented By The Secretary Of The Navy Adaptive resampling classifier method and apparatus
US20070003996A1 (en) * 2005-02-09 2007-01-04 Hitt Ben A Identification of bacteria and spores
US7370039B2 (en) * 2005-04-05 2008-05-06 International Business Machines Corporation Method and system for optimizing configuration classification of software
WO2006124628A2 (en) * 2005-05-12 2006-11-23 Correlogic Systems, Inc. A model for classifying a biological sample in relation to breast cancer based on mass spectral data
WO2007010439A1 (en) * 2005-07-21 2007-01-25 Koninklijke Philips Electronics, N.V. Method and apparatus for subset selection with preference maximization
EP1913503A1 (en) 2005-08-05 2008-04-23 Koninklijke Philips Electronics N.V. Search space coverage with dynamic gene distribution
AU2006279437A1 (en) * 2005-08-15 2007-02-22 University Of Southern California Method and system for integrated asset management utilizing multi-level modeling of oil field assets
GB2430772A (en) * 2005-10-01 2007-04-04 Knowledge Support Systems Ltd User interface method and apparatus
US7539653B2 (en) * 2005-10-07 2009-05-26 Xerox Corporation Document clustering
US7853869B2 (en) * 2005-12-14 2010-12-14 Microsoft Corporation Creation of semantic objects for providing logical structure to markup language representations of documents
US7736905B2 (en) * 2006-03-31 2010-06-15 Biodesix, Inc. Method and system for determining whether a drug will be effective on a patient with a disease
US7478075B2 (en) * 2006-04-11 2009-01-13 Sun Microsystems, Inc. Reducing the size of a training set for classification
US20070260568A1 (en) * 2006-04-21 2007-11-08 International Business Machines Corporation System and method of mining time-changing data streams using a dynamic rule classifier having low granularity
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
WO2008079269A2 (en) * 2006-12-19 2008-07-03 Genego, Inc. Novel methods for functional analysis of high-throughput experimental data and gene groups identified therfrom
WO2008100941A2 (en) * 2007-02-12 2008-08-21 Correlogic Systems Inc. A method for calibrating an analytical instrument
US20080208646A1 (en) * 2007-02-28 2008-08-28 Thompson Ralph E Method for increasing productivity and safety in the mining and heavy construction industries
CN101680872B (zh) * 2007-04-13 2015-05-13 塞昆纳姆股份有限公司 序列比较分析方法和系统
CA2691980C (en) * 2007-06-29 2022-05-10 Correlogic Systems, Inc. Predictive markers for ovarian cancer
US8046322B2 (en) * 2007-08-07 2011-10-25 The Boeing Company Methods and framework for constraint-based activity mining (CMAP)
US20090049856A1 (en) * 2007-08-20 2009-02-26 Honeywell International Inc. Working fluid of a blend of 1,1,1,3,3-pentafluoropane, 1,1,1,2,3,3-hexafluoropropane, and 1,1,1,2-tetrafluoroethane and method and apparatus for using
WO2009052404A1 (en) * 2007-10-17 2009-04-23 Lockheed Martin Corporation Hybrid heuristic national airspace flight path optimization
US20090112645A1 (en) * 2007-10-25 2009-04-30 Lockheed Martin Corporation Multi objective national airspace collaborative optimization
US8311960B1 (en) * 2009-03-31 2012-11-13 Emc Corporation Interactive semi-supervised machine learning for classification
US10475529B2 (en) 2011-07-19 2019-11-12 Optiscan Biomedical Corporation Method and apparatus for analyte measurements using calibration sets
US8583571B2 (en) * 2009-07-30 2013-11-12 Marchex, Inc. Facility for reconciliation of business records using genetic algorithms
US8139822B2 (en) * 2009-08-28 2012-03-20 Allen Joseph Selner Designation of a characteristic of a physical capability by motion analysis, systems and methods
US8370386B1 (en) 2009-11-03 2013-02-05 The Boeing Company Methods and systems for template driven data mining task editing
US9009156B1 (en) * 2009-11-10 2015-04-14 Hrl Laboratories, Llc System for automatic data clustering utilizing bio-inspired computing models
KR101139913B1 (ko) * 2009-11-25 2012-04-30 한국 한의학 연구원 판정불능집단을 함께 분류하는 패턴 분류방법
CN102770760A (zh) * 2010-02-24 2012-11-07 佰欧迪塞克斯公司 利用质谱分析选择施用治疗剂的癌症患者
JP5165021B2 (ja) * 2010-05-11 2013-03-21 ヤフー株式会社 カテゴリ処理装置及び方法
CN102184193A (zh) * 2011-04-19 2011-09-14 无锡永中软件有限公司 与通用公办软件兼容的快速文档处理方法
JP5821767B2 (ja) * 2012-04-20 2015-11-24 株式会社島津製作所 クロマトグラフタンデム四重極型質量分析装置
US9798918B2 (en) * 2012-10-05 2017-10-24 Cireca Theranostics, Llc Method and system for analyzing biological specimens by spectral imaging
WO2014080305A2 (en) * 2012-11-20 2014-05-30 Koninklijke Philips N.V. Integrated phenotyping employing image texture features.
US8855968B1 (en) * 2012-12-10 2014-10-07 Timothy Lynn Gillis Analytical evaluation tool for continuous process plants
US8467988B1 (en) * 2013-01-02 2013-06-18 Biodesix, Inc. Method and system for validation of mass spectrometer machine performance
US9471662B2 (en) 2013-06-24 2016-10-18 Sap Se Homogeneity evaluation of datasets
CN103632164B (zh) * 2013-11-25 2017-03-01 西北工业大学 基于kap样本优化的knn卷钢图片数据的卷刚状态分类识别方法
CN105654100A (zh) * 2014-10-30 2016-06-08 诺基亚技术有限公司 利用计算装置识别对象的方法、装置以及电子设备
US11657447B1 (en) * 2015-02-27 2023-05-23 Intuit Inc. Transaction-based verification of income and employment
CN105373832B (zh) * 2015-10-14 2018-10-30 江苏师范大学 基于并行遗传算法的交易规则参数优化方法
US10496996B2 (en) 2016-06-23 2019-12-03 Capital One Services, Llc Neural network systems and methods for generating distributed representations of electronic transaction information
CN106404441B (zh) * 2016-09-22 2018-11-06 宁波大学 一种基于非线性相似度指标的故障分类诊断方法
EP3575813B1 (en) * 2018-05-30 2022-06-29 Siemens Healthcare GmbH Quantitative mapping of a magnetic resonance imaging parameter by data-driven signal-model learning
CN108877947B (zh) * 2018-06-01 2021-10-15 重庆大学 基于迭代均值聚类的深度样本学习方法
EP4047519A1 (en) 2021-02-22 2022-08-24 Carl Zeiss Vision International GmbH Devices and methods for processing eyeglass prescriptions
EP4101367A1 (en) 2021-06-09 2022-12-14 Carl Zeiss Vision International GmbH Method and device for determining a visual performance
US20230282353A1 (en) * 2021-12-29 2023-09-07 AiOnco, Inc. Multitier classification scheme for comprehensive determination of cancer presence and type based on analysis of genetic information and systems for implementing the same
CN114623693B (zh) * 2022-04-13 2024-01-30 深圳市佳运通电子有限公司 用于油田上下游站加热炉智能外输温度的控制方法
CN116304114B (zh) * 2023-05-11 2023-08-04 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统
CN117688354A (zh) * 2024-02-01 2024-03-12 中国标准化研究院 一种基于进化算法的文本特征选择方法及系统

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3935562A (en) 1974-02-22 1976-01-27 Stephens Richard G Pattern recognition method and apparatus
US4075475A (en) 1976-05-03 1978-02-21 Chemetron Corporation Programmed thermal degradation-mass spectrometry analysis method facilitating identification of a biological specimen
US4122518A (en) * 1976-05-17 1978-10-24 The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration Automated clinical system for chromosome analysis
US4697242A (en) 1984-06-11 1987-09-29 Holland John H Adaptive computing system capable of learning and discovery
GB2187035A (en) 1986-01-27 1987-08-26 Eric James Sjoberg Pyrolysis mass spectrometer disease diagnosis aid
US4881178A (en) 1987-05-07 1989-11-14 The Regents Of The University Of Michigan Method of controlling a classifier system
US5697369A (en) 1988-12-22 1997-12-16 Biofield Corp. Method and apparatus for disease, injury and bodily condition screening or sensing
AU7563191A (en) 1990-03-28 1991-10-21 John R. Koza Non-linear genetic algorithms for solving problems by finding a fit composition of functions
US5210412A (en) 1991-01-31 1993-05-11 Wayne State University Method for analyzing an organic sample
US5784162A (en) 1993-08-18 1998-07-21 Applied Spectral Imaging Ltd. Spectral bio-imaging methods for biological research, medical diagnostics and therapy
US5627040A (en) * 1991-08-28 1997-05-06 Becton Dickinson And Company Flow cytometric method for autoclustering cells
US5632957A (en) 1993-11-01 1997-05-27 Nanogen Molecular biological diagnostic systems including electrodes
RU2038598C1 (ru) 1992-07-06 1995-06-27 Шапиро Светлана Борисовна Способ уринодиагностики заболеваний почек
US6114114A (en) * 1992-07-17 2000-09-05 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
DE69334349D1 (de) 1992-09-01 2011-04-21 Apple Inc Verbesserte Vektorquatisierung
US5790761A (en) 1992-12-11 1998-08-04 Heseltine; Gary L. Method and apparatus for the diagnosis of colorectal cancer
ES2201077T3 (es) 1993-05-28 2004-03-16 Baylor College Of Medicine Metodo y espectrometro de masas para la desorcion e ionizacion de analitos.
US5995645A (en) 1993-08-18 1999-11-30 Applied Spectral Imaging Ltd. Method of cancer cell detection
US5352613A (en) 1993-10-07 1994-10-04 Tafas Triantafillos P Cytological screening method
US5553616A (en) * 1993-11-30 1996-09-10 Florida Institute Of Technology Determination of concentrations of biological substances using raman spectroscopy and artificial neural network discriminator
US6025128A (en) 1994-09-29 2000-02-15 The University Of Tulsa Prediction of prostate cancer progression by analysis of selected predictive parameters
AU1837495A (en) 1994-10-13 1996-05-06 Horus Therapeutics, Inc. Computer assisted methods for diagnosing diseases
US5848177A (en) 1994-12-29 1998-12-08 Board Of Trustees Operating Michigan State University Method and system for detection of biological materials using fractal dimensions
GB2301897B (en) 1995-06-08 1999-05-26 Univ Wales Aberystwyth The Composition analysis
KR100197580B1 (ko) 1995-09-13 1999-06-15 이민화 무선 통신망을 이용한 실시간 생체신호모니터링시스템
US5716825A (en) 1995-11-01 1998-02-10 Hewlett Packard Company Integrated nucleic acid analysis system for MALDI-TOF MS
US5687716A (en) 1995-11-15 1997-11-18 Kaufmann; Peter Selective differentiating diagnostic process based on broad data bases
DE19543020A1 (de) 1995-11-18 1997-05-22 Boehringer Mannheim Gmbh Verfahren und Vorrichtung zur Bestimmung von analytischen Daten über das Innere einer streuenden Matrix
SE9602545L (sv) 1996-06-25 1997-12-26 Michael Mecklenburg Metod för att diskriminera komplexa biologiska prover
US5839438A (en) 1996-09-10 1998-11-24 Neuralmed, Inc. Computer-based neural network system and method for medical diagnosis and interpretation
IL129728A0 (en) 1996-11-04 2000-02-29 Dimensional Pharm Inc System method and computer program product for the visualization and interactive processing and analysis of chemical data
US6571227B1 (en) 1996-11-04 2003-05-27 3-Dimensional Pharmaceuticals, Inc. Method, system and computer program product for non-linear mapping of multi-dimensional data
EP1164203B1 (en) 1996-11-06 2007-10-10 Sequenom, Inc. DNA Diagnostics based on mass spectrometry
US6157921A (en) 1998-05-01 2000-12-05 Barnhill Technologies, Llc Enhancing knowledge discovery using support vector machines in a distributed network environment
JP2001519070A (ja) * 1997-03-24 2001-10-16 クイーンズ ユニバーシティー アット キングストン 一致検出の方法、製品および装置
US5905258A (en) 1997-06-02 1999-05-18 Advanced Research & Techology Institute Hybrid ion mobility and mass spectrometer
NZ516848A (en) 1997-06-20 2004-03-26 Ciphergen Biosystems Inc Retentate chromatography apparatus with applications in biology and medicine
US6081797A (en) 1997-07-09 2000-06-27 American Heuristics Corporation Adaptive temporal correlation network
US5974412A (en) 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
KR20010040970A (ko) 1998-02-13 2001-05-15 옥스포드 글리코사이언시스(유케이) 리미티드 간암 확인 방법 및 확인용 조성물
GB9805477D0 (en) 1998-03-13 1998-05-13 Oxford Glycosciences Limited Methods and compositions for diagnosis of rheumatoid arthritis
US6723564B2 (en) 1998-05-07 2004-04-20 Sequenom, Inc. IR MALDI mass spectrometry of nucleic acids using liquid matrices
EP1078257A4 (en) 1998-05-09 2007-07-18 Iconisys Inc METHOD AND APPARATUS FOR COMPUTER-ASSISTED DIAGNOSIS OF RARE CELLS, INCLUDING FETAL CELLS
US6311163B1 (en) 1998-10-26 2001-10-30 David M. Sheehan Prescription-controlled data collection system and method
US5989824A (en) 1998-11-04 1999-11-23 Mesosystems Technology, Inc. Apparatus and method for lysing bacterial spores to facilitate their identification
JP2002537561A (ja) 1999-02-16 2002-11-05 ザ ガバメント オブ ザ ユナイテッドステイツ オブ アメリカ アズ リプレゼンテッド バイ ザ セクレタリー デパートメント オブ ヘルス アンド ヒューマン サービシーズ ザ ナショナル インステ 細胞タンパク質成分を単離および分析するための方法および装置
GB9905817D0 (en) 1999-03-12 1999-05-05 Oxford Glycosciences Uk Ltd Methods
US6631333B1 (en) * 1999-05-10 2003-10-07 California Institute Of Technology Methods for remote characterization of an odor
US6329652B1 (en) 1999-07-28 2001-12-11 Eastman Kodak Company Method for comparison of similar samples in liquid chromatography/mass spectrometry
US6615199B1 (en) * 1999-08-31 2003-09-02 Accenture, Llp Abstraction factory in a base services pattern environment
WO2001020043A1 (en) 1999-09-17 2001-03-22 Affymetrix, Inc. Method of cluster analysis of gene expression profiles
CA2388595C (en) 1999-10-27 2010-12-21 Biowulf Technologies, Llc Methods and devices for identifying patterns in biological systems and methods for uses thereof
AU1350501A (en) 1999-10-27 2001-05-08 Barnhill Technologies, Llc Methods and devices for identifying patterns in biological systems and methods for uses thereof
DE10021737C2 (de) 2000-05-04 2002-10-17 Hermann Haller Verfahren und Vorrichtung zur qualitativen und/oder quantitativen Bestimmung eines Protein- und/oder Peptidmusters einer Flüssigkeitsprobe, die dem menschlichen oder tierischen Körper entnommen wird
CN1741036A (zh) 2000-06-19 2006-03-01 科雷洛吉克系统公司 构造分类属于不同状态的生物样本的模型的方法
US6680203B2 (en) 2000-07-10 2004-01-20 Esperion Therapeutics, Inc. Fourier transform mass spectrometry of complex biological samples
WO2002007064A2 (en) 2000-07-17 2002-01-24 Labnetics, Inc. Method and apparatus for the processing of remotely collected electronic information characterizing properties of biological entities
KR101054732B1 (ko) 2000-07-18 2011-08-05 더 유나이티드 스테이츠 오브 아메리카 애즈 리프리젠티드 바이 더 세크레터리 오브 더 디파트먼트 오브 헬쓰 앤드 휴먼 써비시즈 생물학적 데이터의 숨겨진 패턴에 근거한 생물학적 상태의 식별 방법
CN1262337C (zh) 2000-11-16 2006-07-05 赛弗根生物系统股份有限公司 质谱分析方法
EP1459235B1 (en) 2001-01-24 2011-01-19 Health Discovery Corporation Methods of identifying patterns in biological systems and uses thereof
JP2005504263A (ja) 2001-02-01 2005-02-10 シファーゲン バイオシステムズ, インコーポレイテッド タンデム質量分析によるタンパク質同定、特徴付けおよび配列決定のための改良された方法
AU2002314715B2 (en) 2001-02-16 2006-07-27 Ciphergen Biosystems, Inc. Method for correlating gene expression profiles with protein expression profiles
WO2002086168A1 (en) 2001-04-19 2002-10-31 Ciphergen Biosystems, Inc. Biomolecule characterization using mass spectrometry and affinity tags
US20020160420A1 (en) 2001-04-30 2002-10-31 George Jackowski Process for diagnosis of physiological conditions by characterization of proteomic materials
WO2003014735A1 (en) 2001-08-03 2003-02-20 General Hospital Corporation System, process and diagnostic arrangement establishing and monitoring medication doses for patients
JP2005500543A (ja) 2001-08-13 2005-01-06 ビヨンド ジェノミクス, インコーポレイテッド 生物学的系をプロファイリングするための方法およびシステム
US20020193950A1 (en) 2002-02-25 2002-12-19 Gavin Edward J. Method for analyzing mass spectra
AR040711A1 (es) 2002-07-29 2005-04-13 Us Agriculture Un metodo para verificacion de calidad/control de calidad para proceso de bioensayo de alto rendimiento
JP4585167B2 (ja) 2002-11-29 2010-11-24 東芝医用システムエンジニアリング株式会社 X線コンピュータ断層撮影システム
US7311665B2 (en) 2003-05-19 2007-12-25 Alcohol Monitoring Systems, Inc. Bio-information sensor monitoring system and method
CA2534336A1 (en) 2003-08-01 2005-02-10 Correlogic Systems, Inc. Multiple high-resolution serum proteomic features for ovarian cancer detection
JP4774534B2 (ja) 2003-12-11 2011-09-14 アングーク ファーマシューティカル カンパニー,リミティド 集中化適応モデル及び遠隔操作サンプルプロセッシングの使用を介した生物学的状態の診断方法
IL163061A (en) 2004-07-15 2007-07-24 Meddynamics Ltd System and method for administration of on-line healthcare
US20070003996A1 (en) 2005-02-09 2007-01-04 Hitt Ben A Identification of bacteria and spores

Also Published As

Publication number Publication date
US7096206B2 (en) 2006-08-22
NZ522859A (en) 2005-08-26
DE60135549D1 (de) 2008-10-09
EP1292912B1 (en) 2008-08-27
EP1292912A1 (en) 2003-03-19
NO20026087D0 (no) 2002-12-18
AU2001269877A1 (en) 2002-01-02
US20060112041A1 (en) 2006-05-25
BR0111742A (pt) 2004-02-03
KR101047575B1 (ko) 2011-07-13
EA200300035A1 (ru) 2003-10-30
EA006272B1 (ru) 2005-10-27
JP2003536179A (ja) 2003-12-02
CA2411906A1 (en) 2001-12-27
US20070185824A1 (en) 2007-08-09
CN1446344A (zh) 2003-10-01
KR20030051435A (ko) 2003-06-25
NO20026087L (no) 2003-02-13
US7499891B2 (en) 2009-03-03
KR20090019019A (ko) 2009-02-24
HK1059494A1 (en) 2004-07-02
US7240038B2 (en) 2007-07-03
CN1741036A (zh) 2006-03-01
SG143055A1 (en) 2008-06-27
US20020046198A1 (en) 2002-04-18
ZA200209845B (en) 2003-10-21
WO2001099043A1 (en) 2001-12-27
MXPA02012167A (es) 2004-08-19
IL153189A0 (en) 2003-06-24
ATE406627T1 (de) 2008-09-15

Similar Documents

Publication Publication Date Title
CN1249620C (zh) 分类试探方法
US6226408B1 (en) Unsupervised identification of nonlinear data cluster in multidimensional data
Uzma et al. Gene encoder: a feature selection technique through unsupervised deep learning-based clustering for large gene expression data
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
CN103258147A (zh) 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法
Livieris et al. Identification of blood cell subtypes from images using an improved SSL algorithm
US7991223B2 (en) Method for training of supervised prototype neural gas networks and their use in mass spectrometry
Morovvat et al. An ensemble of filters and wrappers for microarray data classification
Balabhadrapathruni et al. A study on analysing the impact of feature selection on predictive machine learning algorithms
Sheikhi et al. Financial distress prediction using distress score as a predictor
Ahmad et al. Classification models for higher learning scholarship award decisions
Fung et al. Classification of heterogeneous gene expression data
Carrizosa et al. Classification problems with imprecise data through separating hyperplanes
Adewusi et al. Residential Tenants Classification: A Test of Performance of Five Selected Artificial Neural Networks training Algorithms
CN1403984A (zh) 用于帮助赢利组织评估和改善来自客户的利润的方法和系统
AlSaif Large scale data mining for banking credit risk prediction
Shams et al. Financial distress prediction: Comparisons of logit models using receiver operating characteristic (ROC) curve analysis
Gomes et al. Clustering Strategies for Defining Archetypes to Support Integrated Simulations of Environmental Impacts
Masmoudi et al. A binarization strategy for modelling mixed data in multigroup classification
Xia et al. OTU Methods in Numerical Taxonomy
Fan et al. Distinguishing between normal and cancer cells using autoencoder node saliency
NZ539429A (en) Heuristic method of classification
Minhas et al. Identification of Voting Patterns using Clustering Methodology
Li Clustering and Classification with Feature Selection for High-Dimensional Data
CN116796856A (zh) 一种机器学习模型选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1059494

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: AHN-GOOK PHARMACEUTICAL CO., LTD.

Free format text: FORMER OWNER: CORRELGIC SYSTEMS INC.

Effective date: 20110808

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20110808

Address after: Seoul, South Kerean

Patentee after: Ahn Gook Pharmaceutical Co., Ltd.

Address before: American Maryland

Patentee before: Correlogic Systems Inc.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060405

Termination date: 20140619

EXPY Termination of patent right or utility model