CN101067823B - 优化联合数据库管理系统的方法和系统 - Google Patents

优化联合数据库管理系统的方法和系统 Download PDF

Info

Publication number
CN101067823B
CN101067823B CN2007101077462A CN200710107746A CN101067823B CN 101067823 B CN101067823 B CN 101067823B CN 2007101077462 A CN2007101077462 A CN 2007101077462A CN 200710107746 A CN200710107746 A CN 200710107746A CN 101067823 B CN101067823 B CN 101067823B
Authority
CN
China
Prior art keywords
data
federated
inquiry
magagement
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007101077462A
Other languages
English (en)
Other versions
CN101067823A (zh
Inventor
R·R·弗里德兰德
J·R·克雷默
R·亨尼塞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qindarui company
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101067823A publication Critical patent/CN101067823A/zh
Application granted granted Critical
Publication of CN101067823B publication Critical patent/CN101067823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure

Abstract

用于配置和使用联合数据库管理系统的方法、系统和程序产品。元数据和查询的设计包括首先确定数据源服务器的模式和元数据配置的步骤。下一个步骤是列举可用资源,并列举安全性和机密性需求。这些用于根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算最优的联合数据库管理系统设计;并设计最优的联合数据库管理系统。

Description

优化联合数据库管理系统的方法和系统
技术领域
文中所述的本发明涉及从联合(federated)数据库系统即从透明地将多个自主(autonomous)数据库系统集成为单个虚拟数据库即联合数据库的元数据库管理系统提取数据。构成数据库仍是自主的、分离的和不同的。文中所述的方法、系统和程序产品涉及搜索联合分布式计算机系统内存储的数据以及分布式数据库的管理,包括数据库数据和文件的访问和检索,以及从联合数据库检索数据库数据和文件。本发明的另一个方面包括组织数据或文件并使其相互关联,包括关系模型、网络模型、层次模型和实体-关系模型。
背景技术
联合数据库系统是一种元数据库管理系统(DBMS),其透明地将分离的、不同的多个自主数据库系统集成为单个联合数据库。构成数据库经由计算机网络、互联网、局域网和虚拟网络互连,并且可在地理上分散。由于构成数据库系统仍保持自主,所以联合数据库系统是对将多个异类数据库合并在一起的不简单的任务的一种替代选择。
通过数据抽象、包装器(wrapper)函数和容器函数,联合数据库系统可提供统一的前端用户界面,使得用户可通过单个查询在多个数据库内存储和检索数据,即使构成数据库是异类的。为此,联合数据库系统必须能够将查询解构成子查询以便提交给相关的构成DBMS,此后系统必须合并或聚合子查询的结果集。
由于各数据库管理系统使用不同的查询语言,所以联合数据库系统必须频繁地将包装器应用于子查询以将它们转换成合适的查询语言。
迄今为止,联合数据库已被以多种方式预测能够在概念层次解决无数问题。但是,对于真实世界的实际问题,联合系统还没有实现上述预测。一个尤其苦恼的挑战是获得针对多维物理和“人员”挑战的最优解决方案。
因此,很清楚,需要考虑超出数据库元数据层次和机器层次的问题,并探索解决方案空间(solution space)和相关联的软约束。软约束是指法律和制度上的约束例如机密性和道德规范、人员可用性、性能需求等。
发明内容
这些以及其他问题可用文中所述的方法和系统消除。具体地,文中所述的本发明提出了一种用于使技能和资产尤其是人员技能和人力资产(people asset)与需求和需要匹配的方法和系统。
根据本发明的一个方面,提供一种用于优化具有联合数据库服务器和多个数据源服务器的联合数据库管理系统的方法,该方法包括以下步骤:a)确定数据源服务器的模式和元数据配置;b)列举可用资源;c)列举安全性和机密性需求;d)根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算联合数据库管理系统;e)通过优化器获得最优的联合数据库管理系统,其中所述优化器执行的步骤包括:(i)在使用所述联合数据库管理系统执行查询时,选择执行所述查询成本最小的策略;(ii)确定与所述查询相关联的操作是否应该由所述联合数据库服务器或所述数据源服务器之一来执行;(iii)确定与所述查询相关联的所述操作的顺序;以及提供用于包括用户试探和数据输入的用户输入的功能。
根据本发明的又一个方面,提供一种用于优化具有联合数据库服务器和多个数据源服务器的联合数据库管理系统的系统,该系统包括以下装置:a)确定数据源服务器的模式和元数据配置的装置;b)列举可用资源的装置;c)列举安全性和机密性需求的装置;d)根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算联合数据库管理系统的装置;e)通过优化器获得最优的联合数据库管理系统的装置,其中所述优化器包括:(i)在使用所述联合数据库管理系统执行查询时,选择执行所述查询成本最小的策略的装置;(ii)确定与所述查询相关联的操作是否应该由所述联合数据库服务器或所述数据源服务器之一来执行的装置;(iii)确定与所述查询相关联的所述操作的顺序的装置;以及f)提供用于包括用户试探和数据输入的用户输入的功能的装置。
具体地,本发明的方法和系统解决了这样叙述的分配问题“我有一组人员,每个人都具有一组技能,而由于外部约束(法律的、集体谈判等),仅能向某些人分配某些任务,某些数据不能离开某些地点或者不能给某些人,并且某些数据不能具体化”。根据文中所述的本发明,数据,包括传统数据库数据和来自异类数据库的数据,被联合以生成解决方案空间,其中例如通过整数规划优化解决方案集。
该方法和系统利用数据库联合和“提取、转换和加载”(“ETL”)数据库管理来查询、搜索和选择性地提取数据,呈现数据,使用复杂优化例如整数规划、混合整数规划、试探法和人工智能等技术、人为干预和请求另外的数据来分析和呈现数据。
当该方法和系统用于研究或临床环境,并且例如随后公布(或提交给管理当局)时,需要释放足够的数据以满足学术上的、制度上的或管理上的需求。这使得产物为大量个别数据的总和。
查询、搜索和选择性提取数据的步骤是遵守具体化(materialization)和呈现上的约束执行的。作为示例而不是限制,这些约束包括私密的个人数据例如性传播疾病的存在或不存在、遗传异常的存在或不存在乃至信誉度。
类似地,所述约束可包括制度上机密的数据例如何人将执行工作、资源分配和交付、预算、技能集、策略、费用分配、代替现金支付的实物捐献、输入和输出的时间约束。另外,在临床、测试或流行病学上下文中,信息传递可被法律例如HIPP限制和私人约束所约束。
通过联合数据,整个数据的全体仅需在计算期间具体化,而完成的产物仅是聚合数据如总和以及统计量。
在实际计算中,使用在联合系统内的不同数据库管理系统的不同表上的临时表、关联表构建中间数据库。一当在联合数据库上运行查询并报告,所述临时表就被锁定或消失。
文中所述的方法和系统探索了整个问题空间,展示了所有约束,并使用例如整数规划技术针对加权的、多维准则函数(multidimensional criteriafunction)优化这些约束。整个数据集用于对可能的解决方案建模,包含数据结构、元数据、数据模式和可能的关联表(associative table),从而比较如被成本、策略、人员和资产的可用性以及必需的时间线约束的ETL解决方案与联合解决方案。
附图说明
在附图中示出了本发明的各个方面。
图1示出最初的发现当前环境的步骤。
图2示出接下来的分析当前环境的步骤。
图3示出定义可用资源的步骤。
图4示出定义项目(project)约束的步骤。
图5示出设计实现需求的最优解决方案。
图6示出给定所有约束、要求(claim)和资源,计算最优解决方案的步骤。
图7示出联合数据系统的概观。
图8示出用于设计联合数据库系统的流程图的概观。
图9示出执行查询并随后处理结果集的流程图的概观。
图10示出从输入约束变量和约束通过对约束和变量的分析到优化优化工具和技术并执行优化的判定树。
图11示出数据库联合和“提取、转换和加载”(ETL)数据库管理的高层概观,该数据库管理用于查询、搜索和选择性地提取数据,呈现数据,使用复杂优化例如整数规划、混合整数规划、试探法和人工智能等技术、人为干预和请求另外的数据来分析和呈现数据。
具体实施方式
本发明的方法、系统和程序产品解决了这样叙述的分配问题“我有一组人员,每个人都具有一组技能,而由于外部约束(法律约束、集体谈判等),仅能向某些人分配某些任务,某些数据不能离开某些地点或者不能给某些人,并且某些数据不能具体化”。
当本发明的方法、系统和程序产品用于研究环境并随后公布(或者提交给管理当局)时,需要释放足够的数据以满足学术上的、制度上的或管理上的需求。数据库联合使得输出为大量个别数据的结果。
通过联合数据,数据的全体仅在计算期间具体化,而完成的产物仅是聚合数据如仅是总和以及统计量。
在实际计算中,使用从在联合系统内的不同数据库管理系统的不同表得到的临时表、关联表来构建中间数据库。一当在联合数据库上运行查询并报告,该临时表就被锁定或消失。
文中所述的方法、系统和程序产品研究了整个问题空间,展示了所有约束,并针对加权的多维准则函数优化这些约束。整个数据集用于对可能的解决方案建模,包括数据结构、元数据、数据模式和可能的关联表,从而比较如被成本、策略、人员和资产的可用性以及必需的时间线约束的ETL解决方案与联合解决方案。
图1示出最初的发现包含单元1001、1003、1005、1007的当前环境的步骤。这包括评估不同的源系统数据约束以及回顾性和预期性数据集成挑战,客户和行业数据标准的影响。约束和机会包括当前的集成能力,所需的集成解决方案的性质以及客户团队技能。
图2示出下一个分析包含单元1001、1003、1005、1007的当前环境的步骤。分析当前环境包括理解按照源的可用元数据1011、1013、1015、1017。还包括分析当前环境以分析数据集成方法和按照源的数据模型1021、1023、1025、1027,指示ETL或联合或混合方法,并定义必须遵守的集成规则1031、1033、1035、1037。随后,访问当前的技能1041、1043、1045、1047,推荐最优的技能集,并确定弥补该差距的机制。该分析还包括确定现有基础结构的最优使用以使可用性最大。
图3示出定义可用资源的步骤。在此上下文中,资源包括具有技能1103和训练1105的可用人员1101,另外的训练的可用性,网络和网络容量1107、计算设备1109和软件可用性1111,物理资源1113,存储器1115,时间约束1117和美元可用性(资金)1119。
图4示出定义项目约束的步骤。这些约束可以是法律1201(HIPA,知识产权),安全性1203(信息传递1205、IT 1207和安全约束1209),社会(组织结构和约束1211、个人策略1212和限制1214、组织灵活性1213),环境(有害物质1215),资金约束1217,团队位置1219和旅行约束,数据(数据库互操作性1225、数据兼容性1223、数据质量1221),风险1227和IT资产1229(软件、网络、数据库和硬件要求以及性能特性),发展需求1226和必需的交付步骤1231。
图5示出设计最优解决方案以实现需求。最优解决方案包括一个或多个实体统一化方案(entity unification scheme)1301,共形维度(conformaldimension)1303,和聚合方案1305,以及获得统一的元数据模型1311和统一的数据模型1313。
图6示出给定所有约束、要求和资源,计算最优解决方案的步骤。在此步骤中,各种资源集合是要求者(claimant)集合1401,该集合通过ETL1411、联合1413或混合(hybrid)被处理。这些数据项目在例如临时结构和持久结构中被处理,从而都生成“视图”1421。
图10所示的该方法在多维约束的上下文内优化了联合数据库和ETL数据库以及数据库查询,使用ETL 1511、ETL和联合的混合1513以及联合1515的技术集合数据以确定优化技术1521以获得优化解决方案,包括候选最优解决方案的集合。
在大的现代企业例如医学研究机构、大学、医疗中心和多部门企业中,几乎不可避免地,组织的不同部分将使用不同的数据库管理系统来存储和搜索它们的关键数据。但是,只是通过组合来自这些系统的信息,现代临床、学术或研究机构机构才能够实现它们包含的数据的全部价值。
例如,在卫生保健行业中,兼并、合并和收购几乎是常事。新创建或合并的实体继承了原机构的数据存储库(store)。许多这些存储库将是关系数据库管理系统,但是经常来自不同的制造商;例如一个公司可主要使用Sybase,而另一个公司使用Informix IDS。它们可均具有一个或多个文档管理系统-例如Documentum或IBM Content Manager-来存储文本文档例如患者记录、医嘱(order)、实验室测试等的副本。每个可具有计算重要信息(例如过敏性、药物反应和相互作用等)或挖掘关于患者或试验对象的健康问题的信息的应用。
在结构合并之后,它们需要能够访问来自所有的存储库集合的所有患者信息,使用现有的和新的应用分析它们的新的客户档案(portfolio),并通常通过共同接口使用组合的原始机构的资源。它们需要能够识别共同的患者和对象,并合并它们的患者记录的相关部分,尽管不同的临床和研究服务和部门可能使用完全不同的识别键不统一地引用它们的患者。联合技术可通过为不同数据提供统一的接口来大大减轻这些情况中的困难。
如果联合系统是透明的,则它对用户屏蔽底层数据源的差别、特质和实现。理想地,它使得联合源的集合在用户看来像是单个系统。用户应该不需要知道数据存储在哪里(位置透明性),数据源支持哪种语言或编程接口(调用透明性),如果使用SQL的话源支持SQL的哪种方言(方言透明性),数据是如何物理存储的,或者数据是否被分区和/或被复制(物理数据独立性、分段(fragmentation)和复制透明性),或使用哪种网络协议(网络透明性)。用户应看到单个统一的接口,包括单组错误代码(错误代码透明性)。IBM提供了所有这些特征,从而允许好像所有数据都位于单个数据库内似地编写应用,尽管实际上数据可存储在数据源的异类集合中。
联合的另一个方面是异质性。异质性是各数据源之间的区别程度。源可在许多方面不同。它们可在不同硬件上运行,使用不同的网络协议,并具有不同的软件来管理它们的数据存储。它们可具有不同的查询语言,不同的查询能力乃至不同的数据模型。它们可不同地处理错误,或提供不同的事务语义。它们可象具有相同或不同的模式的两个Oracle实例那样相似,其中一个运行Oracle 8i,另一个运行Oracle 9i。或者,它们可如同功能强大的关系数据库、简单的结构化的平面文件、获得形式为URL的查询并根据某种DTD返回半结构化的XML的网站、Web服务以及响应于特定的一组函数调用的应用那样各不相同。IBM的联合数据库可容纳所有这些差别,从而将例如这些系统的系统包含在无缝的、透明的联合中。
在联合系统中,可能需要新的源来满足用户的企业的变化需求。联合使得可容易地添加新的源。联合数据库引擎经由已知为包装器的软件组件访问资源。访问新型数据源是通过获得或创建对于该源的包装器来完成的。包装器体系结构使得能够建立新的包装器。一旦包装器存在,简单的数据定义语言(DDL)语句允许将源动态地添加到联合中而不会停止正在进行的查询或事务。
任何数据源都可被包装。IBM支持ANSI SQL/MED标准(MED代表外部数据管理)。此标准记载了联合服务器用于与外部数据源通信的协议。写到SQL/MED接口的任何包装器都可与IBM的联合数据库一起使用。因此,包装器可由用户、厂商和第三方编写。
联合的另一个方面是数据源的自主。通常,数据源具有已有的应用和用户。因此,重要的是,源在被带入联合中时该源的操作不会被影响。现有的应用将无改变地运行,数据不会被移动和修改,接口仍保持相同。数据源处理对数据的请求的方式不会受针对联合系统执行全局查询的影响,尽管这些全局查询可能触及许多不同的数据源。同样,当数据源进入或离开联合时对本地系统的一致性没有影响。
通过优化器获得优化的性能。优化器是确定执行每个查询的最佳方式的、关系数据库管理系统的组件。关系查询是非过程性的,在执行查询时每个关系算子通常存在多种不同的实现,并且通常存在可以进行选择的、算子的许多可能的排序。尽管一些优化器使用试探式规则来选择执行策略,但是优选的联合数据库考虑各种可能的策略,对每种策略的可能的成本建模并选择成本最小的策略(通常,成本用消耗的系统资源衡量)。
在联合系统中,优化器必须确定查询中涉及的不同操作是应该由联合服务器完成还是由存储数据的源完成。它还必须确定操作的顺序,以及使用什么实现来完成查询的本地部分。为了做出这些决定,优化器必须通过某种方式知道每个数据源可完成什么以及其成本大小。例如,如果数据源是文件,则假设其是智能的、并且要求其执行分类(sort)或应用某个函数是没有意义的。另一方面,如果源是能够应用谓词并进行联结的关系数据库系统,则利用其能力是个好主意,如果这将减小需要被带回联合引擎的数据的量的话。这通常将依赖个别查询的细节。在一个实施例中,优化器与用于查询中涉及的不同源的包装器一起工作以评估可能性。在执行策略时,好的决定和坏的决定之间的差别往往是性能上的几个量级。
为了进一步提高性能,每个包装器实现通过使用每个数据源的本机API来利用源提供的调节器(knob)。例如,将多个结果行分块到一个消息(也叫做块读取)是常见的性能调节器。查询编译器将与包装器通信以指示哪些查询片段可利用块读取,从而在运行时获得最大性能而不会损失查询语义。
图7内示出一个联合系统体系结构。应用可使用任何被支持的接口(包括ODBC、JDBC或Web服务客户机)与联合服务器交互。联合服务器利用被称为包装器的软件模块与数据源通信。该系统包括客户机107,SQLAPI 109和联合数据库服务器112。联合数据库服务器112包括包装器应用114,数据库目录116和元数据数据库118。服务器112从多个具有相关联的数据储存库(repository)123、127的后端数据源121、125接收数据。
联合系统是通过安装联合引擎112并然后配置该引擎以与数据源对话建立的。存在一些向联合系统添加新的数据源121或125的步骤。首先,必须安装用于源121或125的包装器114,然后必须告知联合数据库服务器在哪里可找到此包装器。这是通过CREATE WRAPPER语句完成的。如果需要多个相同类型的源,则仅需要一个包装器。例如,即使联合系统将包括可能位于不同机器上的五个Oracle数据库实例,仍仅需要一个Oracle包装器,并因此仅需要一个CREATE WRAPPER语句。但是,还必须向系统标识每个单独的源。这可通过CREATE SERVER语句完成。如果存在五个Oracle数据库实例,则必须发出五个CREATE SERVER语句。
例如,假设存在用于访问网站的包装器,以及用户希望从中访问数据的特定网站。
此语句主要告知联合数据库在哪里可找到用于web_wrapper的代码。接下来,通过将实际网站标识为与web_wrapper相关联的服务器,可向联合数据库告知将使用的该实际网站。
OPTIONS子句允许以包装器为访问此数据源类型的实例将需要的信息来定制基本的CREATE SERVER语句。
在包装器114和服务器112已被定义之后,必须根据联合中间件的数据模型描述在远程源121处的数据123。由于文中所述的联合数据库支持对象-关系数据模型,所以来自远程源的数据的每个汇集必须作为具有合适类型的列的表向联合引擎描述。被建模为表的外部数据的汇集被称为绰号,并且其表名和列名用于由应用提交给联合的SQL。绰号经由CREATENICKNAME语句被标识。下面的语句为关于天气的信息的汇集建立了绰号,并且标识了可用于查询的“列”。
“OPTIONS”子句仍是传递包装器需要的信息的方式,这次是为了针对绰号处理查询。
除了存储数据之外,许多数据源还能够执行专门的搜索或其他计算。这些能力可在SQL中被描述为用户定义的函数。
用户定义的函数被外部数据源实现为映射函数。再次地,映射函数经由DDL语句向联合系统标识。CREATE FUNCTION语句告知联合数据库这是可在SELECT语句内出现的函数。
AS TEMPLATE子句告知联合函数该函数没有本地实现。接下来,CREATE FUNCTION MAPPING语句告知联合系统什么服务器可对该函数求值。可为相同函数建立一些函数映射。对于我们的示例,下面的语句完成映射。
DDL语句产生描述关于绰号以及映射函数的签名的信息的元数据。此元数据被联合查询处理引擎使用,并存储在联合数据库的全局目录内。
图8内示出元数据和查询的实际设计,该设计包括首先确定数据源服务器的模式和元数据配置的步骤201。下一步是列举可用资源203,并列举安全性和机密性需求205。它们用于根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算最优的联合数据库管理系统设计207;并设计最优的联合数据库管理系统。
可用资源的确定包括确定人员、技能集、网络能力、计算设备、预算、时间约束、软件系统、数据库管理系统应用程序接口和存储器。
确定安全性和机密性需求包括确定例如由健康保险便携性和隐私法案以及其他法令和契约限制强加的病历机密性。
设计最优的联合数据库管理系统的最终步骤使用实体统一化方案、共形维度、聚合方案,统一的元数据以及统一的数据模型中的一个或多个。
在联合系统被配置之后,应用可向联合服务器提交用SQL写的查询。联合服务器优化该查询,开发其中查询被分解成可在各个数据源上执行的片段的执行计划。如上所述,查询的很多分解都是可能的,并且优化器根据最小的预计总资源消耗在其中进行选择。一旦已选择计划,联合服务器就会驱动执行,调用包装器来执行分配给它们的片段。为了执行片段,包装器执行完成工作所需要的任何数据源操作,这可能是被提交给数据源的用本机查询语言写成的一系列函数调用或查询。得到的数据流被返回联合服务器,该服务器组合这些数据流,执行任何另外的不能被数据源完成的处理,并将最终结果返回应用。
如图9所示,该方法包括向与联合服务器相关联的应用提交查询的步骤301。随后是在联合服务器内优化该查询的步骤303。接下来,将该查询分解成用于在各个数据源执行的片段305,并调用包装器来执行片段307。下一步,将数据流返回联合服务器309。组合返回的数据流并执行数据源没有完成的任何另外的处理311。将最终结果返回与联合服务器相关联的应用313。
解决方案的实际优化包括首先优化优化技术和工具的选择,然后使用优化工具和技术的优化选择获得最优或相对最优的解决方案。图10示出从约束变量和约束的输入通过对约束和变量的分析到优化所述优化工具和技术并执行优化的判定树。
这样,可将数据与优化工具和技术相匹配,即将变量和约束与ETL或联合或它们的混合相匹配。图10的判定树包括查看每种数据类型,查看模型,查看元数据,并优化以得到初始的一组可行的方法和工具,然后得到初始的一组最优或近似最优的解决方案。通常,随后逐步调整加权函数和目标函数。
在此上下文中,优化可包括从数据库将有限的数据提取到中间和虚拟表,并从中间和虚拟表提取选择的数据以便进一步处理。这避免了在机密或受限数据上进行处理。
在图11的流程图示出的本发明的优选示例中,利用数据库联合和“提取、转换和加载”(“ETL”)数据库管理系统的协作401来查询、搜索和选择性地提取数据403,呈现数据405,然后使用复杂优化例如整数规划、混合整数规划、试探法和人工智能等技术进行数据分析和呈现407。这些步骤可包括试探法。另外,数据分析和呈现的步骤可得出这样的结果,该结果指示不可得到数值结果,或者需要另外的数据,或者候选解决方案集合需要人为干预409,并且如果这样指示的话请求另外的数据411。
查询、搜索和选择性提取数据的步骤遵守具体化和呈现上的约束执行。作为示例而不是限制,这些约束包括私密个人数据例如性传播疾病的存在或不存在、遗传异常的存在或不存在乃至信誉度。
类似地,所述约束可包括制度上机密的数据例如何人将执行工作、资源分配和提交、预算、技能集、策略、费用分摊、代替现金支付的实物捐献、输入和输出的时间约束。另外,在临床、测试或流行病学上下文中,信息传递可被法律例如HIPP限制和私人限制约束。
所述约束可促使数据仅短暂地和暂时地可用,并且仅能实时使用。这可避免具体化。类似地,可通过仅将数据库主密钥和私人识别标记(personal identification indicia)登记在永不会具体化的虚拟表中来保持它们机密。
数据输入可以是一部分一部分的,这可能是由于数据库联合或数据接口。对数据输入的约束可被资源或预算驱动。
通常,联合系统可用于存在多个数据源并且需要组合来自这些源的信息的任何场合。
医学研究、药物测试、临床护理和学术研究等等是多位置活动,这种活动意味着需要协调在全世界的多个位置的活动。例如,医药公司可能在欧洲和美国具有实验室。每个实验室都具有寻找新药物以对抗特定疾病的科学家。这些科学家都必须访问存储在专用系统内的化合物数据库,所述系统允许用化合物的特定特性或化学结构(结构相似性)进行搜索。在两个实验室中,科学家进行化合物的高吞吐量筛选以测试它们针对不同生物学目标的有效性。这些测试的结果存储在每个实验室的关联数据库中。科学家访问的其他数据源包括基因组和蛋白质组(proteomic)信息的大的平面文件,临床试验或疾病过程的多维结果,患者数据库,数据和分析的电子表格,图像和文本文档。
例如,不同实验室中的科学家具有不同但关联的任务,追求不同但关联的治疗或处理。这导致他们进行不同的试验,并专注于特定的多组化合物。但是,同一种化合物往往可对不同目标是有用的,并且有时一个测试可对于其他测试的结果是好的指示。因此,重要的是,一个实验室中的科学家能够访问在另一个实验室产生的数据以便不进行重复工作。尽管这可通过建立包含所有化合物数据和测试结果的大仓库实现,但是此方法存在一些缺点。首先,测试结果数据快速变化,每天都会从大西洋两侧添加成千上万的记录,这使得难以维护。其次,或者仓库必须在两个地点被复制,或者某一地点必须承受较慢的访问数据的性能。复制会增加解决方案的成本以及维护的复杂性。第三,需要将今天存储在专门储存库内的化合物数据迁移到关系数据库,包括重新实现搜索算法以及任何现有的应用。
联合解决方案消除了这些问题。数据保留在现有数据源中,同时它们的本机访问路径未改变,当前应用未改变地运行。但是,可容易地构建不管洲、元数据或模式如何均可从任何源访问数据的应用。本地数据依然是本地的,以便进行快速访问。根据需要,仍可访问较不经常使用的远程数据,并且可由联合服务器优化查询以确保尽可能高效地检索它们。如果需要的话,对于被两个实验室频繁访问的数据的那些部分仍可使用复制。
如果用户可在多个不同数据库上工作,包括选择、插入、更新和删除,就好像所有表都位于单个数据库内似的,则可大大提高生产率。数据库联合正好可这样做:它使得表看上去象都位于相同数据库内。
联合系统在远程系统即“数据源”内的表上操作。该远程表在联合数据库服务器112数据库内表现为虚拟表。客户机应用程序可在联合数据库服务器112数据库内的虚拟表上执行操作,但是,真正的持久存储位于远程数据库121、125内。
每个后端数据源121、125将联合数据库服务器112仅看作另一个数据库客户机连接。后端数据源121、125仅服务于对数据库操作的客户机请求。联合数据库服务器112需要客户机软件来访问每个远程数据库。IBM
Figure G2007101077462D00141
Sybase、Oracle等的客户机软件需要被安装以访问每种后端数据源121、125。
到数据库联合的应用接口是SQL。这与必须学习一种新的接口相比,可大大提高生产率。可使用与本地表相同的用于选择、插入、更新和删除的语法访问远程表。并不是所有表操作都可进行,但是DB2 v8内的Information Integrator通过提供插入和更新功能而前进了一大步。
“包装器”定义了理解如何与后端数据源数据库121、125通信的库文件(其中库在图7中表示为元件114)。它使用客户机连接软件来访问远程数据库。
存在两种定义包装器的方法,使用SQL或在DB2v8内使用图形用户界面(GUI)。
使用SQL形成包装器的示例如下所示:
|CREATE WRAPPER“INFORMIX”LIBRARY‘db2informix.dll’;|
GUI向导是从控制中心发起的。
下面给出SQL的示例:
CREATE SERVER“rcfliif”
TYPE INFORMIX VERSION‘9.3’
WRAPPER“INFORMIX”OPTIONS(NODE‘fliif’,
DBNAME‘stores_demo’
,ADD CPU_RATIO‘1’
,ADD IO_RATIO‘1’
,ADD COMM_RATE‘1’
,ADD DB2_MAXIMAL_PUSHDOWN‘Y’
);
NODE指定了远程数据库服务器并且不是TCP/IP主机名。DBNAME定义了远程数据库。
PUSHDOWN是默认的,其指示联结应该在远程服务器上发生。在后面将对此进行测试并查看一些数据库优化器解释计划(explain plan)。
本发明例如可通过具有这样的系统实现,该系统用于通过在一个或一组专用处理器中或者在具有专用代码的一个或一组专用处理器中执行作为软件应用的方法从联合数据库管理系统搜索、提取、转换、加载和呈现数据。该代码执行一系列机器可读指令,所述指令也被称为代码。这些指令可位于不同类型的信号承载介质内。在此方面,本发明的一个方面涉及一种包括有形地包含机器可读指令的程序的信号承载介质或信号承载媒体的程序产品,所述机器可读指令的程序可被数字处理装置执行以执行作为软件应用的用于从联合数据库管理系统搜索、提取、转换、加载和呈现数据的方法。
该信号携带介质可包括例如服务器中的存储器。服务器中的存储器可以是非易失性的存储器、数据盘乃至用于下载到处理器以便安装的厂商服务器上的存储器。或者可选择地,所述指令可被包含在信号承载介质例如光数据存储盘内。或者可选择地,所述指令可存储在多种机器可读数据存储介质或媒体中的任何一个上,所述机器可读数据存储介质或媒体可包括例如“硬盘驱动器”、RAID阵列、RAMAC、磁数据存储软盘(例如软盘)、磁带、数字光带、RAM、ROM、EPROM、EEPROM、闪速存储器、磁光存储器、纸制穿孔卡片,或任何其他合适的信号承载介质,包括传输介质,例如可以是电的、光的和/或无线的数字和/或模拟通信链路。作为示例,机器可读指令可包含从语言例如“C++”、Java、Pascal、ADA、汇编程序等编译的软件目标代码。
另外,程序代码例如可被压缩、加密或进行这两个操作,并且可如在Zip代码和cab代码内包括可执行代码、脚本代码以及安装向导。如文中使用的,术语位于信号承载介质内或上的机器可读指令或代码包括所有上述运送手段。
尽管前面的公开示出本发明的许多例示性实施例,但是对于本领域的那些技术人员很明显,可实现许多修改和变型而不会背离被所附权利要求限定的本发明的范围。此外,尽管可用单数说明或要求保护本发明的元件,也设想了复数,除非明确地规定局限于单数。

Claims (8)

1.一种用于优化具有联合数据库服务器和多个数据源服务器的联合数据库管理系统的方法,该方法包括以下步骤:
a)确定数据源服务器的模式和元数据配置;
b)列举可用资源;
c)列举安全性和机密性需求;
d)根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算联合数据库管理系统;
e)设计最优的联合数据库管理系统,以及
f)提供用于包括用户试探和数据输入的用户输入的功能,
g)使用所述联合数据库管理系统执行查询时,通过优化器确定执行每个查询的最佳方式,其中优化器执行以下步骤:
(i)选择执行所述查询成本最小的策略;
(ii)确定与所述查询相关联的不同操作是应该由所述联合数据库服务器还是由所述数据源服务器来执行;以及
(iii)确定与所述查询相关联的所述不同操作的顺序。
2.根据权利要求1的方法,其中,可用资源包括人员、技能集、网络能力、计算设备、预算、时间约束、软件系统、数据库管理系统应用程序接口和存储器。
3.根据权利要求1的方法,其中,所述安全性和机密性需求包括病历机密性。
4.根据权利要求1的方法,还包括使用实体统一化方案、共形维度、聚合方案,统一的元数据以及统一的数据模型中的一个或多个设计最优的联合数据库管理系统。
5.一种用于优化具有联合数据库服务器和多个数据源服务器的联合数据库管理系统的系统,该系统包括:
a)确定数据源服务器的模式和元数据配置的装置;
b)列举可用资源的装置;
c)列举安全性和机密性需求的装置;
d)根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算联合数据库管理系统的装置;
e)设计最优的联合数据库管理系统的装置;
f)提供用于包括用户试探和数据输入的用户输入的功能的装置,以及
g)使用所述联合数据库管理系统执行查询时,确定执行每个查询的最佳方式的优化器,其中所述优化器包括:
(i)选择执行所述查询成本最小的策略的装置;
(ii)确定与所述查询相关联的不同操作是应该由所述联合数据库服务器还是由所述数据源服务器来执行的装置;以及
(iii)确定与所述查询相关联的所述不同操作的顺序的装置。
6.根据权利要求5的系统,其中,可用资源包括人员、技能集、网络能力、计算设备、预算、时间约束、软件系统、数据库管理系统应用程序接口和存储器。
7.根据权利要求5的系统,其中,所述安全性和机密性需求包括病历机密性。
8.根据权利要求5的系统,还包括使用实体统一化方案、共形维度、聚合方案,统一的元数据以及统一的数据模型中的一个或多个设计最优的联合数据库管理系统。
CN2007101077462A 2006-05-02 2007-04-29 优化联合数据库管理系统的方法和系统 Active CN101067823B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/416,973 2006-05-02
US11/416,973 US7523118B2 (en) 2006-05-02 2006-05-02 System and method for optimizing federated and ETL'd databases having multidimensionally constrained data

Publications (2)

Publication Number Publication Date
CN101067823A CN101067823A (zh) 2007-11-07
CN101067823B true CN101067823B (zh) 2010-06-02

Family

ID=38750745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101077462A Active CN101067823B (zh) 2006-05-02 2007-04-29 优化联合数据库管理系统的方法和系统

Country Status (2)

Country Link
US (1) US7523118B2 (zh)
CN (1) CN101067823B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089350B2 (en) 2014-10-30 2018-10-02 Red Hat, Inc. Proactive query migration to prevent failures

Families Citing this family (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865487B2 (en) * 2006-07-14 2011-01-04 Raytheon Company System and method for providing remote access to events from a database access system
US7647288B2 (en) * 2006-09-07 2010-01-12 International Business Machines Corporation System and method for optimally customizable and adaptive personalized information display for information associated with managing a chaotic event
US7653609B2 (en) 2006-09-07 2010-01-26 International Business Machines Corporation System and method for managing a chaotic event by optimizing decision subdivisions subject to multidimensional constraints
US7698246B2 (en) * 2006-09-07 2010-04-13 International Business Machines Corporation System and method for optimal and adaptive process unification of decision support functions associated with managing a chaotic event
US9202184B2 (en) 2006-09-07 2015-12-01 International Business Machines Corporation Optimizing the selection, verification, and deployment of expert resources in a time of chaos
US7647286B2 (en) * 2006-09-07 2010-01-12 International Business Machines Corporation System and method for managing a chaotic event by providing optimal and adaptive sequencing of decision sets with supporting data
US7630948B2 (en) * 2006-09-07 2009-12-08 International Business Machines Corporation System and method for managing a chaotic event
US7809660B2 (en) * 2006-10-03 2010-10-05 International Business Machines Corporation System and method to optimize control cohorts using clustering algorithms
US8055603B2 (en) 2006-10-03 2011-11-08 International Business Machines Corporation Automatic generation of new rules for processing synthetic events using computer-based learning processes
US8145582B2 (en) 2006-10-03 2012-03-27 International Business Machines Corporation Synthetic events for real time patient analysis
US20090287503A1 (en) * 2008-05-16 2009-11-19 International Business Machines Corporation Analysis of individual and group healthcare data in order to provide real time healthcare recommendations
US8190661B2 (en) * 2007-01-24 2012-05-29 Microsoft Corporation Using virtual repository items for customized display
US8145673B2 (en) * 2007-02-16 2012-03-27 Microsoft Corporation Easily queriable software repositories
US20080201330A1 (en) * 2007-02-16 2008-08-21 Microsoft Corporation Software repositories
US7853611B2 (en) * 2007-02-26 2010-12-14 International Business Machines Corporation System and method for deriving a hierarchical event based database having action triggers based on inferred probabilities
US7917478B2 (en) * 2007-02-26 2011-03-29 International Business Machines Corporation System and method for quality control in healthcare settings to continuously monitor outcomes and undesirable outcomes such as infections, re-operations, excess mortality, and readmissions
US7702605B2 (en) * 2007-02-26 2010-04-20 International Business Machines Corporation System and method for deriving a hierarchical event based database optimized for privacy and security filtering
US7788203B2 (en) * 2007-02-26 2010-08-31 International Business Machines Corporation System and method of accident investigation for complex situations involving numerous known and unknown factors along with their probabilistic weightings
US7970759B2 (en) 2007-02-26 2011-06-28 International Business Machines Corporation System and method for deriving a hierarchical event based database optimized for pharmaceutical analysis
US7831625B2 (en) 2007-05-16 2010-11-09 Microsoft Corporation Data model for a common language
US7930262B2 (en) 2007-10-18 2011-04-19 International Business Machines Corporation System and method for the longitudinal analysis of education outcomes using cohort life cycles, cluster analytics-based cohort analysis, and probabilistic data schemas
US7779051B2 (en) * 2008-01-02 2010-08-17 International Business Machines Corporation System and method for optimizing federated and ETL'd databases with considerations of specialized data structures within an environment having multidimensional constraints
US9652346B2 (en) * 2008-01-24 2017-05-16 Symcor Inc. Data consistency control method and software for a distributed replicated database system
US20090210422A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Secure Database Access
US8121858B2 (en) * 2008-03-24 2012-02-21 International Business Machines Corporation Optimizing pharmaceutical treatment plans across multiple dimensions
CA2719937C (en) 2008-04-04 2017-03-28 Landmark Graphics Corporation, A Halliburton Company Systems and methods for correlating meta-data model representations and asset-logic model representations
US10552391B2 (en) * 2008-04-04 2020-02-04 Landmark Graphics Corporation Systems and methods for real time data management in a collaborative environment
US8095963B2 (en) 2008-04-30 2012-01-10 Microsoft Corporation Securing resource stores with claims-based security
US20090299766A1 (en) * 2008-05-30 2009-12-03 International Business Machines Corporation System and method for optimizing medical treatment planning and support in difficult situations subject to multiple constraints and uncertainties
US8504505B2 (en) * 2008-10-31 2013-08-06 Caterpillar Inc. System and method for controlling an autonomous worksite
US8095571B2 (en) 2009-06-22 2012-01-10 Microsoft Corporation Partitioning modeling platform data
US20110046975A1 (en) * 2009-08-21 2011-02-24 Cerner Innovation, Inc. Dynamically adjusted rules-based decision support using site-specific mapped values
CN102053975A (zh) * 2009-10-30 2011-05-11 国际商业机器公司 数据库系统和跨数据库查询优化方法
US8200698B2 (en) 2009-10-30 2012-06-12 International Business Machines Corporation Optimizing distributed and hybrid queries incorporating trust measures
US8560365B2 (en) 2010-06-08 2013-10-15 International Business Machines Corporation Probabilistic optimization of resource discovery, reservation and assignment
US9646271B2 (en) 2010-08-06 2017-05-09 International Business Machines Corporation Generating candidate inclusion/exclusion cohorts for a multiply constrained group
US8968197B2 (en) 2010-09-03 2015-03-03 International Business Machines Corporation Directing a user to a medical resource
US8577915B2 (en) * 2010-09-10 2013-11-05 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
US9292577B2 (en) 2010-09-17 2016-03-22 International Business Machines Corporation User accessibility to data analytics
US8418184B2 (en) 2010-09-24 2013-04-09 International Business Machines Corporation Use of constraint-based linear programming to optimize hardware system usage
US8429182B2 (en) 2010-10-13 2013-04-23 International Business Machines Corporation Populating a task directed community in a complex heterogeneous environment based on non-linear attributes of a paradigmatic cohort member
US9443211B2 (en) 2010-10-13 2016-09-13 International Business Machines Corporation Describing a paradigmatic member of a task directed community in a complex heterogeneous environment based on non-linear attributes
US10318877B2 (en) 2010-10-19 2019-06-11 International Business Machines Corporation Cohort-based prediction of a future event
CN102135980B (zh) * 2010-12-21 2013-03-13 北京高森明晨信息科技有限公司 一种处理实时事务的方法及装置
CN102655514B (zh) * 2011-03-03 2014-05-28 江苏三棱科技发展有限公司 一种网络服务环境下求解线性服务组合前k优解的方法
CN103430144A (zh) * 2011-03-17 2013-12-04 惠普发展公司,有限责任合伙企业 数据源分析
US8775218B2 (en) 2011-05-18 2014-07-08 Rga Reinsurance Company Transforming data for rendering an insurability decision
US8799269B2 (en) 2012-01-03 2014-08-05 International Business Machines Corporation Optimizing map/reduce searches by using synthetic events
US9043255B2 (en) 2012-05-09 2015-05-26 International Business Machines Corporation Optimally configuring an information landscape
US9460200B2 (en) 2012-07-02 2016-10-04 International Business Machines Corporation Activity recommendation based on a context-based electronic files search
US8898165B2 (en) 2012-07-02 2014-11-25 International Business Machines Corporation Identification of null sets in a context-based electronic document search
US8903813B2 (en) 2012-07-02 2014-12-02 International Business Machines Corporation Context-based electronic document search using a synthetic event
US20140032608A1 (en) * 2012-07-30 2014-01-30 Gregory P. Comeau Database adapter
US9262499B2 (en) 2012-08-08 2016-02-16 International Business Machines Corporation Context-based graphical database
US8676857B1 (en) 2012-08-23 2014-03-18 International Business Machines Corporation Context-based search for a data store related to a graph node
US8959119B2 (en) 2012-08-27 2015-02-17 International Business Machines Corporation Context-based graph-relational intersect derived database
US9251237B2 (en) 2012-09-11 2016-02-02 International Business Machines Corporation User-specific synthetic context object matching
US9619580B2 (en) 2012-09-11 2017-04-11 International Business Machines Corporation Generation of synthetic context objects
US8620958B1 (en) 2012-09-11 2013-12-31 International Business Machines Corporation Dimensionally constrained synthetic context objects database
US9223846B2 (en) 2012-09-18 2015-12-29 International Business Machines Corporation Context-based navigation through a database
US8782777B2 (en) 2012-09-27 2014-07-15 International Business Machines Corporation Use of synthetic context-based objects to secure data stores
US9741138B2 (en) 2012-10-10 2017-08-22 International Business Machines Corporation Node cluster relationships in a graph database
IN2015DN02750A (zh) * 2012-10-19 2015-08-28 Ericsson Telefon Ab L M
CN103780646B (zh) * 2012-10-22 2017-04-12 中国长城计算机深圳股份有限公司 一种云资源的调度方法及系统
US8931109B2 (en) 2012-11-19 2015-01-06 International Business Machines Corporation Context-based security screening for accessing data
CN103902574A (zh) * 2012-12-27 2014-07-02 中国移动通信集团内蒙古有限公司 一种基于数据流技术的实时数据加载方法和装置
US8914413B2 (en) 2013-01-02 2014-12-16 International Business Machines Corporation Context-based data gravity wells
US9229932B2 (en) 2013-01-02 2016-01-05 International Business Machines Corporation Conformed dimensional data gravity wells
US8983981B2 (en) 2013-01-02 2015-03-17 International Business Machines Corporation Conformed dimensional and context-based data gravity wells
US9081826B2 (en) 2013-01-07 2015-07-14 Facebook, Inc. System and method for distributed database query engines
US9069752B2 (en) 2013-01-31 2015-06-30 International Business Machines Corporation Measuring and displaying facets in context-based conformed dimensional data gravity wells
US8856946B2 (en) 2013-01-31 2014-10-07 International Business Machines Corporation Security filter for context-based data gravity wells
US9053102B2 (en) 2013-01-31 2015-06-09 International Business Machines Corporation Generation of synthetic context frameworks for dimensionally constrained hierarchical synthetic context-based objects
US9292506B2 (en) 2013-02-28 2016-03-22 International Business Machines Corporation Dynamic generation of demonstrative aids for a meeting
US9110722B2 (en) 2013-02-28 2015-08-18 International Business Machines Corporation Data processing work allocation
US10489416B2 (en) * 2013-02-28 2019-11-26 Micro Focus Llc Optimizing and managing execution of hybrid flows
US10152526B2 (en) 2013-04-11 2018-12-11 International Business Machines Corporation Generation of synthetic context objects using bounded context objects
CN103309939B (zh) * 2013-04-23 2016-07-20 税友软件集团股份有限公司 一种基于元数据的动态检索方法及装置
US9348794B2 (en) 2013-05-17 2016-05-24 International Business Machines Corporation Population of context-based data gravity wells
US9195608B2 (en) 2013-05-17 2015-11-24 International Business Machines Corporation Stored data analysis
CN105164674A (zh) * 2013-08-29 2015-12-16 惠普发展公司,有限责任合伙企业 涉及多个数据库和执行引擎的查询
US9262476B2 (en) 2014-01-10 2016-02-16 Red Hat, Inc. System and method for batch query processing
US9824185B2 (en) * 2014-08-08 2017-11-21 Practice Fusion, Inc. Electronic health records data management systems and methods
US10067978B2 (en) 2014-10-07 2018-09-04 Oracle International Corporation Plug-in architecture of business intelligence platform using data source cartridges
US10108744B2 (en) 2014-10-07 2018-10-23 Oracle International Corporation Administrative tool and physical execution plan interface for plug-in architecture of business intelligence platform using data source cartridges
US10452634B2 (en) * 2016-02-01 2019-10-22 Microsoft Technology Licensing, Llc Provide consumer oriented data service
US10432716B2 (en) 2016-02-29 2019-10-01 Bank Of America Corporation Metadata synchronization system
US10452656B2 (en) * 2016-03-31 2019-10-22 Sap Se Deep filter propagation using explicit dependency and equivalency declarations in a data model
CN106547849B (zh) * 2016-10-18 2019-11-26 华南师范大学 一种满足租户差异化需求的多租户数据库的构建方法
US10469324B2 (en) * 2016-11-22 2019-11-05 Amazon Technologies, Inc. Virtual network verification service
US10754868B2 (en) 2017-01-20 2020-08-25 Bank Of America Corporation System for analyzing the runtime impact of data files on data extraction, transformation, and loading jobs
US10430395B2 (en) 2017-03-01 2019-10-01 International Business Machines Corporation Iterative widening search for designing chemical compounds
WO2018170276A2 (en) * 2017-03-15 2018-09-20 Fauna, Inc. Methods and systems for a database
US10558640B2 (en) * 2017-04-10 2020-02-11 International Business Machines Corporation Dynamically adding custom data definition language syntax to a database management system
US10719308B1 (en) 2017-11-06 2020-07-21 Allscripts Software, Llc System and method for dynamically monitoring a configuration of a server computing device
US10416661B2 (en) 2017-11-30 2019-09-17 Abb Schweiz Ag Apparatuses, systems and methods of secure cloud-based monitoring of industrial plants
KR101982085B1 (ko) * 2018-04-25 2019-05-27 주식회사쿠콘 스크립트 엔진을 이용한 데이터 스크래핑 시스템, 방법 및 컴퓨터 프로그램
US11824870B2 (en) 2018-12-19 2023-11-21 Abnormal Security Corporation Threat detection platforms for detecting, characterizing, and remediating email-based threats in real time
US11431738B2 (en) 2018-12-19 2022-08-30 Abnormal Security Corporation Multistage analysis of emails to identify security threats
US11050793B2 (en) 2018-12-19 2021-06-29 Abnormal Security Corporation Retrospective learning of communication patterns by machine learning models for discovering abnormal behavior
US11457074B2 (en) * 2019-03-29 2022-09-27 Microsoft Technology Licensing, Llc Using outcome-targeted gap predictions to identify a digital resource
US11650982B2 (en) * 2019-04-01 2023-05-16 Sap Se Automatic selection of precompiled or code-generated operator variants
US11470042B2 (en) 2020-02-21 2022-10-11 Abnormal Security Corporation Discovering email account compromise through assessments of digital activities
US11477234B2 (en) 2020-02-28 2022-10-18 Abnormal Security Corporation Federated database for establishing and tracking risk of interactions with third parties
US11790060B2 (en) 2020-03-02 2023-10-17 Abnormal Security Corporation Multichannel threat detection for protecting against account compromise
US11252189B2 (en) 2020-03-02 2022-02-15 Abnormal Security Corporation Abuse mailbox for facilitating discovery, investigation, and analysis of email-based threats
WO2021183939A1 (en) 2020-03-12 2021-09-16 Abnormal Security Corporation Improved investigation of threats using queryable records of behavior
EP4139801A1 (en) 2020-04-23 2023-03-01 Abnormal Security Corporation Detection and prevention of external fraud
CN112182028A (zh) * 2020-09-29 2021-01-05 北京人大金仓信息技术股份有限公司 基于分布式数据库的表的数据行数查询方法和装置
US11528242B2 (en) 2020-10-23 2022-12-13 Abnormal Security Corporation Discovering graymail through real-time analysis of incoming email
US11687648B2 (en) 2020-12-10 2023-06-27 Abnormal Security Corporation Deriving and surfacing insights regarding security threats
CN112597225A (zh) * 2020-12-22 2021-04-02 南京三眼精灵信息技术有限公司 基于集散模型的数据采集方法及装置
CN113055393B (zh) * 2021-03-26 2022-08-26 支付宝(杭州)信息技术有限公司 一种安全服务化方法、装置以及设备
US11831661B2 (en) 2021-06-03 2023-11-28 Abnormal Security Corporation Multi-tiered approach to payload detection for incoming communications
CN113742370B (zh) * 2021-11-02 2022-04-19 阿里云计算有限公司 全加密数据库的数据查询方法、统计信息密文生成方法
WO2023091418A1 (en) * 2021-11-16 2023-05-25 Liveramp, Inc. Privacy preserving federated query engine

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167405A (en) * 1998-04-27 2000-12-26 Bull Hn Information Systems Inc. Method and apparatus for automatically populating a data warehouse system
CN1612138A (zh) * 2003-10-31 2005-05-04 国际商业机器公司 研究数据仓储库系统与方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4533974B2 (ja) * 1996-08-01 2010-09-01 康 清木 異種データベース統合システム
US6353818B1 (en) * 1998-08-19 2002-03-05 Ncr Corporation Plan-per-tuple optimizing of database queries with user-defined functions
US7152070B1 (en) * 1999-01-08 2006-12-19 The Regents Of The University Of California System and method for integrating and accessing multiple data sources within a data warehouse architecture
US20010051881A1 (en) * 1999-12-22 2001-12-13 Aaron G. Filler System, method and article of manufacture for managing a medical services network
EP1311943A2 (en) * 2000-03-31 2003-05-21 BRITISH TELECOMMUNICATIONS public limited company Resource creation method and tool
US7191183B1 (en) * 2001-04-10 2007-03-13 Rgi Informatics, Llc Analytics and data warehousing infrastructure and services
US7047253B1 (en) * 2001-09-28 2006-05-16 Oracle Interntional Corporation Mechanisms for storing content and properties of hierarchically organized resources
US7457810B2 (en) * 2002-05-10 2008-11-25 International Business Machines Corporation Querying markup language data sources using a relational query processor
US7500150B2 (en) * 2005-12-30 2009-03-03 Microsoft Corporation Determining the level of availability of a computing resource

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167405A (en) * 1998-04-27 2000-12-26 Bull Hn Information Systems Inc. Method and apparatus for automatically populating a data warehouse system
CN1612138A (zh) * 2003-10-31 2005-05-04 国际商业机器公司 研究数据仓储库系统与方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089350B2 (en) 2014-10-30 2018-10-02 Red Hat, Inc. Proactive query migration to prevent failures

Also Published As

Publication number Publication date
CN101067823A (zh) 2007-11-07
US7523118B2 (en) 2009-04-21
US20070276851A1 (en) 2007-11-29

Similar Documents

Publication Publication Date Title
CN101067823B (zh) 优化联合数据库管理系统的方法和系统
US7853624B2 (en) System and method for optimizing distributed and hybrid queries in imperfect environments
Haas Beauty and the beast: The theory and practice of information integration
US9449034B2 (en) Generic ontology based semantic business policy engine
US5560005A (en) Methods and systems for object-based relational distributed databases
US8041760B2 (en) Service oriented architecture for a loading function in a data integration platform
US9569725B2 (en) Techniques for extracting semantic data stores
US20050262193A1 (en) Logging service for a services oriented architecture in a data integration platform
US20050223109A1 (en) Data integration through a services oriented architecture
US20050235274A1 (en) Real time data integration for inventory management
US20050262189A1 (en) Server-side application programming interface for a real time data integration service
US20050240592A1 (en) Real time data integration for supply chain management
US20050262188A1 (en) Multiple service bindings for a real time data integration service
US20050240354A1 (en) Service oriented architecture for an extract function in a data integration platform
US20050232046A1 (en) Location-based real time data integration services
US20050262190A1 (en) Client side interface for real time data integration jobs
EP1815349A2 (en) Methods and systems for semantic identification in data systems
Zhang et al. Holistic evaluation in multi-model databases benchmarking
Silberschatz et al. Database systems—breaking out of the box
CN101438269B (zh) 用于提供托管定制垂直应用的方法和装置
Nadal et al. Operationalizing and automating data governance
Fan et al. DIRECT: a system for mining data value conversion rules from disparate data sources
Mohania et al. New trends in information integration
Kappel et al. Database requirements for CIM applications
Hammer et al. Data warehousing at the crossroads

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211110

Address after: USA New York

Patentee after: Qindarui company

Address before: USA New York

Patentee before: International Business Machines