CN100463411C - 用在群集计算机装置的节点处的控制器及其操作方法 - Google Patents

用在群集计算机装置的节点处的控制器及其操作方法 Download PDF

Info

Publication number
CN100463411C
CN100463411C CNB2006100019376A CN200610001937A CN100463411C CN 100463411 C CN100463411 C CN 100463411C CN B2006100019376 A CNB2006100019376 A CN B2006100019376A CN 200610001937 A CN200610001937 A CN 200610001937A CN 100463411 C CN100463411 C CN 100463411C
Authority
CN
China
Prior art keywords
lease
component
control
layer
trooping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100019376A
Other languages
English (en)
Other versions
CN1812341A (zh
Inventor
C·F·芬特
W·J·斯凯尔斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1812341A publication Critical patent/CN1812341A/zh
Application granted granted Critical
Publication of CN100463411C publication Critical patent/CN100463411C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种用在群集计算机装置的节点处的控制器,所述控制器包括:异常检测组件,用于检测由服务组件在所述节点处引起的异常;响应于所述异常检测组件的停顿组件,用于在终止租约之前停顿由所述服务组件进行的租约管理的活动;响应于所述停顿组件的租约控制组件,用于所述租约的到期前放弃;以及响应于所述租约控制组件的通信组件,用于将所述租约的到期前放弃通知所述群集计算机装置的一个或多个其他节点。所述控制器还可以包括:用于接收指示租约的到期前放弃的通信的其他通信组件;响应于所述通信来控制故障处理的其他租约控制组件;以及在所述节点处代替所述服务组件来执行服务的其他服务组件。

Description

用在群集计算机装置的节点处的控制器及其操作方法
技术领域
本发明涉及在存储装置中控制故障转移,更具体地说,涉及在群集的存储装置网络中控制故障转移。
背景技术
计算机系统的群集的概念在本领域中是公知的。尽管如此,对背景的简述可以有助于以其优选实施例来理解本发明。
群集包括一组共同运行以便为一个或多个客户机或应用提供服务的计算机系统(此后称为“节点”)。群集系统的好处之一是具有在群集内的一个或多个节点出现故障时继续运行的能力:在群集内的某些节点出现故障的情况下,由这些节点执行的工作被重新分配给群集的完好成员。即使节点出现故障,群集仍继续为其客户机提供服务,尽管通常具有降低的性能。
对于多数群集系统来说,有必要防止被分成两组节点的群集允许这两组节点作为独立的群集继续运行。通常通过引入定额(群集继续运行所必需的节点的最小集合)的概念来解决此问题。当一群节点被划分成两组时,其中一组将保持定额并将继续运行,而另一组将不符合定额并停止参与到群集中。为了实现此目的,群集中的每个节点需要检查在其处理服务请求时其是否仍是所述定额的一部分,以便节点一确定其位于不符合定额的组中就立刻停止参与群集。这通常可以通过使用心跳或租约来实现。作为控制连接的系统的手段的心跳或租约的概念是本领域中公知的,但是,为了更好地理解本公开,此处提供了关于租约的相关概念的简介。
租约允许节点在无需引用其群集伙伴来为每个请求服务的情况下代表所述群集提供服务。租约定义了时限时段,在此期间,节点可以在无需进一步引用所述伙伴的情况下提供服务。可以使用不经常发生的消息来延长租约,以便节点可以继续长时间地提供服务。在与已被授予租约的节点的通信丢失的情况下,现有技术的伙伴节点在确信所述节点已停止参与群集并允许将工作从故障节点转移到群集内的完好节点之前,通常将等待一段不少于租约的时间。
租约的概念在群集系统中尤其具有价值,所述系统必须呈现某些不断改变的信息的连贯映像,并且其中必须以最小成本(当然,小于与其他节点通信所需的成本)来为查看该信息的请求提供服务。
租约时间定义了其间服务在故障后不可用的最小时段(此后称为“故障转移时间”)。即使短期的不可用也将呈现为系统运行中的故障,这将降低客户满意度。最小化此时间可以提高系统的质量。群集使用的租约时间越短,故障转移时间就越快。但是,租约时间越短,群集内的节点需要延长租约就越频繁,并且因此用于维持租约的开销就越大。最小租约时间还受节点间的通信速度的限制-租约时间不能小于传送租约延长所花费的时间。因此,尽管希望具有很短的租约时间来最小化故障转移时间,但是实际上这通常是不可能的。
使用租约来管理系统确保了在面对几乎任何故障时都能正确运行(这取决于时钟的正确运行)。但是,这是一种相当保守的措施,并且存在一类特定的系统故障,所述故障是常见的并且希望避免租约操作的开销,即,由“断言”所导致的软件故障-一种形式的故障,其中软件自身检测到某些非法或意外的情况并判定退出并重新启动比继续运行更安全。
用于在基于租约的系统中改善故障转移时间的常规方法是使租约时间尽可能地短。此方法的缺点在于租约需要被更新的越频繁,用于维护租约的开销就越高。最小租约时间不能小于传送租约延长所花费的时间。许多群集系统需要专用硬件来允许群集中的节点尽可能快地传送租约延长。
发明内容
在第一方面中,本发明提供了一种用在群集计算机装置的节点处的控制器,所述控制器包括:异常检测组件,用于检测由服务组件在所述节点处引起的异常;响应于所述异常检测组件的停顿(quiesce)组件,用于在终止租约之前停顿由所述服务组件进行的租约管理的活动;响应于所述停顿组件的租约控制组件,用于所述租约的到期前放弃;以及响应于所述租约控制组件的通信组件,用于将所述租约的所述到期前放弃通知所述群集计算机装置的一个或多个其他节点。
所述控制器还可以包括:用于接收指示租约的到期前放弃的通信的其他通信组件;响应于所述通信来控制故障处理的其他租约控制组件;以及在所述节点处代替所述服务组件来执行服务的其他服务组件。
优选地,所述异常检测组件、所述停顿组件和所述租约控制组件都位于高于群集层的层中,并且所述通信组件位于所述群集层中。
优选地,所述其他通信组件位于群集层中,并且所述其他租约控制组件和所述其他服务组件位于高于所述群集层的层中。
所述控制器优选地适合于控制存储装置。
所述控制器优选地适合于控制所述存储装置的虚拟化。
在第二方面中,本发明提供了一种操作用在群集计算机装置的节点处的控制器的方法,所述方法包括以下步骤:由异常检测组件检测由所述节点处的服务组件引起的异常;由响应于所述异常检测组件的停顿组件在终止租约之前停顿由所述服务组件进行的租约管理的活动;由响应于所述停顿组件的租约控制组件在到期前放弃所述租约;以及由响应于所述租约控制组件的通信组件将所述租约的所述到期前放弃通知所述群集计算机装置的一个或多个其他节点。
所述方法优选地还包括以下步骤:由其他通信组件接收指示租约的到期前放弃的通信;由响应于所述通信的其他租约控制组件控制故障处理;以及由其他服务组件替代所述节点处的所述服务组件来执行服务。
优选地,所述检测、停顿和到期前放弃的步骤在高于群集层的层中执行,并且所述通知步骤在所述群集层中执行。
优选地,所述接收步骤在群集层中执行,并且所述控制和执行服务的步骤在高于所述群集层的层中执行。
所述方法优选地还包括控制存储装置。
所述方法优选地还包括控制所述存储装置的虚拟化。
在第三方面中,本发明提供了一种包括计算机程序代码的计算机程序,当所述程序被加载到计算机系统中并在其上被执行时,所述计算机程序代码导致所述计算机系统执行根据所述第二方面的方法的诸步骤。
本发明的优选实施例在处理所述异常情况的层拦截软件,并在此步骤插入额外的处理。所述额外的步骤包括:确保本地节点上的软件被正确地停顿,以便不再需要租约;发送消息给所述系统中的其他节点以告知该节点已被正确地停顿并且不再参与所述群集;以及允许所述群集中的其他节点在接收到该消息的基础上继续运行而无需等待所述租约到期。
在一种优选实现中,所述软件可以被看作两个元素:包括消息传送的群集层和提供依赖于所述群集的服务的高级应用软件层。所述高级软件对由于软件导致的系统故障的显著百分比负责。因此,有利地,本发明的优选实施例处理并改进了此类系统中的故障的比重。
当在高级层中检测到异常的情况下,处理异常的软件以这样的方式停顿高级软件的操作:可以确保已经停止了所有与租约相关的活动。一旦成功完成了此过程,异常处理代码就调用所述群集层以告知其所述系统已被停顿。然后,所述群集层在故障节点退出之前通过发送消息来通知伙伴节点该节点正在从容地退出。
所述伙伴节点接收来自故障节点的消息,并重置(设置为零)指示剩余租约时间的计时器。然后,它们如平常那样处理节点的故障,但忽略等待租约到期的阶段。
通过这样以“受控的”方式而不是“无控制的”方式来传送与故障关联的服务,可以避免不可用的租约时段。此传送必须确保所述服务被以受控的方式关闭,并且确保停止的节点在所述服务被在第二节点上开始之前传递此传送。
有利地,本发明的优选实施例在所述故障节点退出以确保群集的正确运行之前不要求所述消息的有保证的传输。如果软件故障严重到不能传送消息,则如现有技术的公知系统中那样,当所述故障节点的租约到期时发生故障转移。这意味着如果本发明的实现只能在N%的时间成功地传送消息,则对于N%的节点故障,所述群集将具有更快的故障转移时间,并且对于剩余的节点故障,将根据常规处理具有更长的基于租约的故障转移时间。
附图说明
现在将参考附图仅以实例的方式来描述本发明的优选实施例,这些附图是:
图1以示意图的形式示出了其中可以实现本发明的一类装置;以及
图2示出了用于根据本发明的优选实施例来操作控制器的方法的流程图。
具体实施方式
现在转到图1,图1示出了其中可以实现本发明的优选实施例的示例性装置。
图1示出了用在群集计算机装置的节点104处的控制器102。控制器102包括用于检测由服务组件108在节点104处引起的异常的异常检测组件106、用于在终止其租约之前停顿由服务组件108进行的租约管理的活动的响应于异常检测组件106的停顿组件110。所述控制器还包括用于在到期前放弃所述租约的响应于停顿组件110的租约控制组件112,以及用于将所述租约的所述到期前放弃通知所述群集计算机装置的一个或多个其他节点116的响应于租约控制组件112的通信组件114。
图1中示出的控制器还可以包括用于接收指示租约的到期前放弃的通信的其他通信组件114’;响应于所述通信以控制故障处理的其他租约控制组件112’;以及在原始节点104处代替原始服务组件108来执行服务的其他服务组件108’。
本领域的普通技术人员将从上述内容中明白,虽然按照分离组件描述了本发明的优选实施例的功能要素,但是它们可以以集成或分离组件的各种组合来被同等地实现,所述组件可以通过电气或电子装置或通过任何用于在其间传送控制和信息的等同装置来链接。
在优选实施例中,图1的控制器同时包括实现节点1的功能的组件和实现节点2的功能的那些组件。本领域的普通技术人员将明白,虽然这是优选地,但是所述功能可以根据各个系统的要求而分离。
现在转到图2,图2示出了其中可以实现本发明的优选实施例的由租约管理的系统的流程图。
通常,方法开始于步骤202,并且在步骤203,等待租约(可以新进授予或更新租约),如在根据现有技术的常规系统中那样。当建立租约时,在步骤204,启动一个或多个租约管理的服务。通常,在步骤206,还执行测试以判定租约是否到期。如果是,则处理以常规方式在步骤207停顿所述服务并继续到结束步骤208。如果租约尚未到期,则在步骤210执行测试以判定通信节点是否已放弃了租约。如果是,则在步骤212处理故障并且在步骤214由可替代节点执行服务。然后,所述过程返回步骤206的测试并继续。本领域的技术人员将明白,在多处理器系统中,所述服务可以由同一节点等同地执行,但是在可替代处理器中执行。对于本领域的技术人员,各种变化和修改将是很自然的。然后,所述过程以常规的方式继续到结束步骤208。
如果在步骤210没有检测到放弃的租约,则执行测试以判定是否在本地软件服务层中检测到异常。如果没有,则过程通过返回步骤206之前的点来继续。如果检测到异常,则在步骤218停顿所述服务。在完成停顿过程后,在步骤220放弃未到期的租约。在步骤222,将已放弃了租约的通知通知通信节点,并且过程在结束步骤208完成。在所述通信节点中,如上所述,在步骤210检测所述通知,并且处理如先前描述的那样继续。
因此,总的来说,示出了一种操作用在群集计算机装置的节点处的控制器的方法,所述方法包括以下步骤:由异常检测组件检测由服务组件在所述节点处引起的异常;由响应于所述异常检测组件的停顿组件在终止租约之前停顿由所述服务组件进行的租约管理的活动;由响应于所述停顿组件的租约控制组件在到期前放弃所述租约;以及由响应于所述租约控制组件的通信组件将所述租约的所述到期前放弃通知所述群集计算机装置的一个或多个其他节点。
节点还可以适合于执行以下附加步骤:由其他通信组件接收指示租约的到期前放弃的通信;由响应于所述通信的其他租约控制组件控制故障处理;以及由其他服务组件在所述原始节点处代替所述服务组件来执行服务。
本领域的技术人员将明白,本发明的方法可以合适地包含在逻辑设备中,所述逻辑设备包括逻辑装置以执行所述方法的诸步骤,并且此类逻辑装置可以包括硬件组件或固件组件。
可以理解,上述方法也可以合适地在运行在一个或多个处理器(未示出)上的软件中全部或部分地被执行,并且所述软件可以作为在任何适合的数据承载器(未示出)(如磁或光计算机盘)上携带的计算机程序元素来被提供。用于同样地传输数据的通道可以包括具有各种描述的存储介质以及信号承载介质(如有线或无线信号介质)。
本发明可以被合适地实现为与计算机系统一起使用的计算机程序产品。此类实现可以包括一系列计算机可读指令,所述指令可以固定在有形介质(如计算机可读介质,例如,软盘、CD-ROM、ROM或硬盘)上或可经由调制解调器或其他接口设备通过有形介质(包括但不限于,光或模拟通信线路)或使用无线技术(包括但不限于,微波、红外线或其他传输技术)无形地传输到计算机系统。所述系列的计算机可读指令包含本文先前描述的全部或部分功能。
本领域的技术人员将理解,此类计算机可读指令可以以多种编程语言来编写以便与多种计算机体系结构或操作系统一起使用。进而,可以使用任何现有的或将来的存储器技术(包括但不限于,半导体、磁或光)来存储此类指令,或使用任何现有的或将来的通信技术(包括但不限于,光、红外线或微波)来传输此类指令。构想了此类计算机程序产品可以作为可移动介质随附带的印刷或电子文档来分发,例如,使用计算机系统预先加载到例如系统ROM或固定盘上的紧缩套装软件,或通过例如因特网或万维网的网络从服务器或电子公告栏分发。
将进一步理解,可以以代表客户部署以便提供异地灾难恢复服务的服务的形式来提供本发明的实施例。
还将理解,对于本领域的技术人员来说,对上述优选实施例的各种进一步修改将是显而易见的。

Claims (12)

1.一种用在群集计算机装置的节点处的控制器,所述控制器包括:
异常检测组件,所述异常检测组件用于检测由服务组件在所述节点处引起的异常;
响应于所述异常检测组件的停顿组件,所述停顿组件用于在终止租约之前停顿由所述服务组件进行的租约管理的活动;
响应于所述停顿组件的租约控制组件,所述租约控制组件用于在到期前放弃所述租约;以及
响应于所述租约控制组件的通信组件,所述通信组件用于将所述租约的到期前放弃通知所述群集计算机装置的一个或多个其他节点。
2.如权利要求1中所述的控制器,还包括:
其他通信组件,所述其他通信组件用于接收指示租约的到期前放弃的通信;
其他租约控制组件,所述其他租约控制组件响应于所述通信来控制故障处理;以及
其他服务组件,所述其他服务组件在所述节点处代替所述服务组件来执行服务。
3.如权利要求1中所述的控制器,其中所述异常检测组件、所述停顿组件以及所述租约控制组件位于高于群集层的层中,并且所述通信组件位于所述群集层中。
4.如权利要求2中所述的控制器,其中所述其他通信组件位于群集层中,并且所述其他租约控制组件和所述其他服务组件位于高于所述群集层的层中。
5.如权利要求1中所述的控制器,用于控制存储装置。
6.如权利要求5中所述的控制器,用于控制所述存储装置的虚拟化。
7.一种操作用在群集计算机装置的节点处的控制器的方法,所述方法包括以下步骤:
由异常检测组件检测由服务组件在所述节点处引起的异常;
由响应于所述异常检测组件的停顿组件在终止租约之前停顿由所述服务组件进行的租约管理的活动;
由响应于所述停顿组件的租约控制组件在到期前放弃所述租约;以及
由响应于所述租约控制组件的通信组件将所述租约的到期前放弃通知所述群集计算机装置的一个或多个其他节点。
8.如权利要求7中所述的方法,还包括以下步骤:
由其他通信组件接收指示租约的到期前放弃的通信;
由响应于所述通信的其他租约控制组件来控制故障处理;以及
由其他服务组件在所述节点处代替所述服务组件来执行服务。
9.如权利要求7中所述的方法,其中所述检测、停顿和到期前放弃的步骤在高于群集层的层中执行,并且所述通知步骤在所述群集层中执行。
10.如权利要求8中所述的方法,其中所述接收步骤在群集层中执行,并且所述控制和执行服务的步骤在高于所述群集层的层中执行。
11.如权利要求7中所述的方法,用于控制存储装置。
12.如权利要求11中所述的方法,用于控制所述存储装置的虚拟化。
CNB2006100019376A 2005-01-27 2006-01-19 用在群集计算机装置的节点处的控制器及其操作方法 Expired - Fee Related CN100463411C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0501697.7A GB0501697D0 (en) 2005-01-27 2005-01-27 Controlling service failover in clustered storage apparatus networks
GB0501697.7 2005-01-27

Publications (2)

Publication Number Publication Date
CN1812341A CN1812341A (zh) 2006-08-02
CN100463411C true CN100463411C (zh) 2009-02-18

Family

ID=34259761

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100019376A Expired - Fee Related CN100463411C (zh) 2005-01-27 2006-01-19 用在群集计算机装置的节点处的控制器及其操作方法

Country Status (3)

Country Link
US (1) US8185631B2 (zh)
CN (1) CN100463411C (zh)
GB (1) GB0501697D0 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10143142A1 (de) * 2001-09-04 2003-01-30 Bosch Gmbh Robert Verfahren zum Betreiben einer Schaltungsanordnung, die einen Mikrocontroller und ein EEPROM enthält
WO2006121990A2 (en) * 2005-05-06 2006-11-16 Marathon Technologies Corporation Fault tolerant computer system
US9143410B1 (en) * 2011-12-21 2015-09-22 Symantec Corporation Techniques for monitoring guest domains configured with alternate I/O domains
CN103297396B (zh) * 2012-02-28 2016-05-18 国际商业机器公司 群集系统中管理故障转移的装置和方法
US10459909B2 (en) * 2016-01-13 2019-10-29 Walmart Apollo, Llc System for providing a time-limited mutual exclusivity lock and method therefor

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093505A1 (en) * 1996-10-11 2003-05-15 Sun Microsystems, Inc. Lease renewal service
US6609213B1 (en) * 2000-08-10 2003-08-19 Dell Products, L.P. Cluster-based system and method of recovery from server failures
CN1512729A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 网络设备自适应负载均衡的方法
CN1553350A (zh) * 2003-06-06 2004-12-08 鸿富锦精密工业(深圳)有限公司 动态主机配置方法
WO2004107196A1 (en) * 2003-05-27 2004-12-09 Nokia Corporation Data collection in a computer cluster

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5481738A (en) * 1992-02-20 1996-01-02 International Business Machines Corporation Apparatus and method for communicating a quiesce and unquiesce state between elements of a data processing complex
US5790548A (en) * 1996-04-18 1998-08-04 Bell Atlantic Network Services, Inc. Universal access multimedia data network
US5991768A (en) * 1996-06-21 1999-11-23 Oracle Corporation Finer grained quiescence for data replication
US6330326B1 (en) * 1998-03-27 2001-12-11 At&T Corp. Dynamic staffing of service centers to provide substantially zero-delay service
US6512768B1 (en) * 1999-02-26 2003-01-28 Cisco Technology, Inc. Discovery and tag space identifiers in a tag distribution protocol (TDP)
US7069320B1 (en) * 1999-10-04 2006-06-27 International Business Machines Corporation Reconfiguring a network by utilizing a predetermined length quiescent state
US6775703B1 (en) * 2000-05-01 2004-08-10 International Business Machines Corporation Lease based safety protocol for distributed system with multiple networks
US6898618B1 (en) * 2000-05-09 2005-05-24 Sun Microsystems, Inc. Client-specified display services in a distributed computing environment
US6922685B2 (en) * 2000-05-22 2005-07-26 Mci, Inc. Method and system for managing partitioned data resources
US6760815B1 (en) * 2000-06-02 2004-07-06 Sun Microsystems, Inc. Caching mechanism for a virtual heap
US6957237B1 (en) * 2000-06-02 2005-10-18 Sun Microsystems, Inc. Database store for a virtual heap
US6934755B1 (en) * 2000-06-02 2005-08-23 Sun Microsystems, Inc. System and method for migrating processes on a network
US6807628B2 (en) * 2000-12-29 2004-10-19 Stmicroelectronics, Inc. System and method for supporting precise exceptions in a data processor having a clustered architecture
US6834332B2 (en) * 2001-08-30 2004-12-21 International Business Machines Corporation Apparatus and method for swapping-out real memory by inhibiting i/o operations to a memory region and setting a quiescent indicator, responsive to determining the current number of outstanding operations
JP2003085314A (ja) * 2001-09-11 2003-03-20 Ge Medical Systems Global Technology Co Llc 遠隔サイト管理システム
US20030055877A1 (en) * 2001-09-14 2003-03-20 Damon Williams Remote client manager that facilitates an extendible, modular application server system distributed via an electronic data network and method of distributing same
WO2003050648A2 (en) * 2001-11-12 2003-06-19 Worldcom, Inc. System and method for implementing frictionless micropayments for consumable services
US20030135381A1 (en) * 2002-01-16 2003-07-17 Seiko Epson Corporation Automated distributed printing system
US7243142B2 (en) * 2002-02-01 2007-07-10 Sun Microsystems, Inc Distributed computer system enhancing a protocol service to a highly available service
US7403996B2 (en) * 2002-02-21 2008-07-22 Bea Systems, Inc. Systems and methods for migratable services
US7007047B2 (en) * 2002-03-29 2006-02-28 Panasas, Inc. Internally consistent file system image in distributed object-based data storage
US7702786B2 (en) * 2002-08-09 2010-04-20 International Business Machines Corporation Taking a resource offline in a storage network
US7412515B2 (en) * 2002-09-26 2008-08-12 Lockheed Martin Corporation Method and apparatus for dynamic assignment of network protocol addresses
US7254736B2 (en) * 2002-12-18 2007-08-07 Veritas Operating Corporation Systems and method providing input/output fencing in shared storage environments
US7400580B1 (en) * 2002-12-30 2008-07-15 Cisco Technology, Inc. Method and apparatus for normalizing service level agreements in a network
US7269623B2 (en) * 2003-01-09 2007-09-11 Raytheon Company System and method for distributed multimodal collaboration using a tuple-space
US20040153481A1 (en) * 2003-01-21 2004-08-05 Srikrishna Talluri Method and system for effective utilization of data storage capacity
US7340640B1 (en) * 2003-05-02 2008-03-04 Symantec Operating Corporation System and method for recoverable mirroring in a storage environment employing asymmetric distributed block virtualization
US7533255B1 (en) * 2003-07-11 2009-05-12 Cisco Technology, Inc. Method and apparatus for restricting address resolution protocol table updates
US7577146B2 (en) * 2003-10-31 2009-08-18 Redback Networks Inc. Network element modifying the DHCP lease timer
US7318101B2 (en) * 2003-11-24 2008-01-08 Cisco Technology, Inc. Methods and apparatus supporting configuration in a network
US7287004B2 (en) * 2003-12-26 2007-10-23 International Business Machines Corporation System for providing integrated financing services
JP2005228170A (ja) * 2004-02-16 2005-08-25 Hitachi Ltd 記憶装置システム
JP4462969B2 (ja) * 2004-03-12 2010-05-12 株式会社日立製作所 フェイルオーバクラスタシステム及びフェイルオーバ方法
US7720864B1 (en) * 2004-03-25 2010-05-18 Symantec Operating Corporation Expiration of access tokens for quiescing a distributed system
JP2005301442A (ja) * 2004-04-07 2005-10-27 Hitachi Ltd ストレージ装置
US7523204B2 (en) * 2004-06-01 2009-04-21 International Business Machines Corporation Coordinated quiesce of a distributed file system
US7590775B2 (en) * 2004-08-06 2009-09-15 Andrew Joseph Alexander Gildfind Method for empirically determining a qualified bandwidth of file storage for a shared filed system
US7471637B2 (en) * 2004-10-04 2008-12-30 Fujitsu Limited Method and system for monitoring idle network circuits

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093505A1 (en) * 1996-10-11 2003-05-15 Sun Microsystems, Inc. Lease renewal service
US6609213B1 (en) * 2000-08-10 2003-08-19 Dell Products, L.P. Cluster-based system and method of recovery from server failures
CN1512729A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 网络设备自适应负载均衡的方法
WO2004107196A1 (en) * 2003-05-27 2004-12-09 Nokia Corporation Data collection in a computer cluster
CN1553350A (zh) * 2003-06-06 2004-12-08 鸿富锦精密工业(深圳)有限公司 动态主机配置方法

Also Published As

Publication number Publication date
GB0501697D0 (en) 2005-03-02
CN1812341A (zh) 2006-08-02
US20060168256A1 (en) 2006-07-27
US8185631B2 (en) 2012-05-22

Similar Documents

Publication Publication Date Title
KR100324165B1 (ko) 갱신 트랜잭션 완성 방법 및 장치
KR100575497B1 (ko) 내고장성 컴퓨터 시스템
US6986076B1 (en) Proactive method for ensuring availability in a clustered system
US20080288812A1 (en) Cluster system and an error recovery method thereof
US7194652B2 (en) High availability synchronization architecture
US7085956B2 (en) System and method for concurrent logical device swapping
US7284236B2 (en) Mechanism to change firmware in a high availability single processor system
EP1550036B1 (en) Method of solving a split-brain condition in a cluster computer system
KR100358663B1 (ko) 클러스터 노드 디스트레스 신호
US20040083225A1 (en) Method and apparatus for handling failures of resource managers in a clustered environment
EP0750256A2 (en) Framework for managing cluster membership in a multiprocessor system
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
JPH0363744A (ja) コンピユータ・ネツトワークにおける適用業務セッションの保存方法、制御方法及び保存装置
CN100463411C (zh) 用在群集计算机装置的节点处的控制器及其操作方法
EP2224341A1 (en) Node system, server switching method, server device, and data transfer method
CN100438362C (zh) 一种实现软件上主备双机热备份的方法
US20080082630A1 (en) System and method of fault tolerant reconciliation for control card redundancy
US20060187906A1 (en) Controlling service failover in clustered storage apparatus networks
US6618819B1 (en) Sparing system and method to accommodate equipment failures in critical systems
JP3447347B2 (ja) 障害検出方法
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
JPH11338725A (ja) クラスタシステム、クラスタシステムにおける監視方式およびその方法
JP2776442B2 (ja) 複合コンピュータシステム
JP3232393B2 (ja) 分散処理システムのモジュール運転状態制御方法
KR101883251B1 (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090218

Termination date: 20190119