DE19801992A1 - Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform - Google Patents

Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform

Info

Publication number
DE19801992A1
DE19801992A1 DE19801992A DE19801992A DE19801992A1 DE 19801992 A1 DE19801992 A1 DE 19801992A1 DE 19801992 A DE19801992 A DE 19801992A DE 19801992 A DE19801992 A DE 19801992A DE 19801992 A1 DE19801992 A1 DE 19801992A1
Authority
DE
Germany
Prior art keywords
processor
processors
chain
task
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19801992A
Other languages
English (en)
Other versions
DE19801992C2 (de
Inventor
Hans Dr Kader
Herbert Dr Karzel
Branko Dipl Ing Popovic
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Solutions and Networks GmbH and Co KG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to DE19801992A priority Critical patent/DE19801992C2/de
Application filed by Siemens AG filed Critical Siemens AG
Priority to EP99932437A priority patent/EP1049978B1/de
Priority to CA002319214A priority patent/CA2319214A1/en
Priority to DE59905317T priority patent/DE59905317D1/de
Priority to ES99932437T priority patent/ES2198925T3/es
Priority to PCT/DE1999/000125 priority patent/WO1999038077A1/de
Priority to US09/600,715 priority patent/US6625752B1/en
Publication of DE19801992A1 publication Critical patent/DE19801992A1/de
Application granted granted Critical
Publication of DE19801992C2 publication Critical patent/DE19801992C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1405Saving, restoring, recovering or retrying at machine instruction level
    • G06F11/1407Checkpointing the instruction stream

Description

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff von Patentanspruch 1.
Zeitgemäße Kommunikationssysteme weisen eine Mehrzahl von Prozessoren auf, die in ihrem Zusammenwirken untereinander bestimmte Aufgaben oder Teilaufgaben bearbeiten. Eine derart­ ige Mehrzahl von Prozessoren wird auch als Prozessorplattform bezeichnet. Die Plattform wird vor der Inbetriebnahme des Kommunikationssystems administrativ festgelegt.
Während des Betriebes des Kommunikationssystems nimmt einer der Prozessoren der Prozessorplattform die zu bearbeitende Aufgabe mit hierzu erforderlichen Daten entgegen und führt eine erste Bearbeitung durch. Nach Maßgabe des Ergebnisses wird dann ein weiterer Prozessor angesteuert, dem dann das Ergebnis der ersten Bearbeitung zugeführt wird. Dieser führt dann seinerseits weitere Bearbeitungen durch und übergibt das ermittelte Ergebnis gegebenenfalls einem weiteren Prozessor. Die Bearbeitungsschritte eines Folgeprozessors hängen somit unmittelbar vom Ergebnis des Vorläufers ab. Damit wird eine logische Kette gebildet, in die in der Regel mehrere Prozes­ soren der Prozessorplattform eingebunden sind. Diese Prozes­ soren bilden eine Teilmenge aller Prozessoren der Prozessor­ plattform.
Problematisch bei einer derartigen Anordnung ist, daß bei dem Ausfall lediglich eines der Prozessoren dieser logischen Kette die Bearbeitung der Aufgabe nicht mehr gegeben ist. In diesem Fall kann die Bearbeitung der Aufgabe unter Umständen nicht einmal abgebrochen werden, da die Aufgabe nicht als eine solche erkannt wird, wenn hierzu wesentliche Daten beim Ausfall verlorengegangen sind. Damit bleibt aber diese lo­ gische Kette von Prozessoren für die Bearbeitung weiterer Aufgaben blockiert.
Beim Stand der Technik werden zur Behandlung dieser Ausfälle in einem zyklischen Zeitraster Überwachungsprogramme oder Audits gestartet, die die Prozessoren einer Prozessorplatt­ form auf Hard/- und Softwarefehler hin untersuchen. In der Regel werden diese Überwachungs- und Überprüfungsvorgänge in verkehrsschwacher Zeit vorgenommen. Das zugrunde liegende Zeitintervall kann somit unter Umständen eine recht lange Zeit in Anspruch nehmen. Für die Dauer dieses Zeitintervalles bleibt somit das Fehlverhalten unbemerkt.
Der Erfindung liegt die Aufgabe zugrunde, einen Weg aufzuzei­ gen wie der Ausfall eines oder mehrerer Prozessen einer Pro­ zessorplattform effizient behandelt werden kann, um die Dynamik des Systems zu erhöhen.
Die Erfindung wird, ausgehend vom Oberbegriff des Patentan­ spruchs 1 durch dessen kennzeichnende Merkmale gelöst.
Vorteilhaft an der Erfindung ist insbesondere das Bilden einer weiteren logischen Kette von Prozessoren, die der ersten logischen Kette überlagert ist. Hierbei werden signi­ fikante Daten eines in dieser Kette angeordneten Prozessors dem in dieser Kette nachfolgenden Prozessor übergeben. Dies erfolgt unabhängig davon, welchem der Prozessoren der ersten logischen Kette das Ergebnis der Bearbeitung übergeben wird. Damit ist der Vorteil verbunden, daß ein ausgefallener Pro­ zessor diese signifikanten Daten beim Wiederhochlauf unmit­ telbar beim in dieser Kette nachfolgenden Prozessor wieder zurückladen kann und damit ein Abbild der Daten wie vor dem Ausfall aufweist.
Vorteilhafte Weiterbildungen der Erfindung sind in den Unter­ ansprüchen angegeben.
Die Erfindung wird im folgenden anhand eines Ausführungsbei­ spiels näher erläutert.
Es zeigen
Fig. 1 eine Prozessorplattform mit insgesamt 30 Prozessoren,
Fig. 2 eine lineare Kette von Prozessoren.
In Fig. 1 sind beispielhaft 30 Prozessoren P1. . .P30 einer Pro­ zessorplattform aufgezeigt. Alle Prozessoren sind aus Sicher­ heitsgründen gedoppelt ausgebildet, um bei Ausfall eines Pro­ zessors auf den redundant dazu angeordneten Prozessor um­ schalten zu können und sind über Verbindungsleitungen unter­ einander vermascht. Die Prozessoren P1, P10, P15, P28 sollen nun eine anstehende Aufgabe bearbeiten und bilden somit eine erste logische Kette in der in Frage kommenden Prozessor­ plattform. Die anstehende Aufgabe soll der Aufbau einer Verbindung sein.
Gemäß Fig. 2 ist nun erfindungsgemäß vorgesehen, die Prozes­ soren P1. . .P30 in einer zweiten logischen Kette anzuordnen. Gemäß vorliegendem Ausführungsbeispiel wird somit der Anfang dieser Kette vom Prozessor P1 gebildet. Diesem folgt als weiteres Glied dieser Kette der Prozessor P2, usw. Das Ende der Kette wird vom Prozessor P30 gebildet.
Die Prozessorplattform soll somit gemäß vorliegendem Ausfüh­ rungsbeispiel den Auftrag erhalten eine Verbindung aufzubauen. Hierzu wird diese Aufgabe und hierzu erforderliche Daten einem der Prozessoren der ersten logischen Kette von Prozes­ soren zugeführt. Dies soll beispielhaft der Prozessor P1 sein.
Die Aufgabe wird in Teilaufgaben zerlegt, wobei eine jede Teilaufgabe auf einem der in den Bearbeitungsprozeß inte­ grierten Prozessoren P10, P15, P28 abläuft. Dabei ist der Folgeprozessor in der Kette von der Vorbearbeitung der anderen Prozessoren abhängig.
Im Prozessor P1 wird nun die erste Teilaufgabe bearbeitet. Gemäß dem Ergebnis des Bearbeitungsprozesses werden die dieses Ergebnis definierenden Daten dann dem Prozessor P10 zugeführt, der eine weitere Verarbeitung vornimmt, bevor die Daten den Prozessoren P15 und P28 zugeführt werden und die Kette wieder verlassen.
Erfindungsgemäß ist nun vorgesehen, dem in der zweiten logi­ schen Kette nachgeschalteten Prozessor P2 signifikante Daten des Prozessors P1 zu übermitteln. Bei den signifikanten Daten soll es sich um Daten handeln, die ein repräsentatives Abbild des physikalisch und logischen Zustandes darstellen, in dem sich der Prozessor P1 befindet. Weiterhin beschreiben die si­ gnifikanten Daten den momentanen zustand der betreffenden Aufgabe, die in dem Prozessor P1 gerade bearbeitet wird.
In gleicher Weise werden den in der zweiten logischen Kette nachfolgenden Prozessoren signifikante Daten des vorgeschal­ teten Prozessors zugeführt. Im Prozessor P11 sind somit sig­ nifikante Daten des Prozessors P10 gespeichert, im Prozessor P23 signifikante Daten des Prozessors P22 usw. Das Zuführen der signifikanten Daten kann zeitgleich zu dem Übermitteln des Ergebnisses an den in der ersten logischen Kette nach­ folgend geschalteten Prozessor erfolgen. Dies Vorgehensweise ist jedoch nicht zwingend. Auch ein zyklischen Zeitintervall zwischen den Bearbeitungsprozessen ist hier denkbar. Die sig­ nifikanten Daten werden nach Beendigung der Bearbeitung der Aufgabe im Folgeprozessor wieder gelöscht.
Gemäß vorliegendem Ausführungsbeispiel wird nun davon ausge­ gangen, daß einer der Prozessoren zusammen mit dem redundant angeordneten Prozessor ausfällt. Dies soll beispielhaft der Prozessor P15 sein. In diesem Fall gehen die Daten, die ge­ rade bearbeitet wurden, verloren und können dem Prozessor P28 nicht zur weiteren Bearbeitung zur Verfügung gestellt werden.
Der Prozessor P15 wird nun unmittelbar nach dem Ausfall wieder hochgefahren. Zu diesem Zweck werden die signifikanten Daten, die dem Prozessor P16 zugeführt wurden, wieder in den Prozessor P15 zurückgespeichert. Damit ist dann das Wissen vor dem Ausfall wieder im Prozessor P15 vorhanden und mit der Bearbeitung der Aufgabe kann weiter fortgefahren werden. Das erhaltene Ergebnis wird dann dem Prozessor P28 zugeführt. Damit ist die durch den Ausfall entstandene Lücke in der logischen ersten Kette wieder geschlossen.

Claims (4)

1. Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform, mit wenigstens einer Prozessorplattform, die von einer Mehrzahl von Prozessoren (P1. . .P30) gebildet wird, wobei eine vorgege­ bene Aufgabe von einem Teil dieser Prozessoren (P1, P10, P15, P28) bearbeitet wird, indem die Aufgabe in Teilaufgaben auf­ geteilt wird, die jeweils auf einem der Prozessoren (P1, P10, P15, P28) bearbeitet werden, womit eine erste logische Kette (K1) für die Dauer der Bearbeitung der Aufgabe gebildet wird, dadurch gekennzeichnet, daß eine zweite logische Kette (K2) der Prozessoren (P1. . .P30) der Prozessorplattform gebildet wird, in der signifikante Daten eines in dieser Kette (K2) angeordneten Prozessors dem in dieser Kette (K2) nachfolgenden Prozessor übergeben wer­ den.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die signifikanten Daten Daten sind, die ein Abbild bezüg­ lich physikalischem und logischem Zustand dieses Prozessors sowie einem für die Bearbeitung der momentanen Aufgabe reprä­ sentativen Zustandes darstellen.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß beim Wiederhochlauf eines ausgefallenen Prozessors die signifikanten Daten vom in der zweiten logischen Kette (K2) nachfolgenden Prozessor wieder zurückgeladen werden.
4. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß signifikante Daten nach Beendigung der Bearbeitung der Aufgabe im Folgeprozessor gelöscht werden.
DE19801992A 1998-01-20 1998-01-20 Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform Expired - Lifetime DE19801992C2 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE19801992A DE19801992C2 (de) 1998-01-20 1998-01-20 Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform
CA002319214A CA2319214A1 (en) 1998-01-20 1999-01-19 Method for improving system availability after the failure of processors in a processor platform
DE59905317T DE59905317D1 (de) 1998-01-20 1999-01-19 Verfahren zur verbesserung der systemverfügbarkeit nach dem ausfall von prozessoren einer prozessorplattform
ES99932437T ES2198925T3 (es) 1998-01-20 1999-01-19 Procedimiento para la mejora de la disponibilidad del sistema despues del fallo de procesadores de una plataforma de procesadores.
EP99932437A EP1049978B1 (de) 1998-01-20 1999-01-19 Verfahren zur verbesserung der systemverfügbarkeit nach dem ausfall von prozessoren einer prozessorplattform
PCT/DE1999/000125 WO1999038077A1 (de) 1998-01-20 1999-01-19 Verfahren zur verbesserung der systemverfügbarkeit nach dem ausfall von prozessoren einer prozessorplattform
US09/600,715 US6625752B1 (en) 1998-01-20 1999-01-19 Method for improving system availability following the failure of the processors of a processor platform

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19801992A DE19801992C2 (de) 1998-01-20 1998-01-20 Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform

Publications (2)

Publication Number Publication Date
DE19801992A1 true DE19801992A1 (de) 1999-08-05
DE19801992C2 DE19801992C2 (de) 2000-07-06

Family

ID=7855150

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19801992A Expired - Lifetime DE19801992C2 (de) 1998-01-20 1998-01-20 Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform
DE59905317T Expired - Fee Related DE59905317D1 (de) 1998-01-20 1999-01-19 Verfahren zur verbesserung der systemverfügbarkeit nach dem ausfall von prozessoren einer prozessorplattform

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE59905317T Expired - Fee Related DE59905317D1 (de) 1998-01-20 1999-01-19 Verfahren zur verbesserung der systemverfügbarkeit nach dem ausfall von prozessoren einer prozessorplattform

Country Status (6)

Country Link
US (1) US6625752B1 (de)
EP (1) EP1049978B1 (de)
CA (1) CA2319214A1 (de)
DE (2) DE19801992C2 (de)
ES (1) ES2198925T3 (de)
WO (1) WO1999038077A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625752B1 (en) 1998-01-20 2003-09-23 Siemens Aktiengesellschaft Method for improving system availability following the failure of the processors of a processor platform

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6999994B1 (en) * 1999-07-01 2006-02-14 International Business Machines Corporation Hardware device for processing the tasks of an algorithm in parallel
JP5948933B2 (ja) * 2012-02-17 2016-07-06 日本電気株式会社 ジョブ継続管理装置、ジョブ継続管理方法、及び、ジョブ継続管理プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4521847A (en) * 1982-09-21 1985-06-04 Xerox Corporation Control system job recovery after a malfunction
US5271013A (en) * 1990-05-09 1993-12-14 Unisys Corporation Fault tolerant computer system
US5214652A (en) * 1991-03-26 1993-05-25 International Business Machines Corporation Alternate processor continuation of task of failed processor
US5815651A (en) * 1991-10-17 1998-09-29 Digital Equipment Corporation Method and apparatus for CPU failure recovery in symmetric multi-processing systems
US5513354A (en) * 1992-12-18 1996-04-30 International Business Machines Corporation Fault tolerant load management system and method
JP2846837B2 (ja) * 1994-05-11 1999-01-13 インターナショナル・ビジネス・マシーンズ・コーポレイション 障害を早期検出するためのソフトウェア制御方式のデータ処理方法
JPH0887341A (ja) * 1994-09-16 1996-04-02 Fujitsu Ltd 自動縮退立ち上げ機能を有したコンピュータシステム
US5649088A (en) * 1994-12-27 1997-07-15 Lucent Technologies Inc. System and method for recording sufficient data from parallel execution stages in a central processing unit for complete fault recovery
JP3196004B2 (ja) * 1995-03-23 2001-08-06 株式会社日立製作所 障害回復処理方法
JP3247043B2 (ja) * 1996-01-12 2002-01-15 株式会社日立製作所 内部信号で障害検出を行う情報処理システムおよび論理lsi
US5758051A (en) * 1996-07-30 1998-05-26 International Business Machines Corporation Method and apparatus for reordering memory operations in a processor
DE19801992C2 (de) 1998-01-20 2000-07-06 Siemens Ag Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MAEHLE Erik: Fehlertolerante Multiprozessortopolo-gien, in: Informationstechnik it, 1/1989, S.39-49 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625752B1 (en) 1998-01-20 2003-09-23 Siemens Aktiengesellschaft Method for improving system availability following the failure of the processors of a processor platform

Also Published As

Publication number Publication date
ES2198925T3 (es) 2004-02-01
CA2319214A1 (en) 1999-07-29
WO1999038077A1 (de) 1999-07-29
DE19801992C2 (de) 2000-07-06
US6625752B1 (en) 2003-09-23
EP1049978B1 (de) 2003-05-02
EP1049978A1 (de) 2000-11-08
DE59905317D1 (de) 2003-06-05

Similar Documents

Publication Publication Date Title
EP0636956B1 (de) Aufdatverfahren
DE1524239B2 (de) Schaltungsanordnung zur aufrechterhaltung eines fehler freien betriebes bei einer rechenanlage mit mindestens zwei parallel arbeitenden rechengeraeten
EP2513796B1 (de) Verfahren zum betreiben einer recheneinheit
DE19509150C2 (de) Verfahren zum Steuern und Regeln von Fahrzeug-Bremsanlagen sowie Fahrzeug-Bremsanlage
DE102005024327B4 (de) Watch-Dog in einer verteilten Applikations-Umgebung
WO2002065289A1 (de) Automatische inbetriebnahme eines clustersystems nach einem heilbaren fehler
WO2006045754A1 (de) Verfahren, betriebssystem und rechengerät zum abarbeiten eines computerprogramms
DE102011107646A1 (de) Verfahren und System zur dynamischen Verteilung von Programmfunktionen in verteilten Steuerungssystemen
DE19801992C2 (de) Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform
DE4233837A1 (de) Rechenanlage
EP1812853B1 (de) Verfahren, betriebssystem und rechengerät zum abarbeiten eines computerprogramms
EP1526420B1 (de) Synchronisationsverfahren für ein hochverfügbares Automatisierungssystem
WO2022084176A1 (de) Datenverarbeitungsnetzwerk zur datenverarbeitung
DE2727983C2 (de) Schaltungsanordnung mit mindestens doppelt vorgesehenen zentralen Steuerungen, insbesondere für Fernsprechvermittlungsanlagen
EP1019808B1 (de) Responsives system und verfahren zur digitalen signalverarbeitung sowie verfahren zum betrieb eines responsiven systems
EP0961973B1 (de) Redundant aufgebautes elektronisches geraet mit zertifizierten und nicht zertifizierten kanaelen und verfahren dafür
EP1420341A1 (de) Verfahren zur Steuerung eines Automatisierungssystems
DE102004019371B4 (de) Verfahren zur Wiederherstellung eines Betriebszustands eines Systems
WO2023066625A1 (de) Datenverarbeitungsnetzwerk zur datenverarbeitung
EP3172671B1 (de) Verfahren zur parallelen verarbeitung von daten in einem rechnersystem mit mehreren rechnereinheiten und rechnersystem mit mehreren rechnereinheiten
WO2022063663A1 (de) Verfahren, datenverarbeitungsmodul und datenverarbeitungsnetzwerk zur verarbeitung von daten
DE102022207612A1 (de) Computer-implementiertes Verfahren zur Verifikation einer Softwarekomponente einer automatisierten Fahrfunktion
WO2023066624A1 (de) Datenverarbeitungsnetzwerk zur datenverarbeitung
DE102018214980A1 (de) Rechnersystem und Betriebsverfahren dafür mit verbesserter Zuverlässigkeit
EP1426862A2 (de) Synchronisation der Datenverarbeitung in redundanten Datenverarbeitungseinheiten eines Datenverarbeitungssystems

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: NOKIA SIEMENS NETWORKS GMBH & CO.KG, 81541 MUE, DE

R081 Change of applicant/patentee

Owner name: NOKIA SOLUTIONS AND NETWORKS GMBH & CO. KG, DE

Free format text: FORMER OWNER: NOKIA SIEMENS NETWORKS GMBH & CO. KG, 81541 MUENCHEN, DE

Effective date: 20140731

R071 Expiry of right