DE19801992A1 - Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform - Google Patents
Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer ProzessorplattformInfo
- Publication number
- DE19801992A1 DE19801992A1 DE19801992A DE19801992A DE19801992A1 DE 19801992 A1 DE19801992 A1 DE 19801992A1 DE 19801992 A DE19801992 A DE 19801992A DE 19801992 A DE19801992 A DE 19801992A DE 19801992 A1 DE19801992 A1 DE 19801992A1
- Authority
- DE
- Germany
- Prior art keywords
- processor
- processors
- chain
- task
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1405—Saving, restoring, recovering or retrying at machine instruction level
- G06F11/1407—Checkpointing the instruction stream
Description
Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff
von Patentanspruch 1.
Zeitgemäße Kommunikationssysteme weisen eine Mehrzahl von
Prozessoren auf, die in ihrem Zusammenwirken untereinander
bestimmte Aufgaben oder Teilaufgaben bearbeiten. Eine derart
ige Mehrzahl von Prozessoren wird auch als Prozessorplattform
bezeichnet. Die Plattform wird vor der Inbetriebnahme des
Kommunikationssystems administrativ festgelegt.
Während des Betriebes des Kommunikationssystems nimmt einer
der Prozessoren der Prozessorplattform die zu bearbeitende
Aufgabe mit hierzu erforderlichen Daten entgegen und führt
eine erste Bearbeitung durch. Nach Maßgabe des Ergebnisses
wird dann ein weiterer Prozessor angesteuert, dem dann das
Ergebnis der ersten Bearbeitung zugeführt wird. Dieser führt
dann seinerseits weitere Bearbeitungen durch und übergibt das
ermittelte Ergebnis gegebenenfalls einem weiteren Prozessor.
Die Bearbeitungsschritte eines Folgeprozessors hängen somit
unmittelbar vom Ergebnis des Vorläufers ab. Damit wird eine
logische Kette gebildet, in die in der Regel mehrere Prozes
soren der Prozessorplattform eingebunden sind. Diese Prozes
soren bilden eine Teilmenge aller Prozessoren der Prozessor
plattform.
Problematisch bei einer derartigen Anordnung ist, daß bei dem
Ausfall lediglich eines der Prozessoren dieser logischen
Kette die Bearbeitung der Aufgabe nicht mehr gegeben ist. In
diesem Fall kann die Bearbeitung der Aufgabe unter Umständen
nicht einmal abgebrochen werden, da die Aufgabe nicht als
eine solche erkannt wird, wenn hierzu wesentliche Daten beim
Ausfall verlorengegangen sind. Damit bleibt aber diese lo
gische Kette von Prozessoren für die Bearbeitung weiterer
Aufgaben blockiert.
Beim Stand der Technik werden zur Behandlung dieser Ausfälle
in einem zyklischen Zeitraster Überwachungsprogramme oder
Audits gestartet, die die Prozessoren einer Prozessorplatt
form auf Hard/- und Softwarefehler hin untersuchen. In der
Regel werden diese Überwachungs- und Überprüfungsvorgänge in
verkehrsschwacher Zeit vorgenommen. Das zugrunde liegende
Zeitintervall kann somit unter Umständen eine recht lange
Zeit in Anspruch nehmen. Für die Dauer dieses Zeitintervalles
bleibt somit das Fehlverhalten unbemerkt.
Der Erfindung liegt die Aufgabe zugrunde, einen Weg aufzuzei
gen wie der Ausfall eines oder mehrerer Prozessen einer Pro
zessorplattform effizient behandelt werden kann, um die
Dynamik des Systems zu erhöhen.
Die Erfindung wird, ausgehend vom Oberbegriff des Patentan
spruchs 1 durch dessen kennzeichnende Merkmale gelöst.
Vorteilhaft an der Erfindung ist insbesondere das Bilden
einer weiteren logischen Kette von Prozessoren, die der
ersten logischen Kette überlagert ist. Hierbei werden signi
fikante Daten eines in dieser Kette angeordneten Prozessors
dem in dieser Kette nachfolgenden Prozessor übergeben. Dies
erfolgt unabhängig davon, welchem der Prozessoren der ersten
logischen Kette das Ergebnis der Bearbeitung übergeben wird.
Damit ist der Vorteil verbunden, daß ein ausgefallener Pro
zessor diese signifikanten Daten beim Wiederhochlauf unmit
telbar beim in dieser Kette nachfolgenden Prozessor wieder
zurückladen kann und damit ein Abbild der Daten wie vor dem
Ausfall aufweist.
Vorteilhafte Weiterbildungen der Erfindung sind in den Unter
ansprüchen angegeben.
Die Erfindung wird im folgenden anhand eines Ausführungsbei
spiels näher erläutert.
Es zeigen
Fig. 1 eine Prozessorplattform mit insgesamt 30 Prozessoren,
Fig. 2 eine lineare Kette von Prozessoren.
In Fig. 1 sind beispielhaft 30 Prozessoren P1. . .P30 einer Pro
zessorplattform aufgezeigt. Alle Prozessoren sind aus Sicher
heitsgründen gedoppelt ausgebildet, um bei Ausfall eines Pro
zessors auf den redundant dazu angeordneten Prozessor um
schalten zu können und sind über Verbindungsleitungen unter
einander vermascht. Die Prozessoren P1, P10, P15, P28 sollen
nun eine anstehende Aufgabe bearbeiten und bilden somit eine
erste logische Kette in der in Frage kommenden Prozessor
plattform. Die anstehende Aufgabe soll der Aufbau einer
Verbindung sein.
Gemäß Fig. 2 ist nun erfindungsgemäß vorgesehen, die Prozes
soren P1. . .P30 in einer zweiten logischen Kette anzuordnen.
Gemäß vorliegendem Ausführungsbeispiel wird somit der Anfang
dieser Kette vom Prozessor P1 gebildet. Diesem folgt als
weiteres Glied dieser Kette der Prozessor P2, usw. Das Ende
der Kette wird vom Prozessor P30 gebildet.
Die Prozessorplattform soll somit gemäß vorliegendem Ausfüh
rungsbeispiel den Auftrag erhalten eine Verbindung aufzubauen.
Hierzu wird diese Aufgabe und hierzu erforderliche Daten
einem der Prozessoren der ersten logischen Kette von Prozes
soren zugeführt. Dies soll beispielhaft der Prozessor P1 sein.
Die Aufgabe wird in Teilaufgaben zerlegt, wobei eine jede
Teilaufgabe auf einem der in den Bearbeitungsprozeß inte
grierten Prozessoren P10, P15, P28 abläuft. Dabei ist der
Folgeprozessor in der Kette von der Vorbearbeitung der
anderen Prozessoren abhängig.
Im Prozessor P1 wird nun die erste Teilaufgabe bearbeitet.
Gemäß dem Ergebnis des Bearbeitungsprozesses werden die
dieses Ergebnis definierenden Daten dann dem Prozessor P10
zugeführt, der eine weitere Verarbeitung vornimmt, bevor die
Daten den Prozessoren P15 und P28 zugeführt werden und die
Kette wieder verlassen.
Erfindungsgemäß ist nun vorgesehen, dem in der zweiten logi
schen Kette nachgeschalteten Prozessor P2 signifikante Daten
des Prozessors P1 zu übermitteln. Bei den signifikanten Daten
soll es sich um Daten handeln, die ein repräsentatives Abbild
des physikalisch und logischen Zustandes darstellen, in dem
sich der Prozessor P1 befindet. Weiterhin beschreiben die si
gnifikanten Daten den momentanen zustand der betreffenden
Aufgabe, die in dem Prozessor P1 gerade bearbeitet wird.
In gleicher Weise werden den in der zweiten logischen Kette
nachfolgenden Prozessoren signifikante Daten des vorgeschal
teten Prozessors zugeführt. Im Prozessor P11 sind somit sig
nifikante Daten des Prozessors P10 gespeichert, im Prozessor
P23 signifikante Daten des Prozessors P22 usw. Das Zuführen
der signifikanten Daten kann zeitgleich zu dem Übermitteln
des Ergebnisses an den in der ersten logischen Kette nach
folgend geschalteten Prozessor erfolgen. Dies Vorgehensweise
ist jedoch nicht zwingend. Auch ein zyklischen Zeitintervall
zwischen den Bearbeitungsprozessen ist hier denkbar. Die sig
nifikanten Daten werden nach Beendigung der Bearbeitung der
Aufgabe im Folgeprozessor wieder gelöscht.
Gemäß vorliegendem Ausführungsbeispiel wird nun davon ausge
gangen, daß einer der Prozessoren zusammen mit dem redundant
angeordneten Prozessor ausfällt. Dies soll beispielhaft der
Prozessor P15 sein. In diesem Fall gehen die Daten, die ge
rade bearbeitet wurden, verloren und können dem Prozessor P28
nicht zur weiteren Bearbeitung zur Verfügung gestellt werden.
Der Prozessor P15 wird nun unmittelbar nach dem Ausfall
wieder hochgefahren. Zu diesem Zweck werden die signifikanten
Daten, die dem Prozessor P16 zugeführt wurden, wieder in den
Prozessor P15 zurückgespeichert. Damit ist dann das Wissen
vor dem Ausfall wieder im Prozessor P15 vorhanden und mit der
Bearbeitung der Aufgabe kann weiter fortgefahren werden. Das
erhaltene Ergebnis wird dann dem Prozessor P28 zugeführt.
Damit ist die durch den Ausfall entstandene Lücke in der
logischen ersten Kette wieder geschlossen.
Claims (4)
1. Verfahren zur Verbesserung der Systemverfügbarkeit nach
dem Ausfall von Prozessoren einer Prozessorplattform, mit
wenigstens einer Prozessorplattform, die von einer Mehrzahl
von Prozessoren (P1. . .P30) gebildet wird, wobei eine vorgege
bene Aufgabe von einem Teil dieser Prozessoren (P1, P10, P15,
P28) bearbeitet wird, indem die Aufgabe in Teilaufgaben auf
geteilt wird, die jeweils auf einem der Prozessoren (P1, P10,
P15, P28) bearbeitet werden, womit eine erste logische Kette
(K1) für die Dauer der Bearbeitung der Aufgabe gebildet wird,
dadurch gekennzeichnet,
daß eine zweite logische Kette (K2) der Prozessoren (P1. . .P30)
der Prozessorplattform gebildet wird, in der signifikante
Daten eines in dieser Kette (K2) angeordneten Prozessors dem
in dieser Kette (K2) nachfolgenden Prozessor übergeben wer
den.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß die signifikanten Daten Daten sind, die ein Abbild bezüg
lich physikalischem und logischem Zustand dieses Prozessors
sowie einem für die Bearbeitung der momentanen Aufgabe reprä
sentativen Zustandes darstellen.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet,
daß beim Wiederhochlauf eines ausgefallenen Prozessors die
signifikanten Daten vom in der zweiten logischen Kette (K2)
nachfolgenden Prozessor wieder zurückgeladen werden.
4. Verfahren nach einem der vorstehenden Ansprüche,
dadurch gekennzeichnet,
daß signifikante Daten nach Beendigung der Bearbeitung der
Aufgabe im Folgeprozessor gelöscht werden.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19801992A DE19801992C2 (de) | 1998-01-20 | 1998-01-20 | Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform |
CA002319214A CA2319214A1 (en) | 1998-01-20 | 1999-01-19 | Method for improving system availability after the failure of processors in a processor platform |
DE59905317T DE59905317D1 (de) | 1998-01-20 | 1999-01-19 | Verfahren zur verbesserung der systemverfügbarkeit nach dem ausfall von prozessoren einer prozessorplattform |
ES99932437T ES2198925T3 (es) | 1998-01-20 | 1999-01-19 | Procedimiento para la mejora de la disponibilidad del sistema despues del fallo de procesadores de una plataforma de procesadores. |
EP99932437A EP1049978B1 (de) | 1998-01-20 | 1999-01-19 | Verfahren zur verbesserung der systemverfügbarkeit nach dem ausfall von prozessoren einer prozessorplattform |
PCT/DE1999/000125 WO1999038077A1 (de) | 1998-01-20 | 1999-01-19 | Verfahren zur verbesserung der systemverfügbarkeit nach dem ausfall von prozessoren einer prozessorplattform |
US09/600,715 US6625752B1 (en) | 1998-01-20 | 1999-01-19 | Method for improving system availability following the failure of the processors of a processor platform |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19801992A DE19801992C2 (de) | 1998-01-20 | 1998-01-20 | Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19801992A1 true DE19801992A1 (de) | 1999-08-05 |
DE19801992C2 DE19801992C2 (de) | 2000-07-06 |
Family
ID=7855150
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19801992A Expired - Lifetime DE19801992C2 (de) | 1998-01-20 | 1998-01-20 | Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform |
DE59905317T Expired - Fee Related DE59905317D1 (de) | 1998-01-20 | 1999-01-19 | Verfahren zur verbesserung der systemverfügbarkeit nach dem ausfall von prozessoren einer prozessorplattform |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59905317T Expired - Fee Related DE59905317D1 (de) | 1998-01-20 | 1999-01-19 | Verfahren zur verbesserung der systemverfügbarkeit nach dem ausfall von prozessoren einer prozessorplattform |
Country Status (6)
Country | Link |
---|---|
US (1) | US6625752B1 (de) |
EP (1) | EP1049978B1 (de) |
CA (1) | CA2319214A1 (de) |
DE (2) | DE19801992C2 (de) |
ES (1) | ES2198925T3 (de) |
WO (1) | WO1999038077A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6625752B1 (en) | 1998-01-20 | 2003-09-23 | Siemens Aktiengesellschaft | Method for improving system availability following the failure of the processors of a processor platform |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6999994B1 (en) * | 1999-07-01 | 2006-02-14 | International Business Machines Corporation | Hardware device for processing the tasks of an algorithm in parallel |
JP5948933B2 (ja) * | 2012-02-17 | 2016-07-06 | 日本電気株式会社 | ジョブ継続管理装置、ジョブ継続管理方法、及び、ジョブ継続管理プログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4521847A (en) * | 1982-09-21 | 1985-06-04 | Xerox Corporation | Control system job recovery after a malfunction |
US5271013A (en) * | 1990-05-09 | 1993-12-14 | Unisys Corporation | Fault tolerant computer system |
US5214652A (en) * | 1991-03-26 | 1993-05-25 | International Business Machines Corporation | Alternate processor continuation of task of failed processor |
US5815651A (en) * | 1991-10-17 | 1998-09-29 | Digital Equipment Corporation | Method and apparatus for CPU failure recovery in symmetric multi-processing systems |
US5513354A (en) * | 1992-12-18 | 1996-04-30 | International Business Machines Corporation | Fault tolerant load management system and method |
JP2846837B2 (ja) * | 1994-05-11 | 1999-01-13 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 障害を早期検出するためのソフトウェア制御方式のデータ処理方法 |
JPH0887341A (ja) * | 1994-09-16 | 1996-04-02 | Fujitsu Ltd | 自動縮退立ち上げ機能を有したコンピュータシステム |
US5649088A (en) * | 1994-12-27 | 1997-07-15 | Lucent Technologies Inc. | System and method for recording sufficient data from parallel execution stages in a central processing unit for complete fault recovery |
JP3196004B2 (ja) * | 1995-03-23 | 2001-08-06 | 株式会社日立製作所 | 障害回復処理方法 |
JP3247043B2 (ja) * | 1996-01-12 | 2002-01-15 | 株式会社日立製作所 | 内部信号で障害検出を行う情報処理システムおよび論理lsi |
US5758051A (en) * | 1996-07-30 | 1998-05-26 | International Business Machines Corporation | Method and apparatus for reordering memory operations in a processor |
DE19801992C2 (de) | 1998-01-20 | 2000-07-06 | Siemens Ag | Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform |
-
1998
- 1998-01-20 DE DE19801992A patent/DE19801992C2/de not_active Expired - Lifetime
-
1999
- 1999-01-19 CA CA002319214A patent/CA2319214A1/en not_active Abandoned
- 1999-01-19 EP EP99932437A patent/EP1049978B1/de not_active Expired - Lifetime
- 1999-01-19 ES ES99932437T patent/ES2198925T3/es not_active Expired - Lifetime
- 1999-01-19 US US09/600,715 patent/US6625752B1/en not_active Expired - Lifetime
- 1999-01-19 WO PCT/DE1999/000125 patent/WO1999038077A1/de active IP Right Grant
- 1999-01-19 DE DE59905317T patent/DE59905317D1/de not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
MAEHLE Erik: Fehlertolerante Multiprozessortopolo-gien, in: Informationstechnik it, 1/1989, S.39-49 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6625752B1 (en) | 1998-01-20 | 2003-09-23 | Siemens Aktiengesellschaft | Method for improving system availability following the failure of the processors of a processor platform |
Also Published As
Publication number | Publication date |
---|---|
ES2198925T3 (es) | 2004-02-01 |
CA2319214A1 (en) | 1999-07-29 |
WO1999038077A1 (de) | 1999-07-29 |
DE19801992C2 (de) | 2000-07-06 |
US6625752B1 (en) | 2003-09-23 |
EP1049978B1 (de) | 2003-05-02 |
EP1049978A1 (de) | 2000-11-08 |
DE59905317D1 (de) | 2003-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0636956B1 (de) | Aufdatverfahren | |
DE1524239B2 (de) | Schaltungsanordnung zur aufrechterhaltung eines fehler freien betriebes bei einer rechenanlage mit mindestens zwei parallel arbeitenden rechengeraeten | |
EP2513796B1 (de) | Verfahren zum betreiben einer recheneinheit | |
DE19509150C2 (de) | Verfahren zum Steuern und Regeln von Fahrzeug-Bremsanlagen sowie Fahrzeug-Bremsanlage | |
DE102005024327B4 (de) | Watch-Dog in einer verteilten Applikations-Umgebung | |
WO2002065289A1 (de) | Automatische inbetriebnahme eines clustersystems nach einem heilbaren fehler | |
WO2006045754A1 (de) | Verfahren, betriebssystem und rechengerät zum abarbeiten eines computerprogramms | |
DE102011107646A1 (de) | Verfahren und System zur dynamischen Verteilung von Programmfunktionen in verteilten Steuerungssystemen | |
DE19801992C2 (de) | Verfahren zur Verbesserung der Systemverfügbarkeit nach dem Ausfall von Prozessoren einer Prozessorplattform | |
DE4233837A1 (de) | Rechenanlage | |
EP1812853B1 (de) | Verfahren, betriebssystem und rechengerät zum abarbeiten eines computerprogramms | |
EP1526420B1 (de) | Synchronisationsverfahren für ein hochverfügbares Automatisierungssystem | |
WO2022084176A1 (de) | Datenverarbeitungsnetzwerk zur datenverarbeitung | |
DE2727983C2 (de) | Schaltungsanordnung mit mindestens doppelt vorgesehenen zentralen Steuerungen, insbesondere für Fernsprechvermittlungsanlagen | |
EP1019808B1 (de) | Responsives system und verfahren zur digitalen signalverarbeitung sowie verfahren zum betrieb eines responsiven systems | |
EP0961973B1 (de) | Redundant aufgebautes elektronisches geraet mit zertifizierten und nicht zertifizierten kanaelen und verfahren dafür | |
EP1420341A1 (de) | Verfahren zur Steuerung eines Automatisierungssystems | |
DE102004019371B4 (de) | Verfahren zur Wiederherstellung eines Betriebszustands eines Systems | |
WO2023066625A1 (de) | Datenverarbeitungsnetzwerk zur datenverarbeitung | |
EP3172671B1 (de) | Verfahren zur parallelen verarbeitung von daten in einem rechnersystem mit mehreren rechnereinheiten und rechnersystem mit mehreren rechnereinheiten | |
WO2022063663A1 (de) | Verfahren, datenverarbeitungsmodul und datenverarbeitungsnetzwerk zur verarbeitung von daten | |
DE102022207612A1 (de) | Computer-implementiertes Verfahren zur Verifikation einer Softwarekomponente einer automatisierten Fahrfunktion | |
WO2023066624A1 (de) | Datenverarbeitungsnetzwerk zur datenverarbeitung | |
DE102018214980A1 (de) | Rechnersystem und Betriebsverfahren dafür mit verbesserter Zuverlässigkeit | |
EP1426862A2 (de) | Synchronisation der Datenverarbeitung in redundanten Datenverarbeitungseinheiten eines Datenverarbeitungssystems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: NOKIA SIEMENS NETWORKS GMBH & CO.KG, 81541 MUE, DE |
|
R081 | Change of applicant/patentee |
Owner name: NOKIA SOLUTIONS AND NETWORKS GMBH & CO. KG, DE Free format text: FORMER OWNER: NOKIA SIEMENS NETWORKS GMBH & CO. KG, 81541 MUENCHEN, DE Effective date: 20140731 |
|
R071 | Expiry of right |