DE69434381T2

DE69434381T2 - Verfahren zur Paritätsdarstellung in einem Raid-Untersystem unter Verwendung eines nichtflüchtigen Speichers

Info

Publication number: DE69434381T2
Application number: DE69434381T
Authority: DE
Inventors: David Hitz; Michael Malcolm; James Lau; Byron Burlingame Rakitzis
Original assignee: Network Appliance Inc
Current assignee: NetApp Inc
Priority date: 1993-06-04
Filing date: 1994-06-02
Publication date: 2006-01-19
Anticipated expiration: 2014-06-03
Also published as: WO1994029795A1; EP0701715A4; JP2007184011A; HK1028281A1; EP1031928B1; US5948110A; EP1031928A3; US20030037281A1; JP4283859B2; EP1031928A2; JP2008251034A; US6480969B1; EP0701715A1; US6988219B2; DE69434381D1; JPH08511368A; JP4408939B2

Description

Die vorliegende Erfindung betrifft das Gebiet von Fehlerkorrekturtechniken für eine Plattenanordung.
Ein Computersystem benötigt typischerweise große Mengen von sekundärem Speicher, wie zum Beispiel ein Plattenlaufwerk, um Information zu speichern (zum Beispiel Daten und/oder Applikationsprogramme). Computersysteme des Standes der Technik verwenden oft ein einzelnes Festplattenlaufwerk vom Typ „Winchester", um eine permanente Speicherung von großen Datenmengen zu bieten. Da sich die Leistung von Computern und zugeordneten Prozessoren vergrößert hat, hat sich der Bedarf an zu Hochgeschwindigkeitsdatentransferraten fähigen Plattenlaufwerken mit größerer Kapazität vergrößert. Um Schritt zu halten, wurden Veränderungen und Verbesserungen der Leistung von Plattenlaufwerken gemacht. Zum Beispiel resultierten Daten- und Spurdichtenerhöhungen, Medienverbesserungen und eine größere Zahl von Köpfen und Platten in einem einzelnen Plattenlaufwerk in höheren Datentransferraten.
Ein Nachteil der Verwendung einzelner Plattenlaufwerke zum Bereitstellen von sekundärem Speicher ist der Aufwand beim Ersetzen des Laufwerks, wenn eine größere Kapazität oder Leistung benötigt wird. Ein weiterer Nachteil ist der Mangel an Redundanz oder Datensicherung eines einzelnen Plattenlaufwerks. Wenn ein einzelnes Plattenlaufwerk beschädigt, gestört oder ersetzt wird, wird das System ausgeschaltet.
Ein Versuch im Standes der Technik, die obigen Nachteile von Einzelplattenlaufwerksystemen zu reduzieren oder zu vermeiden, ist, eine Vielzahl von miteinander parallel geschalteten Laufwerken zu verwenden. Die Daten werden in Brocken zerteilt, auf die von mehreren Laufwerken simultan, parallel oder sequentiell von einem einzelnen Laufwerk der Vielzahl von Laufwerken aus zugegriffen werden kann. Ein solches System von parallel kombinierten Plattenlaufwerken ist als „Redundant Array of Inexpensive Disks" (RAID) bekannt. Ein RAID-System stellt die gleiche Speicherkapazität bereit wie ein größeres Einzelplattenlaufwerksystem, aber bei geringeren Kosten. Ähnlich können hohe Datentransferraten aufgrund der Parallelisierung der Anordnung erreicht werden.
RAID-Systeme erlauben eine inkrementelle Vergrößerung der Speicherkapazität durch das Zufügen von zusätzlichen Plattenlaufwerken zu der Anordnung. Wenn eine Platte in dem RAID-System abstürzt, kann sie ohne Ausschalten des gesamten Systems ersetzt werden. Daten auf der abgestürzten Platte können unter Verwendung von Fehlerkorrekturtechniken wiederhergestellt werden.
RAID-Anordnungen
Ein RAID hat sechs Plattenanordnungskonfigurationen, die als RAID-Level 0 bis RAID-Level 5 bezeichnet werden. Jeder RAID-Level hat Vorteile und Nachteile. Bei der vorliegenden Diskussion werden nur RAID-Level 4 und 5 beschrieben. Eine detaillierte Beschreibung der verschiedenen RAID-Levels wurde jedoch von Patterson et al. offenbart, in „A Case for Redundant Arrays of Inexpensive Disks (RAID)", ACM SIGMOD Konferenz, Juni 1988.
RAID-Systeme stellen Techniken zum Schutz gegen Laufwerksausfälle bereit. Obwohl RAID eine Anzahl von verschiedenen Formaten (wie oben angegeben) umfasst, ist ein gemeinsames Merkmal, dass eine Platte (oder verschiedene Platten) Paritätsinformationen von in der Anordnung der Platten gespeicherten Daten speichert. Ein RAID-Level-4-System speichert die gesamte Paritätsinformation auf einer einzelnen Paritätsplatte, während ein RAID-Level-5-System Paritätsblöcke in der gesamten RAID-Anordnung gemäß einem bekannten Muster speichert. Im Falle eines Plattenausfalls erlaubt die in dem RAID-Subsystem gespeicherte Paritätsinformation, die verlorenen Daten von einer ausgefallenen Platte neu zu berechnen.
1 ist ein Blockdiagramm, welches ein System des Standes der Technik illustriert, welches RAID-Level 4 implementiert. Das System umfasst N + 1 Platten 112–118, die durch einen Kommunikationskanal 130 an ein Computersystem oder einen Host-Computer angeschlossen sind. In dem Beispiel werden Daten auf jeder Festplatte in Blöcken oder Segmenten von 4 KByte (KB) gespeichert. Platte 112 ist die Paritätsplatte für das System, während Platten 114–118 Datenplatten 0 bis N – 1 sind. RAID-Level 4 verwendet ein Platten-„Striping", welches Datenblöcke über alle Platten in einer Anordnung wie in 1 gezeigt verteilt. Ein Streifen („Stripe") ist eine Gruppe von Datenblöcken, wobei jeder Block auf einer separaten Platte der N Platten zusammen mit einem zugeordneten Paritätsblock auf einer einzelnen Paritätsplatte gespeichert ist. In 1 ist ein erster und ein zweiter Streifen 140 und 142 durch gepunktete Linien angegeben. Der erste Streifen 140 umfasst Paritätsblock 0 und Datenblöcke 0 bis N – 1. In dem gezeigten Beispiel wird ein erster Datenblock 0 auf Platte 114 der N + 1-Plattenanordnung gespeichert. Der zweite Datenblock 1 wird auf Platte 116 gespeichert, usw. Schließlich wird Datenblock N – 1 auf Platte 118 gespeichert. Eine Parität wird für Streifen 140 unter Verwendung bekannter Techniken berechnet und als Paritätsblock 0 auf Platte 112 gespeichert. Ähnlich wird der N Datenblöcke umfassende Streifen 142 als Datenblock N auf Platte 114 gespeichert, Datenblock N + 1 auf Platte 116 und Datenblock 2 N – 1 auf Platte 118. Eine Parität wird für die vier Streifen 142 berechnet und als Paritätsblock 1 auf Platte 112 gespeichert.
Wie in 1 gezeigt, fügt RAID-Level 4 ein zusätzliches Paritätsplattenlaufwerk hinzu, welches fehlerkorrigierende Informationen für jeden Streifen in dem System enthält. Falls ein Fehler in dem System auftritt, muss die RAID-Anordnung alle Platten in der Anordnung verwenden, um den Fehler in dem System zu korrigieren. RAID-Level 4 arbeitet adäquat wenn kleine Datenstücke gelesen werden. Eine RAID-Level-4-Anordnung ver wendet jedoch immer das dezidierte Paritätslaufwerk wenn es Daten in die Anordnung schreibt.
RAID-Level-5-Anordnungssysteme zeichnen ebenfalls Paritätsinformation auf. Jedoch behalten sie nicht alle Paritätssektoren auf einer einzelnen Platte. RAID-Level 5 rotiert die Position der Datenblöcke über die bereitstehenden Platten in der Plattenanordnung aus N + 1 Platten. Somit verbessern RAID-Level-5-Systeme gegenüber RAID 4 eine Performanz durch Verteilen von Paritätsdaten über die N + 1 Plattenlaufwerke, je ein Block zu einem Zeitpunkt. Für die erste Menge von Blöcken kann der Paritätsblock auf der ersten Platte gespeichert werden. Für die zweite Menge von Blöcken würde er auf dem zweiten Plattenlaufwerk gespeichert werden. Dies wird so wiederholt, dass jede Menge einen Paritätsblock hat, aber nicht die gesamte Paritätsinformation auf einem einzelnen Plattenlaufwerk gespeichert ist. Weil keine einzelne Platte die gesamte Paritätsinformation für eine Gruppe von Blöcken vorhält, ist es bei RAID-Level-5-Systemen oft möglich, in einem Augenblick auf verschiede unterschiedliche Laufwerke in der Anordnung zu schreiben. Somit werden sowohl Lesezugriffe als auch Schreibzugriffe auf RAID-Level-5-Systemen schneller durchgeführt als auf einer RAID-4-Anordnung.
2 ist ein Blockdiagramm, welches ein System des Standes der Technik illustriert, welches RAID-Level 5 implementiert. Das System umfasst N + 1 Platten 212–218, die an ein Computersystem oder einen Host-Computer 120 durch einen Kommunikationskanal 130 angeschlossen sind. Im Streifen 240 ist ein Paritätsblock 0 auf der ersten Platte 212 gespeichert. Datenblock 0 ist auf der zweiten Platte 214 gespeichert, Datenblock 1 ist auf der dritten Platte 216 gespeichert, usw. Schließlich ist Datenblock N – 1 auf Platte 218 gespeichert. Im Streifen 212 ist Datenblock N auf der ersten Platte 212 gespeichert. Der zweite Paritätsblock 1 ist auf der zweiten Platte 214 gespeichert. Datenblock N + 1 ist auf Platte 216 gespeichert, usw. Schließlich ist Datenblock 2 N – 1 auf der Platte 218 gespeichert. Im M – 1-Streifen 244 ist Datenblock MN-N auf der ersten Platte 212 gespeichert. Datenblock MN-N + 1 ist auf der zweiten Platte 214 gespeichert. Datenblock MN-N + 2 ist auf der dritten Platte 216 gespeichert, usw. Schließlich ist Paritätsblock M – 1 auf der n-ten Platte 218 gespeichert. Somit illustriert 2, dass RAID-Level-5-Systeme die gleiche Paritätsinformation wie RAID-Level-4-Systeme speichern, RAID-Level-5-Systeme jedoch die Positionen der Paritätsblöcke über die bereitstehenden Platten 212–218 rotieren.
Im RAID-Level 5 wird die Parität über die Anordnung der Platten verteilt. Dies führt zu vielfachen Suchzugriffen auf die Platten. Es verhindert auch eine einfache Vergrößerung der Größe der RAID-Anordnung, weil aufgrund von Paritätsanforderungen eine festgelegte Anzahl von Platten dem System hinzugefügt werden muss.
Die Systeme des Standes der Technik zum Implementieren von RAID-Level 4 und 5 haben vielfache Nachteile. Der erste Nachteil ist, dass nach einem Systemausfall die Paritätsinformation für jeden Streifen mit den Datenblöcken inkonsistent ist, die auf den anderen Platten in dem Streifen gespeichert sind. Dies erfordert, die Parität für die gesamte RAID-Anordnung erneut zu berechnen. Die Parität wird vollständig neu berechnet, weil es kein Verfahren gibt, zu wissen, welche Paritätsblöcke inkorrekt sind. Somit müssen alle Paritätsblöcke in der RAID-Anordnung neu berechnet werden. Eine Neuberechnung einer Parität für die gesamte RAID-Anordnung ist sehr zeitaufwendig, da die gesamten in der RAID-Anordnung gespeicherten Daten gelesen werden müssen. Zum Beispiel erfordert ein Lesen einer vollständigen 2-GB-Platte bei maximaler Geschwindigkeit 15 bis 20 Minuten. Da wenige Computersysteme in der Lage sind, sehr viele Platten parallel mit maximaler Geschwindigkeit zu lesen braucht eine Neuberechnung einer Parität für eine RAID-Anordnung jedoch sogar länger.
Eine Technik zum Verringern der zum Neuberechnen einer Parität für eine RAID-Anordnung benötigten Zeit, ist, einen sofortigen Zugriff auf die RAID-Anordnung zu ermöglichen und eine Parität für das System neu zu berechnen, während es on-line ist. Diese Technik bringt jedoch zwei Probleme mit sich. Das erste Problem ist, dass während eines Neuberechnens einer Parität, Blöcke mit inkonsistenter Parität nicht gegen weitere Beschädigungen geschützt sind. Während dieser Zeit resultiert ein Plattenausfall in der RAID-Anordnung in einem permanenten Datenverlust in dem System. Das zweite Problem mit dieser Technik des Standes der Technik ist, dass RAID-Subsysteme während eines Neuberechnens einer Parität schlecht arbeiten. Dies tritt aufgrund der Zeitverzögerung auf, die durch eine Vielzahl von Eingangs-/Ausgangsoperationen (I/O) erzeugt wird, die durchgeführt werden, um eine Parität neu zu berechnen.
Der zweite Nachteil der Systeme des Standes der Technik betrifft Schreibzugriffe auf die RAID-Anordnung während einer Phase, wenn eine Platte nicht funktioniert. Weil ein RAID-Subsystem Daten auf einer gestörten Platte unter Verwendung von Paritätsinformation neu berechnen kann, erlaubt das RAID-Subsystem, dass Daten weiterhin gelesen werden, obwohl die Platte gestört ist. Desweiteren erlauben viele RAID-Systeme weiterhin Schreibzugriffe, obwohl eine Platte gestört ist. Dies ist nachteilhaft, weil ein Schreiben auf eine kaputte RAID-Anordnung Daten im Falle eines Systemausfalls beschädigen kann. Zum Beispiel tritt ein Systemausfall auf, wenn ein Betriebssystem, das eine RAID-Anordnung verwendet, abstürzt oder wenn eine Energieversorgung für das System ausfällt oder anderweitig unterbrochen wird. RAID-Subsysteme des Standes der Technik bieten keinen Schutz für diese Abfolge von Ereignissen.
Gray, J. et al., "Parity Striping of Disc Arrays: Low-Cost Reliable Storage with Acceptable Throughput", Proceedings of the International Conference on Very Large Databases, 13. August 1990, Seiten 148–161 diskutieren und vergleichen Spiegeln und "Striping" und RAID 5 und schlagen vor, dass das System nach einem doppelten Ausfall von einem Archiv restauriert werden muss, während nach einem einzelnen Ausfall eine Belastung auf den verbleibenden Platten anwächst.
Menon, J. et al., "The Architecture of a Fault-Tolerant Cached RAID Controller", Proceedings of the International Symposium on Computer Architecture, Los Alamitos, IEEE, Comp. Soc. Press, Vol. 20, 16. Mai 1993, Seiten 76–86 beschreiben eine schnelle Schreibprozedur, die auf RAID-5-Anordnungen anwendbar ist.
EP 0 492 808 beschreibt ein RAID-System, bei welchem Schreibanfragen in einer nicht-volatilen Speichereinrichtung temporär gespeichert werden, welche als Datenpuffer wirkt.
EP 0 462 917 A beschreibt ein Verfahren zum Betreiben eines RAID in einem degenerierten Modus nach einem Ausfall einer Speichereinheit. Eine Statuskarte gibt den Status des Datenblocks und die Position seines korrespondierenden Paritätsblocks an und gibt an, ob Daten rekonstruiert wurden oder nicht.
Die vorliegende Erfindung wird in den anhängenden Ansprüchen definiert und stellt eine Fehlerkorrektur für eine Anordnung von Platten bereit.
Ein nicht-volatiler RAM wird verwendet, um die Geschwindigkeit einer RAID-Wiederherstellung von einem Plattenfehler/Plattenfehlern zu erhöhen. Dies wird erreicht, durch Vorhalten einer Liste von allen Plattenblöcken, für welche die Parität möglicherweise inkonsistent ist. Eine solche Liste von Plattenblöcken ist kleiner als die Gesamtzahl von Paritätsblöcken in dem RAID-Subsystem. Die Gesamtzahl von Paritätsblöcken in dem RAID-Subsystem ist typischerweise im Bereich von Hunderttausenden von Paritätsblöcken. Ein Wissen über die Anzahl von Paritätsblöcken, die möglicherweise inkonsistent sind, macht es möglich, mit einem signifikant geringeren Zeitbedarf als es im Stand der Technik möglich ist nur diejenigen wenigen Blöcke zu reparieren, die in der Liste angegeben sind. Die vorliegende Erfindung stellt auch eine Technik zum Schützen vor einem simulta nen Systemausfall und einer kaputten Platte und zum sicheren Schreiben in ein RAID-Subsystem mit einer kaputten Platte bereit.
Die vorliegende Erfindung wird nachfolgend mit Bezug auf die folgende Beschreibung von exemplarischen Ausführungsformen und den beiliegenden Zeichnungen weiter beschrieben, in welchen:
1 ist ein Blockdiagramm eines RAID-Level-4-Subsystems des Standes der Technik;
2 ist ein Blockdiagramm eines RAID-Level-5-Subsystems des Standes der Technik;
3A bis 3C sind Diagramme des Standes der Technik, die ein Neuberechnen von Daten illustrieren, die in einem "Streifen" gespeichert sind;
4A bis 4B sind Zeitdiagramme des Standes der Technik zur Paritätsbeschädigung bei einem Systemausfall;
5 ist ein Zeitdiagramm der vorliegenden Erfindung zum Verhindern einer Datenbeschädigung bei einem Auftreten einer Schreibanweisung während eines Systemausfalls;
6 ist ein Zeitdiagramm des Standes der Technik, das eine Datenbeschädigung bei einem Schreibzugriff mit einer kaputten Platte illustriert;
7A bis 7B sind Zeitdiagramme der vorliegenden Erfindung zum Verhindern einer Datenverfälschung bei einem Schreibvorgang mit einer kaputten Platte;
8 ist ein Diagramm, das die vorliegende Erfindung illustriert;
9 ist ein Zeitdiagramm des Standes der Technik, das eine Datenbeschädigung für simultane System- und Plattenausfälle illustriert;
10A bis 10C sind Zeitdiagramme der vorliegenden Erfindung, die eine Datenbeschädigung bei simultanen System- und Plattenausfällen verhindert; und
11A bis 11C sind Flussdiagramme der vorliegenden Erfindung, die den Prozess einer Wiederherstellung illustrieren;
12A bis 12C sind Zeitdiagramme zur Parität-durch-Neuberechnung.
Ein Verfahren und eine Vorrichtung zum Bereitstellen einer Fehlerkorrektur für eine Anordnung von Platten unter Verwendung eines nicht volatilen Random-Access-Speichers (NV-RAM) wird beschrieben. In der folgenden Beschreibung werden vielfältige spezifische Details, wie zum Beispiel Zahlen und Wesen von Platten, Plattenblockgröße, etc., im Detail beschrieben, um eine gründlichere Beschreibung der vorliegenden Erfindung bereitzustellen. Es wird für den Fachmann jedoch offensichtlich sein, dass die vor liegende Erfindung ohne diese spezifischen Details ausgeführt werden kann. Bei anderen Gelegenheiten wurden bekannte Merkmale nicht im Detail beschrieben, um die vorliegende Erfindung nicht unnötig zu verschleiern.
Insbesondere betreffen viele Beispiele den Fall, dass nur ein Block in einem Streifen aktualisiert wird, aber die beschriebenen Techniken betreffen gleichsam auch Mehrfach-Blockaktualisierungen.
Die vorliegende Erfindung stellt eine Technik bereit zum: Reduzieren der Zeit, die zur Neuberechnung einer Parität nach einem Systemausfall benötigt wird; und zum Verhindern einer Beschädigung von Daten in einer RAID-Anordnung, wenn Daten in eine gestörte Platte geschrieben werden und das System abstürzt. Die vorliegende Erfindung verwendet einen nicht-volatilen RAM, um diese Probleme zu reduzieren. Eine Beschreibung des Standes der Technik und der damit in Zusammenhang stehenden Nachteile folgt. Die Nachteile des Standes der Technik werden beschrieben zur: Paritätsbeschädigung bei einem Systemausfall; Datenbeschädigung bei einem Schreibzugriff mit kaputter Platte; und Datenbeschädigung mit simultanen System- und Plattenausfällen.
Neuberechnen von verlorenen Daten mit einem RAID
Eine Parität wird durch Bilden eines Exklusiven-Oders der in einem Streifen gespeicherten Datenblöcke berechnet. Der Paritätswert, der aus den N Datenblöcken berechnet wird, wird in dem Paritätsblock des Streifens aufgezeichnet. Wenn Daten von einem beliebigen einzelnen Block verloren sind (das heißt aufgrund eines Plattenausfalls), werden die verlorenen Daten für die Platte durch Bilden eines Exklusiven-Oders der verbleibenden Blöcke in dem Streifen neu berechnet. Grundsätzlich muss, wann immer ein Datenblock in einem Streifen modifiziert wird, eine Parität für den Streifen neu berechnet werden. Wenn ein Streifen durch Schreiben aller N Datenblöcke aktualisiert wird, kann eine Parität ohne Lesen von Daten von einer Platte berechnet werden und eine Parität und Daten können in nur einem I/O-Takt gemeinsam geschrieben werden. Somit erfordert ein Schreiben von allen N Datenblöcken in einem Streifen einen minimalen Zeitbedarf. Wenn ein einzelner Datenblock auf eine Platte geschrieben wird, wird Parität-durch-Subtraktion verwendet (nachfolgend beschrieben). Ein I/O-Takt wird benötigt, um die alten Daten und die Parität zu lesen, und ein zweiter I/O-Takt wird benötigt, um die neuen Daten und die Parität zu schreiben. Weil die Spindeln der Platten in der RAID-Anordnung nicht synchronisiert sind, treten die Schreibzugriffe grundsätzlich nicht zu exakt der gleichen Zeit auf. In einigen Fällen wird der Paritätsblock die Platte zuerst erreichen, und in anderen Fällen wird einer der Datenblöcke die Platte zuerst erreichen. Die hier beschriebenen Techniken hängen nicht von der Reihenfolge ab, in der Blöcke die Platte erreichen.
Eine andere Alternative für Platten mit nicht-synchronisierten Spindeln ist, eine Parität erst zu berechnen und den Paritätsblock auf die Platte zu schreiben, bevor ein Datenblock/Datenblöcke auf die Platte geschrieben werden. Jeder Datenblock auf einer Platte in der RAID-Anordnung spei chert 4 KB Daten. In der folgenden Diskussion werden die Daten in jedem 4-KB-Block als einzelne große Ganzzahl (64 K-Bit lang) betrachtet. Somit stellen die Zeichnungen ganzzahlige Werte für Informationen dar, die in den Paritäts- und Datenplattenblöcken gespeichert sind. Diese Konvention wird nur zur Illustration verwendet, um die Zeichnungen zu vereinfachen.
3A ist ein Diagramm, welches ein RAID-Level-4-Subsystem des Standes der Technik mit N = 3 illustriert, welches vier Platten 330–336 umfasst. In dem Diagramm ist Platte 330 die Paritätsplatte. Platten 332–336 sind Datenplatten. Das Diagramm illustriert einen Streifen 320, der auf den Platten 330–336 in der RAID-Anordnung enthalten ist. Plattenblock 330A ist ein Paritätsblock, welcher den ganzzahligen Wert 12 enthält. Plattenblöcke 332A–336A sind jeweils Datenblöcke des Streifens 320. Datenblöcke 332A–336A enthalten jeweils Datenwerte von 4, 7 und 1. Daten für jeden Block 332A–336A in einem einzelnen Streifen 320 werden als eine ganze Zahl repräsentiert. Die Parität für Streifen 320 wird repräsentiert als die Summe der Datenwerte, die in den Datenblöcken 332A–336A gespeichert sind. Paritätsblock 330A enthält den Wert 12 (d.h. 4 + 7 + 1). 3A ist eine Zeichnung, die lediglich ein Beispiel einer Fehlerkorrekturtechnik unter Verwendung einer Parität zeigt. Der Paritätswert ist das Exklusive-Oder der Datenblöcke 332A–336A, aber die mathematischen Eigenschaften einer Addition sind die gleichen wie diejenigen der Exklusiven-Oder-Funktion. Deshalb wird in 3A eine Addition verwendet.
3B ist ein Zeitdiagramm einer Aktivität auf dem Streifen 320, der in 3A illustriert ist. Die Tabelle hat Überschriften Parität, Daten 0, Daten 1 und Daten 2. Die Werte 12, 4, 7 und 1 sind unterhalb der entsprechenden Tabellenüberschriften illustriert.
3B ist eine Tabelle, die einen Streifen mit einem verlorenen Datenblock zum Zeitpunkt T_B illustriert. Wie in 3B illustriert, umfasst Streifen 320 verlorene Daten im Datenblock 1 der Datenplatte 334 der 3A. Dies wird in der Tabelle durch ein Fragezeichen illustriert, welches sich in einem Kästchen unter der Überschrift Daten 1 befindet. Zum Zeitpunkt T_A haben die Parität, Daten 0 und Daten 2 jeweils Werte von 12, 4 und 1. Die Daten auf Platte 334 für Datenblock 1 können wie folgt in Echtzeit neu berechnet werden: Daten 1 = Parität – Daten 0 – Daten 2 = 12 – 4 – 1 = 7, (1)wobei Datenblock 1 unter Verwendung des Paritätsblocks, Datenblocks 0 und Datenblocks 2 berechnet wird. Somit kann der Datenwert 7, der im Datenblock 1 der in 3A gezeigten Platte 334 gespeichert ist, zum Zeitpunkt T_C neu berechnet werden. In 3B wird der zum Zeitpunkt T_C für Datenblock 1 neu berechnete Wert 7 in Klammern eingeschlossen angegeben. In nachfolgenden Figuren werden neu berechnete Werte durch Verwendung von Klammern repräsentiert. Das heißt, die Klammern geben Daten einer kaputten Platte als durch die Parität und Daten auf den anderen Platten berechnet an.
Wie in 3B gezeigt, können Daten auf einer kaputten Platte unter Verwendung der Paritätsplatte und der verbleibenden Platten in der Platten anordnung neu berechnet werden. Die kaputte Platte 334 der 3A kann eventuell ersetzt werden und der alte Inhalt der Platte kann neu berechnet und auf eine neue Platte geschrieben werden. 3C ist ein Blockdiagramm des RAID-Subsystems, welches eine neue Daten 1-Platte 338 enthält. Wie in 3C gezeigt, hat Streifen 320 Werte 12, 4, 7 und 1 für Parität, Daten 0, neue Daten 1 und Daten 2. Diese Werte werden im Paritätsblock 330A und Datenblöcken 332A, 338A und 336A gespeichert. Somit ersetzt eine neue Platte 338 eine kaputte Platte 334 des RAID-Systems und die vorher im Datenblock 334A der Platte 334 gespeicherten Datenwerte können wie oben gezeigt berechnet werden und im Datenblock 338A einer Austauschplatte 338 gespeichert werden.
Wenn neue Daten in einen Datenblock geschrieben werden, wird auch der Paritätsblock aktualisiert. Eine Parität wird wie oben beschrieben einfach berechnet, wenn alle Datenblöcke in einem Streifen gleichzeitig aktualisiert werden. Wenn dies auftritt, wird der neue Wert für eine Parität aus der Information, die auf die Platten geschrieben ist, neu berechnet. Die neuen Paritäts- und Datenblöcke werden dann auf die Platte geschrieben. Wenn nur einige der Datenblöcke in einem Streifen modifiziert werden, ist eine Aktualisierung des Paritätsblocks schwieriger, da mehr I/O-Operationen benötigt werden. Es gibt zwei Methoden zum Aktualisieren einer Parität in diesem Fall: Paritätsaktualisierung durch Subtraktion und Paritätsaktualisierung durch Neuberechnung.
Wenn zum Beispiel ein einzelner Datenblock geschrieben wird, kann das RAID-System eine Parität durch Subtraktion aktualisieren. Das RAID- System liest den Paritätsblock und den zu überschreibenden Block. Es subtrahiert zunächst den alten Datenwert von dem Paritätswert, addiert den neuen Datenwert des Datenblocks zu dem Zwischenparitätswert und schreibt dann sowohl die neue Parität als auch die Datenblöcke auf die Platte.
Zum Neuberechnen einer Parität liest das RAID-System zunächst die anderen N – 1 Datenblöcke in dem Streifen. Nach einem Lesen der N – 1 Datenblöcke berechnet das RAID-System eine Parität unter Verwendung des modifizierten Datenblocks und der N – 1 Datenblöcke der Platte wieder ganz von vorn. Sobald eine Parität neu berechnet ist, werden die neue Parität und die Datenblöcke auf die Platte geschrieben.
Sowohl die Subtraktions- als auch die Neuberechnungstechnik zum Aktualisieren einer Parität können für Situationen generalisiert werden, in welchen mehr als ein Datenblock auf den gleichen Streifen geschrieben werden. Zur Subtraktion werden zunächst die Paritätsblöcke und die gegenwärtigen Inhalte aller Datenblöcke, die überschrieben werden sollen, von der Platte gelesen. Zur Neuberechnung werden zunächst die gegenwärtigen Inhalte aller Datenblöcke, die nicht überschrieben werden sollen, von der Platte gelesen. Der Fall, in dem alle N Datenblöcke in dem Streifen simultan geschrieben werden, ist ein Spezialfall einer Parität durch Neuberechnung. Alle Datenblöcke, die nicht geschrieben werden, werden zunächst von der Platte gelesen, aber in diesem Falle gibt es keine solchen Blöcke.
Wie Streifen während eines Systemausfalls inkonsistent werden
Ein inkonsistenter Streifen umfasst einen Paritätsblock, der nicht das Exklusive-Oder aller anderen Blöcke in dem Streifen enthält. Ein Streifen wird inkonsistent, wenn ein Systemausfall auftritt, während einige der Schreibzugriffe für eine Aktualisierung abgeschlossen sind, andere jedoch nicht. Zum Beispiel, wenn ein erster Datenblock beschrieben wird. Wie vorher beschrieben wurde, wird der Paritätsblock für den Streifen neu berechnet und wie auch der Datenblock überschrieben. Wenn das System ausfällt nachdem einer der Datenblöcke auf eine Platte geschrieben wurde, nicht aber der andere, wird der Streifen inkonsistent.
Ein Streifen kann nur inkonsistent werden, wenn er aktualisiert wird. Somit ist die Anzahl von potentiellen inkonsistenten Streifen in jedem Fall auf die Anzahl von Streifen beschränkt, die aktualisiert werden. Aus diesem Grund führt die vorliegende Erfindung eine Liste im NV-RAM, die alle die Streifen umfasst, die gegenwärtig aktualisiert werden. Da nur diese Streifen potentiell beschädigt sein können, wird eine Parität nach einem Systemausfall nur für die Streifen neu berechnet, die in der Liste im NV-RAM gespeichert sind. Dies reduziert sehr den Gesamtumfang der Zeit, die zur Neuberechnung einer Parität nach einem Systemausfall benötigt wird, im Vergleich mit vorher beschriebenen Verfahren des Standes der Technik, welche viel länger brauchen.
Paritätsbeschädigung bei einem Systemausfall im Stand der Technik
In den folgenden Diagrammen ist der eingeklammerte Wert für eine gestörte Datenplatte kein tatsächlicher Wert, der auf der Platte gespeichert ist. Stattdessen ist er ein neu berechneter Wert, der im Speicher für die kaputte Platte in der RAID-Anordnung gehalten wird.
4A ist ein Diagramm des Standes der Technik, welches einen Systemabsturz illustriert, während sich verändernde Werte auf die Platten 330–336 der 3A geschrieben werden. Das Diagramm gilt für den Fall, in welchem die Datenblöcke die Platte vor dem Paritätsblock erreichen. Wie in 4A angegeben ist, schreitet die Zeit in absteigender Richtung fort. Zum Zeitpunkt T_A hat der Paritätsblock einen Wert 12 und die Datenblöcke 0 bis 2 haben jeweils Werte von 4, 7 und 1. Zum Zeitpunkt T_B wird ein neuer Wert von 2 in Datenblock 0 geschrieben (angegeben durch ein Kästchen um den Wert 2), wodurch der Wert 4 ersetzt wird, der im Datenblock 0 zum Zeitpunkt T_A gespeichert ist. Die anderen in den Datenblöcken 1 und 2 gespeicherten Werte verändern sich nicht. Bei normalem Betrieb schreibt der Stand der Technik einen neuen Paritätswert 10 (angegeben durch ein Kästchen) zum Zeitpunkt T_C auf die Paritätsplatte, wie es unterhalb der Paritätsüberschrift angegeben ist. Dies aktualisiert den Paritätsblock für den Schreibzugriff auf Datenblock 0 zum Zeitpunkt T_B. Der neue Wert von 10 für eine Parität zum Zeitpunkt T_C wird aus den Werten 2, 7 und 1 der jeweiligen Datenblöcke 0 bis 2 berechnet. Somit illustriert das Zeitdiagramm in 4A ein RAID-Subsystem des Standes der Technik in dem Fall, in welchem der Datenblock die Platte vor dem Paritätsblock erreicht.
Wenn ein Systemausfall zwischen den Zeitpunkten T_B und T_C in 4A auftritt, wird die Parität für den Streifen beschädigt. Das Zeitdiagramm zeigt, dass ein neuer Datenwert von 2 zum Zeitpunkt T_B auf die Datenplatte 0 geschrieben wird, bevor eine neu berechnete Parität für den Streifen aktualisiert wird. Wenn das RAID-Subsystem nachfolgend wieder startet, hat somit die Paritätsplatte den alten Wert von 12 (durch eine Unterstreichung angegeben) anstelle des korrekten Werts von 10. Dies tritt auf, da der Streifen nicht aktualisiert wurde, bevor der Systemfehler auftrat. Die Parität für den Streifen ist nun beschädigt, da: Parität = Daten 0 + Daten 1 + Daten 2 = 2 + 7 + 1 = 10 ≠ 12 (2)
Ähnlich ist 4B ein weiteres Diagramm des Standes der Technik, welches ein Systemabsturz illustriert, während sich verändernde Werte auf die Platten 330–336 der 3A geschrieben werden. Das Diagramm gilt für den Fall, in welchem der Paritätsblock eine Platte vor dem Datenblock erreicht. Zum Zeitpunkt T_A hat der Paritätsblock einen Wert von 12 und die Datenblöcke 0 bis 2 haben jeweils Werte von 4, 7 und 1. Zum Zeitpunkt T_B wird ein neuer Wert von 10 in den Paritätsblock geschrieben (angegeben durch ein Kästchen um den Wert 2), wodurch der Wert 12, der in dem Paritätsblock zum Zeitpunkt T_A gespeichert ist, ersetzt wird. Die in den Datenblöcken 0 bis 2 gespeicherten Werte verändern sich nicht. Der neue Wert von 10 für eine Parität zum Zeitpunkt T_B wird aus den Werten 7 und 1 der jeweiligen Datenblöcke 1 und 2 und dem neuen Wert 2 für Datenblock 0 berechnet. Bei normalem Betrieb schreibt der Stand der Technik den neuen Datenwert 2 (angegeben durch ein Kästchen) zum Zeitpunkt T_C auf die Datenplatte 0, wie es unterhalb der Überschrift Daten 0 angegeben ist. Dies aktualisiert den Datenblock 0 gemäß dem Schreibzugriff auf den Paritätsblock zum Zeitpunkt T_B. Somit illustriert das Zeitdiagramm in 4A ein RAID-Subsystem des Standes der Technik in dem Fall, in welchem der Paritätsblock die Platte vor dem Datenblock erreicht.
Wenn ein Systemausfall zwischen den Zeitpunkten T_B und T_C in 4B auftritt, wird die Parität für den Streifen beschädigt. Das Zeitdiagramm zeigt, dass der neue Paritätswert von 10 zum Zeitpunkt T_B auf die Paritätsplatte geschrieben wird, bevor der Datenblock 0 des Streifens aktualisiert wird. Wenn das RAID-Subsystem nachfolgend wieder startet, hat somit die Datenplatte 0 den alten Wert von 4 (angegeben durch eine Unterstreichung) anstelle des korrekten Werts von 2. Dies tritt auf, weil der Streifen nicht aktualisiert wurde, bevor der Systemausfall auftrat. Die Parität des Streifens ist nun beschädigt, da: Parität = Daten 0 + Daten 1 + Daten 2 = 4 + 7 + 1 = 12 ≠ 10 (3)
Die 4A–4B illustrieren zwei Fälle eines Schreibens von neuen Daten in einem Datenblock und eines Aktualisierens der Paritätsplatte, bei welcher die Spindeln der Platten in der RAID-Anordnung nicht synchronisiert sind. Der erste, in 4A gezeigte Fall illustriert einen neuen Datenwert, der die Datenplatte zuerst erreicht und dann ein nachfolgendes Aktualisieren des Paritätswerts auf der Paritätsplatte. Der zweite, in 4B illustrierte Fall zeigt eine Parität, die die Platte zuerst erreicht, gefolgt von der Datenaktualisierung. Bei den 4A und 4B tritt eine Beschädigung des Dateisystems auf, wenn das System zwischen den Zeitpunkten T_B und T_C ausfällt. Falls das System nach dem Zeitpunkt T_B in den 4A und 4B ausfällt, sind die illustrierten Paritätswerte für das System nicht korrekt. In dem Falle des in 4A illustrierten Systems haben die neuen Datenwerte eine Summe von 10, welche gleich der Werte 2, 7 und 1 ist. Jedoch gibt der Paritätswert zum Zeitpunkt T_B einen Wert von 12 an. Somit ist der Paritätswert, der auf der Paritätsplatte gespeichert ist, nicht gleich dem neuen Paritätswert für die Datenwerte, die auf den Datenplatten 0–2 gespeichert sind. Ähnlich haben die Datenplatten 0–1 jeweils Werte von 4, 7 und 1, falls ein Ausfall nach dem Zeitpunkt T_B für das zweite System auftritt, welches in 4B illustriert ist. Der Paritätswert für diese Datenblöcke ist gleich 12. Jedoch wird die Parität in diesem System zuerst aktualisiert, bevor die neuen Datenwerte auf die Platte geschrieben werden, weshalb die Parität, die auf der Paritätsplatte gespeichert ist, zum Zeitpunkt T_B gleich 10 ist. Somit ist nach dem Zeitpunkt T_B die auf der Paritätsplatte gespeicherte Parität nicht gleich dem Paritätswert für die Datenblöcke, weil der neue Datenblock nicht vor dem Systemausfall aktualisiert wurde.
Im Stand der Technik wird nach einem Systemausfall eine Parität für alle Streifen beim Auftreten eines Systemneustarts neu berechnet. Dieses Verfahren zum Neuberechnen einer Parität nach einem Ausfall für alle Streifen erfordert intensive Berechnungen und ist deshalb sehr langsam. Die vorliegende Erfindung ist ein Verfahren zum Neuberechnen einer Parität nach einem Systemausfall. Das System führt eine Liste von Streifen mit gegenwärtig ablaufenden Schreibzugriffen im nicht-volatilen RAM. Beim Neu start nach einem Systemausfall wird nur die Liste der Streifen mit gegenwärtig in Bearbeitung befindlichen Schreibzugriffen, die im nicht-volatilen RAM gespeichert ist, neu berechnet.
Datenbeschädigung bei einem Schreibzugriff mit einer kaputten Platte im Stand der Technik
Beim Schreiben auf eine RAID-Anordnung, welche eine gestörte oder kaputte Platte hat, tritt eine Datenbeschädigung während eines Systemausfalls auf. 6 ist ein Diagramm des Standes der Technik, welches eine Datenbeschädigung für eine gestörte Platte illustriert, wenn ein Systemausfall auftritt, bei dem die Datenplatte für den neuen Datenwert aktualisiert wird, bevor eine Parität auf die Platte geschrieben wird. In 6 wird die Datenplatte 1 durch Angeben von eingeklammerten Werten unterhalb der Überschrift Daten 1 als gestört gezeigt. Zum Zeitpunkt T_A hat die Paritätsplatte einen Wert von 12. Vor einem Zeitpunkt T_A, wenn eine Datenplatte 1 gestört ist, ist der Paritätsplattenwert gleich der Summe der Datenplatten 0–2 mit jeweils den Werten von 4, 7 und 1. Der Wert von 7 für Datenblock 1 zum Zeitpunkt T_A ist in Klammern eingeschlossen. Dieser Wert repräsentiert keinen Wert, der auf der Datenplatte 1 gespeichert ist, sondern wird stattdessen aus dem Paritätsblock und den Datenblöcken 0 und 2 des Streifens wie folgt berechnet: Daten 0 = Parität – Daten 1 – Daten 2 = 12 – 4 – 1 = 7. (4)
Zum Zeitpunkt T_B wird ein neuer Wert von 2 auf die Datenplatte 0 geschrieben (angegeben durch Einschließen der 2 innerhalb eines Kästchens). Zum Zeitpunkt T_B wurde die Parität für den neuen Wert 2, der auf die Datenplatte 0 geschrieben wurde, nicht aktualisiert und hat einen Wert von 12. Der berechnete Wert für Datenblock 1 ist somit 9 anstelle von 7. Dies wird in 6 durch Einschließen des Werts 9 in Klammern für Datenplatte 1 zum Zeitpunkt T_B angegeben.
Bei einem normalen Betrieb wird der Paritätsblock aufgrund dessen, dass der Wert von 2 zum Zeitpunkt T_B in den Datenblock 0 geschrieben wurde, zum Zeitpunkt T_C auf 10 aktualisiert. Der neue Wert von 10 für eine Parität zum Zeitpunkt T_C ist innerhalb eines Rechtecks angegeben. Für einen Paritätswert von 10 ist der korrekte Wert von 7 für Datenblock 1 eingeklammert angegeben. Wie in 6 angegeben, werden die Daten, die im Datenblock 1 gespeichert sind, basierend auf den anderen Blöcken in der Plattenanordnung neu berechnet, weil Datenplatte 1 kaputt ist. Nach dem ersten Schreibzugriff zum Zeitpunkt T_B für Datenblock 0 ist der berechnete Wert des Datenblocks 1 inkorrekt. Der Wert von 9 für Datenblock 1 ist unkorrekt bis der zweite Schreibzugriff für eine Parität zum Zeitpunkt T_C beendet ist.
Wenn ein Systemausfall zwischen Zeitpunkten T_C und T_C auftritt, beschädigt ein Schreibzugriff auf eine RAID-Anordnung, die eine gestörte oder kaputte Platte hat, Daten in dem Streifen. Wie in 6 für den Stand der Technik gezeigt ist, wird die Parität nicht aktualisiert und hat deshalb einen Wert von 12 (angegeben durch eine Unterstreichung). Der berechnete Wert für Datenblock 1 des Streifens ist somit unkorrekt und der Streifen wird wie folgt beschädigt: Daten 1 = Parität – Daten 0 – Daten 2 = 12 – 2 – 1 = 9 ≠ 7 (5)
In ähnlicher Weise tritt eine Beschädigung von Daten für den Fall auf, wenn eine Parität die Platte vor den Daten erreicht.
Datenbeschädigung mit simultanen System- und Plattenausfällen
Wenn ein Systemausfall aufgrund einer Energieunterbrechung auftritt, erfahren RAID-Systeme höchstwahrscheinlich einen Plattenausfall. Üblicherweise beschädigt eine große transiente Spannungsspitze, welche nach einer Energieunterbrechung auftritt, eine Platte. Es ist somit möglich, dass ein Streifen durch simultane System- und Plattenausfälle beschädigt wird.
9 ist ein Diagramm des Standes der Technik, welches simultane System- und Plattenausfälle illustriert, wobei die Datenplatte mit einem neuen Datenwert aktualisiert wird, bevor die Parität auf eine Platte geschrieben wird. Zum Zeitpunkt T_A hat die Platte einen Wert von 12 und die Datenplatten 0–2 haben jeweils Werte von 4, 7 und 1. Zum Zeitpunkt T_B wird ein neuer Wert von 2 auf die Datenplatte 0 geschrieben (angegeben durch ein Kästchen). Zum Zeitpunkt T_B wird eine Parität für den auf die Datenplatte 0 geschriebenen neuen Wert von 2 nicht aktualisiert und hat einen Wert von 12. Wenn ein Systemausfall zwischen den Zeitpunkten T_B und T_C auftritt, wird der Wert der Platte 1 beschädigt. Dies tritt aufgrund von simultanen System- und Plattenfehlern zwischen den Zeitpunkten T_B und T_C auf.
Zum Zeitpunkt T_C ist eine Parität aufgrund des Systemausfalls nicht aktualisiert und hat deshalb einen Wert von 12 anstelle von 10. Weiterhin ist die Datenplatte 1 aufgrund des Plattenausfalls beschädigt. Der berechnete Wert von 9 für den Datenblock 1 ist unkorrekt. Er wird für die Datenplatte 1 unter Verwendung des beschädigten Paritätswerts wie folgt unkorrekt berechnet: Daten 1 = Parität – Daten 0 – Daten 2 = 12 – 2 – 1 = 9 ≠ 7 (7)
Daten werden ähnlich beschädigt für den Fall, in welchem eine Parität die Platte vor den Daten erreicht.
Überblick über die vorliegende Erfindung
8 ist ein Diagramm, welches die vorliegende Erfindung zum Bereitstellen einer Fehlerkorrektur unter Verwendung eines NV-RAM für ein RAID-System illustriert, welches einen Host-Computer 810, einen RAID-Controller 814, der einen NV-RAM 816 umfasst, und N + 1 Platten 820–826 umfasst. Der Host-Computer 810 ist durch einen ersten Kommunikationskanal 812 an den RAID-Controller 814 angeschlossen. Der RAID-Controller 814 umfasst einen NV-RAM 816 zum Speichern von Streifen der RAID-Anordnung 828, die möglicherweise in einem inkonsistenten Zustand sind.
Der RAID-Controller 814 ist an die N + 1 Platten 820–826 der RAID-Anordnung 828 durch einen zweiten Kommunikationskanal 818 angeschlossen. Die RAID-Anordnung 828 umfasst eine Paritätsplatte 820 und jeweils N Datenplatten 822–826.
Der NV-RAM 816 wird verwendet, um die Geschwindigkeit einer RAID-Wiederherstellung nach einem Systemausfall durch Führen einer Liste aller auf der Paritätsplatte 820 geführten Paritätsblöcke zu erhöhen, welche möglicherweise inkonsistent sind. Typischerweise ist diese Liste von Blöcken klein. Sie kann einige Größenordnungen kleiner sein als die Gesamtzahl an Paritätsblöcken in der RAID-Anordnung 828. Zum Beispiel kann eine RAID-Anordnung 828 hunderttausende von Paritätsblöcken umfassen, während die möglicherweise inkonsistenten Blöcke nur einige hundert oder weniger zählen können. Ein Wissen über die wenigen Paritätsblöcke, die möglicherweise inkonsistent sind, vereinfacht eine rasche Neuberechnung der Parität, da nur solche Paritätsblöcke wiederhergestellt werden müssen.
Die vorliegende Erfindung verwendet den NV-RAM 816 auch, um Daten sicher in eine RAID-Anordnung 828 mit einer kaputten Platte zu schreiben, ohne Daten aufgrund eines Systemausfalls zu beschädigen. Daten, die beschädigt werden können, werden in den NV-RAM 816 kopiert, bevor eine potentiell schädigende Operation durchgeführt wird. Nach einem Systemausfall werden die Daten, die in dem NV-RAM 816 gespeichert sind, verwendet, um die RAID-Anordnung 828 in einen konsistenten Zustand wiederherzustellen.
Die 11A–C sind Flussdiagramme, die die Schritte illustrieren, welche durch die vorliegende Erfindung durchgeführt werden. Bezugnehmend zunächst auf 11A wird eine Boot-Operation ausgeführt. Beim Entscheidungsblock 1101 wird eine Prüfung durchgeführt, um zu ermitteln, ob das System gerade ausgefallen ist. Falls der Entscheidungsblock wahr zurückgibt, fährt das System mit Schritt 1102 (11B) fort und führt einen Wiederherstellungsprozess aus. Falls der Entscheidungsblock falsch zurückgibt, fährt das System mit Schritt 1103 (11C) im normalen Betrieb fort.
Bezugnehmend nun auf 11B, ist ein Flussdiagramm eines Wiederherstellens nach einem Systemausfall illustriert. Beim Entscheidungsblock 1104 wird eine Prüfung durchgeführt, um zu ermitteln, ob es verbleibende Streifen gibt, die in der Liste der schmutzigen Streifen im NV-RAM spezifiziert sind. Falls der Entscheidungsblock 1104 falsch zurückgibt, fährt das System mit einem Rückgabeschritt fort. Falls der Entscheidungsblock 1104 wahr zurückgibt, fährt das System mit Schritt 1105 fort.
Beim Schritt 1105 wird die Streifennummer eingeholt. Beim Schritt 1106 werden die Datenblöcke der Identifizierten Streifen gelesen, die zum Neuberechnen der Parität benötigt werden. Die Parität wird für den Streifen neu berechnet beim Schritt 1107. Beim Schritt 1108 wird für den Streifen der neue Paritätsblock geschrieben. Das System kehrt dann zum Entscheidungsblock 1104 zurück.
Ein normaler Betrieb ist in 11C illustriert. Beim Schritt 1109 werden alle Blöcke gelesen, welche zur Aktualisierung eines Streifens benötigt werden. Beim Schritt 1110 wird eine neue Parität für den Streifen bei Verwendung der neuen Daten verwendet. Die Streifennummer des Streifens wird in die Liste der schmutzigen Streifen im NV-RAM bei Schritt 1111 geschrieben. Bei Schritt 1112 werden die Plattenblöcke geschrieben, welche zum Aktualisieren des Streifens benötigt werden. Beim Schritt 1113 wird die Nummer des Streifens von der Liste der schmutzigen Streifen im NV-RAM entfernt.
Paritätsbeschädigung für einen Systemausfall unter Verwendung eines NV-RAM
5 ist ein Diagramm, welches die vorliegende Erfindung zum Verhindern einer Beschädigung einer Parität unter Verwendung eines NV-RAM illustriert. Das Zeitdiagramm wird mit Bezug auf die 11A–C beschrieben. 5 ist ein Zeitdiagramm für die vorliegende Erfindung, welches einen Systemabsturz illustriert, während sich verändernde Werte auf Platten 330–336 der 3A geschrieben werden. Das Diagramm gilt für den Fall, in welchem eine Parität für einen neuen Datenwert berechnet wird und die Daten auf eine Platte geschrieben werden, bevor der Paritätsblock aktualisiert wird. Zum Zeitpunkt T_A hat der Paritätsblock einen Wert von 12 und die Datenblöcke 0 bis 2 haben jeweils Werte von 4, 7 und 1. Zum Zeitpunkt T_A wird Schritt 1109 der 11C für die vorliegende Erfindung ausgeführt, wobei Blöcke, die notwendigerweise den Streifen aktualisieren, in einen Speicher gelesen werden. Das System führt Schritt 1110 aus, wobei ein neuer Paritätswert in Abhängigkeit von dem/den neuen Datenwerten) berechnet wird. Zum Zeitpunkt T_B wird Schritt 1111 der 11C ausgeführt, wobei die Streifennummer in den NV-RAM geschrieben wird.
Zum Zeitpunkt T_C wird im Schritt 1112 der neue Datenwert von 2 (angegeben durch ein Kästchen um den Wert 2) in den Datenblock 0 geschrieben, wodurch der Wert von 4 ersetzt wird, welcher im Datenblock 0 zum Zeitpunkt T_B gespeichert ist. Die anderen in den Datenblöcken 1 und 2 gespeicherten Werte verändern sich nicht. Zunächst wird der normale Fall betrachtet, in welchem das System nicht ausfällt. Die vorliegende Erfindung schreibt einen neuen Paritätswert von 10 (angegeben durch ein Kästchen unterhalb der Paritätsüberschrift) zum Zeitpunkt T_D in Schritt 1112. Dies aktualisiert den Paritätsblock für den Schreibzugriff auf Datenblock 0 zum Zeitpunkt T_C. Zum Zeitpunkt T_E wird in Schritt 1113 die Streifennummer im NV-RAM gelöscht. Somit hat der Streifen, welcher die Blöcke für die Paritätsplatte und die Datenplatten 0–2 umfasst, bereits jeweils Werte von 10, 2, 7 und 1.
Als nächstes wird der Fall betrachtet, in welchem das System zwischen den Zeitpunkten t_i und t_D ausfällt (zwischen den Schritten 1111 und 1113). Das System bootet neu und beginnt eine Ausführung bei START in 11A.
Im Entscheidungsblock 1101 gibt der Entscheidungsblock 1101 zum Zeitpunkt T_D wahr (Ja) zurück, wenn ein Systemfehler auftritt. Der Streifen hat einen Wert von 12 (angegeben durch eine Unterstreichung) für die Parität und Werten für die Datenplatten 0–2 von jeweils 2, 7 und 1. Wie in 5 für den Zeitpunkt T_C illustriert, wird die Parität nach einem Systemfehler beschädigt, weil: Parität = Daten 0 + Daten 1 + Daten 2 = 2 + 7 + 1 = 10 ≠ 12 (9)
Der Streifen kann jedoch in einen konsistenten Zustand wiederhergestellt werden. Der NV-RAM umfasst eine Angabe der Streifen, die Kandidaten für eine Wiederherstellung sind, d.h. eine Liste von Streifen, die aktualisiert wurden. Alles außer dem Paritätswert ist auf der Platte verfügbar (die "2" wurde zum Zeitpunkt T_C auf die Platte geschrieben). Die Datenwerte für den Streifen werden von der Platte gelesen und ein neuer Paritätswert von 10 wird berechnet. Parität = Daten 0 + Daten 1 + Daten 2 = 2 + 7 + 1 = 10 (10)
Somit wird der neu berechnete Paritätswert von 10 zum Zeitpunkt T_D auf die Paritätsplatte im Schritt 1108 geschrieben und der Streifen ist nicht länger beschädigt.
Das folgende ist ein Beispiel eines Pseudocodes, welcher die Operation der 11C beschreibt:

(1) Lese alle zum Aktualisieren eines Streifens benötigten Plattenblöcke;
(2) Berechne neuen Paritätsinhalt;
(3) Füge Streifen # des geschriebenen Streifens der Liste der schmutzigen Streifen im NV-RAM zu;
(4) Schreibe alle zum Aktualisieren des Streifens benötigten Plattenblöcke;
(5) Entferne Streifen # des gerade geschriebenen Streifens aus Liste der schmutzigen Streifen im NV-RAM.

Nach einem Systemausfall kann ein Teil der Startprozedur der 11B durch den folgenden Pseudocode beschrieben werden:
for (alle in Liste der schmutzigen Streifen im NV-RAM spezifizierten Streifen)
{
(1) Lese alle Datenblöcke in dem Streifen;
(2) Berechne den Paritätsblock für den Streifen neu;
(3) Schreibe den neuen Paritätsblock für den Streifen;
}
Die vorliegende Erfindung verhindert somit eine Datenbeschädigung nach einem Systemausfall unter Verwendung des NV-RAM.
Detektion einer Paritätsbeschädigung mit einer Bitmap anstelle einer Liste
Der vorherige Abschnitt beschreibt eine Technik, bei welcher eine Liste von potentiell beschädigten Streifen im NV-RAM geführt wird, so dass beim Neustarten nach einem Systemausfall nur die Paritätsblöcke der Streifen in der Liste neu berechnet werden brauchen. Eine alternative Ausführungsform der vorliegenden Erfindung verwendet eine Bitmap im NV-RAM, um die potentiell beschädigten Streifen anzugeben, deren Paritätsblöcke nach einem Systemausfall neu berechnet werden müssen.
Diese Technik verwendet eine Bitmap, bei welcher jedes Bit eine Gruppe aus einem oder mehreren Streifen repräsentiert. Eine typische Plattenanordnung kann 250000 Streifen haben. Falls jeder Eintrag in der Bitmap einen einzelnen Streifen repräsentiert ist die Bitmap ungefähr 32 KB groß. Wenn jedes Bit eine Gruppe von 32 benachbarten Streifen repräsentiert, reduziert sich die Größe auf 1 KB.
Nach einem Systemausfall ist diese Technik im wesentlichen identisch mit der „Streifenlisten"-Technik, außer dass die Bitmap anstelle der Liste verwendet wird, um zu ermitteln, welche Streifen eine Paritätsneuberechnung brauchen. Für alle Streifen in Gruppen, deren Bit in der Bitmap gesetzt ist, wird deren Parität neu berechnet.
Eine Verwaltung der Bitmap während eines normalen Betriebs ist von einem Verwalten der Liste etwas verschieden. Es ist nicht länger möglich, einen Eintrag eines Streifens zu löschen, sobald die Aktualisierung fertig ist, weil ein einzelnes Bit eine Aktivität in mehr als einem Streifen anzeigen kann. Eine Aktualisierung eines Streifens kann durchgeführt sein, aber ein anderer Streifen, der das gleiche Bit teilt, kann immer noch aktiv sein.
Stattdessen wird das geeignete Bit für einen Streifen kurz bevor der Streifen aktualisiert wird gesetzt, aber es wird nicht gelöscht, nachdem die Aktualisierung beendet ist. Wenn die Bitmap zu viele Einträge gesammelt hat, werden alle Blöcke periodisch auf eine Platte geschrieben, um sicherzustellen, dass es keine inkonsistenten Streifen geben kann und die vollständige Bitmap wird gelöscht. Der folgende Pseudocode implementiert dies:

(1) Lese alle zur Aktualisierung eines Streifens benötigten Blöcke;
(2) Berechne neue Paritätsinhalte;
(3) Setze Bitmap-Eintrag für den Streifen, der aktualisiert wird;
(4) Schreibe alle zur Aktualisierung des Streifens benötigten Plattenblöcke;
(5) Falls die Bitmap zu voLL ist, warte bis alle Blöcke die Platte erreicht haben und lösche die vollständige Bitmap.

Im Falle eines Systemausfalls resultiert die Bitmap in mehr zu säubernden Blöcken als die Liste, aber die Einsparungen sind verglichen mit einer Neuberechnung der Parität für alle Streifen in dem System immer noch erheblich. Ein typisches RAID-System hat 250000 Streifen, so dass falls sogar 2500 potentiell beschädigte Streifen in der Bitmap referenziert sind, dies nur 1% der Streifen in dem System sind.
Die Bitmap-Technik ist insbesondere nützlich bei Platten mit einem Schreib-Cache, welche nicht garantieren, dass Daten im Falle eines Energieausfalls die Platte erreichen. Solche Platten können Daten im RAM für eine gewisse Zeitdauer halten bevor sie tatsächlich geschrieben werden. Das bedeutet, dass eine Paritätsbeschädigung immer noch möglich ist, selbst nachdem die Streifenaktualisierungsphase beendet ist. Die Listentechnik würde nicht funktionieren, weil die Parität eines Streifens immer noch potentiell beschädigt ist, obwohl der Streifen von der Liste entfernt wurde.
Ein Verwenden der Bitmap-Technik und ein Anweisen jeder Platte, ihren internen Cache zum gleichen Zeitpunkt auf die Platte zu schreiben, zu dem die Bitmap gelöscht wird, ermöglicht somit der Erfindung, in Kombination mit Plattenlaufwerken mit einem Schreib-Cache zu funktionieren.
Datenbeschädigung bei einem Schreibzugriff mit einer kaputten Platte unter Verwendung eines NV-RAM
Die vorliegende Erfindung löst dieses Problem der Datenbeschädigung beim Auftreten eines Schreibzugriffs mit einer gestörten Platte durch Sichern von Daten von der kaputten Platte im nicht-volatilen RAM. 7A ist ein Zeitdiagramm der vorliegenden Erfindung zum Verhindern einer Datenbeschädigung durch Speichern von Daten von einer gestörten Platte im NV-RAM. Die Zeichnung wird bezugnehmend auf die 11A–C diskutiert. In 7A werden Daten auf eine Platte geschrieben, bevor die Parität aktualisiert wird. Zum Zeitpunkt T_A wird die kaputte Datenplatte 1 mit einem Wert von 7 illustriert, welcher eingeklammert angegeben ist. Der eingeklammerte Wert von 7 gibt an, dass die Datenplatte 1 gestört ist und dass es der berechnete Wert für die Platte ist. Dieser Wert wird durch Subtrahieren der Werte von 4 und 1 der Datenplatten 0 und 2 von dem Wert von 12 berechnet, welcher in der Paritätsplatte gespeichert ist. Im Schritt 1109 wird der Streifen von der RAID-Anordnung zum Zeitpunkt T_A gelesen. Der NV-RAM wird gelöscht. Dies wird in 7A durch ein Fragezeichen unterhalb der Überschrift für den NV-RAM angezeigt.
Zum Zeitpunkt T_B wird ein Wert von 7 der gestörten Datenplatte 1 in den NV-RAM gemäß Schritt 1109 geschrieben. Der Wert 7 für die Datenplatte 1, welcher in den NV-RAM geschrieben wird, wird durch ein rechteckiges Kästchen in 7A angegeben. Das System berechnet dann einen neuen Wert der Parität für den Streifen im Schritt 1110 der 11C.
Zum Zeitpunkt T_C wird ein neuer Wert von 2 (angezeigt durch ein Kästchen) für die Datenplatte 0 auf die Platte geschrieben, bevor eine Parität für den Streifen gemäß Schritt 1112 aktualisiert wird. Deshalb ist zum Zeitpunkt T_C der Wert für die Datenplatte 19 und ist dementsprechend eingeklammert angegeben. In dem normalen Fall, in welchem das System nicht ausfällt, wird ein neuer Paritätswert von 10 auf die Platte zum Zeitpunkt T_D geschrieben und der berechnete Wert der Platte 1 wird wieder 7, was korrekt ist. Wenn ein Systemausfall zwischen den Zeitpunkten T_C und T_D auftritt, wird ein neuer Wert der Parität unter Verwendung des NV-RAM mit Bezug auf den Wert von 2 korrekt initialisiert, welcher zum Zeitpunkt T_C auf die Datenplatte 0 geschrieben wurde.
Die Parität wird zum Zeitpunkt T_D gemäß Schritt 1106 durch zunächst Lesen des Werts für alle funktionierenden Datenplatten, der im NV-RAM gespeichert ist, und Neuberechnen ihres Wertes wie folgt korrekt aktualisiert: Parität = Daten 0 + NV-RAM + Daten 2 = 2 + 7 + 1 = 10 (12)
Ein korrekter Wert von 10 wird somit für die Parität berechnet, wenn die vorliegende Erfindung nach einem Systemabsturz neu startet. Im Schritt 1108 wird zum Zeitpunkt T_D der Wert von 10 auf die Paritätsplatte geschrieben, womit der berechnete Wert von D1 auf 1 zurückgesetzt wird, was korrekt ist. Zum Zeitpunkt T_E wird der NV-RAM im Schritt 1113 gelöscht. Somit verhindert die vorliegende Erfindung unter Verwendung des NV-RAM, dass Daten durch einen Systemausfall beschädigt werden, wenn eine Platte gestört ist.
7B ist ein Zeitdiagramm der vorliegenden Erfindung zum Verhindern einer Datenbeschädigung durch Speichern von Daten einer gestörten Platte im NV-RAM für den Fall, in welchem eine Parität auf die Platte geschrieben wird, bevor Daten aktualisiert werden. Zum Zeitpunkt T_A wird eine kaputte Datenplatte 1 mit einem Wert von 7 illustriert, der eingeklammert angegeben ist. Dieser Wert wird wie oben mit Bezug auf 7A beschrieben berechnet. Im Schritt 1109 wird der Streifen zum Zeitpunkt T_A von der RAID-Anordnung gelesen. Der NV-RAM wird gelöscht, was durch ein Fragezeichen unterhalb der Überschrift für den NV-RAM angezeigt wird.
Zum Zeitpunkt T_B wird gemäß Schritt 1109 ein Wert von 7 für die gestörte Datenplatte 1 in den NV-RAM geschrieben. Der Wert von 7 für Datenplatte 1, welcher in den NV-RAM geschrieben wird, wird durch ein rechteckiges Kästchen in 7B angegeben. Das System berechnet dann einen neuen Wert der Parität für den Streifen in Schritt 1110 der 11.
Zum Zeitpunkt T_C wird in Schritt 1108 ein neuer Wert von 10 (angegeben durch ein Kästchen) für die Parität auf die Paritätsplatte geschrieben, bevor der Datenblock 0 aktualisiert wird. Deshalb ist zum Zeitpunkt T_C der Wert für die Datenplatte 15 und ist dementsprechend eingeklammert angegeben. Wenn ein Systemausfall zwischen den Zeitpunkten T_C und T_D auftritt, wird ein neuer Paritätswert für die Paritätsplatte unter Verwendung des NV-RAM korrekt aktualisiert. Beim Entscheidungsblock 1101 wird nachdem das System neu gestartet ist, eine Prüfung durchgeführt, ob ein Systemausfall stattgefunden hat. Der Entscheidungsblock gibt in dem vorliegenden Beispiel dementsprechend wahr (Ja) zurück und fährt bei Schritt 1104 fort.
Die Parität wird zum Zeitpunkt T_D durch Neuberechnen ihres Wertes wie folgt korrekt aktualisiert: Parität = NV-Daten für kaputte Platte (7) + Daten auf Platten für alle nicht kaputten Platten = 4 + 7 + 1 = 12 (13)
Somit spart das System wie in den 7A bis 7B gezeigt den Wert für eine gestörte Datenplatte 1 im nicht-volatilen RAM, kurz bevor das System einen Streifen schreibt. Es schreibt dann den neuen Wert für Datenplatte 0 (Parität) auf die Platte. Falls ein Systemabsturz auftritt, nachdem der neue Wert auf die Platte 0 (die Paritätsplatte) zum Zeitpunkt T_C geschrieben wird, ist der Wert für die Datenplatte 1 beschädigt. Nach dem Systemausfall wird der neue Wert der Parität (Datenplatte 0) unter Verwendung des Wertes von 7 berechnet, welcher im NV-RAM anstelle des berechneten Wertes von 5 für Datenplatte 1 gespeichert ist. Der Wert der Parität (Datenplatte 0) wird dann auf die Platte geschrieben. Sobald dies beendet ist, wird der NV-RAM gelöscht.
Simultaner System- und Plattenausfall unter Verwendung eines NV-RAM
Die vorliegende Erfindung löst das Problem einer Paritäts- und Datenbeschädigung wenn simultane System- und Plattenausfälle auftreten durch Sichern von Blöcken von Streifen im NV-RAM. Unter Verwendung des NV-RAM ermöglicht das System in einen konsistenten Zustand wiederhergestellt zu werden, wenn ein Systemabsturz auftritt, während verschiedene Blöcke (in dem folgenden Beispiel Datenblöcke 0 und 1) in dem System aktualisiert werden. Ein Verändern dieser Datenblöcke erfordert weiterhin, dass die Parität des Streifens aktualisiert wird. Die vorliegende Erfindung sichert immer jedweden Block im NV-RAM, welcher zu diesem Zweck von der Platte gelesen wird (zum Beispiel vor einem Aktualisieren des Datenblocks 0, lies ihn in den NV-RAM). Somit kann eine Streifeninformation aus den im NV-RAM gespeicherten Daten neu berechnet werden. Die vorliegende Erfindung stellt zwei Lösungen hierfür bereit, unter Verwendung einer Parität-durch-Subtraktion und einer Parität-durch-Neuberechnung.
Bei einer Parität-durch-Subtraktion werden Daten, die Paritäts- und Datenblöcke umfassen, bevor sie aktualisiert werden aus der Platte gelesen. 10A ist ein Zeitdiagramm der vorliegenden Erfindung zum Verhindern ei ner Paritäts- und Datenbeschädigung durch Speichern von Blöcken eines Streifens im NV-RAM. Die Zeichnung wird mit Bezug auf 11A–C diskutiert. In 10A werden Daten auf die Platte geschrieben, bevor eine Parität aktualisiert wird. Zum Zeitpunkt T_A werden der Paritätsblock und Datenblock 0 von der RAID-Anordnung gelesen. Der NV-RAM wird gelöscht. Dies wird in 10A angegeben durch ein Fragezeichen unterhalb der Überschrift für den NV-RAM.
Zum Zeitpunkt T_B werden der Paritätsblock und Datenblock 0 in den NV-RAM geschrieben, wenn sie von der Platte gelesen werden. Der Paritätsblock und der Datenblock 0, welche in den NV-RAM geschrieben werden, sind durch ein rechteckiges Kästchen in 10A angegeben. Das System berechnet dann einen neuen Wert der Parität für einen Wert von 2 für Datenblock 0.
Zum Zeitpunkt T_C wird der neue Wert von 2 (angegeben durch ein Kästchen) für Datenplatte 0 auf die Platte geschrieben, bevor eine Parität für den Streifen aktualisiert wird. Wenn ein Systemausfall zwischen Zeitpunkt T_C und T_D auftritt, ist eine Platte in der RAID-Anordnung gestört und die vorliegende Erfindung stellt somit Lösungen für die drei Fälle einer kaputten Platte bereit: die Paritätsplatte; die Datenplatte 0; und die Datenplatte 1 (oder 2). Im Entscheidungsblock 1101 wird eine Prüfung durchgeführt, ob ein Systemausfall aufgetreten ist. Der Entscheidungsblock gibt in dem vorliegenden Beispiel dementsprechend wahr (Ja) zurück und fährt bei Schritt 1104 fort. Die drei Fälle einer kaputten Platte aufgrund eines Systemausfalls wenn eine Parität-durch-Subtraktion berechnet wird, sind jeweils in den 10A bis 10C gezeigt.
Zum Zeitpunkt T_D ist die Paritätsplatte in 10A gestört aufgrund des Systemausfalls zwischen den Zeitpunkten T_C und T_D. In diesem Falle gibt es nichts, was getan werden kann. Keine Daten sind verloren, und es kann keine Information auf die Paritätsplatte geschrieben werden.
Bezugnehmend auf 10B ist eine Datenplatte 0 aufgrund des Systemausfalls zwischen Zeitpunkt T_C und T_D zum Zeitpunkt T_D gestört. Die generelle Gleichung zum Neuberechnen einer Parität ist in diesem Falle: Parität = „NV-Wert für kaputte Platte" + „Werte auf Platten für alle nicht-kaputten Platten"
In dem vorliegenden Beispiel wird dies zu: Parität = NV(Daten 0) + Daten 1 + Daten 2 = 4 + 7 + 1 = 12
Im Ergebnis wird die Parität aktualisiert, um die kaputte Platte zu dem Wert wiederherzustellen, welcher für ihn in dem NV-RAM gespeichert ist. In diesem speziellen Beispiel kommt es vor, dass der neue Wert für eine Parität dem alten Wert entspricht. Falls neben Daten 0 andere Datenblöcke ebenfalls aktualisiert wurden und falls einer von ihnen die Platte vor dem Systemausfall erreicht hat, dann würde der neue Paritätswert nicht mit dem alten übereinstimmen.
Bezugnehmend auf 10C ist die Datenplatte 1 aufgrund des Systemausfalls zwischen den Zeitpunkten T_C und T_D zum Zeitpunkt T_D gestört. Dieser Fall wird durch Lesen der Paritäts- und Datenplatten-0-Werte aus dem NV-RAM in Schritt 1114 und Schreiben von ihnen auf die Platte (angegeben durch ein Kästchen) behandelt. Somit wird die Veränderung der Datenplatte 0 überschrieben aber der Streifen wird in einen konsistenten Zustand zurückgeführt. Datenplatte 1 wird zum Zeitpunkt T_D und T_E durch Einklammern ihres Werts als kaputt gekennzeichnet. Der Wert der kaputten Datenplatte 1 wird somit zum Zeitpunkt T_D wie folgt korrekt als 7 (angezeigt durch ein Kästchen) berechnet: Daten 1 = NV(Parität) – NV(Daten 0) – Daten 2 = 12 – 4 – 1 = 7, (14)wobei NV(Parität) und NV(Daten 0) die Werte für die Parität und den Datenblock 0 sind, die im NV-RAM gespeichert sind. Zum Zeitpunkt T_E wird der NV-RAM gelöscht. Somit wird in 10C der Streifen durch die vorliegende Erfindung in einem konsistenten Zustand gehalten, obwohl Datenplatte 1 (eine kaputte Platte 2 wird ähnlich behandelt) nach dem Systemausfallzwischen Zeitpunkt T_C und T_D gestört ist.
Dieser Fall kann auch durch zunächst Berechnen des alten Inhalts der kaputten Platte wie folgt behandelt werden: D1-calc = NV-Parität – „NV-Werte für Platten, die aktualisiert werden" – „Werte auf Platten für nicht aktualisierte Datenplatten".
Ein neuer Paritätswert wird berechnet basierend auf: Parität = "D1-calc aus dem obigen Schritt" + "Werte auf Platten für alle nicht-ruinierten Datenplatten".
Simultane System- und Plattenausfälle mit Parität-durch-Neuberechnung
Bei einer Parität-durch-Neuberechnung werden die Datenblöcke, die nicht aktualisiert wurden, zunächst von der Platte gelesen und dann wird eine Parität basierend auf diesen Werten kombiniert mit den neuen Daten, die kurz davor stehen, geschrieben zu werden, neu berechnet. Dies wird typischerweise in Fällen verwendet, in welchen verschiedene Datenblöcke gleichzeitig aktualisiert werden, weil es in diesen Fällen effizienter ist als eine Parität-durch-Subtraktion. Der Einfachheit halber wird in dem vorliegenden Beispiel nur ein Block aktualisiert. Die gezeigten Techniken gelten für Aktualisierungen von beliebigen Anzahlen von Blöcken.
Die 12A–12C sind Zeitdiagramme für eine Parität-durch-Neuberechnung. Für Zeitpunkte T_A, T_B und T_C sind sie alle identisch.
Zum Zeitpunkt T_A werden in Schritt 1109 Blöcke D1 und D2 von der Platte gelesen. In Schritt 1110 berechnet das System die neue Parität basierend auf den neuen Daten für die Platte 0 gemeinsam mit den gerade gelesenen Daten der Platten 1 und 2.
Zum Zeitpunkt T_B werden in Schritt 1111 Blöcke D1 und D2 gemeinsam mit einer Kennzeichnung des Streifens, zu welchem sie gehören, in den NV-RAM geschrieben.
Zum Zeitpunkt T_C wird während des Schritts 1112 der neue Wert "2" auf Platte 0 geschrieben. Im Normalfall würde der Paritätsblock auch während des Schrittes 1112 geschrieben werden und es gäbe keine Beschädigung.
In dem vorliegenden Beispiel gibt es einen Systemausfall in Kombination mit einem Plattenausfall. Wenn das System nach einem Systemausfall neu startet, beginnt eine Ausführung bei Schritt 1101. Weil es einen Ausfall gibt, gibt der Entscheidungsblock wahr (Ja) zurück und fährt bei Schritt 1102 fort und führt die notwendigen Schritte durch, um das RAID-Subsystem basierend auf dem Inhalt des NV-RAM wiederherzustellen.
12A zeigt den Fall, wenn die Paritätsplatte ausfällt. In diesem Fall muss nichts getan werden. Es gibt keine Möglichkeit des Datenverlustes, weil keine Datenplatten ausgefallen sind.
12B zeigt den Fall, in welchem die Platte ausfällt, die aktualisiert wird. Es ist anzumerken, dass zum Zeitpunkt T_D der berechnete Wert für Platte 0 inkorrekt ist. Grundsätzlich gibt es nicht genug Information im NV-RAM, um den verlorenen Datenblock zu rekonstruieren, falls mehrere Blö cke aktualisiert werden. Dies ist so, weil es bei einer Parität-durch-Neuberechnung die Daten sind, die nicht aktualisiert werden, welche in den NV-RAM geladen werden. Die Daten auf der ausgefallenen Platte sind ohnehin nicht gesichert.
In diesem Fall berechnet die vorliegende Erfindung einen neuen Paritätswert der den Inhalt der ausgefallenen Platte auf 0 setzt. Die generelle Gleichung hierfür ist: Parität = Summe der nicht kaputten Platten
Und in diesem Beispiel ist das: Parität = D1 + D2 = 7 + 1 = 8
Zum Zeitpunkt T_E wird der neue Paritätswert geschrieben und zum Zeitpunkt T_F werden die NV-RAM-Werte für D1 und D2 gelöscht.
Mit einem Dateisystem des Standes der Technik, welches neue Daten an den gleichen Ort schreibt, wie alte Daten, wäre ein Eliminieren von Datenblöcken inakzeptabel. Aber mit einem WAFL („Write Anywhere File Layout"}, welches neue Daten immer an unbenutzten Orten auf die Platte schreibt, hat ein Eliminieren eines Blocks, der geschrieben wurde, keinen nachteiligen Effekt, weil der Inhalt des Blocks nicht Teil des Dateisystems ist.
12C zeigt den Fall, in welchem die Platte, die nicht aktualisiert wird, ausfällt. Es ist zu beachten, dass zum Zeitpunkt T_D der berechnete Wert für Platte 1 inkorrekt ist. Die Gleichung zum Neuberechnen der Parität ist: Parität = "NV-RAM-Wert für ausgefallene Platte" + "Werte auf Platten für nicht-ausgefallene Platten".
In dem vorliegenden Beispiel ist das: Parität = NV(Di) + D0 + D2 = 7 + 2 + 1 = 10
Zum Zeitpunkt T_E wird der neue Paritätswert geschrieben und zum Zeitpunkt T_F werden die NV-RAM-Werte für D1 und D2 gelöscht.
In dieser Weise wird ein Verfahren und eine Vorrichtung zum Bereitstellen einer Fehlerkorrektur für eine Anordnung von Platten unter Verwendung eines nicht-volatilen Random-Access-Speichers (NV-RAM) offenbart.

Claims

Ein Verfahren zum Bereitstellen einer Paritätskorrektur für eine RAID-Anordnung in einem Computersystem nach einem Systemfehler, umfassend die Schritte: Aufrechterhalten (1111–1113) von Information über Streifen mit möglicherweise inkonsistenter Parität während eines Routinebetriebs des Computersystems; Identifizieren (1104, 1105) von Streifen in Reaktion auf die Information nach dem Systemfehler; und Korrigieren (1106–1108) der möglichen inkonsistenten Parität für jeden der so identifizierten Streifen; dadurch gekennzeichnet, daß der Schritt des Aufrechterhaltens folgende Schritte umfaßt: beim Aktualisieren von Daten wird ein Anteil der Daten für einen oder mehrere erste Blöcke eines Streifens mit einer Streifennummer und einer existierenden Parität bestimmt; Lesen des ersten Blocks in einen nicht-volatilen Speicher; Lesen (1109) eines oder mehrere zweite Blöcke des Streifens, die benötigt werden, um eine neue Parität des Streifens zu berechnen; Berechnen (1110) der neuen Parität für den Streifen; Hinzufügen (1111) der Streifennummer zu einer Liste von schlechten Streifen, die die Information über Streifen umfaßt; Schreiben (1112) des Anteils der Daten in den Streifen; Schreiben (1112) der neuen Parität in den Streifen; Entfernen (1113) der Streifennummer von der Liste der schlechten Streifen.
Verfahren nach Anspruch 1, wobei die Information eine Streifennummer-Information umfaßt.
Verfahren nach Anspruch 1, wobei die zweiten ein oder mehrere Blöcke den existierenden Paritätsblock umfassen.
Verfahren nach Anspruch 1, wobei die zweiten ein oder mehrere Blöcke den existierenden Paritätsblock ausschließen.
Verfahren nach Anspruch 1, wobei die Information in einem nicht-volatilen RAM gespeichert wird.
Verfahren nach Anspruch 1, wobei die Liste der schlechten Streifen in Form einer Bitmap vorliegt und jedes Bit in der Bitmap einer Gruppe von einem oder mehreren Streifen zugeordnet wird.
Verfahren nach Anspruch 6, wobei jede der Gruppe 32 benachbarte Streifen umfaßt.
Vorrichtung zum Bereitstellen einer Paritätskorrektur für eine RAID-Anordnung in einem Computersystem nach einem Systemfehler, wobei die Vorrichtung umfaßt: einen Aufrechterhaltungs-Mechanismus (1111–1113), der konfiguriert ist, um Information über Streifen mit möglicher inkonsistenter Parität aufrechtzuerhalten, die durch Aktualisieren von Daten während eines Routinebetriebs des Computersystems bewirkt wird; einen Identifikations-Mechanismus (1104), der konfiguriert ist, um Streifen in Reaktion auf die Information zu identifizieren, wobei der Identifikations-Mechanismus in Reaktion auf eine Überprüfung bei Neustart nach einem Systemfehler aktiviert wird; ein Korrektur-Mechanismus (1106–1108), der konfiguriert ist, um die mögliche inkonsistente Parität für jeden der Streifen zu korrigieren, die durch den Identifikations-Mechanismus identifiziert werden; dadurch gekennzeichnet, daß der Aufrechterhaltungs-Mechanismus umfaßt: einen Lese-Mechanismus (1109), der beim Aktualisieren von Daten aktiviert wird, wobei ein Anteil der Daten für einen oder mehrere erste Blöcke eines Streifens mit einer Streifennummer und einer existierenden Parität bestimmt wird, wobei der Lesemechanismus (1109) konfiguriert ist, um einen oder mehrere zweite Blöcke des Streifens zu lesen, die benötigt werden, um eine neue Parität des Streifens zu berechnen, und um den ersten Block in einen nicht-volatilen Speicher zu laden, wobei der Lese-Mechanismus aktiviert wird, wenn neue Daten in einen oder mehrere erste Blöcke eines Streifens mit einer Streifennummer und einer existierenden Parität zu schreiben sind; einen Berechnungs-Mechanismus (1110), der konfiguriert ist, um die neue Parität für den Streifen in Reaktion auf den Lesemechanismus zu berechnen; einen Beifüge-Mechanismus (1111), der konfiguriert ist, um die Streifennummer einer Liste von schlechten Streifen beizufügen, die die Information über Streifen in Reaktion auf den Berechnungs-Mechanismus umfaßt; einen Schreib-Mechanismus (1112), der konfiguriert ist, um die Daten in den Streifen zu schreiben; einen zweiten Schreib-Mechanismus, der konfiguriert ist, um die neue Parität in den Streifen zu schreiben; einen Entfern-Mechanismus (1113), der konfiguriert ist, um die Streifennummer von der Liste der schlechten Streifen zu entfernen.
Vorrichtung nach Anspruch 8, wobei die Information Streifennummer-Information umfaßt.
Vorrichtung nach Anspruch 8, wobei die zweiten ein oder mehreren Blöcke den existierenden Paritätsblock umfassen.
Vorrichtung nach Anspruch 8, wobei die zweiten ein oder mehreren Blöcke den existierenden Paritätsblock ausschließen.
Vorrichtung nach Anspruch 8, wobei die Information in einem nicht-volatilen RAM gespeichert ist.
Vorrichtung nach Anspruch 8, wobei die Liste der schlechten Streifen in der Form einer Bitmap vorliegt, und jedes Bit in der Bitmap einer Gruppe mit einem oder mehreren Streifen zugeordnet ist.
Vorrichtung nach Anspruch 13, wobei jede der Gruppen 32 benachbarte Streifen umfaßt.
Ein Computerprogramm, umfassend eine Programmcode-Einrichtung, die das Computersystem veranlaßt, die Schritte eines der Verfahren nach den Ansprüchen 1 bis 7 auszuführen, wenn sie auf einem Computersystem ausgeführt wird.