In diesem Blog-Beitrag beschreiben wir einen RAID-Array-Ausfall, der in einem Dell-Server aufgetreten ist. Wir werden erklären, wie unsere Datenrettungsspezialisten alle benötigten Daten gerettet und den Server innerhalb der nächsten 24 Stunden wiederhergestellt haben, nachdem wir den Server und die zugehörigen Festplatten in unserem Datenrettungslabor erhalten hatten. Der Kunde war ein Apothekenbetrieb. Er hatte vor langer Zeit eine Apothekenanwendung auf dem Dell PowerEdge R430-Server installiert. Leider wurde durch den Ausfall des Servers der gesamte Geschäftsbetrieb eingestellt.
HIPAA-konformes Datenrettungsunternehmen
PITS Globale Datenrettungsdienste ist ein HIPAA-konformes Unternehmen, und wir arbeiten mit Gesundheitsorganisationen zusammen, um ihnen bei der Datenwiederherstellung zu helfen.
Das Problem trat nach der Arbeitszeit am Freitag auf, und wir hatten bis Montag Zeit, die Daten wiederherzustellen und die Funktionalität des Servers wiederherzustellen. Das Unternehmen hatte keinen aktiven Support-Kontakt mit dem IT-Unternehmen, das den Server eingerichtet hatte.
Folglich hatte niemand auf Kundenseite technische Informationen über den Server, die RAID-Konfiguration und die Anwendungseinrichtung. Sie wussten nur, dass auf dem Server ein SQL-Server lief und dass sie den Server wiederherstellen wollten. Sie hatten nicht einmal eine einzige Kopie eines Backups an anderer Stelle und verließen sich auf einen einzigen Server.
Notfall-Datenrettungsdienst
Dieser Fall war dringend und hätte sofort erledigt werden müssen. Daher wurde das PITS-Notfallteam losgeschickt und wartete darauf, dass der Server am Samstagmorgen in unserem Labor eintraf. Sie brachten den Server und die Festplatten mit. Wir begannen mit der ersten Inspektion des Servers und der zugehörigen Festplatten.
Der Server enthielt vier (4) Festplatten. Jede Festplatte wurde aus dem Server ausgebaut, beschriftet und dann den Ingenieuren zur weiteren technischen Prüfung zugewiesen. 2 Fachingenieure waren mit der Bearbeitung dieses Falls betraut.
Da uns keine technischen Informationen über die Konfiguration des Server-RAID-Systems vorlagen, mussten wir die Standardverfahren anwenden und jedes Gerät untersuchen, um die Ursache des Ausfalls zu finden.
Inspektion des ausgefallenen Dell-Servers
Bei der Inspektion des Dell-Servers stellten wir fest, dass er aufgrund einer BIOS-Beschädigung nicht bootete. Nachdem wir das BIOS zurückgesetzt hatten, begann der Server zu booten, blieb aber erneut im RAID Array Configuration Utility stecken, das die an den Dell Perc S130 RAID Controller angeschlossenen Festplatten verwaltet.
Der Server war alt, die Lüfter machten ungewöhnliche Geräusche, und im Inneren befand sich viel Staub. Unsere Ingenieure reinigten den Server mit einem Hochdruckluftgebläse. Anschließend aktualisierten wir die Firmware des RAID-Controllers, um sicherzustellen, dass der Server mit der neuesten BIOS- und Controller-Firmware arbeitet.
Leider ließ sich der Server nicht mehr starten, so dass wir uns auf die Datenwiederherstellung konzentrierten und das System auf einem anderen Server wiederherstellten.
Festplatten Analyse
Der Server verfügte über vier Festplatten. Wir untersuchten jede von ihnen. Leider hatte eine der Festplatten einen Lesekopfausfall, d. h. einer von sechs Leseköpfen konnte die Daten nicht von den magnetischen Oberflächen lesen. Daher musste dieses Laufwerk in einem Reinraum wiederhergestellt werden.
Bevor wir jedoch mit der Änderung der Lese- und Schreibeinheit der Festplatte fortfahren, müssen wir feststellen, wie diese Festplatten konfiguriert waren. Welche Art von RAID-Level wurde verwendet? Oder handelt es sich nur um einen Verbund von Laufwerken (JBOD)? Ist diese Festplatte für eine erfolgreiche Wiederherstellung erforderlich?
Die übrigen Festplatten wiesen fehlerhafte Sektoren und eine schleppende Lesegeschwindigkeit auf. Wir konnten sie jedoch vollständig klonen und die fehlerhaften Sektoren mit Hilfe von Hardware-Lesewiederholungen lesen.
Untersuchung des Dell RAID-Controllers
Unsere Ingenieure mussten bestimmte RAID-Typen ausschließen, indem sie einfache Untersuchungen durchführten. Zu diesem Zweck öffneten wir das Datenbankblatt des auf diesem Server installierten Dell PERC S130 Controllers, um detaillierte Informationen über die von diesem Controller unterstützten RAID-Servertypen zu erhalten.
Die unterstützten RAID-Level sind RAID 0, RAID 1, RAID 5 und RAID 10.
Wir haben den auf diesen Festplatten gespeicherten Inhalt analysiert und Daten auf ihnen gefunden, was beweist, dass der RAID-Verbund alle vier Festplatten verwendet hat. Leider konnten wir keine Informationen vom RAID-Konfigurationsprogramm erhalten, da der RAID-Controller auf diesem Server zurückgesetzt wurde.
RAID-Wiederherstellung - Unterstützte RAID-Levels
Mit vier Festplatten können Sie logische RAID-1-, RAID-5- oder RAID-10-Volumes erstellen. RAID 1 benötigt nur zwei Festplatten, aber nicht mehr. Wir können also RAID 1 aus der Liste streichen.
Außerdem wissen wir, dass nur RAID 5 Parität verwendet, um Redundanz aufzubauen, die anderen RAID-Typen dagegen nicht. Die Entropieanalyse von 4 RAID-Mitgliedern ergab keine positiven Ergebnisse, so dass wir bestätigen können, dass es sich auch nicht um RAID 5 handelt.
Wir haben nur RAID 0 (Stripe) und RAID 10 (Mirror+Stripe) übrig gelassen. Wir haben festgestellt, dass die beiden Festplatten die gleichen Daten enthalten, indem wir die Datensektoren auf jeder Festplatte verglichen haben. Diese Analyse bestätigt, dass es sich um ein logisches RAID 10-Volumen handelt.
RAID 0-Array mit 128-Sektoren-Blockgröße
Wir brauchen nur eine Festplatte von jedem Paar, um die Daten wiederherzustellen und kombinieren sie, indem wir die richtige Blockgröße finden. Beim Striping wird die Blockgröße verwendet, und in diesem logischen Volume betrug Zu diesem Zeitpunkt müssen wir die Festplatte mit dem defekten Lesekopf noch nicht reparieren. Die Ingenieure haben das logische RAID 0-Volumen mit einer Blockgröße von 128 Sektoren unter Verwendung der Byte-zu-Byte-Images von Festplatten erstellt; wir haben Zugriff auf das Dateisystem, Dateien und Ordner.
Überprüfung der Dateiintegrität
Bei der Überprüfung der Dateiintegrität stellten wir fest, dass neuere Dateien nicht funktionierten, die alten jedoch geöffnet werden konnten. Damit war klar, dass eines der RAID-Mitglieder veraltet war und der RAID-Controller es vor langer Zeit aus dem logischen Volume entfernt hatte.
Es war notwendig, die Festplatte mit dem Lesekopfdefekt zu reparieren, indem die Lese- und Schreibköpfe ausgetauscht und ein vollständiger Festplattenklon erstellt wurde. Andernfalls wird die Wiederherstellung von Dateien und Ordnern aus dem RAID-Verbund unmöglich sein.
Einer der Lese- und Schreibköpfe der Festplatte hat seine Funktion verloren. Die einzige Lösung für dieses Problem bestand darin, die Magnetkopfeinheit durch eine neue zu ersetzen. Nachdem der Ingenieur eine vollständig kompatible Festplatte gefunden hatte, die er als Spender für das Patientenlaufwerk verwenden konnte, führten wir in unserem zertifizierten Reinraum einen präzisen Austausch der Leseköpfe durch.
Wir hatten die Daten bereits von der Patientenfestplatte gelesen, bevor wir die Festplatte öffneten, mit Ausnahme der Daten, die mit der Festplatte mit dem defekten Lesekopf geschrieben wurden.
Nach dem erfolgreichen Austausch der Lesekopfeinheit einer defekten Festplatte konnten wir die verbleibenden Daten lesen und ein vollständiges Abbild dieser Festplatte erstellen.
Erstellen eines vollständigen logischen RAID-Abbilds
Da wir vier vollständige Abbilder von jeder Festplatte hatten, waren die Chancen auf eine erfolgreiche Datenwiederherstellung groß. Daher verwendeten wir eine Datenwiederherstellungssoftware, um zwei Laufwerk-Images als Stripe-Mitglieder mit einer Blockgröße von 128 Sektoren zu kombinieren. Für jede RAID 0-Kombination überprüften wir die Integrität der Dateien mit dem letzten Änderungsdatum.
Nachdem wir einige Stunden vor dem Absturz einige vollständig funktionierende Dateien gefunden hatten, fanden wir die richtigen Laufwerk-Images, um ein Volume zu erstellen. Durch Kombination dieser beiden Laufwerk-Images erstellten wir ein einziges Image des logischen RAID-10-Volumes. Das Öffnen dieser Abbilddatei und das Exportieren der erforderlichen Dateien war dann kein Problem mehr.
Aber die Arbeit war noch nicht zu Ende, denn am Montagmorgen sollte das Unternehmen eine voll funktionsfähige Apothekenanwendung auf einem neuen Server haben. Der Kunde hatte keinen Ersatzserver, den wir verwenden konnten, da der vorherige Server unzuverlässig war. Die Anschaffung eines neuen Servers innerhalb weniger Stunden war nicht machbar. Zu diesem Zweck halten wir einige neue und gebrauchte Server in unserem Lager vor, um den Kunden in diesen schwierigen Situationen zu helfen.
Nachdem wir die Zustimmung des Kunden erhalten hatten, entschieden wir uns für einen generalüberholten HP Proliant ML350 Gen9.
Die Ingenieure klonten das RAID-Array-Image auf eine 1-TB-SSD-SAS-Festplatte und konfigurierten den HP Smart Array-Controller so, dass er von diesem Laufwerk bootet.
Der Server wurde erfolgreich gebootet, und alle Dienste liefen einwandfrei, einschließlich Microsoft SQL Server und Geschäftsanwendungen. Die Funktionalität des Servers konnte also erfolgreich wiederhergestellt werden.
Überprüfung der Datenintegrität
Der Kunde musste die Funktionalität des Servers, von MS SQL Server und der Geschäftsanwendung überprüfen. Daraufhin schlossen wir den Server an unser sicheres Netzwerk an und gewährten den verantwortlichen Mitarbeitern des Kunden Fernzugriff.
Sie verbrachten einige Zeit damit, die SQL-Datenbank aus der Ferne zu überprüfen und SQL-Abfragen auszuführen, um die Transaktionen und Anwendungen zu kontrollieren. Der Kunde bestätigte die erfolgreiche Datenwiederherstellung und war froh, mit der Bezahlung und anderen administrativen Vorgängen fortfahren zu können. Am Montagmorgen war der Server wieder in Betrieb und diente dem Unternehmen.
Beginnen Sie Ihren Fall noch heute mit unseren qualifizierten Ingenieuren, und Sie werden es nicht bereuen. Setzen Sie sich mit unserem Team in Verbindung, indem Sie 069 58996544 anrufen oder das Formular für Hilfeanfragen ausfüllen.
Häufig gestellte Fragen
Was ist RAID 10 und wie funktioniert es auf einem Dell PowerEdge R430?
RAID 10 ist eine Kombination aus RAID 1 (Spiegelung) und RAID 0 (Striping). Auf einem Dell PowerEdge R430 handelt es sich um eine Konfiguration, bei der Ihre Daten auf mindestens vier Festplatten verteilt und gespiegelt werden. Dies bietet eine hohe Redundanz und Leistung, aber auch eine gewisse Sicherheit vor Datenverlust.
Welche Arten von Datenverlusten können bei RAID 10 auf einem Dell PowerEdge R430 auftreten?
Datenverluste können aus verschiedenen Gründen auftreten, darunter Hardwarefehler, Beschädigung von RAID-Konfigurationen, versehentliches Löschen von Daten und menschliches Versagen. Auch Umweltfaktoren wie Stromausfälle oder Naturkatastrophen können dazu führen.
Wie kann PITS Globale Datenrettungsdienste bei der Wiederherstellung meiner RAID-10-Daten auf einem Dell PowerEdge R430 helfen?
Wir verfügen über umfangreiche Erfahrung und Fachwissen in der RAID-Datenwiederherstellung. Unsere Experten können beschädigte RAID-Konfigurationen wiederherstellen, defekte Festplatten ersetzen und verlorengegangene Daten rekonstruieren. Kontaktieren Sie uns, um eine kostenlose Diagnose und eine maßgeschneiderte Lösung zu erhalten.
Kann ich versuchen, die RAID-10-Datenwiederherstellung selbst durchzuführen?
Das eigenständige Versuchen der RAID-10-Datenwiederherstellung kann zu weiteren Schäden führen und die Chancen auf erfolgreiche Datenwiederherstellung verringern. Es ist ratsam, die Experten von PITS Globale Datenrettungsdienste zu konsultieren, um professionelle Unterstützung zu erhalten.
Welche Vorsichtsmaßnahmen sollte ich treffen, um Datenverlust auf meinem Dell PowerEdge R430 zu vermeiden?
Es ist wichtig, regelmäßige Datensicherungen durchzuführen, RAID-Controller und Festplatten auf Fehler zu überwachen, und auf Sicherheitsbewusstsein zu achten, um Datenverlust zu verhindern. Wir bieten auch Beratungsdienste zur Datenverlustprävention an.
Datenrettung Anfragen
„*“ zeigt erforderliche Felder an