HITACHI HA8000/TS20 SAS146G8台構成のデータ復旧

サーバー
機器種別HITACHI Server
型番HA8000 TS20 AM2
RAIDカードLSI社製 L3-25410-02D(SAS 2208)
構成RAID5 8台(7台+予備1台)
容量876GB
データ量545GB
所要時間10日
料金352,000円

プロローグ

11月のある日、東京のお客様から電話が有りました。

お客様:「御社はTeraStation以外のデータ復旧はやっていないのですか?」
弊 社:「他も対応しますよ。但し、ハードディスクの状態によりますが。。。
どうしたんですか?」
お客様:「実は、会社のサーバーが起動しないんですよ。」
弊 社:「どういう状態ですか?」
お客様:「ビルの点検用停電が有って、サーバーの電源を落としました。その後、電源を入れようとしても、電源が入らないのですよ。
納入業者に修理を依頼したら、その機械は古いので、修理は出来ません。復旧業者に依頼して、データ復旧してもらって下さい。
って言われたんですよ。」
弊 社:「冷たいんですね。サーバーのデータ復旧は経験あります。送って頂ければ、復旧できるか判定します。」
お客様:「復旧費用はいくらになりますか?サーバーは8台構成のRAID6だと思います。」
弊 社:「今外出先なので、30~60分後にお見積書を送付します。」
税込352,000円のお見積書を送付したところ、上司と相談し、すぐに発送手続きを行い、翌日の午前中に届きました。

サーバーの状態確認

サーバーが到着し、モニタ、キーボード、マウスをセットして、電源ケーブルを挿しこみました。(まだ、電源ボタンを押してません)
最初に一瞬ファンが回り、しばらくしてフロントパネルのインジケーターに「FF」と表示され、エラーのランプが点灯し、ブザーが鳴りました。電源ボタンを押しても、電源が入りません。

サーバーのマニュアルを検索して確認した所、「FF」の表示は、「その他のエラー」だそうです。
何だよ。「その他のエラー」って。

次に、RAIDカードとハードディスクを外して、電源ケーブルを接続してみましたが、やはり、「FF」のエラー表示でした。

で、判ったことは、電源ケーブルを接続すると、事前のエラーチェックが走り、何も問題が無ければ、電源ボタンを押すことが可能になる仕組み、ということでした。

弊社の推測と対処

RAIDカードとハードディスクを外しても、同じエラーが表示されるということは、故障の原因は、RAIDカードやハードディスク以外と考えられます。おそらく、マザーボード、電源、ファンの辺り。
ということは、同機種の中古を取り寄せ、RAIDカードとハードディスクを接続すれば、データは復元できる、と推測しました。

ラッキーであれば、Windowsが起動するはずです。

中古サーバーでの復旧作業

同機種の中古サーバーを探したところ、名古屋の業者に有ったので、すぐ送るように手配しました。

中古サーバーは、3.5インチのハードディスク4台用のケースでした。(故障したサーバーは、2.5インチのハードディスク8台用のケースでした)
ハードディスクのケースを外す時に判ったことですが、ケースには、電源用コネクタ、SAS用信号線のコネクタの他に、おそらく、事前チェック用の信号線が付属してました。
中古サーバーに、RAIDカードを接続し、RAIDカードとハードディスクとの接続には、ハードディスクのケースは用いず、直結しました。

いよいよ電源ケーブルを接続。しばらくして電源ボタンが押せるようになったので、電源をON。

。。。立ち上がらない。

で、起動中に、RAIDカードの設定画面を起動。

????
RAID5(7台+1台)
Disk1 OK
Disk2 OK
Disk3 OK
Disk4 OK
Disk5 NG
Disk6 NG
Disk7 NG
Disk8 OK

という表示でした。

これは、、、、、、
RAID6でない。・・・RAIDカードが故障?
Disk5、Disk6、Disk7がNG・・・RAIDから外れてる。HDDの故障か?(作業前にそれそれのハードディスクのクローンを作成できたので、物理損傷は無いのだが。。)
イヤ、Disk1からDisk4は正常に接続されている。なんなんだ?

本格的なデータ復旧を行わなければ、、、、

8台構成のRAIDからのデータ復旧①

中古サーバーでの復旧作業は終了し、弊社のRAID復旧環境へハードディスクを移動しました。
まずは、8台構成RAID6、8台構成RAID5、7台構成RAID6、7台構成RAID5を試してみました。
それぞれの場合で多少の差異はありますが、WindowsフォルダやProgram Files、ProgramDataのフォルダが見えます。
試しに、ProgramDataのフォルダを復旧してみました。それなりにデータの取り出しが出来ました。復旧したデータの中に、PDFファイルが有ったので、開こうとしましたが、いずれのパターンでも開けませんでした。

8台構成のRAIDからのデータ復旧②

RAID5、RAID6の場合、設定のパラメータが大きく3個有ります。
ストライプサイズ、パリティー分布、遅延パリティーです。
そして、ハードディスクのRAID構成の台数と並び順が追加されます。

まずは、RAID5なのか、RAID6なのかは、納品業者に確認すれば判るはず。
それから、ハードディスクの並び順は、換えられたのか?
弊社へ依頼する前に、他の業者へ復旧を依頼した場合、
お客様がハードディスクを外して、並び順を換えたのか?

ということが、大きな問題となります。
特に、以前の復旧作業で、弊社の前に、他の業者へ復旧依頼された物が有り、この時は、ハードディスクの並び順が問題となり、苦労しました。

早速、お客様に確認した所、RAID5。ハードディスクは抜き差ししてエアーで埃を飛ばしたが、順番は変えていない。という回答でした。

8台構成のRAIDからのデータ復旧③

いよいよこれからが本番の復旧作業となります。

8台構成RAID5の場合に、考慮する点は、
1.ハードディスクの並び順の特定
2.RAID ARRAYの構成
3.予備HDDの考慮
4.RAIDのパラメータ
5.ハードディスクの故障の有無
ということになります。

1.ハードディスクの並び順の特定

弊社の復旧環境では、RAIDカードに、LSI00194をRAID無しの設定で使用しています。
RAIDカードに正しい順番でハードディスクを接続しても、パソコン上で認識される順番は、それとは異なる場合が多いです。
なので、Disk1のみ接続し、パソコンを起動し、ハードディスク内の問題が発生しない場所に、ナンバリングを書き込みました。これをDisk8まで繰り返します。

2.RAID ARRAYの構成 3.予備HDDの考慮

RAIDカードは、4台づつの2系統が有る為、RAID ARRAYは以下の5
通りが考えられます。(予備台数を2台までにしました)

1)8台構成RAID5
2)7台構成RAID5+予備1台
3)6台構成RAID5+予備2台
4)4台構成RAID5×2
5)3台構成RAID5+予備1台×2

4.RAIDのパラメータ

前述の通り、RAIDのパラメータは、以下の3個になります。
1)ストライプサイズ
2)パリティー分布
3)遅延パリティー

1)ストライプサイズは、LSI社のページ等を見ると、64KBで固定のようです。

2)パリティー分布は、
左対象
左非対象
右対象
右非対象
バーティカルXOR
の5通りですが、とりあえず、左対象、右対象、バーティカルXORの3通りで試します。

3)遅延パリティーは、1~7となります。が、概ね1で固定の様です。

5.ハードディスクの故障の有無

RAID5の場合、ハードディスクの故障は、1台まで許容範囲なので、

故障無し
故障有り
の2択となります。
故障有りの場合、8台構成の場合、Disk1~Disk8の8通り
故障有りの場合、7台構成の場合、Disk1~Disk7の7通り

ということになります。

構成やパラメータの場合数

HDD台数パリティー分布パリティー遅延故障有無場合数
831824
731721
631618
合計63

データが見えました!

8台構成から、順々に行い、一日目撃沈。
二日目、8台構成の残りを行い、7台構成で、Disk7が故障という設定で見えました!

後は、USB外付けハードディスクに、データを保存して終了。
これに約2日掛かりました。

エピローグ

一連の復旧作業を通して、感じた事は、やはりデータ復旧は面倒。ということです。特にサーバーの場合、SASのハードディスクを使用している場合がほとんどです。今回は、ハードディスクが正常に動作したのでラッキーでした。
今回は7台RAID5+予備1台構成ということなので、試行するパターンが多かったです。
ハードディスクの容量が格段に増加した現在では、ハードディスクの台数はシンプルに、2台構成のRAID1が一番、復旧業者にとっても、お客様にとっても一番良い選択と思っています。