機器種別 | HITACHI Server |
---|---|
型番 | HA8000 TS20 AM2 |
RAIDカード | LSI社製 L3-25410-02D(SAS 2208) |
構成 | RAID5 8台(7台+予備1台) |
容量 | 876GB |
データ量 | 545GB |
所要時間 | 10日 |
料金 | 352,000円 |
プロローグ
11月のある日、東京のお客様から電話が有りました。
お客様:「御社はTeraStation以外のデータ復旧はやっていないのですか?」
弊 社:「他も対応しますよ。但し、ハードディスクの状態によりますが。。。
どうしたんですか?」
お客様:「実は、会社のサーバーが起動しないんですよ。」
弊 社:「どういう状態ですか?」
お客様:「ビルの点検用停電が有って、サーバーの電源を落としました。その後、電源を入れようとしても、電源が入らないのですよ。
納入業者に修理を依頼したら、その機械は古いので、修理は出来ません。復旧業者に依頼して、データ復旧してもらって下さい。
って言われたんですよ。」
弊 社:「冷たいんですね。サーバーのデータ復旧は経験あります。送って頂ければ、復旧できるか判定します。」
お客様:「復旧費用はいくらになりますか?サーバーは8台構成のRAID6だと思います。」
弊 社:「今外出先なので、30~60分後にお見積書を送付します。」
税込352,000円のお見積書を送付したところ、上司と相談し、すぐに発送手続きを行い、翌日の午前中に届きました。
サーバーの状態確認
サーバーが到着し、モニタ、キーボード、マウスをセットして、電源ケーブルを挿しこみました。(まだ、電源ボタンを押してません)
最初に一瞬ファンが回り、しばらくしてフロントパネルのインジケーターに「FF」と表示され、エラーのランプが点灯し、ブザーが鳴りました。電源ボタンを押しても、電源が入りません。
サーバーのマニュアルを検索して確認した所、「FF」の表示は、「その他のエラー」だそうです。
何だよ。「その他のエラー」って。
次に、RAIDカードとハードディスクを外して、電源ケーブルを接続してみましたが、やはり、「FF」のエラー表示でした。
で、判ったことは、電源ケーブルを接続すると、事前のエラーチェックが走り、何も問題が無ければ、電源ボタンを押すことが可能になる仕組み、ということでした。
弊社の推測と対処
RAIDカードとハードディスクを外しても、同じエラーが表示されるということは、故障の原因は、RAIDカードやハードディスク以外と考えられます。おそらく、マザーボード、電源、ファンの辺り。
ということは、同機種の中古を取り寄せ、RAIDカードとハードディスクを接続すれば、データは復元できる、と推測しました。
ラッキーであれば、Windowsが起動するはずです。
中古サーバーでの復旧作業
同機種の中古サーバーを探したところ、名古屋の業者に有ったので、すぐ送るように手配しました。
中古サーバーは、3.5インチのハードディスク4台用のケースでした。(故障したサーバーは、2.5インチのハードディスク8台用のケースでした)
ハードディスクのケースを外す時に判ったことですが、ケースには、電源用コネクタ、SAS用信号線のコネクタの他に、おそらく、事前チェック用の信号線が付属してました。
中古サーバーに、RAIDカードを接続し、RAIDカードとハードディスクとの接続には、ハードディスクのケースは用いず、直結しました。
いよいよ電源ケーブルを接続。しばらくして電源ボタンが押せるようになったので、電源をON。
。。。立ち上がらない。
で、起動中に、RAIDカードの設定画面を起動。
????
RAID5(7台+1台)
Disk1 OK
Disk2 OK
Disk3 OK
Disk4 OK
Disk5 NG
Disk6 NG
Disk7 NG
Disk8 OK
という表示でした。
これは、、、、、、
RAID6でない。・・・RAIDカードが故障?
Disk5、Disk6、Disk7がNG・・・RAIDから外れてる。HDDの故障か?(作業前にそれそれのハードディスクのクローンを作成できたので、物理損傷は無いのだが。。)
イヤ、Disk1からDisk4は正常に接続されている。なんなんだ?
本格的なデータ復旧を行わなければ、、、、
8台構成のRAIDからのデータ復旧①
中古サーバーでの復旧作業は終了し、弊社のRAID復旧環境へハードディスクを移動しました。
まずは、8台構成RAID6、8台構成RAID5、7台構成RAID6、7台構成RAID5を試してみました。
それぞれの場合で多少の差異はありますが、WindowsフォルダやProgram Files、ProgramDataのフォルダが見えます。
試しに、ProgramDataのフォルダを復旧してみました。それなりにデータの取り出しが出来ました。復旧したデータの中に、PDFファイルが有ったので、開こうとしましたが、いずれのパターンでも開けませんでした。
8台構成のRAIDからのデータ復旧②
RAID5、RAID6の場合、設定のパラメータが大きく3個有ります。
ストライプサイズ、パリティー分布、遅延パリティーです。
そして、ハードディスクのRAID構成の台数と並び順が追加されます。
まずは、RAID5なのか、RAID6なのかは、納品業者に確認すれば判るはず。
それから、ハードディスクの並び順は、換えられたのか?
弊社へ依頼する前に、他の業者へ復旧を依頼した場合、
お客様がハードディスクを外して、並び順を換えたのか?
ということが、大きな問題となります。
特に、以前の復旧作業で、弊社の前に、他の業者へ復旧依頼された物が有り、この時は、ハードディスクの並び順が問題となり、苦労しました。
早速、お客様に確認した所、RAID5。ハードディスクは抜き差ししてエアーで埃を飛ばしたが、順番は変えていない。という回答でした。
8台構成のRAIDからのデータ復旧③
いよいよこれからが本番の復旧作業となります。
8台構成RAID5の場合に、考慮する点は、
1.ハードディスクの並び順の特定
2.RAID ARRAYの構成
3.予備HDDの考慮
4.RAIDのパラメータ
5.ハードディスクの故障の有無
ということになります。
1.ハードディスクの並び順の特定
弊社の復旧環境では、RAIDカードに、LSI00194をRAID無しの設定で使用しています。
RAIDカードに正しい順番でハードディスクを接続しても、パソコン上で認識される順番は、それとは異なる場合が多いです。
なので、Disk1のみ接続し、パソコンを起動し、ハードディスク内の問題が発生しない場所に、ナンバリングを書き込みました。これをDisk8まで繰り返します。
2.RAID ARRAYの構成 3.予備HDDの考慮
RAIDカードは、4台づつの2系統が有る為、RAID ARRAYは以下の5
通りが考えられます。(予備台数を2台までにしました)
1)8台構成RAID5
2)7台構成RAID5+予備1台
3)6台構成RAID5+予備2台
4)4台構成RAID5×2
5)3台構成RAID5+予備1台×2
4.RAIDのパラメータ
前述の通り、RAIDのパラメータは、以下の3個になります。
1)ストライプサイズ
2)パリティー分布
3)遅延パリティー
1)ストライプサイズは、LSI社のページ等を見ると、64KBで固定のようです。
2)パリティー分布は、
左対象
左非対象
右対象
右非対象
バーティカルXOR
の5通りですが、とりあえず、左対象、右対象、バーティカルXORの3通りで試します。
3)遅延パリティーは、1~7となります。が、概ね1で固定の様です。
5.ハードディスクの故障の有無
RAID5の場合、ハードディスクの故障は、1台まで許容範囲なので、
故障無し
故障有り
の2択となります。
故障有りの場合、8台構成の場合、Disk1~Disk8の8通り
故障有りの場合、7台構成の場合、Disk1~Disk7の7通り
ということになります。
構成やパラメータの場合数
HDD台数 | パリティー分布 | パリティー遅延 | 故障有無 | 場合数 |
---|---|---|---|---|
8 | 3 | 1 | 8 | 24 |
7 | 3 | 1 | 7 | 21 |
6 | 3 | 1 | 6 | 18 |
合計 | 63 |
データが見えました!
8台構成から、順々に行い、一日目撃沈。
二日目、8台構成の残りを行い、7台構成で、Disk7が故障という設定で見えました!
後は、USB外付けハードディスクに、データを保存して終了。
これに約2日掛かりました。
エピローグ
一連の復旧作業を通して、感じた事は、やはりデータ復旧は面倒。ということです。特にサーバーの場合、SASのハードディスクを使用している場合がほとんどです。今回は、ハードディスクが正常に動作したのでラッキーでした。
今回は7台RAID5+予備1台構成ということなので、試行するパターンが多かったです。
ハードディスクの容量が格段に増加した現在では、ハードディスクの台数はシンプルに、2台構成のRAID1が一番、復旧業者にとっても、お客様にとっても一番良い選択と思っています。