トピック
システム担当者必見。プロに訊くRAID障害発生時の対処法
~壊れたら「何もしない」がデータ喪失防止のカギ
- 提供:
- デジタルデータリカバリー
2019年12月2日 11:00
企業のシステム管理者にとって、何かと鬼門と言えるのがRAIDで構成されたストレージだ。一通りの知識を持ち合わせていても、実際に障害が発生した場合、うっかり誤った操作をしてしまい、事態を悪化させてしまうこともしばしばだ。
RAIDを組んだ当のシステム担当者が退職し、新任が十分な知識のないまま後任を任されたことで、いざ障害が起こっても、どうしていいか困るといったケースも増えてきている。これもRAIDの普及が招いた悲劇と言えるだろう。
そのようなRAIDに障害がある日発生した場合、システム担当者としては何をすべきで、また逆に何をすべきではないのか。今回はこうした疑問を、データ復旧事業者としては国内最大のシェアを持ち、RAIDについても月100件以上もの案件をこなすという、デジタルデータリカバリーを訪れ、詳しく聞いてみることにした。
なお、以下の話は、HDDでのRAIDに関するものである。RAIDについて本稿では詳しく説明しないが、RAIDとは、HDDなどのストレージを複数台接続し、常にデータをコピーあるいは分散して記録することで、万が一、HDDが故障してもデータが失われることを防ぐ装置だ。しかし、HDD故障のさいに取り扱いを誤ると、完全にデータが失われてしまうこともある。
徹底した専任制でプロフェッショナルの知見による復旧作業を実施
早速話を伺いたいところだが、今回の取材にあたり、デジタルデータリカバリーの本社ラボを見学させていただいた。データ復旧では11年連続国内売上シェアNo.1(第三者機関による、データ復旧サービスでの売上の調査結果に基づく。集計期間:2007年~2017年)、これまでの累計相談件数は20万件を超えるという、データ復旧サービスの最大手だ。東京・銀座にある同社の復旧ラボでは、全国各地からの復旧依頼を受け付けているほか、立地の良さを活かし、持ち込みでの復旧依頼にも対応している。
同社ラボの入り口には警備員が常駐する金属探知ゲートがあり、同社社員であっても不要なデバイスの持ち込みがないかも厳重にチェックされるなど、従業員の入退室は厳重に管理されている。データ漏洩などの重大事故を起こさないために欠かせない配慮だ。
ゲートをくぐるとまず目に飛び込んでくるのは、ハードウェアの入出庫エリアだ。毎日届くストレージは、混在することがないよう、すべてバーコードが貼られて一元管理される。その先の機器解体エリアには、部品交換用としてストックされた約千種類、常時約7千台のHDDをはじめとしたハードウェアがずらりと並ぶ。
その先の復旧作業エリアには、手術室と同等のクラス100のクリーンルームをはじめ、復旧を行なうためのハードウェアが所狭しと並んでいる。これらの設備は、同社のデータ復旧サービスの利用者が見学することも可能で、はじめてデータ復旧を依頼する利用者が不安を払拭できるよう配慮されている。復旧作業を自社で行なわず、外注先に丸投げしている業者では絶対に不可能だ。
これら各エリアでの作業は、すべて専任のチームが行なっている。たとえば入出庫および機器解体のエリアはロジスティックスチーム、復旧作業エリアではフィジカルチームが物理障害を、ロジカルチームが論理障害を、フラッシュメモリ搭載の機器(USBやSSD、スマートフォンなど)はメモリチームが担当するといった具合だ。これは各々が専門分野に特化し、数多くの案件を担当することで、過去の知見を活かした対処を可能にするためだという。
このなかで、RAID案件をおもに担当するのが、ヘッド破損やスクラッチ障害といった物理障害を担当するフィジカルチーム、およびファイルシステム異常やRAID崩壊など、論理障害を担当するロジカルチームだ。今回は両チームを統括する、データリカバリー事業部 エンジニアグループ フィジカルチーム長の薄井雅信氏と、同ロジカルチーム長の柳田悟氏に、RAID障害にまつわる注意点について教えていただいた。
典型的な「うっかりやってしまいがちな失敗」はこれだ
RAID障害が発生した時にシステム担当者がうっかりやってしまいがちな失敗とは、どのようなものがあるのだろうか。RAID障害復旧のプロフェッショナルである両氏に言わせると、いくつかの典型的なパターンがあるのだという。
物理障害を担当するフィジカルチームの薄井氏が真っ先に挙げるのは「電源をむやみにオン/オフすること」だ。「ドライブに異常が起こった時に、電源オンとオフを繰り返して、物理的な障害をより拡大させてしまうのは、典型的なケースと言えます。とくに明らかな異音がしているにも関わらずオン/オフを繰り返すのは、復旧作業を行なう側としては、いちばんやってほしくないことですね」。
とくにこれからの季節によくあるのが、年末年始の長期休暇でいったんサーバーの電源を落とし、休暇明けに電源を入れたところ、正常に立ち上がらないケースだ。ファイルが見えないことに首をひねりつつ、サーバーの再起動を繰り返すうち、当初は軽度だったドライブの物理障害が悪化し、ついには起動しなくなるという事態が発生することがある。
「サーバーは通常、電源を切らずに長期間稼働させています。長期休暇でいったん電源を落としたあとに再起動すると、経年劣化などで発生していたバッドセクタが起動時にひっかかってしまう。そこからさらに悪化すると、HDDのプラッタにキズがつき、ついには読み出せなくなるわけです」(薄井氏)。
むやみな電源のオン/オフと並び、問題が起きやすいのが「リビルド」だ。RAIDを構成するドライブの1つが壊れた場合、そのドライブを新品と入れ替えてもとのRAID構成へと自動的に戻すのがリビルドだが、このプロセスで障害が発生する確率は、じつは非常に高いのだという。ロジカルチームの柳田氏は、安易なリビルドは「絶対厳禁」だと力を込める。
「リビルドでは元のRAID情報が上書きされるため、破損が増えたり、もとの構成が大きく崩れたりと、復旧の成功率が著しく低下します。SEや情報システムの担当の方が、自力でなんとかしようという気持ちはよく分かるのですが、知識が不十分なままリビルドを実行して途中で失敗し、弊社に持ち込まれるケースは後を絶ちません」(柳田氏)。
もっとも、RAIDが壊れた場合、新しいドライブと交換してリビルドを実行するというのは、RAID機器のマニュアルにも正しい手順として記載されており、いきなり「リビルドはNG」と言われて戸惑う人もいるだろう。OKかNGか、その分岐点となるのはずばり「バックアップの有無」だ。
「仮にリビルドが失敗した場合、バックアップが一切ないと、そこでデータがなくなってしまいます。ですのでバックアップは必須です。リビルドを行なうのであれば、そうしたリスクがあるのを分かった上でやってほしいですね」と柳田氏は説明する。
ちなみに「基本的にHDDの寿命は3~5年なので、2年毎にリビルドをかけて入れ替えるのであれば、リスクは低いのではないでしょうか」(柳田氏)とのこと。致命的なトラブルが起こる前、事前の対策を取っていたかどうかで、データ復旧にかかる料金も大きく変わってくるそうだ。
まだまだある「うっかりやってしまいがちな失敗」とは
「電源のオン/オフ」および「リビルド」以外にも、うっかりやってしまいがちな失敗は数多い。よくあるのが、自力での復旧を試みるうち、ドライブの構成を変更してしまったり、健康なドライブをフォーマットしてしまうケースだ。
たとえば、4本のドライブで構成されているRAID 5のサーバー/NASで、1本のドライブが壊れたとする。その時に、残りの健康なドライブからのデータを読み取るべくドライブを取り外したのち、誤ってもとと違うスロットに入れて自動的にリビルドが始まってしまったり、あるいはうっかりフォーマットしてRAIDの構成自体が失われてしまうケースだ。
「残ったドライブから直接データを読み出そうとして、ドライブを外して自分のPCにつないだところ、フォーマット要求が出て、そこでうっかり「はい」を押してしまうケースは、じつは少なくありません」(柳田)。
これらは中途半端な知識があるが故の悲劇だが、最近はRAIDを構築した前任者が退職し、知識が不十分なままシステムを引き継いだ後任の担当者が、事態を悪化させるケースも多いという。そもそもRAIDの存在を把握していなかったり、あるいは知っていてもRAIDの特性を理解しておらず、1本が壊れたまま使い続けるうちに大事故に至るケースだ。
「システム担当である以上、何かしら対処を試みるわけです。そこでやってはいけない対応を繰り返して、物理障害が悪化したり、ファイルシステムの論理障害を引き起こしたりと、二重苦三重苦になっていく。これらは一般的な外付けHDDとは異なる、RAIDならではの特徴ですね」(薄井氏)。
これらの対策は、「とにかく変にいじらないでほしいということに尽きます」と柳田氏は言う。「ネットを見ていると、リビルドすればOKという情報も多くありますが、自力で何かしようとするたび、大切なデータを失う危険があることを認識してほしいですね」。同社では、診断は無料で行なっており、まずは問い合わせてほしいと同氏は言う。
ちなみに同社に依頼が来るケースのほとんどは、バックアップが取られていないとのこと。バックアップが取られていれば、たとえ物理障害と論理障害が併発した場合でも、外部のバックアップデバイスからデータを書き戻すのは、比較的容易だ。柳田氏は「こまめにバックアップの習慣をつけてほしい」と力説する。
もっとも例外的に、バックアップを取っていても同社に復旧を依頼してくるケースもあるという。たとえば、媒体が磁気テープだった場合がそれだ。「磁気テープだと、たとえデータは完全に残っていても、HDDへの書き戻し作業を24時間365日毎日やっても完了までに数十日かかってしまう。そのため、費用対効果を考慮して弊社にご依頼いただいたケースはありますね」(薄井氏)。
デジタルデータリカバリーでは、依頼の約8割は48時間以内に復旧完了するというのだから驚きだ。とくに法人の場合は、業務にかかるデータをいち早く復旧させるための現実的な選択肢として、同社に復旧作業を依頼してくるというわけだ。
3つの事例に見る、RAID障害からの復旧のケーススタディ
同社はさらに、最近手掛けた案件の中から、RAIDにまつわる事例と、その解決に至るまでのアプローチを紹介してくれた。
1つは、4本のドライブで組まれていたRAID 5のサーバーが、ある日起動できなくなったケース。ファイルサーバとして使用する一方、ウィルス対策ソフトのパターンファイルを社内に配信する中継サーバとしての役割も担っていたが、月1回のアップデートのタイミングで起動できなくなったというものだ。
柳田氏によると「このケースでは、一部領域がRAID 1、残りの領域がRAID 5という特殊な組み方だったのですが、当社に持ち込まれた時点では、担当者の方がその構成すら把握していませんでした」という。筐体側の障害から連鎖してファイルシステムの不具合が発生し、RAIDの構成すら把握していなかった担当者の手に負えなくなったというわけだ。
「筐体異常だけでなくファイルシステムにも異常をきたしているとなれば、筐体を変えて中のHDDからデータを直接抜き出すわけにもいきません。幸いディスクに物理的な障害はなかったので、ファイルシステムの論理障害を修復したのち、あらかじめ分析を済ませておいたRAID情報通りにデータを再構築し、無事に復旧させることができました。専門業者でないとおそらく原因すらつきとめられなかったと思います」(柳田氏)。
2つ目の事例は、4TB×2本でRAID 1を組んだサーバーで、物理障害と論理障害が同時に発生したケースだ。まず最初に1本目のドライブの磁気ヘッド障害によってRAID 1が起動しなくなり、それらから復旧を試みている時に2本目のドライブも壊れ、ファイルシステムもクラッシュしたのだという。
「このケースではRAID 1を組んでいたにもかかわらず、1本が壊れたままの状態で使っておられました。つまり単体HDDと変わらない冗長性で運用を続けていたわけです。RAID 1で論理障害だけであれば難易度は低いのですが、まず物理障害が起こり、さらに論理のほうでファイルシステム異常が起きたこともあり、難易度は高かったですね」(薄井氏)。
最終的にはデータは無事復旧できたとのことだが、1本を復旧したあと、オリジナルが書き換わらないようにコピーを取り、別途構築したRAID領域にデータを書き戻すなど、通常よりも工数のかかる作業を強いられたという。RAID 1が壊れた状態で使い続けていたという根本的な問題はあるものの、1本が正常なうちにバックアップを取っていれば、こうした手間はかからなかっただろう。
3つ目の事例は、600GB×12本でRAID 5を組んだファイルサーバーで、1本のドライブでバッドセクタが発生し、それを交換するタイミングでファイルシステムにも異常をきたし、RAIDが崩壊してしまったケースだ。これも物理障害と論理障害を併発したパターンで、柳田氏は「交換中に2台目のドライブも壊れるというよくあるケース」と指摘する。
このケースが特殊なのは、使われていたHDDがSAS(Serial Attached SCSI)だったことだ。「600GBクラスのSASというのは、回転数が1~1.5万回転と高速で、ちょっとでも作業中に負荷がかかるとさらに悪化する危険があります。市販の復旧ツールを使った場合、バッドセクタを飛ばさずそのまま読み続けることがあり、こうした悪化を招きやすく、非常に気を使いながらの作業になりました」(柳田氏)。
このケースでは、検出したバッドセクタを飛ばして読み出せる特殊なツールを用いて、かろうじて物理コピーを取り終えるのに成功した。「このケースではドライブのうち2本が壊れていたこともあり、もし市販のツールで復旧を試みていた場合、悪化していた可能性が非常に高いですね」(柳田氏)。これも同社の過去の知見が活かされたケースと言えよう。
ハードウェアメーカーが手掛ける復旧サービスとはどこが違う?
ところで最近は、NASなどRAID機器を提供するハードウェアメーカーが、自ら復旧サービスを手掛けるケースも増えつつある。同社はそうした動きやメーカーへの問合せというユーザー行動をどう見ているのだろうか。実際に復旧作業にあたる柳田氏と薄井氏に言わせると、かならずしもハードウェアメーカーにアドバンテージがあるわけではないという。
「NASメーカーが作っているのは筐体であってHDDそのものではないので、HDDの物理障害に関しては、メーカーにアドバンテージはないと思います。メーカーさんの本業はデータ復旧ではないので」(薄井氏)。
論理障害についても同様で「復旧の技術という観点から言うと、弊社で直らないものが直るわけではないですね。逆にメーカーさんで対応できなかった案件が、弊社に持ち込まれて直ることもよくあります」(柳田氏)というから頼もしい。
ここでポイントになるのは、メーカーにとって機器の修理は専門でも、データの復旧については必ずしもそうではないということだ。「機器とデータ、どちらが重要かですよね。データよりもRAIDサーバーが大事だという人はまずいません」(柳田氏)。ユーザーがなにより求めているデータの復旧は、メーカーの専門分野ではなく、それゆえ機器は修理できてもデータは復旧できないとして、突き返してしまうというわけだ。
「HDDの障害は多岐にわたるため、さまざまな症状の対応実績があるということが、復旧率向上の鍵になります。筐体そのものの修理は確かに弊社の専門ではありませんが、データ復旧においては経験値が高いぶん、弊社が優位性を持っているところですね。」(薄井氏)。
逆に同社にとっては、そうしたNASメーカーへの持ち込みが、データの復旧を遅らせているケースも少なくないのだという。「他業者に持ち込まれた場合にも言えますが、ほかの業者の手が加わっていると復旧難易度は上昇します。最初からうちに依頼していただければもっと速く直ったのに、というのはありますね」(薄井氏)。
なかでも、むやみにHDDを開封したことで、復旧を難しくしているケースは少なくないと言う。「メーカーや他業者さんがいったん開封して復旧不可と判定したドライブで、プラッタに問題はなく、じつはファームウェアの異常だったというケースはあります。ファームウェアに手を入れるだけで直せたのに、知識不足のせいか、開けてしまっているというわけです」(薄井氏)。
そもそもドライブの開封は、同社であればクリーンルーム内での作業が必須となる、慎重に行なわれるべき作業だ。「開封すると内部環境が変化してプラッタの劣化につながりますし、なかには開封しただけで認識しなくなるものもあります。極力開封せずに直せるものは直したいのですが、他社さんは安直に開封してしまっているケースが多いですね」(薄井氏)。
ちなみに、初期診断を重視している同社によると、物理障害の原因を特定するには「音」が重要なのだという。「最初に音を聞いて、この音だったらヘッド、この音だったらPCB基板、この音だったらファーム、というのがあるんですね。これがわかるかわからないで差が出ます」(薄井氏)。最新のツールを使うだけではなく、音を聞いて診断するという、意外にもアナログな手法が用いられているのが面白い。まさに職人業といったところだ。
「データ復旧の物理作業では、部品交換というのが、いちばんシンプルな復旧方法なんですよ。なのでひどい業者になると、よくわからないけどとりあえず開けてみるかというところもあるので、もっとも安全なアプローチをするというのを弊社は重視しています。チームが細かく分かれているのはまさにその証明ですね」(薄井氏)。
「もっと早く依頼していればよかった」というユーザーの声
こうしたRAID障害にあたり、具体的に何かしらの予兆はないのだろうか。わかりやすい物理障害の前兆として挙げられるのは、動作が重くなることだという。
「電源を落とす前に動作が重くなっているのは、バッドセクタが発生していたり、ヘッドが弱っていたりといった、物理障害の前兆であることがよくあります。そのまま放置していて認識しなくなる事例はRAIDに限らず多発していますので、すぐに相談してほしいですね」(薄井氏)。このほか、ファームウェアに障害が起きている場合も、動作が遅くなる傾向は見られるのだという。
こうした例を1つ取っても分かるように、RAIDの障害と言っても、さまざまな原因が考えられ、それゆえ対応も一筋縄ではいかない。「RAID復旧はとくに経験値に左右されがちです。単にツールをかけたり、スキャンしただけで全部の異常が出てくることはありません。弊社の中でもトップエンジニアが対応する領域ですので、一般的なシステム担当者さんであれば、わけがわからなくて当然です」(柳田氏)。
そのため「直し方を覚えるのではなく、危険性をきちんと理解しておき、なるべくアプローチをしない状態で持ってきてほしい」と言う。同社に持ち込むユーザの中には、もっと早く依頼していればよかったというユーザーはじつに多いそうだ。
「RAIDの場合、緊急性が高いデータが多く、かつサーバーなど場所を動かせないケースも多いため、出張診断も行なっています。電話が来て数時間後にもう現地に着いて、ピックアップして持ち帰ってきて復旧したり、また軽度なものであれば現地で復旧する例もあります」(柳田氏)。
RAID機器の価格が下がり、誰もが手軽に使えるようになったのは歓迎すべきことだが、知識に乏しいシステム担当者も増え、障害が悪化する確率はかつてより高くなっている。ドライブの容量も大きくなっており、被害規模もかつてに比べると甚大になりがちだ。そうしたご時世において、障害発生時の駆け込み寺として、同社が果たす役割は、今後も大きくなっていくのは間違いなさそうだ。