トピック
ファーム更新でNASのデータが丸ごと消えた!? 11年連続国内売上シェアNo.1のデジタルデータソリューションが手がけた復旧事例
~RAID障害でやってはならない「べからず集」も訊いてきた
- 提供:
- デジタルデータソリューション株式会社
2019年7月16日 06:00
暑い夏を迎えようとするこの時期、企業や団体のシステム管理者にとって恐ろしいのが、HDDの障害だ。なかでも、複数のドライブを束ねて大容量RAIDを組んでいる場合、ひとたび障害が発生すれば、そのダメージの範囲は計り知れない。
RAIDは冗長性に強みを持つとは言え、それが効力を発揮するのはディスク単体の故障時であり、現実的にはNASの本体側で起こった障害により、RAID構成ごと読み取れなくなるケースも少なくない。最近はHDDの容量も数テラバイトが当たり前であるため、それらを複数組み合わせて構成したRAIDでは、影響を受けるデータの規模も大きくなりがちだ。
ところで、いざ障害が発生した場合、ユーザー/システム管理者にとって正しい選択は、自力での復旧を試みることではなく、データ復旧専門の事業者に任せることだ。専任のシステム管理者と言えど、管理下にあるPCで発生するデータ障害は、多くても年数回にすぎず、それがRAIDともなると数えるほどだろう。
しかし日々膨大な件数の相談を受け付け、症状も原因もバラバラななかでのデータ復旧を行なっている専門の事業者ならば、有している知見の量も膨大だ。当然、RAID障害からのデータ復旧についても経験は豊富であり、大事なデータを取り戻せる確率は飛躍的に高まる。
今回は、そうしたデータ復旧事業者の1つであり、11年連続国内売上シェアNo.1を誇るデジタルデータリカバリーのエンジニアグループ井瀧義也氏と柳田悟氏に、RAIDの障害でよく起こり得る症状とその原因、および万が一障害が発生した時にやってはいけない対応とは何なのかを、具体的な事例を交えつつ話を聞いてきた。
機器および症状ごとに専門のエンジニアを配置
デジタルデータリカバリーは、累計相談件数18万件、データ復旧率95.2%を誇る大手データ復旧事業者だ。また、依頼のうち80%が48時間以内に復旧を完了できるというスピードが売りで、11年連続で国内売上シェアNo.1(同社調べ)を誇っている。
この業界では老舗にあたる同社は、データ復旧サービスの拠点として銀座にラボを構え、初期診断から復旧作業までを一手に行なっている。同ラボでは、RAIDやサーバー機器でも1日150台(RAID/サーバー機器でも50台)の復旧が可能な、世界トップクラスの設備を保有するほか、物理復旧の作業を行なうために、手術室と同等のクラス100のクリーンルームも用意。部品交換用としてストックされる、1980年代以降のモデル約1,000種類、常時約7千台を超えるドナーHDDとともに、新旧のハードウェアがずらりと並ぶラボ内はまさに圧巻の一言だ。
このラボへの入室に当たっては、警備員が常駐する空港と同レベルの金属探知ゲートをくぐる必要があり、加えて、ラボ内には39台の監視カメラを用意するなど、重要なデータを扱う上でのセキュリティにも配慮している。このラボは障害を起こしたドライブの受け入れを365日行なっており、直接足を運んでの持ち込みにも対応。さらに全国出張診断、オンサイト復旧などのサービスも用意しており、障害の状況に応じたきめ細かな対応を可能としている。
実際のデータ復旧の利用者は、ホームページを経由して、法人や官公庁をはじめ個人の申込みも多数あるという。井瀧氏によると「法人に関してはシステムの部門の方、あるいは代表取締役の方」が直接持ち込まれるケースが多いとのこと。ちなみにデータ復旧を同社に依頼した場合、上記ラボを見学することも可能であるなど、初めてデータ復旧を依頼する利用者が安心できる体制作りにも余念がない。
論理障害や物理障害など、障害内容ごとの専門部隊
そんな同社では、機器および症状ごとに専門のエンジニアが対応に当たる体制を整えている。たとえば初期診断の結果、ハードウェアそのものの故障に起因する障害なのか、あるいはフォーマットやRAID構成に起因する障害なのかが判明すれば、前者は物理チーム、後者は論理チームといった専門のチームに振り分けられ、分析および復旧にあたるといった具合だ。
このほかにも、USBメモリや光学メディア、ビデオカメラやデジタルカメラ、さらにはドライブレコーダのデータ復旧においても、専門のエンジニアがいる。分野ごとにエンジニアを配置する専門性の高さは同社の強みの1つであり、さらにカルテ化された過去の症例との突き合わせにより、低リスクかつ正確な診断を可能にしている。加えて世界各国の研究機関やメーカーからの最新技術や設備の導入にも積極的だ。
同社は、データ復旧サービス「デジタルデータリカバリー」のほかにも、データをクラウドに自動バックアップするバックアップサービス「デジタルデータバックアップ」、証拠データの解析と抽出を行なうフォレンジックサービス「デジタルデータフォレンジック」、低額な保証料で復旧費用をカバーするワランティサービス「デジタルデータワランティ」、専用ハードウェアと脅威情報配信システムを組み合わせたハッキング対策のセキュリティサービス「デジタルデータハッキング」など、利用者をデータトラブルから守る事業を多岐にわたって展開する。
以上のように、データトラブルを解決するエキスパートとしての同社の事業展開は、従来のデータ復旧やセキュリティといった枠組みを超え、ますます広がる一方だ。
増えつつあるRAID障害、多くに共通するその症状とは
同社への問い合わせのうち、RAIDの障害にまつわる案件が年々増えつつあるのだという。具体的にどのような症状が多いのかを訊いてみた。
「一口にRAID障害といってもさまざまなパターンがあります。ただ最近は、お客様が自ら何らかの処置を試みられた形跡をよく目にするようになりました。つまり、ネットで検索してヒットした方法を参考に自力で復旧しようとして失敗し、当社に依頼されてきたという流れですね」(井瀧氏)。
同氏は最近実際にあった、RAIDにまつわる2つの事例を紹介してくれた。1つはRAID1で構成していた2ドライブのNASがネットワークから見られなくなり、メーカーサイトを参照してファームウェアのアップデートを行なったところ、RAID 1ではなくRAID 0として認識されるようになってしまい、データが完全に空の状態のまま同社に持ち込まれてきたケース。
もう1つは、社内で使用していた4ドライブのNASのファームウェアをアップデートしたところ、それまで問題なく利用できていたデータを参照できなくなり、再起動を繰り返したものの症状は改善せず、そのまま同社に持ち込まれてきたケースだ。
「ファームウェアアップデートの場合以外にも、再構築を試みたところ初期化してしまったり、あるいは再構築は無事終わったものの、なかを見たらデータが全部なくなっていたりといったトラブルは多いですね」(井瀧氏)。
つまり、ユーザが少なからず知識を持っているがため、メーカーサイトなどで情報を収集して自力で対処を試みたところ、かえって状況を悪化させてしまったというわけだ。なかでも多いのが、ファームウェアを最新にすることを促しているメーカーサイトの情報を鵜呑みにして作業を行ない、RAID構成が失われてしまうケースだ。
「この2つの事例はいずれも、ファームウェアのアップデートを試みた点が共通しています。NASメーカーのホームページにそう書かれている以上、アップデートを試されるのは仕方がないと思うのですが、アップデート後にHDDが未フォーマットだと認識されれば、当然ながらフォーマットするよう促されますので、誤って“はい”を選択することで、データは消えてしまうというわけです」(柳田氏)
そもそもファームウェアの書き換え自体、ディスクが正常に読めない環境では、高いリスクを伴う行為だと、同氏は力説する。
「ファームウェアのアップデートでは、かならず何らかのディスク上の情報の書き換えが発生します。そのため状態が悪いと、データの領域まで書き換えてしまう恐れがあります。データが消えてしまってもいいようにクローンを作成してから試すのであれば構わないのですが、本音を言えば、いろいろ試す前に持ってきていただくのが、早くきれいに復旧するための近道ですね」(柳田氏)。
こうした挙動は、RAID機器、つまりNASのメーカーによっても千差万別なのだという。「RAID情報が書き込まれるディスク上の場所は、RAIDのレベルによっていちばん上だったり下だったりと異なるのですが、いちばん上の場合、ファームウェアをアップデートすることでゼロに書き換えられることがよくあります。つまりファームウェアの書き換えが、結果的に初期化を引き起こしてしまうわけです」(井瀧氏)。
フォルダ構成を含めた完全な復旧は、同社の技術力の高さの証
上記の2つのRAID障害の事例は、いずれも同社の論理障害チームが中心となって対応し、フォルダ構成を含め、ほぼ完全な復旧に成功したという。井瀧氏によると、このようにフォルダ構成ごと復旧できるケースは、同業他社のなかでも稀なのだそうだ。
「たとえば、JPEGファイルだけをひたすら取り出すといった復旧はどこの事業者でもできますが、フォルダ構成を含めての復旧というのは、そもそもバイナリの見方を知っているエンジニアが世界中に見ても少ないこともあり、できる事業者は限られています。むしろほとんどできないと言ってもいいかもしれません」(井瀧氏)。
データをより完全な状態に復元するには、復旧ツールに頼ることなく、手作業を行なうことが欠かせないのだという。
「データの復旧にあたっては、バイナリ上で、特定の数字がファイルシステムやRAID情報において何を意味しているのか、どこの数値がどう変わったらダメかを知っているかいないかで、成功率が大きく変わってきます。何も手を加えずに復旧ツールだけで試すと何も(データが)出てこない場合でも、バイナリの数値を少し変えてから復旧ツールで試せば、完全な状態で復旧できることがよくあります」。
いかに完全な状態、つまりフォルダ構成を保った状態でデータを復旧できるかは、腕の見せどころというわけだが、現実的にはそうした技術力を持たず、復旧ツールでのみ作業を行っている事業者も多いのだと井瀧氏。
「復旧ツール1つとっても、ツールがどの数字をどう解釈して、どういう結果を出しているのかまで理解しないと、データが出なかったり、仮にデータを復元できても元のフォルダ構成がぐちゃぐちゃになってしまいがちです。同業他社ではツールでしか作業を行なっていないことが多いようで、経験豊富なエンジニアが揃っているのは当社の強みだと思っています。」(柳田氏)。
そうしたことから、デジタルデータリカバリーに持ち込まれる案件のなかには、同業他社が復旧を試みた結果、フォルダ構成がバラバラで判別できない状態で戻ってきたものも少なくないそうだ。また、物理障害によって復旧ができないと同業他社が匙を投げた案件も、多く持ち込まれる。
「弊社が得意とするのはHDDのファームウェア障害や、ディスクのスクラッチ(傷)の復旧技術ですので、他社は復旧不可と判定されたものが持ち込まれ、弊社で復旧に成功するというケースもよくあります」(井瀧氏)。
なぜ、障害が発生してからの経過時間がポイントになるのか
同社に持ち込まれるRAID障害のうち、もっとも多いレベルはRAID5だそうだが、こうしたレベルにかかわらず、RAID障害が復旧できる確率は「論理障害であればほぼ100%」というから頼もしい。もっともそれにはいくつかの条件があり、なかでも障害が発生してからの経過時間は、重要なポイントなのだという。
「たとえば(RAIDでよく用いられる)EXTフォーマットは、削除してからどれだけ通電しているかによって、データが残るか残らないかが決まってきます。従って、削除後なるべく早く持ってきていただければ、それだけ成功の確率が上がります。なかには削除してからずっと通電し続け、数カ月経ってから復旧を依頼されるケースもあるのですが、そこまでいくとデータが物理的に消滅しているケースもあり難易度があがってしまいます」(柳田氏)。
同社では、データ持ち込みから復旧完了までの所要時間について、依頼の80%は48時間以内とアピールしているが、これらRAID障害に関してはどうなのだろうか。
柳田氏によると「その日のうちに直るものも多くあります。平均だと2日はいかず、24時間経たずに復旧できています」とのこと。ただし、RAIDは複数のドライブを束ねているため容量も大きく、復旧作業そのものよりも、納品用の媒体にデータを移す作業のほうが、より時間がかかるのだそうだ。同社では、国内・海外問わず技術や設備導入を進め、日々復旧作業のスピード向上に努めている。また、大容量のRAID等を復旧する場合は、一部のデータを先に抽出するなど、臨機応変に対応可能とのことだ。
ところでRAIDでは、故障したドライブを交換してリビルド中に、ほかのドライブがさらに壊れるという話を、一度は聞いたことがあるのではないだろうか。それならば、敢えてメーカーやロットを不揃いにしてRAIDを組むことで、復旧の確率が上がったりはしないのだろうか。質問をぶつけてみた。
「確かに、1本が壊れてリビルドを行なっている時にもう1本にもエラーが出て、その状態で持ち込まれる方はいらっしゃいます。ただ、だからと言って、ディスク(のメーカーやロット)を変えるというのは疑問符がつきます。そもそもRAIDは冗長性があるとはいっても完璧ではなく、絶対安心という組み方はありません。大事なデータに関しては、むしろバックアップを取ることのほうが重要でしょうね」(柳田氏)。
もう1つ、容量はPCより少ないが、台数は多いスマートフォンについても訊いてみた。
スマートフォンの復旧に関しては、技術開発や部品調達に費用が発生し、研究段階のものも多く、現段階では費用対効果が高くない。そのため、スマートフォンの復旧にそもそも対応しない企業、研究開発を行なわない企業も多い。復旧できないと同業他社では匙を投げるなか、デジタルデータリカバリーではスマートフォンやSSDなどのメモリ復旧にも積極的に設備導入を進め、技術を開発している。実際に、部品破損や⽔没などの物理復旧の場合、機器の種類を問わず復旧実績が多数あるという。
大事なデータを取り戻すために、ユーザーの側でできることとは?
いざデータ障害が発生し、復旧を依頼するにしても、どんな基準で事業者を選ぶべきなのか。はじめてとなるユーザーにとっては非常にわかりにくいものだ。井瀧氏は、サービスを選択するさいには、復旧率や実績などを明確に記載している会社を選ぶべきだと声を強める。
「ホームページは不正確な情報も書けてしまいますので、数値などを明記してないものはあまり信用はできないですね。復旧作業を自社内で行なっていると書いている事業者でも、蓋を開けてみると海外に外注していることは少なくありません」(井瀧氏)。
そんなRAIDを含めたHDDの障害は、ちょうどこの時期、夏を迎えるタイミングで増加しはじめるというのが、毎年のお決まりなのだという。「スクラッチという、ディスクの円盤に傷がついてしまっている症状は、夏に発生しやすく、ちょうど今くらいの時期から徐々に増えていきます。このサイクルは毎年ほとんど変わらないですね」(井瀧氏)。
現場で実際に作業にあたるエンジニアである井瀧氏と柳田氏に話を聞くかぎり、障害発生後に何かしらの処置を試したり、放置することで、実際のデータ復旧作業時にかかる工数が増え、完全な復旧が難しくなるケースがあることを痛感させられる。誤った作業を行なって症状を悪化させてしまう前に、まずは同社に相談してみるというのが、大切なデータを元通りのかたちで取り戻すための、なによりの近道と言えそうだ。