重複排除ソリューション比較─データの重複を徹底的に洗い出す/バックアップなどで資源の有効活用促進

2010年3月5日(金)折川忠弘（IT Leaders編集部）

リスト

データの重複個所を検出して排除する「重複排除」技術に注目が集まる。バックアップのみならず本番環境でもデータが爆発的に増えているからだ。専用ソフトウェアやアプライアンスなど、重複排除機能を実装する製品の最新動向を追った。

「転ばぬ先の杖」。企業システムにおけるデータのバックアップは、こう表現される。ただし、情報爆発の言葉通りに企業が扱うデータの量は増加の一途をたどっている。重い体を支えるには「杖」にも工夫が欠かせない。

膨大なデータを効率的にバックアップする手法として脚光を浴びている技術が「重複排除」である。詳しくは後述するが、データを数KB単位に細分化し、同じものを抽出して徹底的に取り除くのが基本的な仕組みだ。限られたディスク（あるいはテープライブラリ）の容量を有効活用する上で、要注目の技術だ。

ファイル単位の限界を超える

重複排除の仕組みを解説する前に、これまで一般的だったバックアップの方法を整理しておこう。

膨大なデータを毎日フルバックアップするのは、それに要する時間やハード資産の兼ね合いから非現実的だ。実際には、休業日の日曜日にフルバックアップを実行。それを起点として平日は、日々増えた（変更のあった）分のデータだけを新規にバックアップするという週次サイクルを回す企業が多い。ここには「差分バックアップ」と「増分バックアップ」がある。

差分方式は、起点とするデータからの変化を日々バックアップする。これに対し、増分方式は、前日からの変化をバックアップ対象とする。後者の方が毎日のバックアップ量が小さくて済むが、リストアが必要となった時の作業手順が複雑になる（図1）。

図1　差分バックアップと増分バックアップの違い

差分、増分のいずれにしても、「変化」はファイル単位でとらえるのが一般的だ。しかも同じファイルを異なるフォルダに複数保存する場合、それらすべてがバックアップ対象となる。Aというファイルを添付したメールを10人に同報すると、この日のメールサーバーの差分/増分バックアップでは、Aは10個も重複して保存される。

こうした無駄に切り込むのが重複排除の技術である。ファイル単位でバックアップ対象を見極めるのではなく、さらに細かなセグメントに分割して内容を比較。ここで同じセグメントは1つしかバックアップしない仕組みを徹底し、対象データを大幅に削減する（図2）。大元のファイルが、どのセグメント群で構成されていたかという「紐づけ」情報は別途管理している。

図2　重複排除の仕組み

眼前に玩具のブロックを思い浮かべてほしい。赤、青、黄のブロック合計100個で城を組み立てたとする。これをファイルと見立てて重複排除を当てはめると、保存するのは色別のブロック3つのみ。別途、どこにどのブロックが使われていたかという情報があればよいという考え方だ。「保存先容量を重複排除で最大25分の1まで縮小できた実績がある」（日本IBM ソリューション担当部長システムズ&テクノロジー・エバンジェリスト佐野正和氏）。

重複排除機能を備える製品を次ページの表にまとめた。大きくはソフトウェア、バックアップ専用アプライアンス、ストレージに分かれる。それぞれ特徴や機能を概説しよう。

バックアップソフト
どこで重複排除するかに選択肢

バックアップソフトは、どの場所で重複排除を実施するかで大きく2つに分かれる。1つは、PCやファイルサーバーで実施するもの。バックアップ用ストレージにデータを転送する前に対象データを減らせるため、ネットワークへの負荷を軽減できる。もう1つは重複排除専用のサーバー/ストレージに導入するソフトだ。ネットワークにある程度の帯域を必要とするが、クライアントPCの負担はない。

これまでは、どちらか一方に機能を絞ったものが中心だったが、2009年末から今年にかけて、ユーザーが自由に設定できる製品が相次ぎ登場した。シマンテックが2010年2月に発表した「Net Backup 7」と「Backup Exec 2010」は、重複排除の実施をクライアントか専用サーバー/ストレージかを選べるほか、他の重複排除機能を備えるアプライアンスやストレージと連携して高速処理する機能も持たせた。2009年11月に発表したアクロニス・ジャパンの「Acronis Backup & Recovery 10」も同様に、重複排除の実施場所を選択できる。

ネットワークとクライアントへの負荷軽減という点において、IBMの「IBM Tivoli Storage Manager Fast Back V6.1」はユニークなアプローチで改善を図る。PCでファイルを更新すると、その瞬間に差分データをバックアップ用ストレージに転送。蓄積した差分データに対して重複排除を実施する。

この記事の続きをお読みいただくには、
会員登録（無料）が必要です