データ駆動型経営の実現に向けて、構造化データに加え非構造化データの蓄積・分析が重要との認識が高まっている。そうした中「保存されている非構造化データの41%は3年間放置状態にある」という調査結果がある。米ベリタステクノロジーズ(Veritas Technologies)がまとめた「Data Genomics Index(データゲノミクス・インデックス)」の一節だ。ビッグデータ時代、「データの増加に合わせストレージ容量も増えるもの」との考え方は改める必要もありそうだ。
米ベリタステクノロジーズの「Data Genomics Index」は、同社が提供するデータ管理のクラウドサービスや製品の利用状況などから、企業が持つ実際のデータ環境をグローバルに調査したもの。ファイルの種類やサイズ、ファイル操作からの経過日数などの別に分布状態などを示している。日本語版をベリタスの日本法人が公開している。
同Indexによれば、平均的な企業のストレージ環境においては、非構造化データの41%が最終利用日から3年間、一切変更されずに放置されている(図1)。ファイルサイズにもよるが、ストレージ投資の何割かはムダに消費されていることになる。
拡大画像表示
放置データを増やしている要因の1つは、所有者が分からないデータ(Orphaned Data:オーファンドデータ)だと指摘する。これは、異動したり退職したりした従業員が作成したファイルが中心である。システムアクセスやメールアカウントなどについてはセキュリティの観点から、異動者/退職者の権限は厳密に監視されるようになっているが、彼らが作成したデータまでは管理できていないということになる。
同Indexは、所有者が不明なデータの多くは、ビデオや画像、プレゼンテーションなど、いわゆる“リッチコンテンツ”だとする。ファイル数は小さくても容量は大きくなるため、ストレージへの負荷も大きい。リッチコンテンツは、一般的なファイルに比べ200%以上多くの容量を占めているという。
企業のストレージ環境が、従業員の個人的な用途に利用されている可能性を指摘する数字もある。例えば、企業のストレージに保存されている動画ファイルのほとんどは夏と秋に撮影されており、秋に68%増加しているという。夏休み中に撮影した動画を出社後、従業員間で共有したりしているのだろうか。ただ、最近は企業内でのコミュニケーション強化に動画を利用するケースも増えてきているため、一概に個人利用とは言えないかもしれない。
動画ファイルの増加時期に連動してか、各種ファイルが作成された時期も秋が最も多かった。テキストファイルは91%、表計算ファイルは48%、地理情報システムのファイルは89%、それぞれ増えていたとする。
容量でみると、画像ファイルに開発中のファイルと圧縮ファイルを加えた3種のファイルがストレージ容量全体の約3分の1を占める(図2)。ファイル数では、開発中ファイルが全体の20%を占めるという。データ活用と並行してニーズが高まっているアジャイル開発/DevOpsの影響が出てきているのかもしれない。
拡大画像表示
こうした状況の解消策としてベリタスは、ファイルの種別などに着目したストレージのアーカイブや削除を薦めている。平均的な10PB(ペタバイト)の環境において、放置されているプレゼンや文書、表計算シート、テキストファイルのみを対象にアーカイブすれば、ストレージコストを年間200万ドル削減できるという。
ただ、そうした取り組みを進めるには、自社のストレージ環境の利用状況を把握するとともに、アーカイブや削除の最適なタイミングを見極めるための業務プロセスの把握も必要になる。今後は、IoT(Internet of Things:モノのインターネット)への取り組みによるセンサーデータなども保存対象になるため、保存のためのポリシーなども再考しなければならない。「もしもの時の証跡」の意味もあるだけに法律など外部要因だけでは保存期間も決められず、いつそのデータが価値に変わるかも分かりづらくなると考えられる。
ちなみにData Genomics Indexは、ベリタスが主導して立ち上げた「Data Genomics Project」の一環で、最初の成果物でもある。同プロジェクトでは、今回のIndexのような調査データなどの収集・蓄積とともに、データサイエンティストや専門家、オピニオンリーダーなどを集め、情報管理とストレージ環境の利用方法などに関する知見を高める計画だ。