データ活用の先進企業として知られる、アマゾンやグーグルが、自社の分析インフラを月額料金のクラウドサービスとして提供するようになった。以前なら多額の投資を必要としたデータ分析を、比較的少ないコストで始められる時代が訪れている。
データ分析を本格的に始めたいと考える企業にとって、最初の壁となるのが初期費用である。サーバー、ストレージ、DWH、BIツールなど、分析インフラを揃えるためのコストは小さくない。しかも、投資に見合った成果が得られる確証はどこにもない。どうしても、思い切った投資に踏み切れないという声は少なからずあった。
ある企業で、データ分析を担当するマネージャーはこうアドバイスする。「ベンダー製品はコスト相応の性能を備えているが、分析の経験が浅いと、十分に使いこなせないまま、宝の持ち腐れにしてしまうリスクを伴う。成果が見えないうちは、スモールスタートが定石だ」。
そこで検討したいのが、クラウドサービスである。初期投資を必要とせず、自社の状況に合わせてインフラを伸縮できるため、データ分析を気軽に始めやすい。仮に、データ活用に意義を見いだせずに、途中で利用を止めたとしても、オンプレミスに比べればダメージは少ない。
すでに、複数のベンダーがクラウド上で分析インフラを提供している。以下、タイプが異なる3つのサービスを紹介する。
低価格のDWHでデータ分析をカジュアルに
Amazon Relational Database Service(リレーショナルデータベース)、Amazon Dynamo DB(分散キー・バリュー型データベース)、Amazon Glacier(データアーカイブ)と、データベースの関連サービスを次々と投じてきたアマゾンウェブサービスは、2013年2月に新サービス「Amazon Redshift」をスタートした。DWH用データベースを月額料金制のクラウドサービスとして貸し出す。2013年6月には、日本国内のデータセンターでも運用を始めた。
CPU2コア相当、メモリー15ギガバイト、ハードディスク2テラバイトの最小構成の場合、1時間利用あたりの利用料金は0.85ドル。データ通信に伴うコストは負担は基本的にない。インフラは最大で、1.6ペタバイトまで拡張できる。まとまったデータを分析するためには、相応の料金を支払う必要があるが、初期投資を必要とせず、ハードウェアの調達も必要ない。
「これまでDWHは潤沢な予算を持つ、一部の大企業だけのものだった。これまで大規模な投資に踏み切れなかった企業にも、“カジュアルに”データを分析してもらいたい」(アマゾンデータサービスジャパンの玉川憲エバンジェリスト)。
“列指向”と“分散構成”で大量データを高速処理
テクノロジーの面から見ると、これまでオンプレミス向けに提供されてきた製品と大きな違いはない。例えば、データベースは列指向型を採用した。“特定のカラムのデータを一括抽出する”“条件に当てはまるデータを集計する”といった、処理を高速化するよう、データの配置を最適化。RDBMSよりも、分析業務を快適に行えるようにしている(列指向データベースの詳細な解説はIT Leaders 2013年5月号特集Part3を参照)。
複数のサーバーを束ねたクラスターを使って、データや処理の負荷を分散する超並列演算(MPP)アーキテクチャもDWHアプライアンス製品では馴染み深い。テーブルのデータを分割し、各サーバーのローカルディスクに保管。それぞれのサーバーが、自分が持つデータの抽出や集計を担当する。1台のサーバーでは保管、処理できないような大量のデータを扱える。
クラスターにサーバーを追加すると、データの保管容量を増やしたり、処理性能を向上させたりできる。クラスターあたり、最大100台までサーバーを追加できる。拡張は、Webサイトの管理画面やAPIから指示する。
データ分析を行わないときは、クラスターを削除すれば、コストを抑えられる。クラスターのスナップショットをAmazon S3(ストレージ)に保管しておけば、短時間で復元できる。
アマゾンのクラウド上で分析ライフサイクルを完結
もちろん、ユーザーは列指向型データストレージや、分散クラスター構成といった内部構造について、詳細な技術知識を習得する必要はない。インタフェースはPostgreSQLのドライバをベースに開発しており、ODBCやJDBCを使ってデータベースにアクセスできる。一部に制約はあるものの、基本的なSQLは利用できる。
「大半のBIツールはPostgreSQLに対応しているため、既存製品からの切り替えコストも低い。コスト削減を目的に、アプライアンスからRedshiftにDWHを移行する企業も少なくない」(アマゾンデータサービスジャパンの片山暁雄ソリューションアーキテクト)。
Redshiftの投入によって、ユーザーは、アマゾンのクラウド上でデータ分析のライフサイクルを完結できるようになる。例えば、「Amazon EC2(仮想サーバー)」でWebサービスを運用し、データをRelational Database ServiceやDynamo DBに、ログデータをAmazon S3にそれぞれ保存。それらをRedshiftに集約し、分析するといった具合だ(図3)。
アマゾンウェブサービスのサービス間でデータを受け渡す「Amazon Data Pipeline」や、Hadoopクラスターを提供する「Amazon Elastic MapReduce」といったツールも揃える。
「データ分析のインフラは、対象とするデータによって異なる。ユーザーのニーズに合わせて必要なインフラを整備できるよう、コンポーネントを揃えている」(玉川氏)。
会員登録(無料)が必要です
- 1
- 2
- 3
- 次へ >
- 注目のメガネ型ウェアラブルデバイス(製品編)(2015/04/27)
- メインフレーム最新事情[国産編]NEC、日立、富士通は外部連携や災害対策を強化(2013/09/17)
- メインフレーム最新事情[海外編]IBM、ユニシスはクラウド対応やモバイル連携を加速(2013/09/17)
- 「高集積サーバー」製品サーベイ─極小サーバーをぎっしり詰め込み、用途特化で“非仮想化”の強みを訴求(2013/07/23)
- BIツール製品比較─分析ツールから行動促進ツールへ「なぜ」を追求する“試行錯誤”が可能に(2013/06/25)
DWH / クラウドDWH / Hadoop / BigQuery / Google / AWS / MapReduce / Redshift / Treasure Data / アナリティクス