米Googleのエンジニアが明かすビッグデータ分析の今、データから価値を引き出す5つのステップ

2015年4月28日(火)田口潤（IT Leaders編集部）

リスト

IoT（Internet of Things：モノのインターネット）が現在、注目キーワードであることは間違いない。だが、それと引き替えに、ビッグデータの分析・活用が、どこかへ行ってしまうとしたら問題だろう。IoTとビッグデータは表裏一体の関係にあり、それはモバイルなども同じ。ITで経営や事業に貢献するにはビッグデータの分析・活用が必須だ。では、ビッグデータの分析・活用にどう取り組めばいいのか−−。こうした問いかけに答えようと、データ専門企業のランドスケープが2015年4月下旬、米Googleのエンジニアを含む著名な専門家を招いて“ビッグデータ分析の今”を伝えるセミナーを開催した。

　当時開発されたのが、「MapRuduce」と「GFS」と「BigTable」である。MapRuduceとGFSは2001年、Hadoopに発展、BigTableは2004年、Hbaseにつながっていく。

　当然、Googleはそこに留まっているわけではなく、現在では大量のログデータを処理する「Flume」や、SQLで大量のデータを処理する「Dremel」、GFSの後継技術である「Colossus」、そして地球規模でデータを複製できるリレーショナルなデータベース「Spanner」へと受け継がれている。

図2：Anysize Dataを扱うためのGoogle Cloud Platformのサービス
拡大画像表示

　これらの技術は、それぞれが興味深いが、ここまでは前置き。「今やビッグデータを超え、エニーサイズデータ（Anysize Data）を扱う必要がある。ビッグかどうかは問題ではない。Googleのサービスは、Anysize Dataを処理できる」という話が本題である。Anysize Dataを処理するツール（サービス）は存在するのだから、どう処理するのかのプランが大事というわけである（図2）。

図3：データから気づきを得るための5つのステップ
拡大画像表示

　具体的なプランとして示すのが、図3の「5 steps to data enlightment（データから気づきを得るための5つのステップ）である。一見、当たり前のことが並んでいるように思えるが、1つひとつが深い示唆を含んでいる。

　各ステップをJordan Tigani氏は、2014年に開催された2014 FIFAワールドカップの予測を例に解説した。ちなみに、同ワールドカップでGoogleは、決勝トーナメント16戦の勝敗を確率で予測。16戦中14戦を的中させている。

　データソースには、世界のサッカーリーグのデータを取得・提供するOpta Sportsのものを使った。「Optaは大量のスコアラーを動員し、個々の試合、個々の時間における選手の位置、ゴールキーパーの動きなどをデータ化している」。データ量は数1000試合、数百万件のプレーデータとビッグデータとは言えないが、Anysize Dataなので、そのこと自体は何の問題もない。そこから試合運びや得点の傾向を明らかに、予測モデルを作ることが重要だ。

生データを”クリーン”に使えるように加工

図4：Google Dataflowを使ったデータ加工
拡大画像表示

　この点で大事だったのはデータ加工のステップだという。「Optaのデータが使い勝手がいいとは限らない。それをクリーニングしたり、使いやすくなるように加工したりするために、分析全体の40％を費やした」。この段階で、そのほかのデータ、例えばTwitterのデータも取り込む。加工にはGoogle Dataflowを使っている（図4）。「Dataflowを使えば、簡単なコード(プログラム）を書くだけでクリーニングなど高度な処理ができる)。

【次ページ】データが多くなればなるほどノイズが紛れ込む

リスト

トピックス

[Sponsored]

米Googleのエンジニアが明かすビッグデータ分析の今、データから価値を引き出す5つのステップ

生データを”クリーン”に使えるように加工

おすすめのホワイトペーパー

トピックス