[海外動向]

米Googleのエンジニアが明かすビッグデータ分析の今、データから価値を引き出す5つのステップ

2015年4月28日(火)田口 潤(IT Leaders編集部)

IoT(Internet of Things:モノのインターネット)が現在、注目キーワードであることは間違いない。だが、それと引き替えに、ビッグデータの分析・活用が、どこかへ行ってしまうとしたら問題だろう。IoTとビッグデータは表裏一体の関係にあり、それはモバイルなども同じ。ITで経営や事業に貢献するにはビッグデータの分析・活用が必須だ。では、ビッグデータの分析・活用にどう取り組めばいいのか−−。こうした問いかけに答えようと、データ専門企業のランドスケープが2015年4月下旬、米Googleのエンジニアを含む著名な専門家を招いて“ビッグデータ分析の今”を伝えるセミナーを開催した。

 次が分析とビジュアル化。問(仮説)を立て、データを分析して何らかのパターンを見つける。「人間の脳はコンピュータに比べ、パターンを認識する能力に優れる。試行錯誤的な分析とビジュアル化は、だからとても大事だ」。

 ビジュアル化に関してはGoogle独自のツールではなく、Tableauなど市販のアジャイルBIツールを活用する。「統計処理のPandas、機械学習のScikit.learnなどOSS(Open Source Software)のツールも使っている。いいものは何でも取り入れるのが我々の基本スタンスだ」。

図5:サッカーゲームのモデル化で重要な特徴と考えた要素図5:サッカーゲームのモデル化で重要な特徴と考えた要素
拡大画像表示

 この段階で、データ収集時のエラーや、データそのもののエラーなどが明らかになるケースがあった。「データが多くなればなるほど、そういった要素、つまりノイズが紛れ込み、パターンを曖昧にしてしまう」。地味な作業だが、ここをおろそかにすると、いい結果は望めないという。

 それを乗り越えたら、いよいよ予測だ。「データから発見したパターンを使ってモデルを作成し、新しいデータでモデルをトレーニングする」。当初、サッカーでは攻撃のパス、パワープレイ、ホームかアウェイか、期待ゴール数、コーナーキックの数、セーブ率などが、モデルで重要な特徴(仮説)だと判断していた(図5)。

16戦中14戦を的中できる確率は10%未満

図6:Googleがモデル作成に利用したロジスティック回帰図6:Googleがモデル作成に利用したロジスティック回帰
拡大画像表示

 しかしコーナーキック数とセーブ率は重要でないことが明らかになった。「そこで、これらを外してモデルを作成した。我々はディープラーニングではなく、ロジスティック回帰を採用した。何を使うにせよ、トライを繰り返す試行錯誤が重要である」。先進的な印象があるディープラーニングが必ずしも優れるわけではない、というところがポイントである(図6)。

図7:Googleが見いだした「サッカーの勝敗はポワソン分布に従う」というモデル図7:Googleが見いだした「サッカーの勝敗はポワソン分布に従う」というモデル
拡大画像表示

 こうして得たモデルは、「サッカーの勝敗はポワソン分布に従う」というもの。偶然性に左右されるので、予測できるのは70%程度が限界というのが理論値だという(図7)。16戦中14戦を的中する確率は10%未満という計算になるので、Googleの予測はかなり高精度だったことになる。

 そして結論。ビッグデータによるサッカー・ワールドカップの勝敗予測から得たのは、5つのステップの難易度は一様ではなく、差があること。当然のことに思えるが、「データを分析することよりも生データを分析可能にする加工の方が難しい」「予測することよりも何を学んだかを理解する方が難しい」といった指摘は、データ分析の奥深さを感じさせる。地道な事前の作業なしには、優れた成果は得られないのだ。

関連キーワード

Google Cloud / アナリティクス / BigQuery / Bigtable / Spanner

関連記事

トピックス

[Sponsored]

米Googleのエンジニアが明かすビッグデータ分析の今、データから価値を引き出す5つのステップ [ 3/3 ] IoT(Internet of Things:モノのインターネット)が現在、注目キーワードであることは間違いない。だが、それと引き替えに、ビッグデータの分析・活用が、どこかへ行ってしまうとしたら問題だろう。IoTとビッグデータは表裏一体の関係にあり、それはモバイルなども同じ。ITで経営や事業に貢献するにはビッグデータの分析・活用が必須だ。では、ビッグデータの分析・活用にどう取り組めばいいのか−−。こうした問いかけに答えようと、データ専門企業のランドスケープが2015年4月下旬、米Googleのエンジニアを含む著名な専門家を招いて“ビッグデータ分析の今”を伝えるセミナーを開催した。

PAGE TOP