[2020年を見据えた「グローバル企業のIT戦略」]

【第18回】KKD(勘・経験・度胸)の代替こそがビッグデータの“あるべき姿”

2015年4月6日(月)入江 宏志(DACコンサルティング 代表)

2020年を見据えた「グローバル企業のIT戦略」を取り上げる本連載。IT戦略における日本と世界の差異を見極めるための観点として、前回からビッグデータ(Big Data)の目的や特長、手法、活用シナリオと可能性、課題点、そして、あるべき姿について考えている。前回は、ビッグデータ活用に潜む“想定外”の課題を指摘した。今回は、ビッグデータ編のまとめとして、ビッグデータ活用のあるべき姿を提案する。

図1:無限データ/Any Dataのビッグデータ分析図1:無限データ/Any Dataのビッグデータ分析
拡大画像表示

 第15回で述べたように、科学的な分析手法からみたデータの分類方法には、有限データと無限データ(エニーデータ、Any Data)がある。無限データを対象にしたビッグデータの分析結果は、図1のような形になることは、第13回で紹介している。分析の過程で対象範囲が、全体(破線)、取得できたデータ(実線)、分析結果(太線)と、徐々に小さくなることは、容易に理解できる。

有限データのビッグデータ分析では“想定外”が当然に

図2:有限データのビッグデータ分析図2:有限データのビッグデータ分析
拡大画像表示

 ところが、有限データの場合は様相が違う。対象にすべき全体(破線)よりも、実際に取得できるもの(実線)や分析結果(太線)のほうが大きくなる(図2)。結果、求めるべき真実は“想定外”のところにあったりする。どういうことか、分かりやすく説明してみよう。

 例えば、A市が持つ各種データを分析するとしよう。対象は、A市に住んでいる住民全体である。ところが、市が管理している複数のデータソースを統合してみると、実際に住んでいる住民数の3~4倍規模の住民データが集まってくる。統合したデータの中には、データの重複があったり“ゴミ”が混ざったりしているためだ。

 重複は、各々のデータソースで間違って入力されていたり、表記方法が違っているために同じ人を別の人と判断したりすることで起こる。一方の“ゴミ”は、既に転出している住民のデータなどが一部のデータソースに残っていることで発生する。逆に、実際には転入しているのに住民票を移していないなどの漏れもあるだろう。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
  • 1
  • 2
  • 3
  • 4
バックナンバー
2020年を見据えた「グローバル企業のIT戦略」一覧へ
関連記事

トピックス

[Sponsored]

【第18回】KKD(勘・経験・度胸)の代替こそがビッグデータの“あるべき姿”2020年を見据えた「グローバル企業のIT戦略」を取り上げる本連載。IT戦略における日本と世界の差異を見極めるための観点として、前回からビッグデータ(Big Data)の目的や特長、手法、活用シナリオと可能性、課題点、そして、あるべき姿について考えている。前回は、ビッグデータ活用に潜む“想定外”の課題を指摘した。今回は、ビッグデータ編のまとめとして、ビッグデータ活用のあるべき姿を提案する。

PAGE TOP