「筆者らのデータ分析チームは、「KDD Cup 2015」というデータ分析の国際大会で2位に入賞しました。前回は、KDD Cup 2015を例に、データ分析競技というデータサイエンティストが挑む世界の概要と、その意義を紹介しました。今回からは、KDD Cup 2015のステップに沿って、競技中にデータサイエンティストたちが何を考え行動しているのかを解説していきます。今回は、競技の課題を正確に理解し、データの実像に迫るために有効な3つの基本的な分析プロセスを紹介します。
データサイエンティストには、高度なアルゴリズムを自在に操るイメージがあります。しかし彼らは、データの背後にある人間の行動や心理の実像を描き出すスペシャリストでもあるのです。よいモデルを作るためには、データから実世界の動きを解釈・想像するスキルが不可欠です。特にビジネスを対象にした分析では、データの深層に埋もれている事実の発見が施策立案の基礎となることも少なくありません。
では、データサイエンティストはどうやって、データから人間の行動や心理の実像を描き出しているのでしょうか。KDD Cup 2015での筆者らのチームの行動を例に、説明してみましょう。
正解付きの「学習データ」からモデルを導き出す
KDD CUP 2015における課題は、「中国のオンライン無料講座(MOOC:Massive Open Online Courses)サイト『XuetangX』におけるユーザー(受講者)の脱落を予測する」ことでした(第1回参照)。無料サービスであり人気があるものの、脱落率が高いという課題を抱えています。脱落する可能性が高いユーザーを予測できれば、事前に効果的な施策を打てるという期待があります。
XuetangXはオンラインの無料講座として、「データサイエンス」や「統計学」といった多様なコースを用意しています。各コースは、いくつかの章から成っており、各章には動画と問題があります。ユーザーは動画を視聴し、問題に回答しながら学習を進めるのです。ユーザー同士が集うためのフォーラムや、講義を補うためのwikiが用意され、問題が難しい場合には他のユーザーから回答のヒントを得ることもできます。
会員登録(無料)が必要です
- 1
- 2
- 3
- 4
- 次へ >
- データ分析の新潮流と、未来を支える人材像:最終回(2016/05/12)
- データを“武器”にするためのビジネス思考とは【第6回】(2016/04/21)
- データサイエンティストのチーム力学【第5回】(2016/03/17)
- 実像に迫るためにコンピューターを鍛え上げる【第4回】(2016/02/16)
- コンピュータが理解できる情報とは何か:第3回(2016/01/21)