[データサイエンティストの思考法〜KDD Cup世界第2位の頭の中〜]

データサイエンティストのチーム力学【第5回】

2016年3月17日(木)西川 大亮

筆者らのデータ分析チームは、「KDD Cup 2015」というデータ分析の国際大会で2位に入賞しました。第4回までで、「オンライン無料講座からの離脱者を予測する」という処理全体について、筆者らの取り組みと思考について説明してきました。今回は少し目線を変えて、競技をやり抜くためのチーム運営について、筆者らがどんなことを考えて、どう行動したのかを競技の時間軸に沿って紹介します。

 競技におけるチーム運営は、実務とは大きく違うため、日常業務での経験はあまり役に立ちません。モデルの要件や、チームの規模と体制、活動予算などが、競技によってそれぞれが異なるため、それらに合わせて運営スタイルも変える必要があるからです(表1)。最も大きな違いは、競技活動が自主勉強扱いである点と、役割分担があいまいな体制である点です。結果、各メンバーの主体性やモチベーションがパフォーマンスに強く影響するチーム構造になります。

表1:データ分析における業務と競技の違い表1:データ分析における業務と競技の違い
拡大画像表示

 加えて今回、筆者らFEG(金融エンジニアリング・グループ)とNSSOL(新日鉄住金ソリューションズ)の合同チームは、実務ではあまり取り得ない規模だったため、体制と進め方は手探り状態でした。こうした辺りも含め、正直にお伝えししましょう。

競技開始前
合同チームのための大義名分を立てメンバーの負担を減らす

 これまでFEGとNSSOLは、それぞれが個別にKDD Cupに参加してきました。今回、合同チームになったきっかけは、競技とは無関係で、NSSOLが開発しているデータ分析サービス「Data Veraci(ダータヴェラーチ)」の検証でした。Data Veraciの特徴は、弊社の顧客を含め、遠隔地のメンバーと共同でデータを分析するための環境を提供することです(図1)。そこで、東京にいるFEGと横浜にいるNSSOLを遠隔地にいるメンバーとみなし「KDD Cup 2015を実証実験の題材にしよう」ということにしたのです。

図1:「Data Veraci」を使って遠隔地からの共同作業を実現図1:「Data Veraci」を使って遠隔地からの共同作業を実現
拡大画像表示

 こうした理屈を付けることで、競技参加が単に業務外の自主勉強活動ではなく、会社の研究開発活動の一部になります。今回の例でいえば、データ分析作業そのものは自主勉強だとしても、機器やモジュール設定などITの課題解決は実証実験のための業務となり、1日を有効に使えます。FEGにとっては、IT部分はNSSOLがサポートするためデータ分析に専念できるというメリットも生まれます。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
  • 1
  • 2
バックナンバー
データサイエンティストの思考法〜KDD Cup世界第2位の頭の中〜一覧へ
関連記事

トピックス

[Sponsored]

データサイエンティストのチーム力学【第5回】筆者らのデータ分析チームは、「KDD Cup 2015」というデータ分析の国際大会で2位に入賞しました。第4回までで、「オンライン無料講座からの離脱者を予測する」という処理全体について、筆者らの取り組みと思考について説明してきました。今回は少し目線を変えて、競技をやり抜くためのチーム運営について、筆者らがどんなことを考えて、どう行動したのかを競技の時間軸に沿って紹介します。

PAGE TOP