[事例ニュース]

10億枚の画像の分類がPC1台で可能に─NII、ドワンゴ、東大が新手法を開発

2017年9月12日(火)日川 佳三(IT Leaders編集部)

国立情報学研究所(NII)、ドワンゴ、東京大学、科学技術振興機構(JST)は2017年9月12日、ビッグデータのクラスタ分け(分類)処理を、高速かつ少ないメモリー容量で実行できる手法を開発したと発表した。10億個規模の大規模データを一般的な能力のPCでも手軽に扱えるようになるという。本手法のコードは、同年9月14日からGitHubで一般公開する。

 国立情報学研究所(NII)、ドワンゴ、東京大学のメンバーで構成する研究チームは今回、大量のデータのうち似たものをまとめてグループに分ける「クラスタリング」の処理について、新たな手法を開発した。クラスタリングとは、膨大な数の画像データを対象に、動物のようなものが写っている写真、街の風景が写っている写真といったグループに分ける処理のことである。

図1:1億枚の画像をクラスタリング処理した結果の例。似た画像がまとめられている(上から、「氷上のスポーツ試合」グループ、「欧風の教会」グループ、「ヤシの木」グループそれぞれの画像の一部)(出典:国立情報学研究所、ドワンゴ、東京大学、科学技術振興機構)図1:1億枚の画像をクラスタリング処理した結果の例。似た画像がまとめられている(上から、「氷上のスポーツ試合」グループ、「欧風の教会」グループ、「ヤシの木」グループそれぞれの画像の一部)(出典:国立情報学研究所、ドワンゴ、東京大学、科学技術振興機構)
拡大画像表示

 今回開発した手法では、データを圧縮した状態でクラスタリングを行う。これによって、従来手法よりも少ないメモリー容量で処理できるようになった。さらに、似たデータを集めたグループの「平均」を効率良く計算する新技術を考案し、処理を高速化した。クラスタリングの基本的手法の1つであるk平均法と比較して、精度は劣るものの、100~4000倍ほど省メモリーで、10~1000倍ほど高速になったとしている。

 背景についてNIIらは、枚数が1億以上の巨大なデータに対しては、従来の手法では、処理速度が遅すぎたり、必要なメモリー容量が大きすぎたりして、個人PCユーザーが入手・利用できる仕様のPC1台ではクラスタリングを実行することは難しいという問題を挙げる。「このため、大規模なクラスタリングを行うためには、多数のサーバーを用いた分散並列処理が必要だった」という。

  研究チームが開発した手法では、まず、直積量子化という技術を用いてデータを圧縮する。これにより、データを従来手法よりも少ないメモリーで表現することができる。次に、圧縮されたデータに対して、「似ているデータを集めてグループを作る」「グループの『平均』を計算する」という処理を繰り返す。今回は、グループの平均を効率的に計算する技術を新たに考案し、これにより、高速なクラスタリングが可能になった。

 画像データセット「Yahoo Flickr Creative Commons 100M(YFCC100M)」の1億枚の画像を対象に、「氷上のスポーツ試合」や「欧風の教会」、「ヤシの木」など10万種類のグループに分類したところ、個人が一般に入手できる高性能機種の仕様であるメモリー容量32GB、CPUのコア数4のPC1台で、約1時間で実行できた。これを一般的なクラスタリング手法を用いて同じ所要時間で実行しようとすると、同じ仕様のPCが約300台必要になる。また、10億の画像データを10万種類のグループに分ける処理も約12時間で実行できた。

 さらに、最新の既存手法である「Binary k平均法」などと比較して、クラスタリング終了後にデータを近似的に復元できることや、利用にあたってチューニングの必要がないことといったメリットがあるという。

 「多くの既存手法は、高速化を実現するために、元データを不可逆的に大きく変形してしまうため、クラスタリングが終わった後に元データを復元できない。このため、クラスタリング結果を解釈したり、別の処理に利用したりすることができないという弱点があった」。今回の手法は、この問題を解決した。また、多くの既存手法は、使うデータに応じてチューニングする必要があったが、今回の手法は、何も設定することなく簡単に使うことができるという。

 研究チームでは、ビッグデータ処理に関わるすべてのエンジニアや研究者の利用に供するため、今回開発したコードを2017年9月14日から「https://github.com/DwangoMediaVillage/pqkmeans」のURLで公開する予定である。論文(PQk-means: Billion-scale Clustering for Product-quantized Codes)は、計算機科学などの論文を保存・公開するWebサイト「arXiv(アーカイブ)」(https://arxiv.org/)に同年9月14日に掲載する。

関連キーワード

AI / ドワンゴ / 東京大学 / GitHub / 協業・提携 / Creative Commons / NII / 画像認識

関連記事

トピックス

[Sponsored]

10億枚の画像の分類がPC1台で可能に─NII、ドワンゴ、東大が新手法を開発国立情報学研究所(NII)、ドワンゴ、東京大学、科学技術振興機構(JST)は2017年9月12日、ビッグデータのクラスタ分け(分類)処理を、高速かつ少ないメモリー容量で実行できる手法を開発したと発表した。10億個規模の大規模データを一般的な能力のPCでも手軽に扱えるようになるという。本手法のコードは、同年9月14日からGitHubで一般公開する。

PAGE TOP