ツイッターやフェイスブックなどのソーシャルメディアから有意な情報を導き出し、活用するにはどんな技術が必要なのか。 モバイルデバイスやセンサーから得られる時間や空間に関する情報はどうか─。 いわゆるビッグデータの分析や活用に関わる技術の実際は、意外に知られていない。 収集したビッグデータをどのように分析し、利用するのかということだ。本稿では、富士通研究所の取り組みから、 自然言語処理技術、エネルギー利用などの最適化技術、それに時空間データ処理技術などを解説する。
※本記事は富士通発行の雑誌「FUJITSU 2011年9月号(VOL.62)」の記事を一部編集して掲載しています。
我々は、人や社会の知恵や行動、環境変化に関する様々な情報を分析・活用する技術の研究開発を進めている。より豊かで安心できる社会を意味する“インテリジェントソサエティ”の基盤になるからだ。人や社会の動きを分析して活用するためには、これまでのビジネスインテリジェンスなどの分析技術が扱ってきた企業内のビジネスデータとは異なる性質のデータを扱える新たな分析技術が必要となる。ブログやTwitterなどのマイクロブログ、SNSのような多様性に富む内容や書き方となるテキストデータや、センサーデータのように個々の情報量は少ないがリアルタイムで大量に集まるデータなどを処理する様々な分析技術が求められる。
本稿はそれらの分析技術の中から、ソーシャルメディアを対象とした自然言語処理技術、人の行動や社会の動きを考慮した最適化技術、時刻や位置情報を大量に処理するための時空間データ処理技術の3種類について簡単な応用例を交えて紹介する。
最初にTwitterなどのソーシャルメディアから様々な人や社会の動きを見つけ出すために必要となる技術について、自然言語処理技術を中心に紹介する。次に、予測した結果に基づいて最適なビジネス計画や社会問題の解決策を立案するための最適化技術を紹介。最後は、時間や空間に関するデータを扱うための時空間データ処理技術を解説する。時間や位置に関する集計や検索は、人の行動や社会の動きを分析するために必要となる基盤的な技術で、今後重要性が高まると考えている。
SNSへの書き込みを正確に評価するソーシャルメディア分析技術
インテリジェントソサエティの大きな目標に、複雑化する社会問題の解決に向けたICTの貢献がある。そこで著者らは問題解決に向けた第一歩として、ブログやマイクロブログ(Twitterなど)、Mixi、Facebookなどのソーシャルメディアの分析を通して、社会を構成する人がどう行動し、何を問題と考えているのかを把握する技術を研究開発している。以下はソーシャルメディア分析の例として、著者らがこれまで研究してきた評判分析と社会マップを紹介し、そこで必要となる技術について解説する。
著者らがニフティと共同で開発した評判分析技術は、ブログなどのソーシャルメディアから特定の商品やサービスに関する意見を収集。商品やサービスの認知度、強み弱みを分析する。図1は、お茶飲料に対して評判分析を実施した結果である。味に否定的な評価が多い一方で、飲料水を飲めば「やせる」という効果は高く評価されていることが読み取れる。
図2は著者らが現在研究する社会俯瞰マップの例である。社会俯瞰マップとは、ソーシャルメディア上の書き込みの中から特定の分野(図2の例では犯罪)に関係する書き込みだけを選別し、書き込み内容から「いつ」「どこで」起きた「どんな」出来事に関する書き込みかを解析して地図上に表示するものである。この技術を様々な分野へ適用することで、住民の意見や行動、社会全体の動きの一面を地域依存性や時間変化も含めて知ることができる。
文脈を加味した自然言語処理
上記のような評判分析や社会俯瞰マップを実現するには、個別の書き込みから必要な情報を抽出するための自然言語処理技術が必要になる。ただし、ソーシャルメディア上の書き込みは新聞記事のように5W1Hが明確に書かれているわけではない。主に話し言葉で記述され、省略や略称が用いられることが多い。そのため、ある特定の単語をベースにした処理ではなく、より文脈や表現を考慮した自然言語処理が求められる。
このような問題に対し、著者らは高速かつ高精度な機械学習を用いた自然言語処理技術の研究開発を行ってきた(※1)。機械学習とは、分類済みの事例の集合から、未分類の事例を正しく分類するための規則を自動的に生成する手法である。これにより、例えばある書き込みが「不審者情報」かどうかを判定する場合に、単純に「不審者」という単語が含まれているかで判定するのではなく、「不審者」の関連語や文脈を考慮した判定が可能となる。「不審者と間違われたかも…」という書き込みは「不審者」という単語を含むが「不審者情報」ではないと判定される。
書き込みの内容から「どこで」を抽出する際も、場所を示す表現には地名や店舗名、ランドマーク、それらの略称など、様々な表現が用いられることが問題となる。しかし、すべての表現に対して学習用の教師データを準備するのは現実的ではない。そこで著者らは大量のテキストデータを統計処理し、判定ルールのパラメータを補強することで、様々な表現に対応できる高精度の抽出技術を開発した(※2)。
以上のように、特定の単語の影響を受けにくい自然言語処理を用いた「社会俯瞰マップ」により、まだ断片的ではあるものの「社会で起きた出来事」の検知・把握が可能となる。
大規模ネットワークを高速分析
次にソーシャルメディアを対象としたネットワーク分析技術について述べる。ソーシャルメディアは、人や書き込み、話題などを頂点とする巨大なネットワークと考えられる。そのため大規模なネットワークを分析する技術、特にネットワークの構造やその時間変化を高速に分析する技術が求められる。
著者らはカーネギーメロン大学と共同で、大規模ネットワークから特徴的な部分ネットワークを高速に発見する手法を研究してきた(※3)。この手法は、ノードの次数やハブスコアといった特徴量の分布に着目することにより、ネットワークの大きさ(辺の数)に比例する時間で分析できる。これはソーシャルメディアのような非常に大規模なネットワークを分析する際の必須の条件である。この技術を使ってソーシャルメディア内の特徴的なコミュニティや話題を抽出し、社会の意識の変化やそれに基づく行動の変化を検出することが期待できる。
今後は解析可能な分野を拡大するとともに、後述する時空間データ処理技術と組み合わせて、より豊富で正確性の高い知識の抽出を目指す。
会員登録(無料)が必要です
- 1
- 2
- 3
- 次へ >
- ERP導入企業は34.8%、経営改革や業績管理に活用する動きも─ERP研究推進フォーラム/IT Leaders共同調査(2013/02/07)
- ツールの効果的活用で機能品質高め─テスト工程のあり方を見つめ直す(2013/01/29)
- IaaSを利用する際、これだけは押さえておきたいセキュリティのツボ(2012/10/18)
- これからIT部門が育てるべき人材像とは(2012/08/24)
- ベテラン社員に技術やノウハウが偏在、情報システム部門の技能継承が課題に(2012/07/19)