ビッグデータで注目されるようになったのが、「非構造化データ」だ。企業において、オフィス文書や電子メール、SNSなどの非構造化データは構造化データの数倍あるとされており、ビッグデータの分析結果にも大きな影響を及ぼす。しかし、精度の高いデータとして扱うのが難しいのも非構造化データの特徴だ。インターシステムズは、「ボトムアップ型」の自然言語処理技術「iKnow」で、非構造化データであるテキストデータの活用の幅を広げる。iKnowは2016年10月に日本語版が発表され、日本企業が本格的に活用できるようになった。
iKnowは、テキストベースの非構造化データを、意味のある構造化データに変換するための自然言語処理技術だ。その特長は、独自の考え方に基づいた形態素解析にある。形態租解析は、会話などの自然言語を処理するために必要な技術のこと。
インターシステムズが2010年にベルギーのi.Knowを買収して得た技術で、同社のフラッグシップ製品であるデータベース基盤の「InterSystems Caché」に組み込む形で提供されている。
iKnowのプロダクトマネージャーを務めるベンジャミン・デ・ボー氏によると、iKnowの創設者が、言語処理の「ボトムアップ」アプローチ手法を発見したことから始まったものだという。
インターシステムズでは、一般的な自然言語処理ツールで用いられている手法を「トップダウン」アプローチと呼んでいる。トップダウンアプローチでは、まず文章を単語で区切る。「on」や「to」などの前置詞も1つの単語として区切り、単語の並びから固有名詞を判断する。
一方のボトムアップアプローチは、動詞や副詞、一般名詞など、文法上、単体では意味をなさない単語を抽出する。それから漏れた固有名詞などの単語を意味のある「エンティティ」として特定し、文法の並びから重要な語句を見つけ出す。
例えば
Congressional hearing attacks EpiPen price hikes(公聴会はエピペンの価格引き上げを攻撃した)
という文章。
エピペンとは、じんましんなどのアレルギー症状(アナフィラシキー)が出た時に、一時的に症状の進行を緩和することのできる、患者が自分で使用できる補助治療剤のこと。文章は、メーカーがエピペンの価格を引き上げたことに対して公聴会が開かれた模様をニュースサイトで取り上げた時のものだ。
会員登録(無料)が必要です
- 1
- 2
- 次へ >