[製品サーベイ]

社内外に散在する多様なレポジトリを一元管理、“意味”に着目して非構造化データを分析─オートノミー

2013年1月30日(水)緒方 啓吾(IT Leaders編集部)

旧経営陣の不正疑惑で、“高値買い”との声も囁かれるオートノミー。しかし、HPが、ソフトウェア事業強化の切り札と評価したことは紛れもない事実である。では、どんな技術や機能を提供するのか。今回は、そのテクノロジーに迫る。

 昨年、HPによる買収で注目を集めたオートノミー(Autonomy)が、再び話題をまいている。発端は、HPが2012年11月に発表した8〜10月期決算である。オートノミーの前経営陣が不正な手段を使って、実態よりも業績を大きく見せかけていたと発表。減損費用として88億ドルを計上したのである。

 買収に投じた金額は110億ドル。実に80%以上が過大な評価だったと結論づけた。目下、捜査機関による取り調べが続いており、事実関係については予断を許さないが、二四半期連続の巨額赤字に、HPに対する市場や株主の落胆は大きい。

 ところで、読者はオートノミーがどんな技術や製品を提供しているかご存じだろうか。買収額の妥当性はさておき、HP再建を託された、当時のCEOレオ・アポテカー氏が巨額の投資を決意するだけの魅力を備えていた事実は間違いない。その概要を知ることは、HPが描いた企業ITの将来像を知ることにもつながる。今回はそれをチェックしてみよう。

企業において非構造化データの重要性が高まることを予測

 オートノミーは1996年、英国ケンブリッジでスタートしたソフトウェアベンダー。当時、創業者のマイク・リンチ博士は、企業活動において非構造化データ処理の重要性が高まると予想。同氏が研究していた指紋照合の技術をベースに、非構造化データの分析ツール群の提供を開始した。

 製品の中核は、「IDOL(Intelligent Data Operating Layer)」と呼ぶ検索プラットフォームである。業務システムやファイルサーバー、Webサイトやソーシャルメディアなど、社内外のデータソースを定期的に巡回し、データの内容や所在を記したインデックスを作成。ユーザーやシステムが、複数のデータソースを横断的に検索したり、分析したりできるようにする。

こう説明すると、従業員が社内のマニュアルやプレゼンテーション資料を探しやすくするための検索ソフトを思い浮かべるかもしれない。しかし、IDOLは文書の検索を目的とした製品とは違いがある。

図1 IDOLの概要 社内外のデータソースに接続し、データを抽出。それらを加工、分析し、ルールに従って処理を実行したり、検索に供したりする
図1 IDOLの概要 社内外のデータソースに接続し、データを抽出。それらを加工、分析し、ルールに従って処理を実行したり、検索に供したりする

多様なデータソースに接続
画像や音声、動画も分析する

 1つは、検索対象として接続できるデータソースの数だ。IDOLは、400種類以上の「コネクター」を備える。Oracle DatabaseやSAP ERP、Salesforce CRMといった定番のアプリケーションから、メールやファイルシステム、さらにはFacebookのようなSNSまで内訳は多岐にわたる。

 よりIDOLを特徴づけるのが処理可能なデータの多彩さである。テキストデータだけでなく、音声、動画といった“リッチコンテンツ”も検索対象に含む。ファイル形式でカウントすると、1000種類以上にもなる。

 例えば、音声データの場合、音声認識技術を用いて、音声の内容をテキスト化(音声認識技術の詳細は本誌2012年10月号の製品サーベイを参照)。声の特徴を抽出して、話者を特定するといった機能も持つ。録音データだけでなく、ラジオや電話などをリアルタイムに処理することも可能だ。

 動画についても音声部分をテキスト化できる。また、検出したい映像をインプットすると、画像のパターンなどを学習。同様のシーンを検出する。例えば、監視カメラをモニタリングして、万引きをリアルタイムに察知するといった使い方が可能だ。当然、YouTubeのような動画サイトにも接続できる。

 こうしたコネクターの機能は、音声や動画に含まれる情報を、システムで処理可能な“形式知”に変換できることを意味する。対応するデータソースの多さやデータ形式の多彩さが、IDOLの大きな特徴だ。

 なお、IDOLは、辞書や文法ルールを使わず、単語の出現頻度や組み合わせに着目してテキストを解析するため、基本的に言語には依存しない。公式には、英語や日本語、中国語をはじめ、150以上の言語をサポートする。

データの意味に着目し
自動的に分類、アラートする

 もう1つの特徴は、自動化機能である。IDOLはデータを収集すると、単語の出現頻度や組み合わせから、データがどのようなテーマについて論じているかを推定。同様のテーマを持つデータを相互に関連づけたり、テーマの分布を見て自動的にカテゴリーを作成したりする。データが追加されるたびに、テーマやカテゴリーを見直す。

 見逃せないのが、コネクターが収集するデータをモニタリングする機能だ。条件に当てはまるデータが追加されると、ユーザーにメールなどで通知する。他のシステムにメッセージを送り、所定の処理を実行させるといったことも可能だ。ユーザーは、データソースを巡回したり、データの内容を1つひとつ閲覧したりすることなく、必要な情報だけを入手できる。

 「増え続ける非構造化データを人手で捌き切ることは現実的ではない。IDOLは分析プロセスを効率化するために、システムによる自動化に取り組み続けてきた」(オートノミーの曽山哲良セールスディレクター)。

非構造化データの分析を自動化
変化をいち早く察知する

 幅広いデータソースに接続し、画像や音声などを含めた多様なデータ形式を扱える。分析のプロセスを自動化できる。こうした特徴を活かして、欧米ではIDOLをデータの監視用途に使用する事例も多い。

 例えば、NATO(北大西洋条約機構)は、IDOLを使って、世界各国の新聞やテレビ、ブログ、ソーシャルメディアなどの記事や報道をモニタリング。安全保障上のリスクとなりえるデータを検知して、専門の分析官に通知させている。限られた人的リソースを効果的に使うため、IDOLを使って分析すべきデータを絞り込む(画面1)。

画面1 eディスカバリーソリューションの画面例。過去に誰がメールをやり取りしたかをグラフ化している
画面1 eディスカバリーソリューションの画面例。過去に誰がメールをやり取りしたかをグラフ化している

また、英国のキングストン・アポン・ハル市では、若年労働者の増加に伴い、強盗や暴行、破壊活動などの犯罪が増加。犯罪捜査の効率化を目指して、市内各所に230台のカメラを導入した。各カメラの映像を、IDOLでリアルタイムにモニタリング。盗難や強盗、破壊行為などを検知して、各地区の警察官などに通知する仕組みを採った。この結果、導入後の3年間で6500件の犯人逮捕に結びついた(画面2)。

画面2 監視カメラの映像をIDOLでモニタリングしている画面の例。検知したイベントを画面下に列挙している
画面2 監視カメラの映像をIDOLでモニタリングしている画面の例。検知したイベントを画面下に列挙している

 一方、米国証券取引委員会(SEC)は、エンロン社の不正会計事件の捜査に、IDOLを活用した。スキャンした紙文書やメール、音声通話データなど、押収した大量の証拠品をIDOLに投入。それぞれの関係性を自動的に分析させた。こうした結果、当初18カ月を想定していた捜査期間を3カ月に短縮した。捜査で使用したソリューションは、企業向けにも提供しており、電話やメールのやり取りをモニタリングして、不正を検知するといった機能も備える。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
  • 1
  • 2
バックナンバー
製品サーベイ一覧へ
関連キーワード

Autonomy / エンタープライズ2.0 / エンタープライズ検索 / Fast Search&Transfer / HPE / 文書管理

関連記事

トピックス

[Sponsored]

社内外に散在する多様なレポジトリを一元管理、“意味”に着目して非構造化データを分析─オートノミー旧経営陣の不正疑惑で、“高値買い”との声も囁かれるオートノミー。しかし、HPが、ソフトウェア事業強化の切り札と評価したことは紛れもない事実である。では、どんな技術や機能を提供するのか。今回は、そのテクノロジーに迫る。

PAGE TOP