[技術解説]
検索のチューニングや表示方法、情報のアクセス制御を考え抜く─エンタープライズ検索活用の7つのポイント
2009年2月25日(水)栗原 潔(テックバイザージェイピー 代表/チーフコンサルタント)
数あるIT製品の中でエンタープライズサーチは、導入の敷居が低い割に、業務の効率化や社員の増力化といった面で効果が高い。しかし単に製品を導入するだけでは意味がないのは、多くのIT製品と同じである。パート2ではエンタープライズサーチを使いこなす上で役立つポイントを解説する。
サーチを生かす導入時のポイント
インターネットを使った情報検索は、今やほとんどのビジネスパーソンにとって、ごく日常的な行為になった。とはいえ、エンタープライズサーチの導入には注意が必要だ。検索結果の表示順の制御やアクセス制御など基本的な事項に留意しないと、活用が進まなかったり、機密情報が漏えいしてしまうリスクがある。まず企業情報システム担当者が、サーチ技術の導入時に留意すべき3つのポイントを整理しておこう。
Point1
サーチの基本原理を理解する
エンタープライズサーチを導入するに当たり、まずは簡単にサーチ技術の基本原理を理解しておきたい。
サーチ技術(あるいはそれを実現した製品)は、ほぼ例外なく「クローラ」と「インデックス」で成り立っている。ネットワーク上に分散したさまざまなシステムを定期的に巡回して情報をスキャンし、キーワードとその出現場所を集約。インデックスを構築するのがクローラである。インデックスは周知の通り、検索を高速化するための索引データベース。通常はインデックス内を検索するだけで、キーワードに関連する情報の所在を把握できる(図2)。
インデックスにより、高速な検索が可能だが、リレーショナルデータベースとは異なり、データ整合性を100パーセント保証するものではない。つまり確実に最新の情報を検索できるわけではなく、インデックスとファイルサーバーなどの情報が一致しないことがある。インデックスは情報の所在を管理しているに過ぎず、ファイルサーバーやグループウェア上の情報は日々更新されているからだ。インターネットの検索で検索結果から原本にアクセスしたときに、内容が修正されていたり削除されていたりするのはそのためである。この問題はクローラの巡回頻度を高めることで減らせるが、その分、システムの負荷は大きくなる。
Point2
企業利用の特性を確認する
企業利用を目的とするエンタープライズサーチと誰もが馴染み深いインターネット検索のエンジンは、基本原理こそ同じだが、求められる技術特性は異なる(表2)。
項目 | エンタープライズサーチ | インターネット検索 |
---|---|---|
データ量 | 数テラバイト級 | 数十ペタバイト級 |
対象ユーザー数 | 数百〜数千人規模 | 数億人規模 |
データの多様性 | 右記に加え、業務システムのデータベースや特定アプリケーションのリポジトリなど | テキストファイル、ワード、エクセル、パワーポイント、HTML文書、PDFなど |
セキュリティ要件(アクセス制御) | 極めて重要 | (サーチ提供者としては)さほど意識する必要はない |
ランキングのアルゴリズム | キーワードの出現頻度などによる重み付け、管理者による評価、個々のユーザーによる評価や付加情報(タグ)付け | キーワードの出現頻度による重みづけ、リンク分析による自動処理(ページランク) |
SEO悪用への対策 | 不要 | 必要 |
まずは拡張性。扱う情報量とユーザー数の面では、インターネット検索に比べ、エンタープライズサーチに求められる拡張性の要求はそれほど高くない。だが、検索対象となるデータの多様性という面では、エンタープライズサーチに高い拡張性が要求される。イントラネットの情報はもちろん、業務アプリケーションが管理するデータベースや、ロータスノーツのような特定アプリケーションのリポジトリなど、形式や構造が異なるデータを検索する必要があるからだ。
第2は安全性である。企業内の情報はセキュリティやコンプライアンスの観点から、内容に応じて社外秘や部外秘とするものも多い。このためエンタープライズサーチには厳しいセキュリティの要件があるのだ。たとえ検索条件と合致しても、権限がない人が情報を閲覧するのを防止するため、ユーザーの役職や業務内容に応じたきめ細かいアクセス制御が不可欠になる。
第3は検索結果の表示方法である。業務に用いる情報は、利用者の立場によって重要度が異なる。営業部門にとって3、4年前の技術文書は、価値が低いかもしれないが、開発部門にとっては大きなヒントになることがある。こうした理由から、検索結果の表示順位を決めるランキング方法を1つとっても、エンタープライズサーチにはインターネット検索に比べ複雑なアルゴリズムが求められる。
社内のユーザーにとってサーチ技術は、操作が簡単で身近な機能に違いない。だが導入後に品質やセキュリティの面で痛い目を見ないためにも、導入しようとしている製品が企業利用で求められる要件を満たしているかどうか、そもそもその要件は何かなどを、改めて確認しておく必要があるだろう。
Point3
緩やかなデータ統合と捉える
導入時のポイントとして最後に挙げておきたいのは、「エンタープライズサーチは、企業内の情報を仮想的に統合する手段である」という点だ(図3)。つまり、サーチは単なる文字列検索の技術ではない。
ポイント1で述べた仕組みから明らかなように、エンタープライズサーチはコンテンツを元の場所に保管したまま、所在をインデックスとして集約する。これによりユーザーはあたかも情報が一元管理されているかのような感覚で検索できる。
この仮想統合は、柔軟性や拡張性の点で、非構造化コンテンツ(情報)の検索に適している。ロータスノーツを検索対象に加える場合、ノーツのリポジトリをスキャンするクローラを用意すればよい。音声認識機能とサーチ機能を組み合わせて、動画コンテンツを検索対象に加えることも、技術的には可能になりつつある。
もちろん、ドキュメント管理システムを用いて、さまざまなコンテンツの複製を1カ所のリポジトリに物理的に統合する手もある。しかし企業システムの現状を考慮すると、物理的な情報の統合だけですべての要件に応えられるわけではない。企業内のコンテンツはファイルサーバーや業務システムのデータベースなど、広範囲に分散したシステムの中で、色々な形式で管理されているからだ。
あちこちに散逸し、しかも日々新たな情報が生み出されている中で、情報を1カ所に集約するのは容易ではない。仮に「作成したコンテンツは、必ずドキュメント管理システムに格納する」というルールを設けたとしても、徹底されない可能性がある。ユーザーにとっては作業の負担が増えるだけで、厳守できなくなるケースは多い。
会員登録(無料)が必要です
- 1
- 2
- 次へ >