[技術解説]
エンタープライズ検索を徹底比較─導入容易性追求型から大規模検索まで、多彩な機能・特徴の製品が出そろう
2009年2月27日(金)IT Leaders編集部
中堅中小企業や部門向けから、大企業の全社向けまで、今や多彩なエンタープライズサーチ(エンタープライズ検索)製品が出そろっている。きちんと調べさえすれば、ほとんどの企業、組織においてニーズにフィットする製品が見つかるといってもいい。ここでは、導入の容易さと拡張性、文書へのアクセス制限機能、検索対象の自由度などについて、製品選択のポイントを解説する。
エンタープライズサーチ製品の選択に必要なポイントを見る前に、製品の構成要素を見ておこう。インターネットの検索エンジンと同様、大別して「クローラ」「インデクサ」「サーチャー」という、3機能からなる(図6)。
エンタープライズ検索製品の3大機能を知る
「クローラ(Crawler)」は、ファイルサーバーやデータベースサーバーなどに定期的にアクセスして、文書ファイルやデータを取得する機能。どのサーバーにどんな頻度でアクセスして情報を取得するかは設定しておく必要がある。頻繁に文書が更新される可能性の高いファイルサーバーに対しては1日1回、更新頻度が少ないサーバーには週に1回などと、設定するわけである。
クローラが取得したファイルから、検索のキーになるインデックス(索引)を作成するのが、「インデクサ(Indexer)」だ。ファイルに含まれる単語を抽出し、その単語とファイルを関連づけたデータベースを作成、維持する。英語などの場合、単語間にスペースなどの区切りがあるので単語抽出は単純だが、区切りのない日本語の文章は、そうはいかない。そこで日本語向けのインデクサでは主に「N-gram」と「形態素解析」と呼ぶ2つの方法、またはどちらか一方を使って単語を抽出する。
N-gramでは一定の文字数で機械的に文章を区切って語句を抽出する。例えば、「情報を取得」という文字列を1文字で区切るなら「情」「報」「を」…、2文字で区切るなら「情報」「報を」「を取」…となる。検索時のヒット率は高まるが、「報を」や「を取」など意味のない単語をインデックスに含んでしまう。
これに対し「形態素解析」は、辞書に基づいて文書に含まれる単語を抽出する。「情報を取得する」というテキストなら、「情報」「を」「取得」「する」と区切る。無意味な語句を抽出しないのがメリットだが、原理上、辞書にない製品名や略語などを抽出できない。ただしエンタープライズサーチ製品のベンダーは、これらのメリットを生かし、デメリットを排除する工夫を施している。2つの方法を適材適所で組み合わせる、辞書にない名詞を自動的に辞書登録する、などだ。なお形態素解析を発展させた「意味解析」という方式もある。
もう1つの「サーチャー(Searcher)」は、ユーザーインタフェースを担う機能である。検索キーワードの入力を受け付けたり、検索結果の表示を行う。加えて新しい文書順、キーワードを多く含む順など、検索結果の表示順序を制御する機能も持つ。使い勝手に大きく影響するだけに、導入の際にはしっかりチェックすべき機能だ。
次に、製品選択のチェックポイントを見ていこう。
会員登録(無料)が必要です
- 1
- 2
- 次へ >