検索エンジンの仕組み

検索エンジンは、一般的に4つのコンポーネントから構成されているといわれる。

Index Manager
Index Searcher
Indexer
Document Manager

では、それぞれ順番に見ていこう。
-Index Manager
インデックス構造を持つデータを管理するコンポーネント。通常、二次記憶上のバイナリファイルとして管理。多くの場合、インデックスを圧縮して保存。

-Index Searcher
インデックスを用いて全文検索処理を行うコンポーネント。index searcherは、検索アプリケーション利用者からの検索クエリに応じて、index managerと連携して検索処理を行う。多くの場合、適合する検索結果を一定の基準で並び替え、その結果の上位のものをアプリケーションに返す。

-Indexer
検索対象のテキスト文章からインデックスを作成するコンポーネント。テキスト文章を解析して単語列へ分解し、その単語列をインデックス構造へと変換する。

-Document Manager
文章管理器は、検索対象の文章を蓄えておくデータベースを管理するコンポーネント。文章管理器は、検索クエリに適合する文章を文書データベースから取り出し、必要に応じてその文書の一部を抽出する。DBMSやDBMが通常使われる。

%e6%a4%9c%e7%b4%a2%e3%82%a8%e3%83%b3%e3%82%b7%e3%82%99%e3%83%b3%e3%81%ae%e4%bb%95%e7%b5%84%e3%81%bf%e5%9b%b3%e8%a7%a3%e8%a9%b3%e7%b4%b0

-Crawler
web上のHTMLなどの文章を収集するボット。

-ランキング
PageRankを代表とする検索対象の文章に点数付けを行うシステム。