Namazuシステムの構築と活用
日本語全文検索徹底ガイド
書誌
| tag | Perl |
| text | 唯野 |
| author | 馬場肇 |
| publisher | ソフトバンク |
| year | 2001 |
| price | 2,800 |
| isbn | 7973-1641-1 |
履歴
| 2001.9.17 | 読了 |
| 2002.1.21 | 公開 |
| 2002.11.28 | 修正 |
| 2012.1.17 | タグ追加 |
感想
コンピュータの得意なこととしての検索。これを推し進めたひとつの発展形が全文検索システムといっていいだろう。本書では冒頭で「ガイドではないかたちで必要な情報を探し出すための手段としてのサーチエンジン」という説明のされ方がしているが、私などもインターネットで検索エンジンを使わない日の方が珍しいくらいなので、それ自体の余計な説明は今や不要だろう。その上で本書は既に読書ノート化している 『日本語全文検索システムの構築と活用』 の新版のような本である。内容も全体的な構成は同じであり、Namazu を中心としつつ全文検索エンジン全般に渡るトピックを仕組みや展望まで絡めて扱っている。
個人的に検索エンジンの可能性は上述の読書ノートにも記述しているように、非常に大きなものがあると思っている。ゆえに、今後も大いに注目すべきだと思うし、自分なりの活用法も追及したい。
抄録
18/19/21/52/206
| 処理 | 対応機能 |
| リソース収集 | ロボット |
| 文書フィルタ | インデクサ |
| インデクサ | 同上 |
| 検索エンジン | エンジン |
| 検索クライアント | UI |
全文検索システムは大きく分けてインデックスを作成するインデクサとインデックスから実際の検索を行うサーチエンジンより成る。インデックスは書籍でいうところの索引に当たる。これをあらかじめ作成しておくことで、実際の検索速度の向上(索引から探せばよい)が実現される。
その際に、インデックスは単語単位に分割されるが、これを日本語の分かち書き(形態素解析)という。Namazu はデフォルトで KAKASI を使うが、ChaSen も利用できる。
24-30
基本的な検索手法。これらは ( ) を使ってグループ化することができる。
- AND 検索 Word1 と Word2 の双方を含むもの
- OR 検索 Word1 か Word2 のいずれかを含むもの
- NOT 検索 Word1 から Word2 を含まないもの
他に以下のようなものがある。
- 部分一致検索 「coca*」で coca を含むもの
- 正規表現検索 「インタフェ[ー|イ]ス」でインタフェースとインタフェイスなど
- フレーズ検索 「"Heavey Weather"」という塊を含むもの
- フィールド指定 検索対象を URL、タイトル(title:キーワード)などに絞るもの
- 単語を含む、含まない(+、-) UNIX +Gnome -Linux (UNIX と Gnome を含むが Linux は含まない)
- リンク検索 キーワードをリンク先としたページの検索 (逆リンクの検索など、link:)
- ワイルドカード *
32
Namazu は GPL2 によるフリーな日本語全文検索システムで、高林哲氏が開発したものを現在では Namazu プロジェクトによって開発が進められている。以下の特徴が挙げられる。
- 高速な検索
- インデックス作成が容易
- 多彩な検索方法
- 結果表示の柔軟性
- 正確な HTML の扱い
- 多様な文書フォーマットのサポート
- 多様なプラットフォームに対応
- 多彩な検索クライアント (TkNamazu、namazu.el、Search-S など)
50
Namazu の動作に必要なツール類。Perl 5.004 以上、File-MMagic (ファイルタイプ判別のための Perl モジュール)、nkf 1.71 (1.9 だと文字化けのバグがある)、KAKASI (日本語分かち書き)、Text-KAKASI (KAKASI を Perl 経由で使うためのモジュール、インデックス速度が速くなる。)
69
Namazu におけるロケール周りの環境変数は GNU gettext に従い LANGUAGE、LC_ALL、LC_MESSAGE、LANG の順で最初に見つかったものが使われる。推奨されるのは ja_JP.eucJP だが Solaris では japanese としなければならない。
全文を読まれる場合はログインしてください
