[ トップページ ]

« Wikipedia のテキストのあつかい | メイン | ブログのアクセスはふえたが,だれも検索しないのはなぜ? »

ハッキング

候補しぼりこみの高速化 その 2

候補しぼりこみの高速化」 という項目で検索候補しぼりこみに使用しているインデクスのアクセス法を改善して 5 割くらい高速化したことを書いた. さらにインデクスの検索法を改善して,しぼりこみに関しては数倍の高速化をはかった.

しぼりこみに使用しているのは文字インデクスだ. 検索語がふくむ文字がふくまれていない項目は検索する必要がない. しかし,ひらがな,カタカナ,アルファベット 1 文字では項目をしぼることはできない. そこで,これらの文字種に関しては 2 文字 (2 グラム) インデクスを使用している.

検索語から 2 文字ずつサブストリングをもとめていくと,最後に 1 文字あまる. いままではこの文字のインデクスも検索していたが,これは必要ないのではぶくことにした. これによって最後がこれらの文字種でおわる検索語に関しては画期的な高速化をはかることができた. たとえば,これまで 「アイドル」 の候補しぼりこみに 4 秒弱かかっていたのが,0.8 秒以下でできるようになった. 最後の 1 文字の検索にいかに時間がかかっていたかがわかる.

ただし,検索時間全体としては 10% 以下の改善でしかない. これをおおきく改善するには,しぼりこみをつよめる必要がある.

キーワード:

トラックバック

このエントリーのトラックバックURL:
http://www.kanadas.com/mt/mt-tb.cgi/4357

コメントを投稿


メインページアーカイブページも見てください.

Powered by
Movable Type 3.36