[ トップページ ]

メイン

ハッキング アーカイブ

2009-11-04

メモリ上での Wikipedia 検索と Windows 7 をめざした,あたらしいマシン」 という項目で Windows 7 のマシンをたちあげて,Wikipedia の検索をこころみていることを書いた. 最近,Windows 7 は製品版にのせかえ,Wikipedia 検索はやっと全体を検索できるところまできた.

つづく…

Wikipedia をネタにして 「軸づけ検索」 をひろくためせるようにしたいというおもいは,ずっとまえからあった. 「Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索」 などの項目に書いたように,ようやくそれにちかいことが実現しようとしている.

つづく…

2009-12-15

WASS のサービスに使用している PC は,最初は仮想メモリを規定値にしていた. ところが,これでアイドル状態がつづくと,せっかく主記憶に展開した Wikipedia のテキストがディスクにおいだされて,検索がおそくなってしまう. それをさけるために,とりあえず仮想メモリを 800 MB にまでちぢめた.

つづく…

「発見ナビ」 と初期の 「ネットで百科」 の 「テーマ地名検索」 (地域軸検索) には,検索結果からその地域の地図をひらく機能があった. しかし,WASS の開発をはじめてからつい最近まで,地図表示についてはなにもかんがえずにきた. やっとそれに気がついて,Google Map 表示機能をつけた.

つづく…

2009-12-19

WASS の軸づけ検索では最初に文字インデクスを使用して検索対象をしぼりこむ. そのためにこれまで Perl の vec() を使用していたが,unpack() を使用する方法にかえて,この部分だけをとると 5 割ほど高速化された.

つづく…

2009-12-20

いつも Wikipedia の最新のテキストを検索することができればよいが,軸づけ検索には前処理が必要なのでそうはいかない. ときどき全部の項目をかためたファイル (jawiki-latest-pages-articles.xml) をダウンロードして前処理をおこなって使用している.

つづく…

候補しぼりこみの高速化」 という項目で検索候補しぼりこみに使用しているインデクスのアクセス法を改善して 5 割くらい高速化したことを書いた. さらにインデクスの検索法を改善して,しぼりこみに関しては数倍の高速化をはかった.

つづく…

2010-01-06

これまで,カタカナ語やひらがな語の一部の検索にはかなり検索時間がかかっていた. たとえば 「アイドル」 の検索には検索サーバ側で 16 秒くらいかかっていた. その原因はこれらの語の 2 グラム・インデクスがいずれも候補がおおくて,事典項目のしぼりこみがゆるくなっていたためだ. それを改善する方法をくふうしてくみこんだので,「アイドル」 などは 14 秒くらいまでは改善されたが,総合的には比較的わずかな改善にとどまった.

つづく…

9999-01-01

WASSad.jpg
WASS (Wikipedia Axis-Specified Search) (Wikipedia の検索エンジン)
Powered by
Movable Type 3.36