9999-01-01

WASS の機能, その他, アナウンス, ハッキング, プログラムの構造とデータ生成法

Ads by Dasyn.com

WASSad.jpg
WASS (Wikipedia Axis-Specified Search) (Wikipedia の検索エンジン)

2010-01-06

ハッキング

候補しぼりこみ率の改善

これまで,カタカナ語やひらがな語の一部の検索にはかなり検索時間がかかっていた. たとえば 「アイドル」 の検索には検索サーバ側で 16 秒くらいかかっていた. その原因はこれらの語の 2 グラム・インデクスがいずれも候補がおおくて,事典項目のしぼりこみがゆるくなっていたためだ. それを改善する方法をくふうしてくみこんだので,「アイドル」 などは 14 秒くらいまでは改善されたが,総合的には比較的わずかな改善にとどまった.

つづく…

2010-01-01

その他

ブログのアクセスはふえたが,だれも検索しないのはなぜ?

このブログへのアクセスはふえてきた. 開設したばかりだが 12 月のアクセスは 456 件であり,www.dasyn.com と www.kanadas.com をあわせたページ・ランキングで 10 位以内にはいっている. ところが,このページには検索ページへのリンクもはってあるのに,検索をためすひとはほとんどいない. なんとか,そちらにトラフィックを誘導する方法をかんがえる必要がある. また,ほかのプロモーションの方法もかんがえる必要がある.

つづく…

2009-12-20

ハッキング

候補しぼりこみの高速化 その 2

候補しぼりこみの高速化」 という項目で検索候補しぼりこみに使用しているインデクスのアクセス法を改善して 5 割くらい高速化したことを書いた. さらにインデクスの検索法を改善して,しぼりこみに関しては数倍の高速化をはかった.

つづく…

ハッキング

Wikipedia のテキストのあつかい

いつも Wikipedia の最新のテキストを検索することができればよいが,軸づけ検索には前処理が必要なのでそうはいかない. ときどき全部の項目をかためたファイル (jawiki-latest-pages-articles.xml) をダウンロードして前処理をおこなって使用している.

つづく…

2009-12-19

その他

WASS を工学院大学での講義に使用した

工学院大学で年に 2 コマだけ講義をひきうけている. そのうちの 1 コマで軸づけ検索をとりあげているのだが,今年はそのデモに Wikipedia の検索をとりあげてみた. インターネット・アクセス環境の制約などのため,かならずしも意図したとおりにはいかなかった.

つづく…

ハッキング

候補しぼりこみの高速化

WASS の軸づけ検索では最初に文字インデクスを使用して検索対象をしぼりこむ. そのためにこれまで Perl の vec() を使用していたが,unpack() を使用する方法にかえて,この部分だけをとると 5 割ほど高速化された.

つづく…

2009-12-15

ハッキング

地域軸検索からの地図表示機能の追加

「発見ナビ」 と初期の 「ネットで百科」 の 「テーマ地名検索」 (地域軸検索) には,検索結果からその地域の地図をひらく機能があった. しかし,WASS の開発をはじめてからつい最近まで,地図表示についてはなにもかんがえずにきた. やっとそれに気がついて,Google Map 表示機能をつけた.

つづく…

ハッキング

WASS サーバの仮想メモリを最小化!

WASS のサービスに使用している PC は,最初は仮想メモリを規定値にしていた. ところが,これでアイドル状態がつづくと,せっかく主記憶に展開した Wikipedia のテキストがディスクにおいだされて,検索がおそくなってしまう. それをさけるために,とりあえず仮想メモリを 800 MB にまでちぢめた.

つづく…

2009-12-13

アナウンス

WASS 試行サービスの開始

日本語版 Wikipedia のあたらしい検索サービス WASS (Wikipedia Axis-Specified Search) の試行を予定どおり 2009 年 12 月 13 日に開始しました. WASS をつかうとなにができるかについては,「WASS - Wikipedia から整理された検索結果をえる検索サービス」 や 「機能の概要」 をみてください. まだ不十分ですが,使用の手引も一応,用意してあります.

つづく…

2009-11-30

プログラムの構造とデータ生成法

WASS における年代表記や地名のタグづけ

WASS においては,タグづけサブシステムにおいて,テキストがふくむ年代表記や地名にタグが挿入される. ここでは,どういうタグが挿入されるかを説明する.

つづく…

プログラムの構造とデータ生成法

WASS のプログラムのつくり

検索のしくみに興味があるひとだけ,読んでください.

つづく…

2009-11-29

プログラムの構造とデータ生成法

WASS における地名データベースの生成

WASS の地域軸検索を実現するために,地名データベースをつかっている. Web 上で利用可能な地名の情報をもとにしてそれをつくっている. 検索サービス公開前にはあまり興味をひかないとはおもうが,あらかじめ WASS における地名データベースの生成法について書いておくことにする.

つづく…

アナウンス

WASS 試行サービス開始への準備

WASS 試行サービスが 12 月 13 日に開始できるように準備しています. これまでどういう準備をしているかについては,べつのブログの項目などに書いています.

つづく…

WASS の機能

WASS - Wikipedia から整理された検索結果をえる検索サービス

日本語版 Wikipedia のあたらしい検索サービス WASS の試行を 2009 年 12 月 13 日に開始する予定です. WASS (Wikipedia Axis-Specified Search) は Wikipedia を検索して,年代や地名によって整列した結果をえる検索サービスです. WASS をつかえば,特定のテーマに関する年表をつくったり,特定のテーマに関する記述を地域ごとにまとめたりすることができます. このような検索のインターフェースは開発者が 「軸づけ検索」 と呼んできたものです.

つづく…

2009-11-04

ハッキング

Wikipedia 「軸づけ」 検索のインターネット上でのサービスをめざして

Wikipedia をネタにして 「軸づけ検索」 をひろくためせるようにしたいというおもいは,ずっとまえからあった. 「Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索」 などの項目に書いたように,ようやくそれにちかいことが実現しようとしている.

つづく…

ハッキング

Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索

メモリ上での Wikipedia 検索と Windows 7 をめざした,あたらしいマシン」 という項目で Windows 7 のマシンをたちあげて,Wikipedia の検索をこころみていることを書いた. 最近,Windows 7 は製品版にのせかえ,Wikipedia 検索はやっと全体を検索できるところまできた.

つづく…