[ トップページ ]

« WASS を工学院大学での講義に使用した | メイン | 候補しぼりこみの高速化 その 2 »

ハッキング

Wikipedia のテキストのあつかい

いつも Wikipedia の最新のテキストを検索することができればよいが,軸づけ検索には前処理が必要なのでそうはいかない. ときどき全部の項目をかためたファイル (jawiki-latest-pages-articles.xml) をダウンロードして前処理をおこなって使用している.

http://download.wikimedia.org/jawiki/latest/ から日本語版 Wikipedia に関するさまざまなファイルをダウンロードすることができる. そのなかに jawiki-latest-pages-articles.xml.bz2 というファイルがあるので,これをダウンロードして解凍してつかっている. もとのファイルは 1 GB くらいのおおきさだが,解凍すると 4 GB くらいにふくらむ. ここからタグづけされたテキストを生成するとやはり 4 GB くらい,それにしぼりこみのためのインデクスが 2.5 GB くらい (ほんとうはもっとメモリがとれればしぼりこみの効果をあげることができる) あり,これらをすべてメモリにのせて処理しようとすると 8 GB をこえるメモリが必要になる.

キーワード:

トラックバック

このエントリーのトラックバックURL:
http://www.kanadas.com/mt/mt-tb.cgi/4355

コメントを投稿


メインページアーカイブページも見てください.

Powered by
Movable Type 3.36