DEWS'98 発表論文 24
分散型WWWロボットによるWWW情報収集 |
[PS]・[PDF] |
山名 早人*1,
田村 健人*2,
河野 浩之*3,
亀井 聡*3,
原田 昌紀*4,
西村 英樹*5,
浅井 勇夫*6,
楠本 博之*7,
篠田 陽一*8,
村岡 洋一*9
*1 電子技術総合研究所 情報アークテクチャ部
*2 日本IBM 東京基礎研究所
*3 京都大学大学院 工学研究科
*4 東京大学大学院 総合文化研究科
*5 シャープ(株) 技術本部
*6 大阪府立大学 工学部
*7 慶應義塾大学 環境情報学部
*8 北陸先端科学技術大学院大学 情報科学研究科
*9 早稲田大学 理工学部
WWW Information Collection with Distributed WWW Robots
|
[PS]・[PDF] |
Hayato YAMANA *1,
Kent TAMURA *2,
Hiroyuki KAWANO *3,
Satoshi KAMEI *3,
Masanori HARADA *4,
Hideki NISHIMURA *5,
Isao ASAI *6,
Hiroyuki KUSUMOTO *7,
Yoichi SHINODA *8,
Yoichi MURAOKA *9
*1 Electrotechnical Laboratory, Computer Science Div.
*2 IBM Tokyo Research Laboratory
*3 Kyoto University
*4 University of Tokyo
*5 Sharp Corporation
*6 Osaka Prefecture University
*7 Keio University
*8 Japan Advanced Institute of Science and Technology
*9 Waseda University
概要
WWWの急速な普及に伴い、インターネット上には、現在200万台を越える
WWWサーバが存在する。これらのWWWサーバから発信される情報を検索す
るためには、これらの情報を収集しデータベースを構築する必要がある。
そこで、本稿では、WWWサーバ上のデータを高速に収集する手法として、
分散型WWWロボットを提案する。現在、国内の8個所に分散型WWWロボット
を設置し実験を行っており、最終的には、日本国内のWWWサーバ上にある
データを24時間以内に収集することを目標としている。予備評価の結果、
4つのWWWロボットを用いることにより、1つのWWWロボットを用いた場合
に比較し、5.8〜9.7倍の速度向上が得られることを確認した。また、n
台の分散型WWWロボットを用いることにより、最大 ( 2.8 x n ) 倍程度の
速度向上が期待できることがわかった。
Abstract
Currently, the number of World-Wide Web servers becomes over
two millions because of the rapid spred of WWW. The documents
on the WWW servers must be collected to make a database to
search them. In this paper, we propose distributed WWW robots
to collect the documents quickly. Our final goal is to collect all
of the documents on the WWW in Japan within one day.
Currently, eight distributed WWW Robots are running in Japan.
The experimental results show that we are able to gain
5.8 to 9.7 times speedup when four distributed WWW robots are placed
at different places in comparison with when only one WWW robot
is used. We also expects that we are able to gain about ( 2.8 x n )
times speedup at most when we use n WWW robots to collect
the documents.
目次に戻る
トップページに戻る