分散型WWWロボット実験

Last Update:2000.04.07

このページは、一般公開しているページ(黒色) と参加者のみが利用できる参加者専用ページ(★) に分かれています。参加者専用ページにアクセスするには、IDとパスワードが必要と なります。


実験の背景と目標

現在のWWW情報検索をサービスでは、それぞれのサービス提供サイトが、 独立にWebデータを収集しています。これらは、ネットワークやWebサーバに対 する負荷を大きくするとともに、独立に集めるが故に、収集に莫大な時間が必 要となってきています。

これらの問題を解決すべく、1997年1月に、当時、大学で検索サービスを提供 していた「千里眼」、「 問答 」、「 ODIN 」の開発者を含む10名の研究者が 集まって実験がスタートしました。以下の第一次実験では、分散収集による速度 について主に調査をし、千里眼ロボットをベースとした分散型WWWロボットを構 築しました。

検索サービスを提供する個々のサイトは、検索アルゴリズム等では独自の アルゴリズムを用い、サービスとしては競争関係にあるのが望ましい形態だと 考えています。しかし、データの収集については、「同一のデータを集 めるのであれば、協力して高速に収集すべき」ではないでしょうか(^_^)。 また、協調して収集することにより、ネットワークに対する負荷を小さくできる というメリットもあります。

現在の目標では、JPドメイン内のテキストデータを対象に、24時間以内 に全データを収集し検索サービスを提供しているサイトへ収集したデータを再配 布することを目指しています。第二次実験で、本目標が達成できたら、 この仕組みを海外へ広めていくことも視野に入れています。


第一次実験関連の情報


第二次実験関連の情報


This page is written by yamana@etl.go.jp