現在のWWW情報検索をサービスでは、それぞれのサービス提供サイトが、 独立にWebデータを収集しています。これらは、ネットワークやWebサーバに対 する負荷を大きくするとともに、独立に集めるが故に、収集に莫大な時間が必 要となってきています。
これらの問題を解決すべく、1997年1月に、当時、大学で検索サービスを提供 していた「千里眼」、「 問答 」、「 ODIN 」の開発者を含む10名の研究者が 集まって実験がスタートしました。以下の第一次実験では、分散収集による速度 について主に調査をし、千里眼ロボットをベースとした分散型WWWロボットを構 築しました。
検索サービスを提供する個々のサイトは、検索アルゴリズム等では独自の アルゴリズムを用い、サービスとしては競争関係にあるのが望ましい形態だと 考えています。しかし、データの収集については、「同一のデータを集 めるのであれば、協力して高速に収集すべき」ではないでしょうか(^_^)。 また、協調して収集することにより、ネットワークに対する負荷を小さくできる というメリットもあります。
現在の目標では、JPドメイン内のテキストデータを対象に、24時間以内 に全データを収集し検索サービスを提供しているサイトへ収集したデータを再配 布することを目指しています。第二次実験で、本目標が達成できたら、 この仕組みを海外へ広めていくことも視野に入れています。