分散型ＷＷＷロボット実験

Last Update:2000.04.07

このページは、一般公開しているページ(黒色) と参加者のみが利用できる参加者専用ページ(★) に分かれています。参加者専用ページにアクセスするには、ＩＤとパスワードが必要となります。

実験の背景と目標

現在のＷＷＷ情報検索をサービスでは、それぞれのサービス提供サイトが、独立にWebデータを収集しています。これらは、ネットワークやWebサーバに対する負荷を大きくするとともに、独立に集めるが故に、収集に莫大な時間が必要となってきています。

これらの問題を解決すべく、1997年1月に、当時、大学で検索サービスを提供していた「千里眼」、「問答」、「ＯＤＩＮ」の開発者を含む１０名の研究者が集まって実験がスタートしました。以下の第一次実験では、分散収集による速度について主に調査をし、千里眼ロボットをベースとした分散型WWWロボットを構築しました。

検索サービスを提供する個々のサイトは、検索アルゴリズム等では独自のアルゴリズムを用い、サービスとしては競争関係にあるのが望ましい形態だと考えています。しかし、データの収集については、「同一のデータを集めるのであれば、協力して高速に収集すべき」ではないでしょうか(^_^)。また、協調して収集することにより、ネットワークに対する負荷を小さくできるというメリットもあります。

現在の目標では、ＪＰドメイン内のテキストデータを対象に、24時間以内に全データを収集し検索サービスを提供しているサイトへ収集したデータを再配布することを目指しています。第二次実験で、本目標が達成できたら、この仕組みを海外へ広めていくことも視野に入れています。

第一次実験関連の情報

第二次実験関連の情報

期間　1998.4.1～2000.3.31
予算＆スケジュール
- 情報処理振興事業協会(IPA)
  独創的情報技術育成事業
  「インターネット広域分散協調サーチロボット研究開発」
- ★実験概要とスケジュール (2000.01.18)
関連報告書
- 1998年度成果報告書(1999.2) [pdf(352KB)] [ps(920KB)]
- 第18回IPA技術発表会資料(1999.10.13-14) [pdf(160KB)]
- 1999年度成果報告書(2000.2) [pdf(440KB)] [ps(2520KB)]
参加者 (34サイト(2000.2.23))
1. 公開参加者リスト
2. ★参加者連絡先等一覧(Excel file)
3. ★実験状況マップ (皆様の進行状況の入力をお願いします)
マニュアル - 以下のマニュアルに従って、Solaris2.6, ssh, JDK2, PRSのインストールを行って下さい。
1. DELL OptiPlex GX1へのSolaris2.6日本語版導入(1999.9.18)
2. ★sshのインストールとID/PASSWORDの設定(1999.9.27)
3. Solarisへのパッチ当てとJDK2のインストール方法 (2000.01.26)
  旧マニュアル(参考)
  - Solarisへのパッチ当てとJDK1.1.6のインストール方法 (1998.11.06)
  - Solarisへのパッチ当てとJava2 SDKのインストール方法 (1999.01.20)
4. ★分散型ＷＷＷロボットのインストール方法(2000.1.19)
5. ★分散型ＷＷＷロボットの運用方法(2000.1.19)
6. ★再配布システムのインストールと運用(4月中旬頃公開)
7. ★PRSの自動更新システムのインストールと運用(2000.3.29)
8. その他ＦＡＱ(2000.3.29)
参考資料・データ
1. ★日本国内WWWサーバリスト(約5万サイト)
2. WWW情報検索サービスの動向
問い合わせ先
- 山名早人＠電子技術総合研究所 e-mail: yamana@etl.go.jp

This page is written by yamana@etl.go.jp

分散型ＷＷＷロボット実験

このページは、一般公開しているページ(黒色) と参加者のみが利用できる参加者専用ページ(★) に分かれています。参加者専用ページにアクセスするには、ＩＤとパスワードが必要と なります。

実験の背景と目標

第一次実験関連の情報

第二次実験関連の情報

このページは、一般公開しているページ(黒色) と参加者のみが利用できる参加者専用ページ(★) に分かれています。参加者専用ページにアクセスするには、ＩＤとパスワードが必要となります。