English Page


早稲田大学と百度株式会社の共同研究に基づくWebクローラについて

早稲田大学 理工学術院 山名早人研究室
百度株式会社


本件に関する問い合わせは、 までお願いいたします。
ない、お問い合わせ時には、当該WebサーバのURLも一緒にご連絡願います。

W_Univ_BJ_spiderの使用しているIPアドレスは以下の通りです(2008.10現在)

IP Addresses of W_Univ_BJ_spider
119.63.193.209

■プロジェクト概要

 本プロジェクトは、早稲田大学と百度株式会社による、日本市場におけるWebリソース解析の共同研究の一環として実施されており、共同のWebクローラにてWeb上に存在するリソースの収集解析を行っております。なお、収集されたWebページは、百度の検索エンジンのインデックスの一部としても利用されます。

■スパイダーの挙動

■スパイダーのアクセスを拒否する方法

User-Agent: W_Univ_BJ_spider
disallow: /
User-Agent: W_Univ_BJ_spider
disallow: /*.pdf$
(※) 「*」は任意の長さの文字列にマッチします。
「$」はURLの末尾の任意の文字列にマッチします。
上記の例で$を入れない場合は、記述されている文字列を含む全てのURLがマッチします。
User-Agent: W_Univ_BJ_spider
crawl-delay:600