早稲田大学と百度株式会社の共同研究に基づくＷｅｂクローラについて

早稲田大学　理工学術院　山名早人研究室
百度株式会社

本件に関する問い合わせは、　までお願いいたします。
ない、お問い合わせ時には、当該ＷｅｂサーバのURLも一緒にご連絡願います。

W_Univ_BJ_spiderの使用しているＩＰアドレスは以下の通りです(2008.10現在)

IP Addresses of W_Univ_BJ_spider

119.63.193.209

■プロジェクト概要

　本プロジェクトは、早稲田大学と百度株式会社による、日本市場におけるWebリソース解析の共同研究の一環として実施されており、共同のWebクローラにてWeb上に存在するリソースの収集解析を行っております。なお、収集されたWebページは、百度の検索エンジンのインデックスの一部としても利用されます。

■スパイダーの挙動

同一サイトにおけるアクセス頻度については、ウェブサーバからの応答状況に応じて調整しています。また、robots.txtにアクセス間隔を指定していただくことで、頻度調節をしていただくことが可能です。
スパイダーの名称は「W_Univ_BJ_spider(http://www.yama.info.waseda.ac.jp/~yamana/WBJ/)」です。
ページの更新チェックには、HTTPのHEADリクエストを利用し、ヘッダのみを取得して更新時刻を調べ、更新されていた場合にのみ、GETリクエストにより、コンテンツを取得します。
スパイダーのアクセスを拒否する場合には、robots.txt、もしくはMETAタグ利用してください。また、robots.txtを利用して、アクセス間隔を指定していただくことも可能です。

■スパイダーのアクセスを拒否する方法

本スパイダーは、「ロボット排除標準(A Standard for RobotExclusion)」 (http://www.robotstxt.org/orig.html)に基づき、/robots.txt、およびMETAタグを認識し、アクセスの可否を判断します。
すべてのページのアクセスを禁止したい場合には、/robots.txt に以下のように記述してください。

User-Agent: W_Univ_BJ_spider
disallow: /

特定のファイルタイプ（例：pdf）へのアクセスを禁止したい場合には、/robots.txtに以下のように記述してください。

User-Agent: W_Univ_BJ_spider
disallow: /*.pdf$

(※) 「*」は任意の長さの文字列にマッチします。
「$」はURLの末尾の任意の文字列にマッチします。
上記の例で$を入れない場合は、記述されている文字列を含む全てのURLがマッチします。

アクセス間隔を指定する場合は、「crawl-delay」をご利用ください。 crawl-delayでは秒数でアクセス間隔を指定できますので、たとえば、以下のように記述することで、少なくとも10分は間を開けてアクセスがされるよう、設定することができます。

User-Agent: W_Univ_BJ_spider
crawl-delay:600

robots.txtのキャッシュ時間はサイトのアクセス頻度によって異なりますが、最短24時間、通常3日程度です。