English Page
早稲田大学と百度株式会社の共同研究に基づくWebクローラについて
早稲田大学 理工学術院 山名早人研究室
百度株式会社
本件に関する問い合わせは、 までお願いいたします。
ない、お問い合わせ時には、当該WebサーバのURLも一緒にご連絡願います。
W_Univ_BJ_spiderの使用しているIPアドレスは以下の通りです(2008.10現在)
IP Addresses of W_Univ_BJ_spider |
119.63.193.209 |
■プロジェクト概要
本プロジェクトは、早稲田大学と百度株式会社による、日本市場におけるWebリソース解析の共同研究の一環として実施されており、共同のWebクローラにてWeb上に存在するリソースの収集解析を行っております。なお、収集されたWebページは、百度の検索エンジンのインデックスの一部としても利用されます。
■スパイダーの挙動
- 同一サイトにおけるアクセス頻度については、ウェブサーバからの応答状況に応じて調整しています。また、robots.txtにアクセス間隔を指定していただくことで、頻度調節をしていただくことが可能です。
- スパイダーの名称は「W_Univ_BJ_spider(http://www.yama.info.waseda.ac.jp/~yamana/WBJ/)」です。
- ページの更新チェックには、HTTPのHEADリクエストを利用し、ヘッダのみを 取得して更新時刻を調べ、更新されていた場合にのみ、GETリクエストにより、
コンテンツを取得します。
- スパイダーのアクセスを拒否する場合には、robots.txt、もしくはMETAタグ 利用してください。また、robots.txtを利用して、アクセス間隔を指定していただくことも可能です。
■スパイダーのアクセスを拒否する方法
- 本スパイダーは、「ロボット排除標準(A Standard for RobotExclusion)」 (http://www.robotstxt.org/orig.html)に基づき、/robots.txt、およびMETAタグを認識し、アクセスの可否を判断 し ます。
- すべてのページのアクセスを禁止したい場合には、/robots.txt に以下のよう に記述してください。
User-Agent: W_Univ_BJ_spider
disallow: / |
- 特定のファイルタイプ(例:pdf)へのアクセスを禁止したい場合には、/robots.txtに以下のよう に記述してください。
User-Agent: W_Univ_BJ_spider
disallow: /*.pdf$ |
(※) 「*」は任意の長さの文字列にマッチします。
「$」はURLの末尾の任意の文字列にマッチします。
上記の例で$を入れない場合は、記述されている文字列を含む全てのURLがマッチします。
- アクセス間隔を指定する場合は、「crawl-delay」をご利用ください。 crawl-delayでは秒数でアクセス間隔を指定できますので、たとえば、以下のように記述すること
で、少なくとも10分は間を開けてアクセスがされるよう、設定することができます。
User-Agent: W_Univ_BJ_spider
crawl-delay:600 |
- robots.txtのキャッシュ時間はサイトのアクセス頻度によって異なりますが、 最短24時間、通常3日程度です。