e-Society「基盤ソフトウェアの総合開発プロジェクト」

「インターネット上の知識集約を可能にするプラットフォーム構築技術」

最終更新日:2008年7月3日

1. プロジェクト概要

本プロジェクト「インターネット上の知識集約を可能にするプラットフォーム構築技術」は、文科省の平成15年度リーディングプロジェクトとして5ヶ年計画でスタートしました。本プロジェクトは、e-Society「基盤ソフトウェアの総合開発」プロジェクトのサブプロジェクトであり、「Web上の全情報を効率よく収集しユーザの望む形式で提供するシステムを開発する」ことを最終目標としています。

2. Webページ収集ステータス

本プロジェクトは、2004年1月19日に.jpドメインリストを起点にしてWebページ収集を開始しました.その後,表1に示すように,Webページ収集システムを拡充し,Webページ収集能力を向上させてきました.
その結果,2004年1月19日からのWebページ収集規模は,図1の通りとなります.
2006年10月には,約140憶ページの収集を完了いたしました.

表1 Webページ収集システムの拡充状況
日付イベントクローラ台数
2004年1月19日国内3拠点(早稲田大学,NTT,IDCデータセンタ)より,Webページの収集を開始30CPU
2005年1月17日国内に2拠点(早稲田大学,NII)を追加・20CPU追加50CPU
2005年10月21日国内3拠点にクローラを追加80CPU

Crawling Status

図1 Webページ収集規模

3. 公開データ

ここでは,e-Societyで収集したWebページのデータを利用した解析結果,アプリケーションを公開していきます.
随時更新予定です.

トップレベルドメインごとの言語分布[1][2]
  本プロジェクトのクローラでは,Webページの収集の際に,Basis TechnologyのRosette言語判定システムを利用し,当該Webページがどのような言語で記述されているのかの言語判定を行っています.Rosette言語判定システムでは,アラビア語(ar),ドイツ語(de),英語(en),スペイン語(es),フランス語(fr),イタリア語(it),日本語(jp),韓国語(kr),ポルトガル語(pt),ロシア語(ru),中国語(zh),バイナリ(bin),その他に判別しています.この結果は,トップレベルドメインごとに,収集したWebページの言語の割合を示しています.
図2は,jpドメインから収集したWebページの言語分布を示しており,約90%のページが日本語で書かれたことを示しています.リンク先のページでは,すべてのTLDの言語分布を見ることができます.
Langugage Distribution of jp domain
図2: jpドメインの言語分布


Webページ間最短経路探索[3][4]
  本サイトでは,2ページ間のリンク最短経路を探索するシステムを提供しています.現在の対象データは,2006年9月に収集した日本語Webページ,約1億ページ,約35億リンクとなります.
図3は,www.google.co.jpからwww.yahoo.co.jpへの最短経路をあらわしたものです.
Shortest Path

図3: www.google.co.jp から www.yahoo.co.jp への最短経路



フォワードリンク・バックリンク検索[5]
  本サイトでは,本プロジェクトで収集した107憶ページのWebサーバ間リンクデータを検索することができます.検索対象のWebサーバ名を入力すると,入力したWebサーバからリンクしているWebサーバ,入力したWebサーバにリンクしているWebサーバの一覧を返します.
また,複数のWebサーバを指定することができるので,共参照関係を簡単に抽出することができます.
図4は,フォワードリンク・バックリンク検索の違いを示した図です.
Forword-Link and Back-Link

図 4:フォワードリンク・バックリンク検索の違い

トップレベルドメイン別ホストの設置場所の特定[5]
  本プロジェクトで収集した約5000万のホストに対し,IP-経度・緯度変換テーブルを用いて,ホストの設置場所の特定を行いました.トップレベルドメインごとに,ホスト設置場所の分布を示したものになります.
図5は,jpドメインに属するWebサーバの設置位置分布を示した図です.
ServerLocation

図5: Web Server Geographical Location (jp domain Web Servers)

4. 関連文献

[1] 平手勇宇, 山名早人:"全世界のWebページのTLD・言語分布解析", 第70回情処全大, 5L-1 (2008.3.13-15)
[2] 童 芳, 平手勇宇, 山名早人:"全世界のWebサイトの言語分布と日本語を含むWebサイトのリンク・地理的位置の解析", DEWS2008, A2-3 (2008.3.10-12)
[3] 松永 拓, 平手勇宇, 山名早人:"Webページ間最短経路探索システムの構築",第70回情処全大, 3ZK-10 (2008.3.13-15)
[4] 松永 拓, 平手勇宇, 山名 早人:"Webページ間最短経路サブグラフによるオンラインリンクマイニング", DEWS2008, A10-5(2008.3.10-12)
[5] 平手勇宇, 片瀬弘晶,山名早人:"全世界のWebホストの地理的位置・バックリンク数の解析", 第145回データベースシステム・第91回情報学基礎 合同研究発表会 (2008.6-19-20)