Web解析プロジェクト

膨大なWebの世界から目的の情報を探すために、私たちはGoogleやYahoo、Bingといった検索エンジンを日常的に利用しています。検索エンジンは、入力したキーワード(検索クエリ)に応じた検索結果を提示し、私たちはそこからさらに上位のごく一部の限られた候補の中から参照するWebページを探し出します。これはすなわち私たちが探し出せる情報は、検索エンジンが返す上位の検索結果となるWebページに左右されるということになります。では検索エンジンはどのような仕組みで検索結果を表示しているのでしょうか。日本人の9割が利用していると言われるGoogleの検索エンジンはどのようなWebページを上位に表示して、下位に排除しているのでしょうか。このような独占的な状況の中、もし意図的に情報がコントロールされたとしたら私たちは気づくことができるでしょうか。我々は世界中のWebページを収集して解析することにより、検索エンジンの挙動や現在のWeb空間の全体像、そしてテレビ等の様々なメディアとの情報の流れについて解明を目指しています。

並列分散Webクローリングシステム(Sonic)

sonic
Webクローラ
Sonic(山名研究室Webクローラ)の構成

山名研究室ではWebクローラと呼ばれるWebページを収集するプログラム、Sonicを独自に開発・運用しています。Sonicは当研究室で開発された並列分散処理フレームワークであるQueueLinkerを利用して開発しており、Webクローラのタスク(スケジューリング・ダウンロード・URL重複チェックなど)を複数のマシンに割り当て動作することが可能となっています。また独自のスケジューリングアルゴリズムと組み合わせることによりWebページを高速かつ収集対象Webサーバーへの負荷を最小限に抑えて収集することが可能となっています。

現在の収集速度(試験中)

sonic_monitor
Webデータ収集状況のモニタリング

Webデータ解析

Webクローラによって収集したwebページを用いて検索エンジンの挙動解析やWeb空間のマイニング、ソーシャルメディアとの関係性解析といった研究に取り組んでいます。また、テレビなどの他メディアの情報ストリームを統合することで、メディア間の情報の流れをストリーム解析によって解明する研究についても取り組む予定です。

waseda_web_graph2
wasedaドメインのWeb構造可視化
多メディア解析
多メディアストリーム解析

関連文献

  • 佐藤 亘, 上田 高徳, 山名 早人:「検索ヒット数の正確性評価: 大規模クロールデータに対する文書頻度との比較」 , 日本データベース学会論文誌, Vol.12, No.1, pp.13-18, 2013.6
  • 上田高徳,佐藤亘,鈴木大地,打田研二,森本浩介,秋岡明香,山名早人,「Producer-Consumer型モジュールで構成された並列分散Webクローラの開発」,情報処理学会論文誌 データベース,Vol.6, No.2, pp.85-97 (2013.3)
  • Koh SATO and Hayato YAMANA:”Hit Count Reliability: How Much Can We Trust Hit Counts?”, Proc. of the 14th Asia Pacific Web Conference, pp.751-758 (2012.4)
  • 上田高徳,浅井洋樹,藤木 紫乃,山本 祐輔,武井 宏将,秋岡 明香,山名 早人:”ソーシャルメディアを含む多メディアビッグデータの統合的解析による情報抽出”, 情処研報(DBS), Vol.2012, No.DBS-156(8),, pp.1-6 (2012.12)
  • 森本浩介, 上田高徳, 打田研二, 山名早人,「ウェブサーバへの最短訪問間隔を保証する時間計算量がO(1)のウェブクローリングスケジューラ」,DEIM2011, B5-6 (2011.2.28-3.2)