top
research
UBQ班
IUI班
Bio班
member
link
contact
 
 
about
 
 
UBQ班

山名研究室において、UBQ(ubiquitous)とは、あらゆるところに遍在する大量のデータのことを指します。
現在、ハードウェアの価格の低下・高性能化によって、大量のデータを含んだ、大規模なデータベースの構築が容易となりました。

しかし、データベースが大規模になるにつれて、その中から有用な情報を探し出したり、データの全体像を把握するための作業に対して、膨大なコストが必要となってしまいます。
このような背景をもとに、UBQ班では、大規模データからの価値のある情報の抽出を目的として、特にIR(Information Retrieval: 情報検索)分野とData Mining分野に関係する研究を行っています。

IR分野は、WWW上に存在するデータを対象として、情報の収集・検索から、ユーザへの提示までの技術を研究する分野です。
現在、UBQ班では、「e-Societyプロジェクト(http://cif.iis.u-tokyo.ac.jp/e-society/)」の一環として、WWW上から100億のWebページを収集することを目指しています。
それに関連して、並列化クローラ、Webページの再収集頻度の自動決定などの研究を行っています。
また、検索システムによって抽出された情報を有効に活用するための研究も行っています。現在、検索エンジンを利用した英作文支援システムの開発を行っています。

左の図は、検索エンジンを利用した英作文支援システムのスクリーンショットです。
英作文支援システムは、WWW上で実際に使われている英語表現を利用者に提示することで、利用者に対して最適な英語表現を提供します。

Data Mining分野は、大量に存在するデータから、人が見ただけでは把握できない、「有用な情報」を抽出する研究を行う分野です。
UBQ班では、主に、トランザクションデータ中に頻繁に出現するパターンを効果的に発見する、頻出パターン抽出という技術の研究を行っています。 現在、頻出パターン抽出の並列化や、限定されたパターン抽出によるユーザ応答時間の短縮、従来技術よりも価値の高い情報を抽出する技術、などの研究を行っています。
また、IR分野でも挙げた「e-Societyプロジェクト」と関係して、収集されたWebデータから、有用な情報を抽出することを目指した研究も行っています。
現在は、Webページをトピックごとにクラスタリングする、Webコミュニティ抽出と呼ばれる技術の研究を行っています。
非常に大規模なデータを研究対象とするため、クラスター・Gridなどの知識も必要となっています。

左の図は、とあるデータを、クラスタリングによって解析した結果の、視覚化による一例です。
クラスタリングとは、似通った性質を持つデータ同士を同じクラスタ(部分集合)に分類する、データマイニング分野の1手法です。 クラスタリングによって、大規模なデータを抽象化することで、データそのものを扱うよりも簡単にデータの性質を把握することが可能になります。

右の図は、頻出パターン抽出によって抽出されたパターンをグラフ化した一例です。
頻出パターン抽出とは、データ中に頻繁に出現するパターン、つまり、関係性の深いアイテムの組み合わせを抽出する、データマイニング分野の1手法です。 頻出パターン抽出によって、大規模なデータの中から、ピンポイントで価値のある情報を得ることが可能になります。

このほかにも,有志を募りデータ解析コンペティションというコンテストに出場しました.このコンテストは,全てのチームに同じデータが与えられ,「与えられたデータから面白く役に立つ知識を発見しなさい.」という命題が与えられます.この命題に対し,各チームが自由に解析を行い,解析手法や得られた知識を競います.
山名研究室として,平成15年度,平成17年度出場していますが,15年度は「東日本学生部門優勝」,17年度は「東日本学生部門技能賞」を受賞しました(チーム名:やまぽん).



[研究内容]
  • 検索エンジン応用(API利用)
    • ランキング変化の追跡調査
    • 著作権違反ページ抽出
    • ランキング外となった検索結果の取得
  • 検索
    • 類似コード検索システム
  • リンク構造
    • リンク構造の圧縮によるランキング計算の高速化
    • 全世界のWebページリンク構造の把握
  • テキスト処理
    • 英文冠詞誤りの検出
    • 英語論文の作成支援システム
    • ニュース記事の分類
  • Wikipedia
    • 記事信頼度の判定
    • 影響力の調査


[2008年度発表実績]
  • 山名早人: "検索エンジンの信頼性",人工知能学会誌, Vol.23, No.6, pp.752-759 (2008.11)
  • 村岡洋一、山名早人、松井くにお、橋本三奈子、赤羽匡子、萩原純一:"100億規模のWebページ収集・分析への挑戦", 情報処理、Vol.49, No.11, pp.1277-1283 (2008.11)
  • 童芳, 平手勇宇, 山名早人: "全世界のWebサイトのTLD・言語分布・地理的設置位置の特定", 日本データベース学会論文誌, Vol.7, No.1, pp.31-36 (2008.6)
  • 舟橋卓也, 上田高徳, 平手勇宇, 山名早人:" 商用検索エンジンの検索結果では取得できないランキング下位部分の収集・解析", 日本データベース学会論文誌, Vol.7, No.1, pp.37-42 (2008.6)
  • 上田高徳, 平手勇宇, 山名早人: "システムコールレベルのアクセスログを用いたディスクアクセスパターンマイニング", 日本データベース学会論文誌, Vol.7, No.1, pp.145-150 (2008.6)
  • 片瀬弘晶, 松永拓, 上田高徳, 田代崇, 平手勇宇, 山名早人: "リンク構造解析アルゴリズム高速化のための縮小Webの構築, 日本データベース学会論文誌, Vol.7, No.1, pp.245-250 (2008.6)
  • 平手勇宇, 片瀬弘晶, 山名早人:"全世界のWebサーバの地理的位置・バックリンク数の解析", 日本データベース学会論文誌, Vol.7, No.2, pp.1-6 (2009.9)
  • 中村智浩, 平野孝佳, 平手勇宇, 山名早人: "単独記事フィルタリングを用いた時系列ニュース記事分類法の提案", 日本データベース学会論文誌, Vol.7, No.2, pp.7-12 (2008.9)
  • 舟橋卓也, 上田高徳, 平手勇宇, 山名早人: "商用検索エンジンのヒット数に対する信頼性の検証", 日本データベース学会論文誌, Vol.7, No.3, pp.31-36 (2008.12)
  • Hayato YAMANA:"Toward the Analysis of over 10 billion Web pages", Proc. of the 4th Korea-Japan Int'l Database Workshop 2008(KJDB 2008), pp.239-255 (2008.9)
  • T.UEDA, Y.HIRATE, H.YAMANA:"Exploiting Idle CPU Cores to Improve File Access Performance", Proc. of The 3rd International Conference on Ubiquitous Information Management and Communication, CD-ROM (2009.1.15-16)
  • 中村智浩(M1),平野孝佳,平手勇宇,山名早人:"単独記事フィルタリングを用いた時系列ニュース記事分類法の提案", 信学技報(データ工学研究会),Vol.108, No.93, pp.59-64 (2008.6.19-20)
  • 曽根広哲(M1),吉田泰明,平手勇宇,山名早人:"検索エンジンのランキングにおける日本語版ウィキペディアの影響力",信学技報(データ工学研究会), Vol.108, No.93, pp.89-94 (2008.6.19-20)
  • 櫻井宏樹(M1),吉田泰明,平手勇宇,山名早人:"ウィキペディアを対象とした編集回数に依存しない編集者の信頼度測定手法",信学技報(データ工学研究会), Vol.108, No.93, pp.115-120 (2008.6.19-20)
  • 山名早人:"[招待講演]100億規模のWebページ収集とその活用",信学技報(データ工学研究会), Vol.108, No.93, p.95 (2008.6.19-20)
  • 上田高徳(M2):"メニーコア時代におけるOSレベルでのI/O最適化", 情報研報(jDBワークショップ), Vol.2008, No.56, p.133 (2008.6.19-20)
  • 平手勇宇, 片瀬弘晶, 山名早人: "全世界のWebホストの地理的位置・バックリンク数の解析", 情報研報(DBS), Vol.2008, No.56, pp.25-32 (2008.6.19-20)
  • 上田高徳、平手勇宇、山名早人:"アクセスパターンマイニングによるOSレベルでの動的なI/O最適化",情処研報(DBS)/iDB2008, Vol.2008, No.88, pp.73-78 (2008.9)
  • 飯村卓也、平手勇宇、山名早人:"Webページ間の関連性の伝播を用いたWebコミュニティ抽出手法",情処研報(DBS)/iDB2008, Vol.2008, No.88, pp.133-138 (2008.9)
  • 舟橋卓也、上田高徳、平手勇宇、山名早人:"商用検索エンジンのヒット数に対する信頼性の検証",情処研報(DBS)/iDB2008, Vol.2008, No.88, pp.139-144 (2008.9)
  • 松永拓,片瀬弘晶,上田高徳,久保田展行,森本浩介,平手勇宇,山名早人:"グラフデータ処理エンジンの実装と評価", 信学技報, Vol.108, No. 329, DE2008-69, pp. 43-43, (2008.12)
  • 松永拓, 平手勇宇, 山名早人:"多数のランドマークを用いるためのALTアルゴリズム拡張", 第122回アルゴリズム研究会 (2009.1.30)
  • 松崎勝彦, 平手勇宇,山名早人:"核となるアイテムセットによる頻出アイテムセット抽出数削減手法", DEIM2009 (2009.3.8-10)
  • 吉田泰明, 平手勇宇, 山名早人:"商用検索エンジンにランキングされたサイトのランク変動パターンの解析", DEIM2009 (2009.3.8-10)
  • 久保田展行, 上田高徳, 山名早人:"ウェブクローラ向けの効率的な重複URL検出手法", DEIM2009 (2009.3.8-10)
  • 飯村卓也, 平手勇宇, 山名早人:"Webページ間の関連性の伝播を用いたWebコミュニティ抽出手法の評価", DEIM2009 (2009.3.8-10)
  • 舟橋 卓也,平手 勇宇,山名 早人:"検索ヒット数のクラスタリングを用いた補正手法の検討", DEIM2009 (2009.3.8-10)
  • 永井洋平, 黒木さやか,山名 早人:"印象語からの概念推定システム", 信学技報(Webインテリジェンスとインタラクション研究会) (2009.3.23-25)