top
research
UBQ班
IUI班
Bio班
member
link
contact
 
 
about
 
 
UBQ班

山名研究室において、UBQ(ubiquitous)とは、あらゆるところに遍在する大量のデータのことを指します。
現在、ハードウェアの価格の低下・高性能化によって、大量のデータを含んだ、大規模なデータベースの構築が容易となりました。

しかし、データベースが大規模になるにつれて、その中から有用な情報を探し出したり、データの全体像を把握するための作業に対して、膨大なコストが必要となってしまいます。
このような背景をもとに、UBQ班では、大規模データからの価値のある情報の抽出を目的として、特にIR(Information Retrieval: 情報検索)分野とData Mining分野に関係する研究を行っています。

IR分野は、WWW上に存在するデータを対象として、情報の収集・検索から、ユーザへの提示までの技術を研究する分野です。
現在、UBQ班では、「e-Societyプロジェクト(http://cif.iis.u-tokyo.ac.jp/e-society/)」の一環として、WWW上から100億のWebページを収集することを目指しています。
それに関連して、並列化クローラ、Webページの再収集頻度の自動決定などの研究を行っています。
また、検索システムによって抽出された情報を有効に活用するための研究も行っています。現在、検索エンジンを利用した英作文支援システムの開発を行っています。

左の図は、検索エンジンを利用した英作文支援システムのスクリーンショットです。
英作文支援システムは、WWW上で実際に使われている英語表現を利用者に提示することで、利用者に対して最適な英語表現を提供します。

Data Mining分野は、大量に存在するデータから、人が見ただけでは把握できない、「有用な情報」を抽出する研究を行う分野です。
UBQ班では、主に、トランザクションデータ中に頻繁に出現するパターンを効果的に発見する、頻出パターン抽出という技術の研究を行っています。 現在、頻出パターン抽出の並列化や、限定されたパターン抽出によるユーザ応答時間の短縮、従来技術よりも価値の高い情報を抽出する技術、などの研究を行っています。
また、IR分野でも挙げた「e-Societyプロジェクト」と関係して、収集されたWebデータから、有用な情報を抽出することを目指した研究も行っています。
現在は、Webページをトピックごとにクラスタリングする、Webコミュニティ抽出と呼ばれる技術の研究を行っています。
非常に大規模なデータを研究対象とするため、クラスター・Gridなどの知識も必要となっています。

左の図は、とあるデータを、クラスタリングによって解析した結果の、視覚化による一例です。
クラスタリングとは、似通った性質を持つデータ同士を同じクラスタ(部分集合)に分類する、データマイニング分野の1手法です。 クラスタリングによって、大規模なデータを抽象化することで、データそのものを扱うよりも簡単にデータの性質を把握することが可能になります。

右の図は、頻出パターン抽出によって抽出されたパターンをグラフ化した一例です。
頻出パターン抽出とは、データ中に頻繁に出現するパターン、つまり、関係性の深いアイテムの組み合わせを抽出する、データマイニング分野の1手法です。 頻出パターン抽出によって、大規模なデータの中から、ピンポイントで価値のある情報を得ることが可能になります。

このほかにも,有志を募りデータ解析コンペティションというコンテストに出場しました.このコンテストは,全てのチームに同じデータが与えられ,「与えられたデータから面白く役に立つ知識を発見しなさい.」という命題が与えられます.この命題に対し,各チームが自由に解析を行い,解析手法や得られた知識を競います.
山名研究室として,平成15年度,平成17年度出場していますが,15年度は「東日本学生部門優勝」,17年度は「東日本学生部門技能賞」を受賞しました(チーム名:やまぽん).



[研究内容]
  • 検索エンジン応用(API利用)
    • ランキング変化の追跡調査
    • 著作権違反ページ抽出
    • ランキング外となった検索結果の取得
  • 検索
    • 類似コード検索システム
  • リンク構造
    • リンク構造の圧縮によるランキング計算の高速化
    • 全世界のWebページリンク構造の把握
  • テキスト処理
    • 英文冠詞誤りの検出
    • 英語論文の作成支援システム
    • ニュース記事の分類
  • Wikipedia
    • 記事信頼度の判定
    • 影響力の調査


[2007年度発表実績]
  • T. Tashiro(M1), T. Ueda, T. Hori, Y. Hirate, H. Yamana:"EPCI: Extracting Potentially Copyright Infringement Texts from the Web ", Proc. of 16th Int. World Wide Web Conf., pp.1151-1152 (2007.5)
  • Hiroshi HORII(D1) and Hayato YAMANA:"Transactional Optimistic Active Replication", Proc. of The Second International Conference on Ubiquitous Information Management and Communication, , pp.111-117, Korea (2008.1.31-2.1)
  • Takanori UEDA(M1), Yu HIRATE and Hayato YAMANA:"EReM-DiCE: Exploiting Remote Memory for Disk Cache Extension", Proc. of 1st International Workshop on Storage and I/O Virtualization, Performance, Energy, Evaluation and Dependability (SPEED2008), Salt Lake City, UT (2008.2)
  • Yasuaki Yoshida(M1), Takanori Ueda, Takashi Tashiro, Yu Hirate, Hayato Yamana:"What's going on in search engine rankings?", Proc. of the 2008 IEEE International Symposium on Mining and Web (2008.3.25-28)
  • Y.Hirate(D3), A.Aiyoshizawa, S.O, Y.Ioku, F.Kido and H.Yamana:"System for Detecting Auction Fraud Communities in Internet Auctions", Proc. of the 2nd International Conf. on Information Systems, Technology and Management(ICISTM-08) (2008.3)
  • 平野孝佳(M1)、平手勇宇,山名早人,"検索エンジンを用いた英文冠詞誤りの検出", 日本データベース学会Letters Vol.6, No.3, pp.1-4 (2006.9)
  • 平野孝佳(M1)、平手勇宇,山名早人,"検索エンジンを用いた英文冠詞誤りの検出," 情報研報(DBS),Vol.2007, No.65, pp.139-144 (2007.7.2-4).
  • 吉田泰明、上田高徳、田代崇、平手勇宇、山名早人:"商用検索エンジンのランキングに関する定量的評価と特徴解析", 情報研報(DBS),Vol.2007, No.65, pp.441-446 (2007.7.2-4).
  • 上田高徳(M1),平手勇宇,山名 早人, "リモートメモリを用いたランダムディスクアクセス高速化手法", 情処研報(ARC), Vol.2007, No.79, pp.151-156 (2007.8.1-3)
  • 平手勇宇(D3),シュティフ ロマン,魏小比,山名早人:"学内ドメインに存在する隠れたWebページの解析",平成19年度情報教育研究集会,大阪大学 (2007.11)
  • 吉田泰明(M1),舟橋卓也,片瀬弘晶,上田高徳,平手勇宇,山名早人:"商用サーチエンジンのランキング解析サポートシステム", DBWeb2007,招待ポスター (2007.11.27-28)
  • 松永 拓(M1), 平手勇宇, 山名 早人:"Webページ間最短経路サブグラフによるオンラインリンクマイニング", DEWS2008, A10-5(2008.3.10-12)
  • 上田高徳(M1), 平手 勇宇,山名 早人:"システムコールレベルのアクセスログによるディスクアクセスパターンマイニングの検討", DEWS2008, D5-3 (2008.3.10-12)
  • 舟橋卓也(B4), 上田高徳, 平手勇宇, 山名早人:"商用検索エンジンの検索結果では取得できないランキング下位部分の収集・解析", DEWS2008, A2-5 (2008.3.10-12)
  • 田代崇(M1),上田高徳, 平手勇宇, 山名早人:"検索エンジンを用いた類似文章検索システムEPCI の評価", DEWS2008, B10-1(2008.3.10-12)
  • 童 芳(M2), 平手勇宇, 山名早人:"全世界のWebサイトの言語分布と日本語を含むWebサイトのリンク・地理的位置の解析", DEWS2008, A2-3 (2008.3.10-12)
  • 片瀬弘晶(B4), 松永拓, 上田高徳, 田代崇, 平手勇宇, 山名早人:"リンク構造解析アルゴリズム高速化のための縮小Webリンク構造の構築", DEWS2008, A10-6 (2008.3.10-12)
  • 黒木さやか(B4), 上田高徳, 平手勇宇, 山名早人:"プログラムコードの抽象化を利用した類似ソースコード検索システム", DEWS2008, B10-2(2008.3.10-12)
  • 平手勇宇(D3), 山名早人:"全世界のWebページのTLD・言語分布解析", 第70回情処全大, 5L-1 (2008.3.13-15)
  • 松永 拓(M1), 平手勇宇, 山名早人:"Webページ間最短経路探索システムの構築",第70回情処全大, 3ZK-10 (2008.3.13-15)
  • 臼渕護(M2)、平手勇宇、 山名早人:"評判情報における評価対象の性質や一部分を表す表現の高精度な抽出手法", 言語処理学会第14回年次大会(NLP2008) (2008.3.17-21)