R-HPC班

R-HPC(Research and High Performance Computing)班では、インターネット上から取得できる膨大な情報の中から、人々にとって有用な知識や情報を取得する助けとなるような技術・システムについて研究しています。昨今インターネットは爆発的に普及しており、それに伴いインターネットにおけるデータは急速に多様化し肥大化しています。そのため、それら全てを調べることは不可能であり、有用な情報を効率的に取得するための手段が重要となってきています。

検索エンジンでなかなか知りたいことに辿りつけない、と思ったことはありませんか?

R-HPC班はそれを解決するための班です。インターネットの情報は広大で、知りたいことに辿りつくのも大変であれば、全体を見渡すことも大変です。そのためR-HPC班では、具体的には以下のような研究を進めています。

  • WEBページ検索結果の信頼性の検証
  • P2Pネットワーク内を流れるコンテンツの分析
  • mini-blogからのリアルタイム性を持った知識の抽出
  • 大規模データに対しても高速な汎用類似検索システムの構築
  • 解析基盤としてのデータベースの研究

過去の研究例

検索エンジンのヒット数の信頼性に対する評価

hitcount 検索エンジンが返す「検索ヒット数」を利用した研究は数多く行われている.しかし,検索ヒット数は検索するタイミングによって不自然に変化するなど,研究のベースとして用いるには無視できないほどの大きな誤差が生じることが知られている.本研究では,ヒット数の信頼性に対する明確な評価基準を与えた上でヒット数の評価を行い,一定の水準以上でヒット数の信頼性を保証する手法を提案する.

テレビ字幕を用いた実況Tweet抽出

tweet テレビの字幕情報を用いて,対象となるテレビ番組に関するTweetを抽出する.

Winny流通コンテンツ分析

winny クローラープログラムを用いて,Winny上からデータを収集する.収集したデータを元に,Winny上に流通するコンテンツの分析,クラスタリングを行う.

Key-Value DBを用いたRDFストア

RDF
Key-Value DBのHBaseクラスタを用いて,
スケーラビリティの良いRDFストアを構築する.

類似動画検索手法の提案

類似動画検索手法の提案
動画の特徴量をデータベース,ハッシュテーブルに格納する方法を工夫することにより,効率的な動画検索を行う.