next up previous
Next: 検索絞り込み支援の現状 Up: 無題 Previous: 無題

はじめに

1998年8月現在のWWWサーバ数は全世界で約281万台[1] と推定される。また,それらのサーバから提供されるHTMLページ数 は NEC北米研究所のSteve Lawrence氏とC. Lee Giles氏が1998年4月3日号 の米科学雑誌サイエンスに掲載した研究成果[2]によれば (1997年12月現在),3.2億と推定されている。 このような膨大な情報の中から,必要な情報を瞬時に,かつ,的確に 見つけ出すための仕組みがWWW情報検索サービスである。

現在のWWW情報検索サービスが持つ問題は,大きく2つに分類される。 一つは,指数関数的に増大するデータに対応しきれなくなっており, 最大でも世界中の3分の1程度のページに対してしか検索ができない点である。 もう一つの問題は,データ量の増大に伴って本当に必要とする データにたどり着くまでの「絞り込み」にかかる時間が増大して いる点である。

前者の問題は,Webロボット[3]によるWWWページ取得時間の増大 に起因しており,1996年の秋以降,商用検索システムの 収集URL数の増加が鈍化し,現在は約1億2000万URL程度(AltaVista [4],HotBot[5])で頭打ちになっている。

 


: 主なWWW情報検索サービスの絞り込み支援 

このような問題に対して, 複数のWebロボットを分散協調させて高速なWWWページ収集を 実現しようとするいくつかの研究がなされている。 代表例としては,IRTF(Internet Research Task Force)[6]が 中心となって1993年〜1996年に行ったHarvest[7], カーネギーメロン大学のJohn R. R. Leavitt(現在Lycos)を中心に 1994年〜1995年に行われたWebAnts[8]プロジェクトがある。 また,最近では,日本IBM,早大,京大,東大,シャープ,府立大,慶應大, 北陸先端大,そして電総研が協力して1997年から開発中の 分散型Webロボットがある[9][10][11]。 分散型Webロボットでは,複数のWebロボットを協調動作させ,互いに重複しない WWWサーバのデータを収集することにより,WWWデータの 網羅的な収集を高速化することを目的としている。 また,NTTソフトウェア研究所のIngridプロジェクト[12]では, Webロボットによって,WWWデータを収集するのではなく, 検索対象(リソース)が持つキーワードに着目して, 同一のキーワードを持つリソース間に専用のリンクを張り, Ingridトポロジーと呼ばれる検索用のトポロジーを構築している。そして, 検索段階で,これまでのWebロボットが行っていたような巡回により 検索結果を見つけるという手法をとっている。

一方,後者の問題は,データ量の増大に伴って本当に必要とするデータ にたどり着くまでの「絞り込み」にかかる時間が増大しする問題 である。この問題に対して,最近の情報検索サービスでは, Topicワード gif[4][13] の指定や類似ページ検索 gif をサポートすることにより,絞り込みの効率化を図っている。 しかし,これらの機能は ユーザからのリクエストに基づいて実行される仕組みになっており, 絞り込みのための時間が逆に増大する場合もあるといった問題を持つ。

本稿では,これらの問題の内,後者の問題に対する一つの解決策と して臨界投機型検索サービスを提案する。 臨界投機型検索サービスは,ユーザの検索要求に対する絞り込み支援を 計算機資源に余裕がある限り先行して行うWWW情報検索サービスであり, 臨界投機実行[14]と呼ぶ実行方式を採用している。

以下では,まず,WWW情報検索サービスの絞り込み支援の現状をサーベイ する。そして,臨界投機実行の仕組みを説明した後, 臨界投機型検索サービスを提案し,最後にこれまでの動作状況について報告する。



YAMANA Hayato
Tue Sep 8 16:16:18 JST 1998