WWW情報検索サービスの動向
Trends of WWW Search Engines

電子技術総合研究所  情報アーキテクチャ部  山名早人

http://www.etl.go.jp/~yamana/Research/WWW/survey.html
(C) 1998 Hayato YAMANA
Ver. 1.1.0
Last Update: Sep. 30th, 1999.

This page is updated frequently. Major update will be done twice a year.

Caution : Link free, but you must include URL,title,and the author to copy any work from this pages.

注意 : 本ページへのリンクは自由です。本ページに掲載された内容や図を 利用される方は参照元を明示していただければ、利用に制限はありません。

お願い : 本ページに記載した内容について誤りやコメント等がございましたら、 是非、この フォームをご利用の上、お知らせ下さい。採用された場合には、 謝辞にお名前を掲載させていただきます。また、利用させていただいて おりますデータ等の利用につきまして万一問題がございましたら、 お知らせ願います。

Abstract

This article surveys both the history and the trend of the internet whose three month evolution is said that it's equal to the one year evolution of human being. Moreover, the searching technique, finding out the information that you need from the sea of the internet, is described.

概要

本稿では、3ヶ月の技術革新が人間社会の1年に相当すると言われるインターネッ トについて、その歴史と最新動向を解説する。そして、インターネットの世界で 必要な状況を検索するのに欠かせない「WWWサーチエンジン」について 解説する。


1.はじめに

1969年のアメリカ国防総省高等研究計画の出資によるARPAnet (Advanced Research Project Agency Network)に始まるインターネット の歴史は,1994年頃からのWWW(World Wide Web)ブームにより, 研究者たちだけのものから,一般大衆のものへと大きな変化を遂げた。

この変化は数値で見ても明らかであり,インターネットに接続する コンピュータ台数は,1994年1月に220万台であったものが,1995年1月 に585万台,1996年1月に1,435万台,1997年1月に2,182万台,1998年1月 に2,967万台, 1999年1月に4,323万台と1996年まではほぼ倍々で増加し、 その後は前年の1.5倍程度のスピードで増加を続けており、1999年7月 時点では5,622万台となっている。1)

また、インターネットに接続された組織数(ドメイン数)は、 1999年7月現在で約516万組織 である1)

また, 1999年7月現在のWWWサーバ数は全世界で約660万台 2)と推定される。また、 それらのサーバから提供されるHTMLページ数は NEC北米研究所の Steve LawrenceとC. Lee Gilesが 1998.4.3号米科学雑誌サイエンス に掲載した情報によれば(1997年12月現在)、 3.2億と推定され, 当時のWWWサーバ数(168万台 (1997.12))から比例計算で求めると、 1998年10月(336万台)で約6.2億, 1999年7月(660万台)では約12.8億 と推定される。 ただし、この数値は、1997年12月のURL数を元に、WWWサーバ数に比例して 増大すると仮定して算出したものであり、必ずしも実体を示しているとは 言えない。厳密には、最近の動向(特にパソコンでWWWサーバを運営してい るものはデータ量が一般的に少ない)を加味すると、情報量は、推定値より も小さくなるはずである。

このような膨大な情報の中から,必要な情報を瞬時に,かつ,的確に 見つけ出すための仕組みがWWW情報検索サービスである。本編では, WWW情報検索サービスの動向と,その効果的な利用方法について紹介する。

2.World Wide Web の動向

1994年頃からインターネットが一躍注目されるようになったのは, インターネットを介して文字,画像,音声などの情報を広く世界中に 発信できるWWW(World Wide Web)サーバとそれにアクセスするソフトウェア (WWWブラウザ)が普及し,インターネットがマルチメディアを具現化する 媒体として活用されるようになったからである。

WWWは,欧州のCERN3) と呼ばれる高エネルギー物理学の 研究所が開発した分散データベースである。1993年に,このWWW上の データにアクセスするためのWWWブラウザを米国のイリノイ大学の研究グ ループが開発し,Mosaic4)(現在のInternet Explorerの元となった)という名で無料で一般に公開した のをきっかけとし,爆発的にその利用が進んだ。

図1及び図2に示すように,WWWサーバ数が増加し始めた1993年〜1994年 を境にして,インターネットに接続するコンピュータ数も爆発的な増加へと 転じている。特に,図1に示すように1995年から1996年にかけて, WWWの利用が急速 に進み,現在では,WWWを使えば,世界の政治・経済・観光情報,各企業 の製品情報,さらには,映画や音楽等の趣味にいたるまで,世界中のあり とあらゆる情報を手に入れられるようになっている。


図1 インターネットに接続するコンピュータ台数とWWW台数の推移
(1),2)のデータに基づく)


図2 年毎の増加率(前年比) (1),2)のデータより算出)

図2に示すように、1995年以降、インターネットに接続するコンピュータ 台数よりも、ドメイン数の増加率が大きくなっている。また、1994年に急激 に台数が増加したWWW Serverであるが、年々その増加率は下がっている。 しかし、依然として、インターネットに接続されるコンピュータ台数の2倍 以上の伸び率を示している。

WWWサーバ数についても、1994年の伸びをピークに伸び率としては、 減少傾向にあるが、実質台数の伸びは120-130万台/年であり、着実に 増加している。

3.WWW情報検索サービスの分類

WWW情報検索サービスは,その仕組みによって図3に示すように, 大きく3つに分類できる。


図3 WWW情報検索サービスの分類

(1)ロボット系検索サービス

ロボット系検索サービスは,Webロボットやスパイダーと呼ばれる WWW探索プログラムを用いて,インターネット上で見つけることので きる全WWWサーバー上の情報を定期的に収集し,その情報の索引付け を自動的に行っている。例として,AltaVista5), HotBot6), Lycos7), Infoseek8), OpenText(サービス停止)9)等 が挙げられる。 これらの検索サービスでは, 探したい情報に関連するキーワードを入力することによって, 目的のサイト(WWWサーバ)を検索できる。なお、1998年6月現在、世界中で 208種類のロボットが動作してる。Webロボットの一覧は、 http://info.webcrawler.com/mak/projects/robots/robots.htmlより入手 できる。

ロボット系検索サービスでは,コンピュータによって自動的に 全世界のデータを収集しているため,情報量が多いという利点を持つ。 一方,各HTMLページの要約を自動的に生成したり,索引付けを自動で 行うため,要約の完成度が低くかったり,キーワードを入力して検索 しても,目的とするサイトが何万件と出てしまい,目的のサイトを絞 り込むのに膨大な時間がかかったりするという欠点を持つ。

例えば,人間が文章を読めば,「この文中でインターネットという 単語は出てくるが,この文は,日本の経済について書いた文である」 と理解できても,コンピュータには,それが理解できず,「インター ネット」に関連のある文と判断し,キーワードとして「インターネット」 を付加してしまう。つまり,人間が索引付けをする時には,内容を考えた 索引付けができるが,コンピュータは,出てくる単語を単純に索引とする ため,キーワード検索した際に,本来関係無いようなサイトまで検索結果 として表示されることになる。

(2)ディレクトリ系検索サービス

ディレクトリ系検索サービスは,Yahoo!10) に代表 されるディレクトリー型の検索サービスである。WWWのアドレス を示すURL(Universal Resource Locator)を,芸術,ビジネス,教育...., のように分野別に整理して並べてあるので,NTTの職業別電話帳のような 使い方ができ,分野を決めてから探す時に便利である。データの入力は, 基本的に人手で行うため,ロボット系検索サービスに比較してデータ量 が2〜3桁少なく,有名なページやユーザが登録したページ以外を探すこ とが出来ないといった欠点を持つ。一方,人間が索引を作成し,かつ, 要約を書いているので,索引と要約の信頼度が高い。

(3)メタ検索サービス

メタ検索サービスは,自分自身でデータベースを持たず, ユーザからの検索要求を複数のロボット系検索サービスや ディレクトリ系検索サービスに送り,その結果を加工・編集して, ユーザに検索結果として返す検索サービスである。

例としては,MetaCrawler11)等, 多数のサービス がある。MetaCrawlerでは,検索要求をAltavista,Excite 12), Infoseek,Lycos,Webcrawler13), Yahoo!, の6つ検索サービスに同時に送り,これら6つの検索サービスからの結果の 重複を除去した上で,1つの検索結果のページとしてユーザに返す。

AltaVistaをはじめとする多くの検索サービスでは, 検索の絞り込みを行うためのオプション指定を数多く持っているが, メタ検索サービスでは,それらの内の一部のみが利用可能である場合が多い。 例えば,MetaCrawlerでは,AND検索,OR検索,節一致検索の3つのみを 用意している。

このように,メタ検索サービスは,複数の検索サービスの結果を まとめて表示してくれるので便利ではあるが,詳細な検索指定ができない ため,「どの検索サービスを使ったらいいかわからない場合」など, 初心者向けの検索サービスと言える。

4.WWW情報検索サービスの動向

1998年8月時点で稼働している海外及び国内の主なWWW情報検索 サービスの一覧を表1と表2に示す。

表1 海外の主要なWWW情報検索サービス一覧(1999年9月末現在)

サービス名 運営者 URL 分類 データ量(URL数) 検索機能 結果表示 備考
include (+) exclude (-) wildcards (*) AND (&) OR (|) NOT (!) NEAR 句指定
(Phrase)
重み指定 Upper/Lower case link逆探知 言語指定 その他 スコア サイズ 更新日 要約 言語 絞込支援 その他
AltaVista Digital Equipment Corporation http://www.altavista.com/ ロボット系 125,000,000 (200GB) O O O O O O 範囲は10語以内 O N/A 検索後に大文字が1文字でもあると区別する link:URLで指定 25ヶ国語 N/A O O O O Refineを選択するとTopic
キーワードを表示
HotBot Wired Digital Inc. http://www.hotbot.com/ ロボット系 120,000,000 O O N/A O O O N/A O N/A ""でくくると区別する linkdomain:URLで指定 15地域指定 N/A O O O N/A N/A
Excite Excite Inc. http://www.excite.com/ ロボット系 50,000,000 O O N/A O O O N/A O O N/A N/A N/A
  • 重み指定は「Keyword^X」で指定。Xは重み(数値)
O N/A N/A O N/A More Like Thisを選択、あるいはtopic語を選択して絞り込み List by Web siteでサイト毎にソート可
Lycos Lycos Inc. http://www.lycos.com/ ロボット系 N/A O O N/A O O O ADJ:直前直後,
NEAR:25語以内,
FAR:25語以上,
BEFORE:前, OADJ,ONEAR,
OFAR:順列指定
O N/A N/A linkdomain:URLで指定 16ヶ国語(日本語無)指定 N/A N/A N/A O N/A More Like Thisを選択し絞り込み サイト別にソート
Infoseek Infoseek Corporation http://www.infoseek.com/ ロボット系 N/A O O N/A O O O N/A O N/A 大文字が1字以上入ると区別する link:URLで指定 N/A O O O O N/A 検索結果の中から1つのドメイン指定(Grouped Results) を指定し絞り込み可能
Northern Light Northern Light Technology LLC. http://www.nlsearch.com/ ロボット系 N/A O O N/A O O O N/A O N/A N/A N/A N/A O N/A N/A O O Custom Search Folderによる各種絞込/ドメイン別,言語別など
Magellan McKinley Group, Inc (Exciteの子会社) http://www.mckinley.com/ ロボット系 50,000,000 O O N/A O O O N/A O N/A N/A N/A N/A
  • Reviewed Sitesとして60,000サイトを持ち、高品位なabstractを持つ
  • その中で評価の高いサイト(Green Lights)のみから検索も可能
O N/A N/A O N/A Find Similerによる関連情報への絞り込み
WebCrawler Excite, Inc. http://www.webcrawler.com/ ロボット系 N/A O O N/A O O O N/A O N/A N/A N/A N/A O N/A N/A O N/A Similer Pagesによる関連情報への絞り込み
Planet Philips Electronics N.V. http://www.planetsearch.com/ ロボット系 N/A O O N/A O O O N/A N/A N/A N/A N/A N/A 棒による表示 ワード数 O O N/A
MetaCrawler go2net, Inc. http://www.metacrawler.com/ メタ系 Lycos, Infoseek, WebCrawler, Excite, AltaVista, Yahooを同時検索 N/A N/A N/A プルダウン選択のみ プルダウン選択のみ N/A N/A プルダウン選択のみ N/A N/A N/A 10地域指定 O N/A N/A O N/A
MetaFind MetaFind(?) http://www.metafind.com/ メタ系 PlanetSearch, Excite, AltaVista, InfoSeek, WebCrawlerを同時検索 N/A N/A N/A O O O O O N/A N/A N/A N/A
  • ドメイン名でソート可能
O N/A N/A O N/A
Yahoo! Yahoo! Inc. http://www.yahoo.com/ ディレクトリー系 500,000( 25,000 categories) O O O O O N/A N/A O N/A N/A N/A N/A N/A N/A N/A O N/A

表2 国内の主要なWWW情報検索サービス一覧(1998年8月現在)

サービス名 運営者 URL 分類 データ量(URL数) 検索機能 結果表示 備考
include (+) exclude (-) wildcards (*) AND (&) OR (|) NOT (!) NEAR 句指定
Phrase
重み指定 Upper/Lower case link逆探知 言語指定 その他 スコア サイズ 更新日 要約 言語 絞込支援 その他
AltaVista 日本デジタル
イクイップメント
http://altavista.dec-j.co.jp/ ロボット系 全世界 125,000,000 (200GB) O O O O O O 範囲は10語以内 O N/A 検索後に大文字が1文字でもあると区別する link:URLで指定 25ヶ国語指定 N/A O O O O Refineを選択するとTopicキーワードを表示 検索インタフェースのみ日本語
ページを用意し実際の検索は
米国のシステムを利用
Goo NTTアド,
NTT,
Inktomi
http://www.goo.ne.jp/ ロボット系 全世界 120,000,000 (内日本国内17,000,000)
バリューサーチ(国内): 3,000,000
O O N/A O O O N/A O N/A N/A プルダウンメニューで選択 10地域指定
  • domain:による指定
  • データ作成日範囲指定
  • 自分専用のインタフェースの保存変更
  • データタイプ指定
  • バリューサーチでは検索頻度の高いURLやデータベース検索が可能
O O O O N/A N/A
Excite
(日本版)
Excite Inc. http://jp.excite.com/ ロボット系 全世界 50,000,000 O O N/A O O O N/A O O N/A N/A 日本と全世界の切替
  • 重み指定は「Keyword^X」で指定。Xは重み(数値)
O N/A N/A O N/A More Like Thisを選択、あるいはワードナビゲータの語を選択して絞り込み
Lycos
(日本版)
Lycos Japan http://www.lycos.co.jp/ ロボット系 N/A N/A N/A N/A O O O ADJ:直前直後,
NEAR:25語以内,
FAR:25語以上,
BEFORE:前,
OADJ,ONEAR,
OFAR:順列指定
O N/A N/A N/A N/A
  • サウンド,画像等の種類指定
O O O O N/A N/A サイト別にソート
Infoseek Japan Infoseek Corporation,
(株)デジタルガレージ
http://japan.infoseek.com/ ロボット系 N/A(日本国内のみ収集) O O N/A O O O N/A O N/A 大文字が1字以上入ると区別する link:URLで指定 N/A O O O O N/A
InfoNavigator 富士通(株) http://infonavi.infoweb.or.jp/ ロボット系 日本国内: 16,000,000
(HP登録:120,000)
N/A N/A N/A O O O N/A N/A N/A N/A N/A 国内58ドメイン指定 N/A N/A N/A O N/A 登録ホームページを対象とした場合に限り「似たもの検索」が可能
Hole-in-One 日立国際ビジネス http://hole-in-one.com/ ロボット系 N/A(日本国内のみ収集) N/A N/A N/A O O N/A 10あるいは50語以内を指定 N/A N/A オプション付検索で対応 N/A N/A N/A N/A N/A O N/A 検索結果がディレクトリ系の
データベースへ登録されていれば
カレゴリが同時に表示される
OpenText
(日本版)
日商岩井(株) http://www.jp.opentext.com/ ロボット系 N/A(日本国内のみ収集) N/A N/A N/A O O O O N/A N/A N/A N/A N/A
  • タイトル,URL,見出しの指定
O O N/A O N/A
Mo-n-do-u(問答) 京都大学大学院
情報学研究科
システム科学専攻
情報システム研 究室
http://www.kuamp.kyoto-u.ac.jp/
labs/infocom/mondou/
ロボット系 日本国内: 360,000 N/A N/A 前方一致を選択 O N/A O N/A N/A N/A N/A 検索結果の「を参照するURL」を選択 N/A O O O O N/A 「関連性の高いキーワード」で絞込可
Senrigan
(千里眼)
田村健人 http://senrigan.ascii.co.jp/ ロボット系 日本国内: 1,270,000 N/A N/A N/A O N/A N/A N/A N/A N/A N/A O N/A
  • http:,ftp:,mailto:を指定した検索可能
被リンク数表示 N/A O タイトルのみ N/A
ODIN 原田昌紀 http://odin.ingrid.org/ ロボット系 日本国内: 786,103 N/A N/A N/A O O O N/A O N/A 全て大文字の場合のみUpper caseで検索 N/A N/A O O O O N/A
TITAN NTT http://titan.navi.ntt.co.jp/
http://titan.navi.ntt.co.jp/
index-x.html

(クラスタリング付)
ロボット系 N/A(世界中) N/A N/A N/A O O N/A N/A N/A N/A N/A N/A 68のドメインから指定
12言語から指定
  • タイトル,アンカー,英訳を指定して検索可能
O N/A N/A タイトルのみ O 自動的にクラスタリング
情報型の表示あり
WebSearch 東芝 http://search.softpark.jplaza.com/ ロボット系 N/A(日本国内のみ収集) N/A N/A N/A O O O(~で指定) N/A O N/A O N/A O N/A N/A O N/A
NetScoop 徳島大学光学部
知能情報工学科
北研究室
http://www-a2k.is.tokushima-u.ac.jp/
search/
ロボット系 N/A(日本国内) N/A N/A O O O N/A N/A N/A N/A N/A N/A N/A N/A N/A O N/A
NETPLAZA 日本電気(株) http://netplaza.biglobe.or.jp/
keyword.html
ロボット系 N/A(日本国内のみ) N/A N/A N/A O O N/A N/A N/A N/A N/A N/A
  • データタイプ指定可能
N/A N/A N/A タイトルのみ N/A
Yahoo! JAPAN Yahoo Japan Corporation http://www.yahoo.co.jp/ ディレクトリ系 N/A(日本国内のみ) N/A N/A N/A O(*で指定) O(+で指定) O(#で指定) N/A O O( ()で優先キーを指定 N/A N/A N/A N/A N/A N/A O N/A
NTT DIRECTORY NTT http://navi.ntt.co.jp/ ディレクトリ系 N/A(日本国内のみ) N/A N/A N/A O O N/A N/A N/A N/A N/A N/A N/A N/A N/A O(登録日) O N/A
  • 登録日の指定可能
ISIZE リクルート(株) http://www.isize.com/ ディレクトリ系 N/A(日本国内のみ) N/A N/A N/A O O N/A N/A N/A N/A N/A N/A N/A
  • カテゴリ指定可能
O N/A N/A O N/A 検索結果にエリア,カテゴリ表示有

海外のWWW情報検索サービスと国内のWWW情報検索サービスの大 きな違いは,国内のWWW情報検索サービスでは,検索に用いる検索語 として日本語が利用できるという点である。海外の情報検索サービス では,検索結果の要約やタイトルを日本語で表示できても,検索語と して日本語を用いることが出来ない場合が多い。

国内におけるWWW情報検索サービスは,提供者別で分類すると, 大学が提供するものと企業が提供するものの2つに分類できる。 大学が提供するものには,ロボット系検索サービスである千里眼 14),Mo-n-do-u 15),ODIN 16)が有名である。 なお、千里眼の運営者は97年3月に、及びODINの運営者は98年3月に 大学を卒業しているがサービスは継続中である。 また、最近では、徳島大学のNETSCOOPが登場した。

一方,企業が提供するものには,ロボット系のNTTのTITAN 17), 富士通のInfoNavigator 18)をはじめ,表2に示す多数の サービスがある。特に,1996年には,海外のInfoseek,OpenText,Yahoo!が 日本に進出した点が注目される。また,HotBotの日本語版であるgoo 19)も, 1997年3月にサービスを開始している。さらに,AltaVistaも1998年5月に 日本語に対応した。1998年6月現在、Lycos日本法人の設立準備が進められ ている。

以下では,表1及び表2の各項目を説明する

(1)データベース

検索サービスが,データベースとして持つ検索対象データには, WWWのアドレスを示すURL(Universal Resource Locator)やインター ネット上で複数の人があるテーマに対して議論をする場である Usenet(NetNews)のデータの他に,企業の住所や個人の電子メールアドレス などがある。例えば,InfoseekやYahoo!では,Four11 20) と呼ばれる会社と提携して,米国企業の住所を検索したり, 個人名から電子メールアドレスを検索することができる。 さらに,最近では,株価情報,天気予報,地図などの情報まで WWW情報検索サービスで提供するようになってきており、 商用の検索サービスは、単なる検索サービスから、 各種情報を提供する一大コミュニティへと進化しつつある。

(2)検索機能

多岐に渡る検索機能の内,重要と考えられる9つの検索機能 について解説する。なお,以下での表記方法は,検索サービスに よって多少の違いがあるため,実際に検索サービスを利用する際 には,Help等で表記方法の確認が必要である。

AND検索は,一般的には「word1 AND word2」のように用い, word1とword2の両方が含まれるページを検索するために用いる。 AND検索は,データを絞り込むために必要不可欠な機能であり, 表1及び表2で列挙した全ての検索サービスがサポートしている。 また,ANDの派生として「+word1」と指定するとword1が必ず含まれる ページのみを検索結果として表示する検索サービスもある。

OR検索は,複数の検索語の内,一つ以上の検索語が含まれる ページを検索するために用いる。「word1 OR word2」のように 検索語を羅列することによって,word1あるいはword2が含まれる ページを検索できる。OR検索は,検索対象を広げることはできて も絞り込むことができないので,千里眼,Mo-n-do-u等,一部の 検索サービスでは,サポートしていない。

NOT検索は,「NOT word1」のように用い,word1が含まれない ページを検索するために用いる。NOTの代わりに「−word1」と記述 できる検索サービスもある。NOT検索は,表1に挙げた全ての海外検 索サービスがサポートしているのに対して,表2で挙げた国内の検索 サービスでのサポート率は低い。NOT検索は,検索 データの絞り込みを行う際に,重要な役割を果たす。例えば,word1 の検索結果として1万件のリストが表示された時,関連のない語句と して「NOT word2」を指定することにより,検索結果の絞り込みを 容易に行える。

NEAR検索は,例えば10語以内(語数は検索サービスによって固定の 場合と指定できる場合がある)にword1とword2が出現することを指定 できる検索方法であり,例えば,「word1 NEAR/10 word2」のように 指定する。名前のように姓と名の順序を入れ替えたり,ミドルネーム がある場合等に,NEAR検索で語数を3程度に設定して検索すれば,う まく検索できる。

前方一致検索は,一般的には「coca*」のように,「*」を付加する ことによって,「coca」で始まる複数の語(例えば,cocacolaやcocaine) との一致をとる検索方法で,検索語として入力すべきキーワードが不明瞭 な時などに役立つ。なお,英単語の語尾変化(s,es,ies,ed等)には, 表1で挙げた全ての検索サービスが対応している。

句一致検索(Phrase)は,「"Ryutaro Hashimoto"」のように2語以上 の語をダブルコーテーションでくくり,これらの言葉が連続して現れるこ とを指定して検索する機能である。「Ryutaro Hashimoto」と指定すると OR検索となってしまうので,名前,会社名,地名のように節で一つの意味 を表す言葉で検索したい場合には,句一致検索が有効となる。

検索対象限定機能は,検索対象とするデータをURL,NetNews, 電子メールアドレス等のデータ別,あるいは,データの更新年月日, 国名等を指定して限定することのできる機能であり,指定できる項目数では, HotBotとGooが一番優れている。

重み指定は,Excite特有の検索機能であり,複数の検索語間で重 み付けを変えて検索することができる。例えば,「word1^5 OR word2^1」 と指定した場合,word1の重みが5,word2の重みが1なので,word1が含ま れるページに高いスコアを付け,検索結果の上位にword1が含まれる ページを表示させることができる。一方,他の検索サービスでは, 検索語間に重み付けを指定することができず,全ての検索語を同等 に扱う。このため,あやふやな検索語をOR検索で用いると,検索結果の 上位に必要とする検索結果を表示できなくなる。

リンク逆探知機能は,あるページに対してリンクを張っている親 ページを逆に辿って検索するサービスであり,AltaVista,HotBot, Mo-n-do-u,千里眼,goo,Infoseek Japan等がサポートする。 リンク逆探知機能は,自分のホームページがどこからリンクされてい るか等,つまり,リンクの親元を調べる時に便利な検索機能である。

(3)検索結果表示

検索結果の表示項目には,検索結果得られたページのタイトル, URL,サイズ,要約の他に,データベースの更新日,検索のスコアがある。

検索のスコアは,検索結果の確からしさを表す。スコア計算は, 検索サービス毎に異なるが,一般的には,複数の検索語を用いた検索では, 検索語が多く含まれるページのスコアを高くする。また,検索語が タイトルに含まれる場合やMETAタグ内に記述されたデータと一致した場合 にスコアを高くする。

METAタグとは,HTMLページの中で<HEAD>〜</HEAD>内に <META NAME="keywords" content="Internet, Search, Engine">のようにキーワード(Keywords)や要約(description)を 挿入するためのタグである。

要約を自動生成する検索サービスでは,METAタグ内に要約やキーワード が書かれている場合,METAタグ内の要約やキーワードをもとに,要約を生 成したり,索引付けをする。このため,自分が書いたHTMLページを検索 サービスに的確に検索してもらうためには,HTMLページを記述する際に, METAタグで,キーワードと要約を積極的に記述するようにした方がよい。

(4)収集URL数

収集URL数は,各WWW情報検索サービスがデータベースとして 持っているURL数の総数を示す。これらのデータは,情報検索 サービスが数値を公開している場合には,その値を用いた。 また、不明な場合には,N/Aと記述した。

5.検索の効率化

本節では、検索の効率化を図り、目的とするページを短時間で見つける ための手法について検討する。なお、各検索サービスが検索対象とするデータ 量の比較は、浅井さんが 検索デスク21)の検索調査の中で 「検索力」という指標を定義した評価がありますので、そちらを ご参照下さい。

(1)句(phrase)検索

簡単で、最も効果的な検索方法は、「長い語」を検索語として 用いる手法である。例えば、モバイルコンピューティングに関する 情報を検索する場合、「mobile」と「computing」の2語を入力する のではなく、「"mobile computing"」のように1語として入力する ことにより、効率的な検索が可能となる。

表3に、「mobile」と「computing」の2語による各種検索を行った結果を 示す。その結果,「mobile」のように単に単語を入力した場合、多くの検索 サービスサイト(AltaVista,Excite,Infoseek)で、語尾(stop word)変化語 (例えばmobiler等)による検索結果を付加していることがわかった。

表3 検索方法の比較の違いによる検索結果数(1998年6月現在)

サービス名 検索式 備考
mobile +mobile computing +computing mobile computing mobile AND computing +mobile +computing +mobile AND +computing "mobile computing"
AltaVista 2,709,370 990,723 6,662,220 1,904,266 10,611,707 3,169,110 126,896 117,097 42,486 +を付加しない場合,語尾変化語による検索を行っていると推測される。
HotBot 759,682 759,682 1,852,271 1,852,271 2,507,843 104,110 104,110 104,110 30,777 Boolean Phaseを選択して入力した。語尾変化語による検索は行っていない。
Excite 295,994 285,330 676,169 629,600 957,364 10,890 10,890 N/A 9,090 +を付けない場合、語尾変化語による検索を行っていると推測される。
Infoseek 745,668 45,225 2,141,561 50,979 2,143,919 35,923 1,470 1,470 15,537 +を付けない場合、語尾変化語による検索を行っていると推測される。

このように、句として検索しても問題ない場合には、 句検索を利用した方が、より絞り込みが簡単になることがわかる。 ただし逆に、"mobile computing"で検索すると、"mobile computing"を 含まず"mobile computer"だけを含むページはヒットしないという問題 もある。

(2)タイトルによる検索

ページに付けられたタイトルは、そのページの内容を十分に反映したもの になっていると想定し、タイトルを指定した検索をすることで効率的な検索 を行うことができる場合がある。例えば、モバイルコンピューティングで あれば、タイトル内に"mobile computing"が含まれるとして検索すると 以下のように、1,000件程度にまで絞り込みが可能となる。

表4 検索方法の比較の違いによる検索結果数(1998年6月現在)

サービス名 検索式 備考
"mobile computing" title:"mobile computing"
AltaVista 42,486 1,306
HotBot 30,777 1,229 title:"mobile computing"では検索できず title:"mobile" title:"computing"で検索
Excite 9,090 N/A タイトルサーチは未サポート
Infoseek 15,537 408

(3)絞込サポート

6.WWW情報検索サービスの課題

現在の検索サービスが直面している一番大きな問題は, 「WWWの指数関数的増大に対して現在のシステムは, いつまで耐えられるのか」という問題である。

この問題は,WWW上の情報の急激な増加に伴って, 表面化している。1997年末の総URL数は、3.2億と推測されるが、 現在の、WWW検索サービスがデータベースとして持つURL数は、 1.2億(AltaVistaの場合)にとどまる。 WWWサーバの増大に伴って,WWW情報検索サービスがデータベース として保持するURL数も増大していたが,1996年秋以降, WWW情報検索サービスのデータベース量は平均1.5倍程度/年の 増加(96年6月5000万,97年6月8000万,98年6月1.2億)にとどまる。 ところが,実際のWWWサーバ数は、図2に示したように96年 の一年間で7倍、97年の一年間で2.7倍と増加を続けており、 これに伴って総URL数も増加を続けている。

このような問題の大きな原因は,膨大なデータベース構築に 必要となる計算機への投資が(投資効果が明らかでないため..)十分 にできないという点と、 インターネット上から WWWのデータを自動収集するWebロボットの処理能力不足に あると考えられる。

後者の問題は、例えば,Webロボットの処理能力が 1,000万URL/日(HotBot,Goo,AltaVista等の場合)であり, 全世界のWWWデータ数が3.2億URLである とすると,全てのデータを収集するのに32日、すなわち1ヶ月以上を 要することになる。 現在、検索サービス各社は、本問題について、 頻繁に更新されるページへのアクセス頻度を増し(例えば、Aという ページは2日に一回、Bというページは1週間に一回)、ほとんど更新 されないページに対するアクセス頻度を減らす(例えば、Cという ページは2ヶ月に一回)ことによって、 「平均2週間での全ページ更新」をうたっている。しかしながら、 実際には、すべてのページの更新ではなく、更新頻度の高いページ についてのみである。また、1,000万URL/日は、理想状態での数値 であり、実際にどの程度の値が計測されているかは不明である。

このような、Webロボットによるデータ収集に関する問題を解決する には,ロボット自体を分散化して,高速なデータ 収集を可能にするか,あるいは,世界中の200万台を越える(1998年6月) WWWサーバ自身に検索のための機能を付加して、分散検索を可能にする 以外には方法がないと考えられる。 しかし,後者の方法は,プロトコルの統一など,標準化という大きな壁が 立ちはだかる。

現在,このような問題に一つの解決策を与える方法として, Webロボットの分散化に関する研究が,早稲田大学の千里眼 14), 京都大学のMo-n-do-u 15),東京大学のODIN 16), 大阪府立大学の検索デスク 21),WIDEプロジェクト(慶応大学及 び北陸先端大学院大学),電子技術総合研究所の協力のもと行われている。 具体的には,ロボットを配置する拠点からの各WWWサーバーに対するネットワーク 的な距離(pingのラウンド・トリップ時間)と各サーバの持つドキュメント 量から,各々のロボットの担当範囲を決定し,分散型ロボットを動作させ ている。将来的には,WWW情報検索サービスを提供する 世界中の企業と協力し,世界中のWWW上のデータを短期間(例えば1日で)で 集められる仕組みを構築することを目指している。本研究に関する 詳細は、DEWS'98での研究発表(12番)を ご参照いただきたい。

7.おわりに

現在のWWW情報検索サービスは,一つの情報産業として成り立つ という面からも,採算のとれる水準に至っていない。このため, たとえWebロボットで全WWWデータを集めることができたとしても, 巨大なデータベースの構築に必要な,高性能コンピュータへの投資 が思うように出来ないといった悪循環が生じる。さらに,このまま の状態が続けば,世界中のWWWデータの検索ができなくなる 可能性もある。

このような悪循環を断ち切るには,例えば,世界中のWWWの情報を 収集するといった,WWW情報検索サービスを提供する全サイトにとって 共通の利益となる部分に対しては,お互いに協力するという体制も一つ の選択肢であろう。さらに,収入源として,現在の広告収集以外に, 電子課金システムによるユーザ負担(例えば1検索1円)も一考に値する。 そのためには,インターネット上での電子課金システムの早期実現が 望まれると共に,電子情報の共有に対するユーザの意識改革が必要 なのではないだろうか。

謝辞

参考文献
関連著書・論文(主著:山名)
  1. 山名早人:"図解インターネットマップ",MULTIMEDIA REVIEWS,No.4,オーム社,雑誌61851-15,pp.3-14 (1995.5.15)
  2. 山名早人:"図解インターネットマップ2",MULTIMEDIA REVIEWS,No.5,雑誌61851-18,pp.32-37,オーム社 (1995.7.15)
  3. 山名早人:"WWWの楽しみ方",電子情報通信学会誌,Vol.79,No.1.pp.65-67 (1996.1)
  4. 山名早人:"Webでいろいろな機能を使いこなそう",レンタステーション(横河レンタリース株式会社),No.41.pp.8-9 (1996.7.1)
  5. 山名早人:" インターネットを進化させるモノ(Object)たち ",通産資料調査会, ISBN4-88528-211-X (1996.8.2発行)
  6. 山名早人,田村健人:" World Wide Web情報検索の達人−WWW検索サービス完全ガイド− ",カットシステム,ISBN 4-906391-38-9 C3055, (1996.12.15発行)
  7. 山名早人:"インターネットの魅力",通信工業,Vol.37,No.3.pp.10-16 (1997.3.1)
  8. 山名: "情報収集と提供-Macintosh用WWWクライアント設定マニュアルを例にとって", コンピュータサイエンス,Vol.4,No.1,pp.75-76 (1997.6)
  9. 山名早人:"WWW情報検索サービスの動向",機械振興,Vol.30,No.8.pp.54-63 (1997.8.1)
  10. 山名,小池,児玉,戸田,山口: "臨界投機実行のWWW情報検索への応用", 信学技報,Vol.97,No.226,(CPSY97-60/SWoPP'97),pp.69-74 (1997.8)
  11. 山名:"WWW情報検索の現状",コンピュータソフトウェア,Vol.14,No.5,pp.67-74 (1997.9)
  12. 山名早人(電総研),田村健人(日本IBM),河野浩之(京大),亀井聡(京大), 原田昌紀(東大),西村英樹(シャープ),浅井勇夫(府立大),楠本博之(慶応大), 篠田陽一(北陸先端大),村岡洋一(早大) :"分散型WWWロボットによるWWW情報収集", データ工学ワークショップDEWS98,No.24 (1998.3.5-7)
  13. Hayato YAMANA, Kent TAMURA, Hiroyuki KAWANO, Satoshi KAMEI, Masanori HARADA, Hideki NISHIMURA, Isao ASAI, Hiroyuki KUSUMOTO, Yoichi SHINODA and Yoichi MURAOKA: " Experiments of Collecting WWW Information using Distributed WWW Robots", Proc. of SIGIR'98, Melbourne, Australia, (1998.8.24-28)
  14. Hayato YAMANA, Hanpei Koike, Yuetsu Kodama, Hirofumi Sakane, and Yoshinori Yamaguchi Fast Speculative Search Engine on the Highly Parallel Computer EM-X", Proc. of SIGIR'98, Melbourne, Australia, (1998.8.24-28)
関連著書・論文等(その他)
  1. Fah-Chun Cheong: Inernet Agents: Spiders, Wanderers, Brokers, and Bots, New Riders Pulishing (1996)
  2. Richard Selter, Eric J.Ray and Deborah S.Ray: AltaVista Search Revolution, Osborne McGraw-Hill, ISBN 0-07-882235-1 (1997)
  3. 原田昌紀: サーチエンジン徹底活用術,オーム社, (1997.12)
  4. Fah-Chun Cheong (大野浩之監訳): インターネットエージェント,インプレス, ISBN 4-8443-4921-X(1998.4)
関連研究,関連情報へのリンク

H.Yamana (yamana@etl.go.jp)