2001. 7. 17 保守

優秀な検索エンジン

は織りこみ済み へ飛ぶ

         i モード版

近藤 和彦     旧 ODiN 礼讃  インターネット 読む・学ぶ・調べる


ウェブ上に蓄積され、日々増殖している無限のディジタル情報
検索しようというときに、まずは誰でも Yahoo(ヤフー)
にあたってみたことがあるでしょう。そして、
めざす情報とほとんど関係のない奇妙な
「ノイズ」のあまりの多さに悩まされたり、逆に、
ないはずのない目標のデータにどうしても行き当たらず、
途方に暮れたり、という経験をおもちでしょう。
ぼくじしんも、そういう悩ましい思いをくりかえしました。

 検索デスク などをはじめとして、
いくつかのホームページ# には
情報検索エンジンのリンク集が挙がっていて、
これらも試してみました。そのうちでは
LYCOS(ライコス)や Infoseek などが
Yahoo よりは利口という程度に有益です。それぞれ
ヒットの的中率をあらわす%が記され*、たいてい表示の並べ替えも
できます。それぞれ情報検索の〈老舗〉でもあり、
登録URL も豊富で、上手に利用すれば、
もちろん現在でも役にたちます。
# ぼくの Useful Links にもリンクを張りました。

ほかにロボット型検索エンジンとして、有名な
もあります。Yahoo などに比べて、方式が違うので、
相対的にこちらのほうがずっと秀逸です。
たしか Yahoo も最近はキーワード検索については goo を使用しています
だが、次のODiNに比べると、最新のサイトから捜す
フレッシュ・サーチ以外は、あまりメリットはない。
(その理由などは、こちらへ

ところが、今年3月のはじめに、まったく偶然に
というエンジンに遭遇しました。これは NTTの研究所が
実験のために運用しているサーチエンジンで、
既存の日本のサーチエンジンには使用されていない技術が
使われて」いるとのことです。
素人であるぼくには、そのノウハウはよく理解できません。
ただ、実際に使ってみると、あまりに有能・迅速・的確であり、
縁も利害関係もない一ユーザにすぎないぼくも、
一人で黙って利用していられず、
こうして宣伝しているのです。

元来は東大で研究していた原田さん
という方の開発したサーチエンジンだったという
由来のためか、知的なサイトに断然強いような気がします。
そして何より軽快です。商用サイトでないために
煩わしい広告や、チカチカ点滅して刺激的なロゴなどがなく、
すっきりしているのも爽やか。

Gooも も、ともにロボットが自動的に巡回して
掻き集めた索引をキーワード検索するシステムですが、ODiNは
そこに優先的な選択収集、という網をかぶせているので、
あまり意味のない語では検索しない。その裏からいえば、
「日本あるいは世界でほとんど存在しないような情報を探す用途」
には向かないということらしい。
 * 的中率の%やスコアの算出方法とか、そもそも
ロボットなるものはどこまで入ってきて何をどう詮索しているのか、
とか、疑問は尽きませんが、そうした問題は
http://odin.ingrid.org/help/odin.html
で考え、問い合わせてください。

デメリットがあるとしたら、その第1は
巡回し掻き集めるドメインが今のところ日本国内に限定されていること。
第2は、ロボットエンジン方式だと、ウェッブ世界を一律に巡回して
あらゆるディジタル情報が自動的に検索されて、
その点はしごく便利なのですが、たまに2000年7月ある日の
東大文学部のサーヴァのように休止していたり、
なにかの不具合でロボットがサイトに訪問できないと、
前回の索引は消えてしまいます。
これは困る。
対策として素人が考えつくのは、現状のように
ロボットが巡回するたびに索引を全更新し
旧データを削除してしまうのでなく、旧索引も生かして
あたかもワープロの .bak ファイルが次の更新まで保存されるように
索引サイズを約2倍とする、という策ですが・・・。
これでは、そもそも ODiN の精神
小さなマシーンで最大の効能、という Web Democracy
に反することになりますか?

ここまで 2000. 7. 15 記述、2000. 12. 5 縮約・修正   


は問題を織りこみ済み  
以下は 2000. 12. 5 更新   
ODiN に負けず快速で、しかも日本のサイトに限らず
グローバルにあらゆる言語で検索できるという
この優れ者は、すでに
上のような愚問に答えてくれていました。
拙問よりはるかに前から、ロボット側、サーヴァ側の
いずれにも上述のような一時的トラブルがありうることを
あらかじめ織りこんだ設計なのです。すなわち、
一度ロボットが訪問したサイトのデータ=画面はキャシュに収納しておく、
 i.e. 次回になんらかのトラブルで訪問できなければ
古いヴァージョンがそのまま残っている、
という設計です。
以下に引用する〈Googleの人気の秘密〉の
最後のパラグラフをご覧ください。
Quote:

ウェブでは、どのページも他のウェブページに対し瞬時に、そして仲介を通さずに直接リンク
できます。このリンク構造こそがインターネットから階層性を除いて、情報が支障なくサイトから
サイトへ流れるようにしています。Googleの特許出願中のPageRankTM技術は、このリンク
構造上の特性を活用し、ウェブに画期的な検索手段をもたらしました。

PageRankについて

PageRankは、ウェブの膨大なリンク構造を用いて、その特性を生かします。ページAから
ページBへのリンクを ページAによるページBへの支持投票とみなし、Googleはこの投票数
によりそのページの重要性を判断します。しかしGoogleは単に票数、つまりリンク数を見る
だけではなく、票を投じたページについても分析します。「重要度」 の高いページによって投じ
られた票は より高く評価されて、それを受け取ったページ を「重要なもの」にしていくのです。

こうした分析によって高評価を得た重要なページには 高いPageRank(ページ順位)が与えられ、
検索結果内の順位も高くなります。PageRankはGoogleにおけるページの重要度を示す
総合的な指標であり、各検索に影響されるものではありません。むしろ、PageRankは複雑な
アルゴリズムにしたがったリンク構造の分析にもとづく、各ウェブページそのものの特性です。

Googleはページ内でのキーワード同士の位置も重視します。

Googleは検索語句がすべて含まれているページを探し出すだけではなく、該当ページ内の各
検索用語の近接性も分析します。他の多くのサーチエンジンとは違い、検索語句の近接度に
したがって、検索結果の順位付けを行います。検索した語句が近くに並んでいるページほど
優先されるので、関係の無い内容をふるいにかける無駄な時間を省く事ができます。

Googleはウエブページをキャッシュします。

Googleではリンク先のサーバーが一時的にダウンした時に備えて、多くのページをキャッシュ
に格納してあります。サーバーが故障しても 必要なページのキャッシュがあるので「サイトが
見つかりません」というエラーメッセージにイライラさせられることはありません。また、情報の
最新度は落ちますが、ダウン時でなくてもGoogleのキャッシュをアクセスする方が、通常の
リンクをたどるよりはるかに高速です。

Unquote.

近藤和彦


What's New /Useful Links

  Q&A 目次 /ページトップへ戻る /Keywords