2000. 11. 30 更新

検索エンジンについて

近藤 和彦    →  礼讃


インタネット上に蓄積されたディジタル情報を検索しようというときに、
まずは誰でも Yahoo(ヤフー)にあたってみるのではないでしょうか。
そして、めざす情報とほとんど関係のない奇妙な「ノイズ」の
あまりの多さに悩まされたり、逆に、
ないはずのない目標のデータにどうしても行き当たらず、
途方に暮れたり、という経験をおもちでしょう。
ぼくじしんも、そういう満たされぬ/悩ましい思いをくりかえしました。
野口悠紀雄Online2000加藤哲郎=政治学リンク案内
をはじめ、いくつかのホームページには
情報検索エンジンのリンク集が挙がっていて、
これらも試してみました。そのうちでは
LYCOS(ライコス)や InfoseekOCNnavi などが
Yahoo よりは利口という意味で有益です。たとえば、それぞれ
ヒットの的中率をあらわす%が記され*、また表示の並べ替えも
たいていはできます。それはそれで合理的だと思います。
これらはそれぞれ情報検索の〈老舗〉でもあり、
登録URL も豊富で、上手に利用すれば、もちろん
現在でも十分に役にたちます。

ところが、今年3月のはじめに、まったく偶然に
どういう経路をたどったのか、今では再現できません。
どなたかの読書ノートのサイトからのリンクだったでしょうか
というエンジンに遭遇しました。これは現在 NTTの研究所で
実験のために運用しているサーチエンジンであり、
「既存の日本のサーチエンジンには使用されていない技術が
使われて」いるとのことですが、まったくの
素人であるぼくには、そのノウハウは理解できません。
ただ、実際に使ってみると、あまりに有能・迅速・的確であり、
ぼくは縁も利害関係もない一ユーザにすぎないが、
一人で黙って利用していられないのです。
加藤哲郎さんにもお知らせしましたが、インターネット宇宙の流し方
でさっそく ODiN を採り上げていただきました。
元来は東大で研究していた原田さんという方の開発したサーチエンジン
だったという由来のためか、知的なサイトに断然強いような気がします。
でもたとえば、
新大阪・千里 ホテル あるいは
ちゃんこ料理 両国
といった検索に使ってみましたが、有能でした。
それに、個人的な好みからいえば、
商用サイトでないために煩わしい広告や
チカチカ点滅して人を刺激するロゴがなく、
すっきりしていることも快適です。

使い勝手のよいロボット型検索エンジンとしては、有名な
もあります。比較してみると、どちらがどうか。

じつは、ぼくのような利用者にかぎってかもしれないが、
goo にくらべても、
ODiN のほうが関連サイトの上位的中率がきわめて高い
その理由は、素人の憶測にすぎませんが、
各サイトのページタイトル(画面の左上欄に表示される名前)を、
テキストとして goo は無視し、ODiN は重視しているからではないか。
サイト作成者でページタイトルを軽視するひとはいません。だからこそ
本文ページ内ではそれをテキストでなくバナー(図像)にして
強調することも少なくない。ところが、
検索エンジンは一般にバナーを認識せず、さらに
ではページタイトルを本文テキストの外にある余計なもの
とみなすのか、たとえば
ぼくのホームページは
近藤和彦 歴史学 イギリス史
などで検索しても出てこない(検索結果0件)。ところが、
ごあいさつ
What's New
著書・訳書
発言・小品文
などで検索すると高位にヒットする!
という奇妙なことが生じます。Yahoo や OCNnavi のように
ユーザによる URL登録やキーワード指定などをせず、
ロボットによる自動的な登録・検索にまかせるという goo のメリットが、
この場合はディメリットになりました。

もやはりロボットによる自動的な登録・検索にまかせていますが、
そこに優先的な選択収集、という網をかぶせているので、
あまり意味のない語では検索しない。その裏からいえば、
「日本あるいは世界でほとんど存在しないような情報を探す用途」
には向かないということらしい。

さて、ど素人の閑話休題。
まだまだ *的中率の%やスコアの算出方法とか、そもそも
ロボットなるものはどこまで入ってきて何を詮索しているのか、
とか、疑問は尽きませんが、それは下記の
http://odin.ingrid.org/help/odin.html
などへ問い合わせてください。
ぼくよりも習熟していてやさしく話のできる方の助言など、
よろしくお願いします。

===================

URL索引を更新するさいには:提案  

談話室から転載・推敲  2000年7月15日

ご存じ検索エンジンの秀才  が先回
ロボット巡回していたその瞬間に、
どうも東大文 http://www.l.u-tokyo.ac.jp/ のサーヴァは
不具合か休止していたらしく、
たったいま ODiN で検索すると
東大文関係のサイトはまったくヒットしません。

かわりにぼくの使っているのは goo ですが、以前に比べて良くなった。
数ヶ月前の goo はあきらかにページタイトルを無視して、
本文テキストの始まりから索引を形成していたと思われます。
∵ 近藤和彦
で検索しても、ぼくのホームページは出てこずに、
著書・訳書学歴・職歴など
といったページが高位でヒットしました。つまり一般に
作成者側ではタイトルや画像に意味をこめてサイトを作っているでしょうに、
その意図はあまり生かされない検索結果となるのが
必定だったのです。
意図せぬ結果が見られるというおもしろさ(?)までは否定しませんが。

 ところが、いつ検索原理が変わったのか、
現在のはページタイトルをふくめて検索 index を作成している
(にちがいない)ので、
あらゆるキーワード検索に「賢明に」反応します。
これも好ライヴァルODiN の登場により、
対応=改良を強いられてのことでしょうか。一つ
こうしたノウハウについて特許や著作権はどうなっているのか、
気にはなりますが。

       もう一つ問題をあげると、ロボットエンジン方式だと、
登録されていないサイトも含めて
ウェッブ世界のあらゆるディジタル情報が検索されて、
その点は便利なのですが、
たまに先の東大文サーヴァのように休止していたり、
なにかの不具合でロボットがサイトに訪問できないと、
索引が消えてしまいます。
これは困る。
                防止策として素人が考えつくのは、現状のように
ロボットが巡回するたびに索引を全更新し旧データを削除してしまうのでなく、
旧索引も生かして
(あたかもワープロの .bak ファイルを次の更新まで生かすように)
索引サイズを約2倍とする、という策ですが・・・。
これでは ODiN の精神
−−小さなマシーンで最大の効能、という Web Democracy −−
に反することになりますか?
愚問にどなたかお答えくださいますか。

近藤和彦



What's New Useful Links


(優先的全文検索エンジン)とは 
Q&A

2000. 3.10 登載   6. 28 更新

           ・           ・           ・          ・           ・

  【Email でおこなわれた質疑応答を再録します: 近藤】

  Q:近藤和彦     Date: Tue, 07 Mar 2000 13:02:33 +0900

   ODIN 担当者の方へ

  偶然ながら ODIN サーチエンジンに遭遇し、使い勝手の良さ、的確なヒットに感激しております。

  1) 初歩的な質問ですが、スコアとはどういう意味でしょうか?
  たとえば、結果的に同じ
  「近藤和彦(歴史学・イギリス史)のホームページ」にヒットするとはいえ、

   西洋世界の歴史  で検索した場合は (スコア:4,336)

   近藤和彦 イギリス史 歴史学  で検索した場合は (スコア:9,358)

  となります。よくある「あなたは何人目の訪問者です」のカウントとは違いますね。

  2) わたしのホームページは頻繁に更新しておりますが、ODIN ではやや古い更新日付けのページが出てきます。いずれ新しくなると期待してよろしいのでしょうか?
 

 A:風間      Date: Tue, 07 Mar 2000 13:38:20 +0900

    どうもありがとうございます.

  ODINには,既存の日本のサーチエンジンには使用されていない技術が使われており,画面を見ただけではわからないような異なる性質を持っています.これに気が付いて頂いて,非常に嬉しいです.

  これらの特徴については,今後学会発表をおこなうだけでなく,雑誌などの一般のメディアに記事を執筆することで,あきらかにしていく予定です.

  > 1) 初歩的な質問ですが、スコアとはどういう意味でしょうか?

  サーチエンジンは,検索結果に対してスコアを計算し,スコアの高い順から表示します.

  スコアは,たとえば検索に使用した語がどれくらい出現しているかなどの情報を元にベースに計算することが多いのですが,その計算方法に各サーチエンジンの特徴が現れます.

  ただし,実際に,ODINがどのように計算しているかについては,まだ外部に公表していないので,残念ながらご説明できません.これがODINが他のサーチエンジンと根本的に異なる点でもあります.

  > 2) わたしのホームページは頻繁に更新しておりますが、ODIN では
  > やや古い更新日付けのページが出てきます。いずれ新しくなると期待して
  > よろしいのでしょうか?

  はい,その通りです.ロボットと呼ばれるプログラムを用いて収集するので,
 次の巡回が来るまでは更新されません.
  ただし,これをより早くしようと,現在システム全体を見直している最中ですので,
 今後は少しづつ早くなるでしょう.

  最後に,現在少しシステムが遅くてご迷惑をおかけしていると思いますが,現在
 新しいハードウェアを購入し,それを使った新しいサーバをテスト中です.
  新しいサーバでは,かなり検索が高速におこなわれるようになると思いますので,
 しばらくの間お待ちください.

  今後も,ODINを使っていただけるとうれしいです.

  風間 一洋 (kazama@ingrid.org)  NTT Network Innovation Laboratories

・     ・     ・     ・     ・      ・

Q:近藤和彦     Date: Wed, 28 Jun 2000 11:33:18 +0900

前略
  いつも ODIN を活用させていただいています。前にも(3月7日)書きましたとおり、
他の検索エンジンに比べてはるかに有能だと受けとめて、わたしのサイトにも
ページを設け、愛用していました。  
 
  ところが6/28付けで索引を更新なさったようですが、どうも具合が悪く、
色々試してみると
  http://www.l.u-tokyo.ac.jp/
およびそこに ~ で連結するサイトは一切ヒットしないようになってしまった
ようです。なんらかの事故でしょうか。ご確認をお願いします。

  なお、わたしは6月22日に下記のサイトを新設しましたが、これは新しすぎて
まだヒットしないわけですね?
  http://kkondo.tripod.co.jp/

  6月28日昼
 

A:風間        Date: Wed, 28 Jun 2000 13:38:12 +0900

近藤様

確認したところ,今回www.l.u-tokyo.ac.jpからはまったく収集していませんでした.

プログラムを頻繁に改良していることもあり,必ずしも確実なことは言えない
のですが,いままでは常に収集されていたのに,今回は収集されていなかった
ということは,www.l.u-tokyo.ac.jpに対するロボットが辿るリンクはかなり
の数になると思われます.

だから,収集量が増大しているのに,収集されない…ということは,確率的に
は考えにくいでしょう.

こちらが考え付いたのは,www.l.u-tokyo.ac.jpが一時的にダウンしていたか,
通信経路のどこかで何らかのネットワーク障害が生じていて通信できなかった,
前回使用したロボットにあったプログラムのバグ(実装ミス)に運悪くひっかかっ
た,というような原因です.

これを機会に,ロボットの見直しと,さらなる改良を計画しています.

ODINは情報検索の基礎データ収集のために運用しており,人員,資金,設備と
も乏しい状況で必ずしも満足な対応ができるとは限らないのですが,ODINの存
在意義を理解してくださるユーザのために努力するつもりでいます.

次回のデータ更新をできるだけ早めるつもりですが,最悪の場合には1ヶ月後
ぐらいになってしまうと思います.

どうも,すみませんが,事情をご理解頂き,データ更新をお待ち頂けると嬉し
いです.今後とも,よろしくご愛用ください.

風間 一洋 (kazama@ingrid.org)  NTT Network Innovation Laboratories


 【以下、http://odin.ingrid.org/help/odin.html より抜粋します。】

 ODINについて

                   ODINは,原田昌紀が東京大学在学時代にサービスを開始したサーチエンジンです.
                   彼が日本電信電話株式会社に入社した後は,NTTの研究所に運用を移行しました.
                   現在は,ODINは未来ねっと研究所の研究プロジェクトの実験のために使用されてい
                   ます.

 ODINの特徴

                   ODINは,現在の多くのサーチエンジンとは,以下の点が異なっています.

                   1, Webページの選択収集
                        ODINでは,重要だと推測されるWebページを優先的に収集しています. その
                        ために,索引サイズを小さく押さえていても,検索される内容を充実させること
                        が可能です. ただし,日本,あるいは世界でほとんど存在しないような情報を
                        探す用途には向きません.
                   2, 検索結果のグループ化
                        ODINでは,本来ひとつのドキュメントとして作成されたWebページ群を,できる
                    限りまとめて扱えるように配慮しています. さらに,同種のドキュメントが多
                        量にある場合には,サイトごとに分類して閲覧することができます.
                   3, 適切な検索結果のスコアリング
                        個々のWebページの内容だけでなく,ハイパーテキストとしての性質を考慮する
                        ことにより,従来より適切な検索結果のスコアリングが可能になりました. たと
                        えば,"NTT"のような特定の組織の名称を入力した場合には,NTTのホームペ
                        ージが最上位に来るように,ロボット型サーチエンジンでありながら,ディレクト
                        リサービス型サーチエンジンに近い性質も合わせ持っています,
                   4, キーワードの表現の違いへの対処
                        ODINでは,ある程度一般的におこなわれているキーワードの表現の違いに対
                        処しています. ただし,このために,検索されたページに,検索に使用された
                        キーワードそのものが含まれないことがあります.

                  技術的な詳しい解説は,現在発表されている,あるいは将来発表される私たちの論
                   文やプレゼンテーション資料をご覧ください. また,今後も続々と新しい試みを行って
                   いきます.


What's New Useful Links    Q&A 目次 ページトップへ戻る  Keywords