検索エンジンはなぜ見つけるのか　―知っておきたいウェブ情報検索の基礎知識

2011年10月28日 23:59 daiya | 個別ページ | トラックバック(0)

Google、Yahoo,Bing,Baidu...。Webの検索エンジンって不思議である。何千億ページもあるWebページを一瞬で検索できる。検索エンジン会社にはどんな凄いスーパーコンピュータがあるのだろうか？そしてWebページは世界中の何億台ものサーバに分散しておかれているが、ページの追加、更新を登録するマスターデータベースのようなものは存在しない。検索エンジンはどうやってWebの世界をデータベースに取り込むのだろうか。

もれなく、すばやく、的確な検索を実現する。検索が３つの要件を満たすには、専門的には、クローリング、インデクシング、スコアリングという機構があって、N-gram、ページランク、ベクトル空間モデルなどの、さまざまな要素技術が働いている。詳細に語ろうとすると専門用語だらけで分厚い本になってしまう分野だ。

検索技術者の著者は、技術者ではない一般人に向けた平易な言葉で、たとえ話を使ってわかりやすくしくみを解説する。たとえば図書館には１００万冊の本があるが蔵書目録は１０冊くらいにまとまる。巧妙につくられた目録をつかえば膨大なページ数の中からでも必要なページを高速にみつけることができる、具体的には...という風に。

テレビのしくみ、電話のしくみ、コンピュータのしくみ。現代社会に生きる人間の常識として、検索エンジンのしくみも必須科目になっていいと思う。

技術書なのだが、たとえ話が古代プトレマイオス朝のアレクサンドリア図書館だったり、日本神話のオオクニヌシとスクナビコナだったり、ギリシア哲学のソクラテスだったりする。

著者の森大二郎さんとはミクシィでつながっていて「橋本さんのブログはいつも拝見していますが、実は本書の執筆中に橋本さんのブログを通して「プルーストとイカ」に出会い、非常に大きな影響を受けました。（八割方書き上がっていたものを一から書き直すぐらいの勢いで）。」というメッセージをいただいた。

書物と同じくらい検索が人類のコミュニケーションに大きな影響を与えるものという視野で書いたという。本当だとしたら、きっかけをつくることができて大変うれしい。

・プルーストとイカ―読書は脳をどのように変えるのか?
http://www.ringolab.com/note/daiya/2008/10/post-849.html