Culture: 2004年10月アーカイブ
さて、第3部はヤフー、リスティング事業部の宮崎氏によるYahooSearchTechnology概要説明から始まりました。YSTとは何か、どのような仕組みで検索結果の表示順位が決まるのか、が話の中心でした。
Yahoo!は2004年5月31日まではGoogleのエンジンを使っていましたが、この日を境に独自開発したYSTに乗り換えました。当時の経緯はCNETで私がスクープ記事を対談形式で書いていますのでご参考まで。
・対談:日本における検索の未来 - データセクション 橋本大也 vs ヤフー 志立正嗣 - CNET Japan
http://japan.cnet.com/column/search/story/0,2000050605,20068928-2,00.htm
さて、なぜ宮崎氏に検索アルゴリズムをお話いただいたのかというと、今回の会議の発想テーマが、新しい検索アルゴリズムだったからです。問題は以下の通りでした。
「
理想の検索アルゴリズムを探せ!
アンカーテキストの活用やリンク分析により、検索エンジンの精度は飛躍的に高まりました。しかし、しかし、しかし!!!まだまだ情報を見つけるのが難しい状態です。
より便利な検索結果を出すためにどんな情報が使えるでしょうか。
その情報を使った理想の検索アルゴリズムを考えてみてください。
新アルゴリズムの概要:
いままで誰も目をつけなかった
( )の情報を活用することにより、
( )が可能に!
名づけて( )アルゴリズム。
以下にその検索アルゴリズムを具体的に図解してください:
」
さて、注目の受賞結果は?
「検索」をテーマに全員で会議する「無敵会議」第10弾〜検索をより便利に、これまで不可能だった検索を可能に〜
http://bb.watch.impress.co.jp/cda/news/7238.html
がうまくまとまっていたので、引用させていただきます。
「
参加者には問題用紙が配布され、それぞれが15分間で個人ごとのアイディアを回答。その後に6人程度のグループを作成し、20分間で議論した内容をグループごとに提出するといった流れで会議は進行した。個人アイディア、グループアイディアはそれぞれ2つが運営者側から賞として選出され、その内容紹介と合わせて賞品が贈られた。
グループ賞には、関氏が紹介した「やってはいけない検索方法」を活用し、検索方法の採点や適切な検索方法の紹介によってユーザーの検索技術を教育する「関裕二養成アルゴリズム」、検索結果を見た時の汗や声、心拍数といった情報を利用して、多くの人を興奮させた情報のランク付けを行なう「テンション検索アルゴリズム」の2つが入賞。参加者の投票によって、「テンション検索アルゴリズム」が1位に選ばれた。
個人賞では、日々のひとりごとを収集して悩み解決の糸口を探る「ひとりカウンセリングアルゴリズム」、検索した文章のパターンと既存の文章との類似性をファイル形式ではなく「解読型」「批判型」「推薦型」といった文書の形式で分類するアルゴリズムの2つが紹介。ヤフーの宮崎氏は「自ら検索しようとは思っていないひとりごとを、勝手に検索してしまうのは面白い。文書形式の分類はすぐにでも使いたいくらいのアイディア」との賛辞を贈った。
」
優秀者にはヤフーからお食事券などの豪華プレゼントが渡されました。そして最後にはなんと全員に豪華なヤフーグッズ満載の袋が渡され拍手喝さいになりました。中身は
・たつをの ChangeLog / 2004-10-27
http://nais.to/~yto/clog/2004-10-27.html#2004-10-27-6
に写真で紹介されています。すごすぎです。なお、このブログには検索会議の報告系ブログ一覧があってさらに詳細が楽しめます。
さて、ちょっと真面目に捕捉。
検索会議ではヤフーのアルゴリズムのみでしたが、私が知っている有名な検索アルゴリズムをいくつかここでリストにしてみますと以下のような感じです。今回は技術者会議ではなかったのでアイデアベースでユニークなアルゴリズム発想が主体ですが、技術者ばかりで本当の数学的アルゴリズムを発想してみる会もやってみたいですね。
■TF/IDF
全文検索エンジンのほぼすべてに使われている基本アルゴリズム。文書を特徴づけている言葉はどれか、その言葉の重みはどれくらいかを求める数式。検索対象とする文書全部におけるキーワードの発生頻度(ある単語数÷全単語数)と、個別文書における発生頻度の比率を計算することで、文書を特徴づけているキーワードとその重要度を求めることができる。極めてよく使われる一般語は低い値になり、特定のテーマのときに登場する専門語は高い値になる傾向がある。
■PageRank
Googleのアルゴリズムとして有名になった。今は他のエンジンも部分的にはこの考え方を採用している。リンクを人気の指標と考えPageRankという数値で人気ぶりを算出する。まず外部からリンクの数が多ければ高いPageRankを与える。リンクの質も重視し人気ページからリンクされたページのPageRankも高めになる。例えば、YAHOO!はたくさんのページからリンクされているからPageRankが高くなる。PageRankの高いYAHOO!からリンクされたページのPageRankも高く計算される。
・Google の秘密 - PageRank 徹底解説
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
■Subject-Specific Popularity
Teomaなどが採用している。PageRankの改良。検索キーワードのテーマを重視してPageRankの計算に重みを加算する。例えば検索キーワードが音楽関連であれば、音楽関連をテーマにしたサイト群を抽出し、そのサイト同士のリンク構造からPageRankを算出する。無関係なテーマのサイトからのリンクは重視しないということでもある。例えば2チャンネルからのひやかしリンクがいかに増えても重要とはみなされないのでノイズが低くなるといえそう。
■HITS(Hyperlink-Induced Topic Search)
YSTはこの系統に分類できる。PageRankの改良。PageRankではリンク構造しか見ていないため、人気サイトの出自を問わない。つまり、リンクの人気があれば価値が高いということになってしまう。リンクだけですべてを判断していいのかという問題がある。そこでHITSではオーソリティとハブという二つの考え方を導入する。オーソリティはたくさんのサイトからリンクされた信頼できるコンテンツである。ハブはたくさんのひとをナビゲートしているリンク集である。二つを異なるタイプとして計算することでより精度の高い結果が得られるという考え方。
。
TREC10 - HITS Algorithm
http://csgrad.cs.vt.edu/~lixu1/work/CS5604/hits.htm
■Block-level Link Analysis
MSNのアルゴリズムはこれに分類できる。ここまでのPageRank、Subject-Specific Popularity、HITSではページ単位で重要度を計算していた。この手法ではページの中の意味のあるブロック(パラグラフなど)を分割し、ブロック内のリンク同士の関係をPageRank的に計算する。リンクの前後の文章を分析してリンクの重要度を計算するので、ひとつのページに複数の記事がある場合にも、ノイズの少ないPageRank的計算が可能になる。
・Block-level Link Analysis
http://research.microsoft.com/research/pubs/view.aspx?tr_id=754
■Vision-based Page Segmentation Algorithm
MSが研究している。視覚的な情報を重視したアルゴリズム。人間ならページのどこがナビゲーションで、どこが広告で、どこが著作権表示のフッターかはすぐに理解できる。それらの中のリンクは普通はあまり大切ではない。この手法ではコンピュータがHTMLを解析することで、ブロックの視覚的意味を推察し、リンクの重み計算に利用する。
VIPS: a Vision-based Page Segmentation Algorithm
http://research.microsoft.com/research/pubs/view.aspx?tr_id=690
第2部は初代検索の鉄人の関さんによる超絶技巧セッション。関さんは最近ヤフーに転職し、YAHOO!ディレクトリにサイトを新規登録していく「サーファー」として働かれています。登録内容は、サーファーの個人裁量による判断が大きいらしく、約40人いる、この精鋭サーファーによって、日本のインターネットの地図が日夜作られているといっても過言ではありません。ネットの仕事の花形ですね。
YAHOO!ディレクトリには現在、18万のカテゴリがあり、40万のサイトが登録されているそうです。これは滅多に公開しない情報らしいので貴重なのですが、登録サイト数を調べる秘密を教えてもらいました。
YAHOO!の登録サイトには以下のような説明がついていますね。
「
Passion For The Future - 橋本大也によるウェブログ。情報技術、書評、日々の雑感を記述。
」
これらの説明文はすべてが「。」で終わるのです。そう、だから「。」で検索すればだいたいの登録サイト数が誰でも確認できるのです。驚きました?。(ちなみにモーニング娘は正式には「モーニング娘。」だって知ってました?どうでもいいですね。)
さて、関さんの検索の極意のひとつは、
「しっかり検索結果のページをイメージすること」
でした。抽象的なキーワードを入力するだけではダメで、探しているページにありそうなキーワードを一緒に検索することで検索精度を高められるということです。例として求人広告を探す際に、「求人」などで検索すると無関係な情報がいっぱい混ざってしまいます。
そこで鉄人なら "当社規定により優遇" で検索するのです。うわ、本当にその手の情報ばかりでてきました。確かに求人ページにはこのフレーズが大抵は書いてあります。検索結果のページをイメージするっていうのはこういうことなんですね。
他にも「都内の専門学校の一覧」が欲しい場合の検索が題材に出されました。「都内 専門学校 一覧」ではほとんど該当の情報がマッチしません。そこでまた欲しいページにはどんな言葉があるかをイメージするわけです。
鉄人が選んだのは「専門学校 世田谷区 大田区 千代田区 町」でした。一覧リストにありそうな言葉を加えているのです。最後の「町」は区名に対して少し地味でマイナーな言葉ですが、探しているページには出てきそうな言葉です。この地味な言葉を入れることで絞込みが可能になるそうです。実際やってみたらズバリみつかりました。
他にも「大統領の身長の一覧」を調べたいときの鉄人の正解として「身長 ワシントン ケネディ クリントン ルーズベルト カーター"」。これはなるべく広い時代の大統領の名前を入れることで一覧を出そうということです。ここでも最後に地味な言葉が使われているそうですが...。関さんはユーモアが素敵です(笑)。
続いて、この会だけの限定公開で、YAHOO!の検索回数をリアルタイムに閲覧できるスタッフ用ツールが公開されました。言葉を入れるとその言葉がこの1年間でどれだけ検索されてきたかの履歴がグラフ化されるツールです。関さんからこれで何を調べてみましょうか?と聞かれたので「ブログ」「アテネ」と二つほど調査をお願いしました。
「ブログ」は今年、どんどん盛り上がっていくのが分かる右肩上がりのグラフが見えました。ところがなぜか2004年4月20日に、前後の日の数十倍はありそうな飛び出て多い頂点が描かれていました。テレビかなにかの効果ではないかとの事ですが、何があったのでしょうか(今も調べています)。これに対して「アテネ」は予想通り、オリンピックが始まる直前から増え始め、開催中がピークで、その後一気に落ち込みました。上下の差が大きなグラフでした。熱しやすくさめやすいブーム語の特徴でしょう。
この他にも多数の鉄人の技と検索の考え方が示されました。それにしても関さんのプレゼンの分かりやすさと内容の豊富さ、楽しさに脱帽でした。YAHOO!ブランドを背負っての講演ということで、主催者としては初心者向けの無難な内容に終わるかも?と思っていました。ツッコミを用意していたくらいなのですが、初心者にもマニアにも勉強になる濃いお話しをいただきました。ありがとうございました。
なお、このセッションではキーワード検索の話に特化しましたが、YAHOO!では実にさまざまな情報を探すことができます。最近は「ヤフる」という造語も考えている人がいるようです(ヤフー公式ではないですが)。こんな本がありました。
・ヤフる―遊ぶ、稼ぐ、出会うなど、あらゆる欲望をYahoo!で満たすこと
ヤフーの多彩なサービスの初心者向けガイド。
今回の会議の内容は、以下のニュースサイトでも報道されました。
・「検索」をテーマに全員で会議する「無敵会議」第10弾〜検索をより便利に、これまで不可能だった検索を可能に〜
http://bb.watch.impress.co.jp/cda/news/7238.html
・ITmedia ライフスタイル:理想の検索とは何か?――無敵会議、「検索」をテーマに開催
http://www.itmedia.co.jp/lifestyle/articles/0410/28/news002.html
éiªüµ¢Z{ØqY26FÌYahoo!JapanZ~i[[ÅAæ10ñÚÌõïcðJõܵ½B³GïcjãAŬÌõäçÅAõAt[ÖÌÖS̳ð´¶Ä¢Üµ½ªA\zÊèyµ¢ïÉÈèܵ½BQÁÒÌF³ñAX|T[ÉÈÁÄ¢½¾¢½t[ÌF³ñA{É èªÆ¤²´¢Üµ½B
³ÄAæêÅÍAesbNAbvÌãAÆS®ÇlªT¸ÂÐîµÄÝܵ½BÌ5ÂÍv[t@CðöJµÜ·B
E´{@æ[õZp@xXg5@PDFÅ
Download file
E±¿çÍFlashÅ
download File
ãLñÂÍURL\¦ÌCAEgªöêÄ¢½ÌÅeLXgÅȺÉeLXgű¯Ü·B
ÚÌõZpT
õïcYAHOO!JAPAN
2004N1027ú
Passion For The Future
´{åç
W[ÈõÍYAHOO!JAPANÆõÌSlª¢éÌÅAàÍâÉêêé±ÆÍÈ¢B
¿åÁÆ¢ð´¶Ä
sꫪCÉÈéZpÅ
gÁÄÖ©yµ¢àÌ
TÂðIÑܵ½
P@nkîñÌõ
EQLIST
http://www5b.biglobe.ne.jp/~t-kamada/CBuilder/eqlist.htm
1885NÈ~Ì}Oj`
[h4ÈãÌnk3ðõÅ«ét[\tg
næÆúÔÅXg\¦Æn}\¦
l@P@VÏnÙîñàÂlŪÍ
13NÔÌCÛ¡f[^©çVCðõÅ«éurW
A¨VCvª êÎÄxÝÌGúLàã«OK
http://www.vector.co.jp/magazine/softnews/030322/n0303224.html
TRMMäf[^x[XÅq¯f[^©çßÌäÌKÍÆoHðêÅ«é
http://www.eorc.jaxa.jp/TRMM/typhoon/index_j.htm
Q@fXNgbvõÌ¢n
AdunautoFocusPersonal
http://aduna.biz/products/autofocus/personal/index.html
fXNgbvt@CA[AWebðÉÜÜêéPêÅt@CðQêƵÄ\¦·éB
l@2@¼z÷ãõÍ÷ãÌó_ÅÍÈÈÁ½
YAHOO!Í®svÌ[õ\tgBloombaiStatalabjðûµ½Æ1021ú\AÕB·¢ÄÝæ¤B
GDSALookoutiMªûjACoperniciCNET@Editorr
[Å]¿jÈÇAfXNgbvÌõªZpghÉB
R@¹yÌg`Åõ
11º{ÉBAiO¹¹Ìg`f[^ð³ÉCDDB©çyÈîñðæ¾·égMusicIDhðÚµ½CarryOn MusicB3500~ç¢B
O[Xm[giCDDBj̹yF¯ZpMusicIDðÌpµ½ÅÌàv_NgB
http://www.gracenote.com/gn_products/music_id.html
l@R@mÅõAm
ShazamÐÌyÈF¯ZpðgÁÄA{[_tHÅugÑyÈF¯vªX^[gBgÑÉBGMð·©¹éÆyÈîñwü
http://www.shazam.com/uk/do/home
¹y̵ÍCÅè¿ÌMP3ð©®JeSªÞBg}`bNÈÈhAgAbve|ÈÈhÅõªÂ\ÉÈéfXNgbv¹yõ\tgMoodLogic
http://www.moodlogic.com/
S@çÅõ
çÅõ·éZpáFVerilookÍ1bÔÉ27000lÌçðF¯·é±ÆªÅ«éBJÒü¯Ì\tgª_E[hÂ\Bhttp://www.neurotechnologija.com/vl_sdk.html
Wired News - X[p[{EÅÏqSõÌçªXL³êÄ¢½http://hotwired.goo.ne.jp/news/news/culture/story/20011228201.html
l@S@çÊõÌë¯ÆÂ\«
Ê^Ìç©çl¨ðÁè·éõZpåïFaceRecognitionVendorTestiçÊF¯ÆÒ±Ijª éiTÖ¦j
http://www.frvt.org/
fW^hA}ArgusÍhAãÉæèt¯çê½JÅüºÒð©®oµÄµÜ¤ÄZpB
http://www.computer.org/intelligent/ex2001/pdf/x2014.pdf
NbNÅõ
iPodÆmp3Æmusicͯ¶y[WůÉgíêé¾ti¤N«j
õêÆêÉægíêé¾tÌXgª100Â\¦³êéAeiwi
http://www.aeiwi.com/
NbNÅIÔƻ̾tÆêÉægíêéXgªÜ½100ÂðÃé®ÅüÍvç¸
½ªL[[h©²·éAvBPopupPrism
l@T@õÆ¢¤æèTõ
´ÖÈ{I.orgB{Ì\ÅrW
Aõ·éB©ªÌ{IðWebÅÈPöJB
http://pitecan.com/Bookshelf/
{Ìy[WÌdvêð²\¦·éPopoutPrism
http://www2.parc.com/csl/projects/popoutprism/default.html
_
çäéà̪©®F¯³ê
çäéà̪L^ÉÛ¶³ê
çäéà̪ÖAt¯çê
çäéà̪õ³êĵܤ
¢E60lõãÉËü
{úÌ_F
u«¢±Æ͵Ȣæ¤Éµæ¤v
S®ÇlÌTÂÈÇÌîñÍ
E½ÂðÌChangelog õïc
http://nais.to/~yto/clog/2004-10-27.html#2004-10-27-6
ÈÇÌuOÅÐî³êĢܷB
{ | | õïc |
YAHOO!Ìæ15ñC^[lbgpÒAP[gÉæéÆAu ȽÍiAÇÌæ¤Èîñ¹©çEFuTCgð¨mèÉÈÁĢܷ©HvÆ¢¤¿âÉεÄ81ªuC^[lbgÌõT[rXvƦĢܷBõÍܳÉC^[lbgÌüèûÅ èAõTCgª|[^TCgÆÄÎêéRÉÈÁĢܷB
C^[lbgÌpÚIÌgbvÍîñûWÅ·BcåÈlbgîñ©çAKvÈîñðfmÀɩ¯éõÌBl±»AC^[lbgÌBlÈÌÅ·B»±ÅA³GÌrWlX}A¶ÒðÚw·½¿ÍA¡ñÌïcÉõðIÑܵ½B
¢ÂàǨè¢EÌæ[õT[rXðåÉÌñlªÐîµÜ·B±¢ÄAõReXgÌDÒÅãhõÌSlhªoêµÄAõZpÉ¢ÄSlÌZð³¦ÄêÜ·B»µÄA¡ñÌïcÌX|T[Íú{ÅåÌõT[rXhYAHOO!JAPANhÅ·BYAHOO!ÌF³ñÉAõZpÌÅV®üâAõGWÌ ¤É¢Ĩb¢½¾«Ü·B
³GïcÅ·©çSõQÁÅ·B
ÅÌBlÆÅåÌõGWéÆ̨bðó¯ÄAQÁÒÍÂlÆO[vÅA³GÌõðzµÜ·Bõ̢ͱÌïc©ç¶Üêé©àµêܹñBoèÒÍYAHOO!JAPANÅ·B¿åÁÆOɲ×ĨÆÇ¢±Æª Á½èµÄB
»êÅÍïêÌZ{ØqYÌYAHOO!ItBXŨܵå¤I
æê@¢EÌõZpET[rXr [
åÉÌñlªÚµ½A¢EÌõZpr [B
æñ@wõÌSlxÌ´âZI
ãuõÌSlvÖªoêBú{ÅêÔõðg¢±ÈµÄ¢élÍÇñÈõmEnEðÁÄ¢éÌŵ天BõÉͱ¾íèðÂAåÉÌñlàÝȪçA¦A±ñȱÆàÅ«¿á¤ñ¾AÆ¢¤Tipsð©Â¯Ü·B
æO@
YAHOO!JAPANæèA ée[}ªoè³êÜ·BõÌ¢ðFÅl¦éZbVÅ·BDGÂlâcÌÉͽ©æ¢±Æª 軤B
¡ JÃTv
¼ÌF ³Gïc wõïcx
úF 2004N1027úi
j 19:00Jê 19:30`22:00
êF Z{ØqY Yahoo! JAPANl ïcº
さて、ツール20連発の後は、私が第1位に選んだ便利ツールChangelog/Chalowの作者である山下氏に自らプレゼンをしていただきました。
Changelog/Chalowについては、以前にこのブログでも紹介しています。シンプルながら使いこなせれば超強力な電子メモツールで、私はこれと出会ってからの情報生活がガラっと便利になった気がしていました。
・Passion For The Future: 最強のメモ環境をChalowで構築
http://www.ringolab.com/note/daiya/archives/001889.html
このセッションの詳細は、山下氏がブログに書かれているのでそちらをご覧ください。
・たつをの ChangeLog / 2004-09-29
http://nais.to/~yto/clog/2004-09-29.html#2004-09-29-2
その後、山下氏が司会を乗っ取り、百式管理人と私がインタビューされる形式でパネルディスカッション。ゲストなのに司会してくれるなんて便利!(笑)。このパネル用に予め言いたいことをパワーポイントでまとめていました。そのファイルを公開します。
便利とは、
1 リソースを節約できること
時間、工数、費用
2 良い気分になること
楽だ、得をした、やる気、達成した感覚
3 それなしではできないことができること
能力を超えた困難の解決、発見
ということなのではないかと考えました。
究極的には、
・使っていることを意識しない
・自然に必要なときに現れる。
・インタフェースがシンプルか、無い
のが本当の便利なデジタルツールではないかと思います。
そして、後半はサイボウズ社スポンサーの発想セッションへ。無敵会議史に残るであろう抱腹絶倒のゲストプレゼンが待ち受けていたのでした。