2003年11月05日
私の近傍サイトマップ
スポンサード リンク
Googleで自分の名前「橋本大也」を検索してみる。
お、結構あるな。彼はどうだろう?
ビル・ゲイツ
「約65,400件」
さすが...。参りました。
私と同姓同名はオンラインでは見かけないので、この結果ページは、目視確認したが、ほぼすべて私の関連するページ群ということになる(調査しやすい命名をしてくれた親に感謝)。ニュースサイト、公私において自分でプロデュースしたサイト、個人サイトなどさまざまなページが引っかかる。
この数字を見て、思った。統計的な研究材料として十分な分母じゃないか、と。早速、私の名前のネット上の発生パターンを調べてみることにした。まず、Gogoleから最初の1千件のリンクを抽出し、分析対象とすることにした。私の名前がよく発生するサイトを発見し、私との近さをビジュアライズすることをゴールとした。
リンクの抽出には自作のソフトウェアLinkMachine(過去記事参照)を使った。10分ほどでURL一覧のリストファイルを作成できた。ファイルをひとつに結合させる。このファイルにはGoogle内部や広告、キャッシュページへのリンクが含まれてしまっているので、取り除く作業をする。自動化しようと思ったが結構複雑なので手作業で指定する。この工程作業時間は15分。
そして正規表現を使ってURLのみを抽出し、純粋に検索結果のURLのみが得られた。処理はPerlとシェルコマンドを利用。
そして、さらにURLから、ドメイン名(ホスト名)部分を抽出して登場回数順で並べた。UNIX上なら、sort | uniq -c コマンドで一発だ。こんな感じになる。
この数字でもだいたいのことは分かるのだが、余興として、登場回数が多いものほど近くに、少ないものほど遠くに位置するように計算して、Javaアプレットで地図のように可視化してみた。
そうして完成したのが、この「近傍サイトマップ」である。
・私の近傍サイト地図(Javaアプレット対応ブラウザで見てください。)
http://www.ringolab.com/note/daiya/viz01/
上記のアプレットのURLが表示できない人は、こちらの静止画像をクリック。
一番近いのは、過去に企画で記事を大量に投稿したアーカイブがあるITニュースサイトのHotwired。構造上の問題もあって異常に多い。次によく紹介してもらっているmojix.orgやfutureplanning.netさん(このふたつのBlogも内容が超充実しているのでオススメ!)、そしてこのBlogを置いているringolab.comがやはり近いことが分かる。他のサイトは回数が1,2回のサーバが大量にあることが分かる。つまり私の名前は大部分は特定のサイトに集積しつつも、かなり偏在してネット上に存在していることが分かった。
今回は名前でやってしまったが、企業名やブランド名などのキーワードでやってみても楽しい。どういったサイトからどんな風にリンクされているのかが分析できる。外部リンクを増やす、Webプロモーションを考えるデータにもなるだろう。
最近急にネットワーク図的な可視化の一般向けWebサービスが、国内で増えてきたように思う。
例えば、(下記のサイトはJavaアプレットやFlashあり)
・HotWindows
http://www.cyber-trial.com/hotwindow/index.html
キーワードの近さを可視化する
・NTTデータのBlogホスティングDoblog HottoLink機能
http://www.doblog.com/weblog/myblog/414
Blogの近さを可視化する
・透明人間の実の在る思考
http://www.doblog.com/weblog/myblog/414
HottoLinkをとても使い込んで説明されている方のBlog。HotWindowについての説明もある。
・Kartoo
http://www.kartoo.com/
Webページとキーワードの近さを可視化する。海外。
・といえばサーバ可視化コンポーネント
http://www.datasection.com/index.php?page=toieba
すみません。イントラ導入向けのみで、一般公開してなくて。絵だけ。
これは一例で最近出てきただけでも何十個もあるはずだ。が、どれも大量の情報を地図上に一度に出してしまうと見易さや操作のしやすさで問題がありそうである。毎日好んで使いたいものが少ない。ユーザビリティという点でJavaアプレットのものは厳しい気もする。
このようにWebの情報の可視化を行うことを海外ではWebviz(Web+Visualization)と呼んだりする。WebVizで有名なものには、 3D Hyperbolic Spaceや2D Hyperbolic Treeの技術がある。これはWeb可視化の流行の始まりだったような気がする研究だが、双曲線空間に情報をマップすることで、膨大な量の情報を有限のスペースでナビゲーションできる。
・3D Hyperbolic Spaceの論文(1998)
Exploring Large Graphs in 3D Hyperbolic Space
http://graphics.stanford.edu/papers/h3cga/
・2D Hyperbolic Treeを商品化したInxightのデモ(Javaアプレット)
http://www.inxight.com/map/
今回のように情報と情報の相対的な近さをみたいとき、膨大な量の情報の中の関係を把握したいときなどには、現在のYAHOO!、Googleのランキング的な検索結果リスト表示だけでは不十分だ。
ユーザのマシンスペックが上がってきているし、FlashなどのWeb上のマルチメディア表現技術も一般化した。現状はまだあまり使い勝手のよいものがなさそうなWebVizだが、これから注目の分野になると考えている。YAHOO!やGoogleの検索結果を見やすくする「だけ」のWebサービスなどもでてきたってよいはずだ。
WebVizやデータの可視化は面白いテーマなので継続的にこのBlogでも書いていこうと思っていて今日はその第一弾になる予定、です。
スポンサード リンク
Posted by daiya at 2003年11月05日 23:59 | TrackBack