2004年06月14日
Spidering hacks―ウェブ情報ラクラク取得テクニック101選
スポンサード リンク
・Spidering hacks―ウェブ情報ラクラク取得テクニック101選
■スパイダリングのハック本
これはGoogleHack以来の技術本で大ヒット!。素晴らしい。
クロウラーとかスパイダーと呼ばれるWeb巡回自動ロボットの作り方が実際のコードとともに101個も紹介されている。
スパイダーは、Webのリンクをたどりながら、HTMLを取得、解析して、データを取得していく。特定のキーワードがニュース見出しに登場していたら、本文を取得して一覧を作る、だとか、検索エンジンの検索結果数の変化をグラフにするとか、携帯にニュース更新状況をメールするなど、便利なパーソナルエージェントを作ることができるわけだ。
目次から、わかりやすい応用例をいくつか紹介すると、
・Yahoo! JAPANの新着情報を追跡する
・米Yahoo!とGoogleを組み合わせた拡散検索
・Yahoo!テレビを使って番組の検索を行う
・Yahoo!ブックスから、自分の好みにあった新刊書籍情報を取得する
・Yahoo!ショッピングから売上ランキングの高い商品の情報を調べる
・気になるニュースをケータイに送信する
などなど、どれも楽しそうでしょう?海外の翻訳本でありながら、日本語対応もきちんと考慮されているので安心。
この本で紹介される多くのスクリプトはPerlで記述されている。WWW::Mechanize(及び日本語化されたMechanizeJHack)モジュールは、スパイダー開発の心強い味方だ。URLからHTMLを読み込み、タイトルと本文、リンクに分割したり、特定のキーワード文字列の入ったURLやリンクアンカーをクリックして移動する、フォームに文字列を埋めて送信するといった、一連のWebサーフィンの動作を、簡単な記述で、開発できる。
・Mechanizeの応用例 Asamasid
http://nais.to/hiki/hiki.cgi?asamasid
認証が必要なアマゾンアフィリエイトの確認画面へログインし、結果データを取得してメールするプログラム。(あれ?、いつのまにかWindowsに対応している!)
■ThumbWeb ビジュアルリンク集の自動生成プログラム
私も早速ひとつ作ってみたので公開する。WindowsXP、ActivePerlの環境で動作する。
・ThumbWeb ビジュアルリンク集の自動生成プログラム
URLのリストを与えると、スクリーンショット一覧のアルバムを自動生成するプログラム。
ソース一式はここからダウンロードできます
なおサムネイル作成には、
・url2bmp
http://www.pixel-technology.com/freeware/url2bmp/english/
を利用している。こちらも別途ダウンロードが必要。
インストール等詳細は、ZIPファイル内のREADME.TXTを参照のこと。
これを使うとたとえば、こんなリストから、こんなサムネイル一覧をつくることができる。YAHOO!のカテゴリ一覧などから、URLを持ってくればビジュアルなリンク集を作成できる。初期設定では、10ページおきにページ切り替えが行われる。(サンプルは5ページに設定)
・URLのリスト
Download filehttp://www.ringolab.com/note/daiya/archives/sampleurls.txt
・生成されたページのサンプル
サンプルはMHT形式なので、MS Internet Explorerオンリーです。Download file
■富豪的ネタ探しでブログネタを発見する
私の使い方としてはブログのネタ探しに利用している。
具体的には海外のITニュースサイトやコミュニティを別のスパイダーで巡回させ、記事本文に登場する、外部へのリンクのURLを一覧取得する。話題になったURLリストがこうして得られる。ここまでは夜間にマシンにやらせておくのがポイント。
・某海外ITニュースサイトから抽出したURL一覧(4000件、130キロバイト)
http://www.ringolab.com/note/daiya/archives/urls.txt
これを、ThumbWebに与えると、1ページあたり10サイト、400ページのレポートが生成される。あとはひたすら、ビジュアルでチェックしていく。いい絵を探すのだ。面白いネタ探しなら、厳密に漏れがないかチェックするよりも、多くのサイトをザッピングした方が効率が良い。なにしろ何千サイトも候補はあるのだから、富豪的に太っ腹に考える。見落としてもいい、たくましく育って欲しい。
・関連:富豪的プログラミング
http://pitecan.com/articles/Bit/Fugo/fugo.html
■余談 パーソナルエージェントの自作ブーム到来か
実はこのURLリストからスクリーンショットのアルバムを自動生成するツールは、昨年末の忘年会議で使い「近日公開します」と約束していたもの。あれから半年が過ぎ、私の予感では、3人くらいが律儀にも覚えていて、「橋本のやつはいつ公開するつもりなんだゴラア」と思われているような気がしているので、これを機に、必要部分を切り出し、アップデートし、公開することにしました。
私はこれにさらにキーワードフィルタリング機能のついた上位バージョンを調査の実務に使っています。こうしたプログラム群を使うと、経験では1日に8000ページ程度の海外のWebから、探しているテーマの情報サービスや、記事を、ほぼ完璧に洗い出すことができます。
他にも集めた英語のページを夜間にまとめて翻訳させ、ローカルで日本語全文検索をかけられるようにしておくのも、なかなか便利です。個人的には、次は音声化や、モバイルへのアラート機能を作りこんでいこうと計画中です。
スパイダリング技術は、常時接続ブロードバンドの時代に、個人の調べる技術を大幅に拡張する強力なテクノロジーだと思います。面倒なのは対象とするサイトの技術仕様が変化すると、スパイダーのロジックもアップデートしなければならないことです。それが頭の痛いところなのですが、RSSなどXMLメタデータの標準化によって、状況はかなり改善されてきました。
今が旬なテーマでしょう。パーソナルエージェントを自作したい人に、この本はマストバイです。
スポンサード リンク
Posted by daiya at 2004年06月14日 23:59 | TrackBack
Guys do you really think that people would write such things about their personal life? Don窶冲 lie to yourself!
Posted by: youreviltwin at 2008年04月07日 04:00