Spidering hacks―ウェブ情報ラクラク取得テクニック101選

| | トラックバック(1)

Spidering hacks―ウェブ情報ラクラク取得テクニック101選
4873111870.09.MZZZZZZZ.jpg

■スパイダリングのハック本

これはGoogleHack以来の技術本で大ヒット!。素晴らしい。

クロウラーとかスパイダーと呼ばれるWeb巡回自動ロボットの作り方が実際のコードとともに101個も紹介されている。

スパイダーは、Webのリンクをたどりながら、HTMLを取得、解析して、データを取得していく。特定のキーワードがニュース見出しに登場していたら、本文を取得して一覧を作る、だとか、検索エンジンの検索結果数の変化をグラフにするとか、携帯にニュース更新状況をメールするなど、便利なパーソナルエージェントを作ることができるわけだ。

目次から、わかりやすい応用例をいくつか紹介すると、

・Yahoo! JAPANの新着情報を追跡する
・米Yahoo!とGoogleを組み合わせた拡散検索
・Yahoo!テレビを使って番組の検索を行う
・Yahoo!ブックスから、自分の好みにあった新刊書籍情報を取得する
・Yahoo!ショッピングから売上ランキングの高い商品の情報を調べる
・気になるニュースをケータイに送信する

などなど、どれも楽しそうでしょう?海外の翻訳本でありながら、日本語対応もきちんと考慮されているので安心。

この本で紹介される多くのスクリプトはPerlで記述されている。WWW::Mechanize(及び日本語化されたMechanizeJHack)モジュールは、スパイダー開発の心強い味方だ。URLからHTMLを読み込み、タイトルと本文、リンクに分割したり、特定のキーワード文字列の入ったURLやリンクアンカーをクリックして移動する、フォームに文字列を埋めて送信するといった、一連のWebサーフィンの動作を、簡単な記述で、開発できる。

Mechanizeの応用例 Asamasid
http://nais.to/hiki/hiki.cgi?asamasid

認証が必要なアマゾンアフィリエイトの確認画面へログインし、結果データを取得してメールするプログラム。(あれ?、いつのまにかWindowsに対応している!)

■ThumbWeb ビジュアルリンク集の自動生成プログラム

私も早速ひとつ作ってみたので公開する。WindowsXP、ActivePerlの環境で動作する。

・ThumbWeb ビジュアルリンク集の自動生成プログラム
URLのリストを与えると、スクリーンショット一覧のアルバムを自動生成するプログラム。
ソース一式はここからダウンロードできます

なおサムネイル作成には、

url2bmp
http://www.pixel-technology.com/freeware/url2bmp/english/
url2bmp01.gif

を利用している。こちらも別途ダウンロードが必要。

インストール等詳細は、ZIPファイル内のREADME.TXTを参照のこと。

これを使うとたとえば、こんなリストから、こんなサムネイル一覧をつくることができる。YAHOO!のカテゴリ一覧などから、URLを持ってくればビジュアルなリンク集を作成できる。初期設定では、10ページおきにページ切り替えが行われる。(サンプルは5ページに設定)

・URLのリスト
Download filehttp://www.ringolab.com/note/daiya/archives/sampleurls.txt

・生成されたページのサンプル
サンプルはMHT形式なので、MS Internet Explorerオンリーです。Download file

■富豪的ネタ探しでブログネタを発見する

私の使い方としてはブログのネタ探しに利用している。

具体的には海外のITニュースサイトやコミュニティを別のスパイダーで巡回させ、記事本文に登場する、外部へのリンクのURLを一覧取得する。話題になったURLリストがこうして得られる。ここまでは夜間にマシンにやらせておくのがポイント。

・某海外ITニュースサイトから抽出したURL一覧(4000件、130キロバイト)
http://www.ringolab.com/note/daiya/archives/urls.txt

これを、ThumbWebに与えると、1ページあたり10サイト、400ページのレポートが生成される。あとはひたすら、ビジュアルでチェックしていく。いい絵を探すのだ。面白いネタ探しなら、厳密に漏れがないかチェックするよりも、多くのサイトをザッピングした方が効率が良い。なにしろ何千サイトも候補はあるのだから、富豪的に太っ腹に考える。見落としてもいい、たくましく育って欲しい。

・関連:富豪的プログラミング
http://pitecan.com/articles/Bit/Fugo/fugo.html

■余談 パーソナルエージェントの自作ブーム到来か

実はこのURLリストからスクリーンショットのアルバムを自動生成するツールは、昨年末の忘年会議で使い「近日公開します」と約束していたもの。あれから半年が過ぎ、私の予感では、3人くらいが律儀にも覚えていて、「橋本のやつはいつ公開するつもりなんだゴラア」と思われているような気がしているので、これを機に、必要部分を切り出し、アップデートし、公開することにしました。

私はこれにさらにキーワードフィルタリング機能のついた上位バージョンを調査の実務に使っています。こうしたプログラム群を使うと、経験では1日に8000ページ程度の海外のWebから、探しているテーマの情報サービスや、記事を、ほぼ完璧に洗い出すことができます。

他にも集めた英語のページを夜間にまとめて翻訳させ、ローカルで日本語全文検索をかけられるようにしておくのも、なかなか便利です。個人的には、次は音声化や、モバイルへのアラート機能を作りこんでいこうと計画中です。

スパイダリング技術は、常時接続ブロードバンドの時代に、個人の調べる技術を大幅に拡張する強力なテクノロジーだと思います。面倒なのは対象とするサイトの技術仕様が変化すると、スパイダーのロジックもアップデートしなければならないことです。それが頭の痛いところなのですが、RSSなどXMLメタデータの標準化によって、状況はかなり改善されてきました。

今が旬なテーマでしょう。パーソナルエージェントを自作したい人に、この本はマストバイです。

トラックバック(1)

このブログ記事を参照しているブログ一覧: Spidering hacks―ウェブ情報ラクラク取得テクニック101選

このブログ記事に対するトラックバックURL: http://www.ringolab.com/mt/mt-tb.cgi/1321

» Perlモジュール(PukiWiki/TrackBack 0.1)~のトラックバック

FrontPage WWW::Mechanize http://digit.que.ne.jp/work/index.cgi?Perl%a5%e2%a5%b8%a5%e5%a1%bc%a5%eb%2fWWW%3a%3aMechanize http://www.ringolab.com/note/daiya/archives/001712.html 続きを読む

このブログ記事について

このページは、daiyaが2004年6月14日 23:59に書いたブログ記事です。

ひとつ前のブログ記事は「仏教が好き!」です。

次のブログ記事は「ƒ}ƒCƒNƒƒ\ƒtƒg‚ªl–¬Šˆ—p‚ðˆÓŽ¯‚µ‚½“dŽq–¼ŽhƒT[ƒrƒX‚ðƒvƒŒƒXƒŠƒŠ[ƒX」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 4.1