過去のWebサイトを丸ごとローカルへ復元するWarrick

|

InternetArchiveには過去のWebのアーカイブが保存されている。私が90年代に運営していたaccess.or.jpというWebサイトを見たければ、

http://web.archive.org/web/*/http://www.access.or.jp

から日付選択でその日の姿のWebを表示させることができる。

とても便利なアーカイブサービスだが、バックアップされたサイト全体をダウンロードするのは面倒である。Warrickを使うと一行の指示でその作業を自動で行ってくれる。

・Warrick - Tool for Reconstructing a Website
http://www.cs.odu.edu/~fmccown/research/lazy/warrick.html
warrick01.jpg

動作にはPerlが必要だ。コマンドラインから、たとえば、

という命令を出すと、InternetArchive、Google、Yahoo!、MSNのキャッシュにアクセスして復元に必要なファイルを探してくれる。-rはリンクをたどって再帰的にサイト全体をダウンロードするオプション。

・サーバのクラッシュで失われた自分のサイトのデータを取り戻す
・事件や事故で消されたサイトを復元してみる

といった目的で使えそうである。

このブログ記事について

このページは、daiyaが2006年12月23日 23:59に書いたブログ記事です。

ひとつ前のブログ記事は「大きな画像を表組タグで分割したHTMLを自動生成 画分作文」です。

次のブログ記事は「プリンス&プリンセス」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 4.1