archive.org(Wayback machine)に保存されているページを一括ダウンロードする方法

今回はWayback machine downloaderを用いてarchive.org(Wayback machine)に保存されている複数のページを一括ダウンロードする方法を紹介します。

この記事は下に明記されている記事から訳されているものです。

出典(イタリア語): Come scaricare copie di siti scaduti – Wayback machine downloader

インターネットアーカイブウェイバックマシンは2,790億を超えるWebページの歴史的アーカイブで、訪問者がWebページを閲覧できるし、場合によってはポータル全体でさえも時間をかけて閲覧することのができます。インターネットアーカイブは、最も人気のあるサイトを優先して、数千のページを引き続き保存し、それらを簡単にアクセスできるタイムインデックスで利用できるようにします。特に有効期限が切れたドメインの復元を処理するときにこのツールの実際に可能性を理解するためにクリックするだけです。実際には、CSSイメージとJavaScriptを使用した元の完全版に近いバージョンのサイトを一時的に復元することが、人的ミスとSEO戦略の両方のためにしばしば起こります。Rubyライブラリには、ウェイバックマシンのAPIと組み合わせて、コマンドラインからWebサイトの完全なコピーをダウンロードするのに役立つものであるかもしれません。

このサイトの過去のコピーを素早くダウンロードするにはどうすればいいのか?
Rubyをダウンロードする(Windows用)

このアドレスに最新バージョンのRuby(バージョン1.9.2以上)をダウンロードしてインストールし、次のステップに進んでください。

1.Wayback Machine Downloaderのスクリプトをインポートする。

Rubyを管理者としてコマンドプロンプト(Start Command Prompt with Ruby)を実行します。次のコマンドを入力して、wayback_machine_downloaderライブラリをインストールします。

2.ダウンロードするWebサイトのバージョンを検索する

私は古いPianoWebサイトで最初の実験を行いました。

http://web.archive.org/web/20120826121114/https://pianoweb.eu/

3.ダウンロードを開始する

スナップショット全体をダウンロードするためにはRubyのコマンドプロンプトにダウンロードするコマンドを入力します。例:

ダウンロード時間は、使用しているマシン、使用可能な接続の種類、Wayback Machineサーバーの障害、つまり非常に過負荷で低速のサイトによって異なります。 数ページのサイトの場合、約10分かかります。私の場合、システムは1160秒かかりました。(ほぼ20分)

結果は、インターフェースの観点からはあまり満足のいくものではありませんでしたが、Webサイトのすべてのページを正しく保存し、すべてのコンテンツをフォルダごとに分けて保存しました。保存先はC:\Users\ユーザー名\websites\保存されているサイト名

ページの内容を確認するためにはindex.htmlを開く。

後書き

もし、サイト全体ではなく、一部だけ保存されている場合また抜かれてるページがある場合は他の日付に変更して試みる必要があります。サイトによってはこの作業を数回試みる必要があります。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です