Ruby wayback_machine_downloader -> Наполнение сайта контентом -> Скачиваем сайт из web.archive.org

Как скачать сайт из веб-архива

Легкий и бесплатный способ скачать сайт из веб-архива - это использование специально утилиты, написанной на Ruby, - wayback_machine_downloader. Большинство мануалов в Сети посвящено тому, как установить и запустить ее на сервере под управлением Unix, в результате чего пользователи, работающие под Windows и не имеющие собственных серверов, оказываются слегка обделенными.

В этой статье мы расскажем о том, как просто установить Ruby и Wayback machine downloader на Windows и скачать сайт из веб-архива одним кликом.

Для начала отправляйтесь на официальный сайт Ruby (rubyinstaller.org), а затем в разделе Download найдите нужную вам версию, например, rubyinstaller-devkit-2.5.5-1-x64.exe.

Установка Ruby

В настоящее время установка Ruby на Windows весьма упрощена и требует лишь запуска специального инсталлятора, в чей состав уже входит Devkit, который понадобиться для работы wayback machine downloader. После его загрузки просто запустите его как обычную программу.

После того, как Ruby будет установлен, найдите в меню Пуск программу Start Command Promt with Ruby, после чего перед вами появится командная строка. Используя ее, установите в систему wayback_machine_downloader следующей командой:

gem install wayback_machine_downloader

Спустя некоторое время, в командной строке появится уведомление о том, что программа успешно установлена.

Теперь вы можете скачивать сайты из web-архива всего лишь одной командой. Для этого введите в командную строку запрос wayback_machine_downloader http://example.com.

После этого wayback machine downloader начнет свою работу, а в командной строке будут отображаться названия скачиваемых файлов, а также их количество.

Wayback machine downloader

Наиболее частая ошибка, с которой вы можете столкнуться на данном этапе - это невозможность подключиться к веб-архиву, которая будет выглядеть так:

C:/Ruby25-x64/lib/ruby/2.5.0/net/http.rb:939:in `rescue in block in connect': Failed to open TCP connection to web.archive.org:80 (A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond. - connect(2) for "web.archive.org" port 80) (Errno::ETIMEDOUT)

Для ее устранения обычно достаточно всего лишь отключить антивирус, блокирующий работу Ruby.

Куда скачивает файлы Wayback machine downloader

Дополнительной командой --directory можно указать утилите, куда именно необходимо скачивать файлы. Однако необходимо учитывать, что по умолчанию утилита считает основной директорией путь c:\Users\Admin, поэтому, вероятнее всего, скаченные файлы надо будет искать именно там.

Например, если задать Wayback machine downloader команду --directory d://1/, то утилита будет скачивать файлы по пути c:\Users\Admin\D%3a\1\.

Если вы никак не можете определить, куда именно сохраняется сайт, просто произведите поиск по имени любого скачиваемого файла.

Учтите, что Wayback machine downloader скачивает файлы "как есть", а значит, в них будет содержаться большое количество мусора, включая рекламные блоки, счетчики, внешние ссылки и прочая информация. Поэтому перед размещением не забудьте удалить с web-страниц всю лишнее.


Меню сайта

Как скачать сайт из веб-архива
Как скачать сайт из веб-архива