Поиск в Веб Архиве -> Наполнение сайта контентом -> The Wayback Machine

Поиск текстов на web.archive.org

Знаменитый Веб Архив (archive.org, web.archive.org) – некоммерческая онлайн библиотека, включающая в себя 85 миллиардов веб-страниц, графические материалы, а также видео и аудио, была создана с целью хранения и архивирования имеющей ценность информации, которая доступна для изучения и скачивания всем желающим.

Несмотря на то, что большинство пользователей знает об этом web-ресурсе лишь понаслышке, данный сервис является крайне интересным и полезным для тех, кто хотя бы немного интересуется историей и развитием интернета.

К сожалению, большинство web-мастеров и seo-оптимизаторов рассматривают archive.org исключительно как источник бесплатного контента для автоматического наполнения своих «сайтов» или же для возрождения старых проектов с целью дальнейшей продажи на них ссылок в биржах. В действительности же, информация, которую можно найти в Веб Архиве может быть интересна не только создателям сателлитов и сплогов. Archive.org хранит в себе массу полезных сведений, определенной части которых уже нет в интернете.

В данной статье вы рассмотрим, чем именно Веб архив может быть полезен web-мастеру, seo-оптимизатору и даже копирайтеру.

Archive.org или архив интернета: The Wayback Machine

Одним из основных сервисов Веб Архива является The Wayback Machine, представляющий собой огромный архив сохраненных страниц, которые были обнаружены ботом в то или иное время. В результате копия каждого сохраненного сайта хранится в веб архиве в нескольких экземплярах, что позволяет увидеть, как выглядел тот или иной web-ресурс в определенный период времени.

Работа бота The Wayback Machine не подчиняется никаким правилам, поэтому, просматривая хранящиеся там страницы можно легко столкнуться с тем, что некоторые сайты сохранены только частично, и самая интересная их часть осталась не проиндексированной, тогда как в архиве сохранились только служебные страницы (карта сайта, календарь, списки последних статей). Кроме того, в Веб архиве имеется множество страниц, сохраненных в момент, когда сайт был недоступен, взломан или закрыт на техническое обслуживание. Поэтому в Веб Архиве, к сожалению, имеется множество страниц, сохранившихся в виде заглушки.

Некоторые сайты имеют в архиве несколько копий за каждый год, что позволяет просмотреть историю изменений ресурса, другие проекты и вовсе не попадают в базу. Таким образом, предсказать, в каком виде сохранен в web.archive.org тот или иной сайт, невозможно – каждый ресурс следует просматривать отдельно.

Поиск по столь огромной базе страниц возможен только по названию домена. Для этого откройте адрес http://archive.org/web/, введите искомый домен в поисковую строку и нажмите кнопку BROWSE HISTORY.

web.archive.org

Перед вами откроется страница с календарем, где вы можете выбрать наиболее интересную вам дату скриншота документа и, кликнув по ней, посмотреть, как выглядел сайт несколькими годами ранее.

Страница Веб Архива

Запретить сканирование web-сайта боту The Wayback Machine можно при помощи команды в robots.txt.

User-agent: ia_archiver
Disallow: /

Для чего нужен web.archive.org?

В первую очередь, Веб Архив предназначен для пользователей, которые хотят просмотреть информацию с «мертвого» web-сайта, пропавшего из Сети по тем или иным причинам. В некоторых случаях web.archive.org помогает даже восстановить проект, который был утерян из-за не продленного во время хостинга или домена.

Нередко посетители, привыкшие к общению и обмену информацией на определенном сайте, сами восстанавливают полюбившийся ресурс на новом домене, копируя туда статьи из архива.

Кроме того, Веб Архив – это прекрасная возможность изучения истории того или иного сайта или домена. Иногда в истории web.archive.org сохраняются поистине удивительные «приключения» домена, когда за время его существования на нем несколько раз создается новый web-проект совершенно новой тематики.

Некоторые web-мастера считают Веб Архив удивительным по своей легкости и доступности сервисом для заработка, ведь хранящийся там контент не только уникален, но и бесплатен.

Итак, как заработать с помощью web.archive.org?

  1. Зарегистрировать освободившийся домен с тИЦ и PR и залить на него спарсенный из Веб Архива сайт, находящийся на нем когда-то.
  2. Использовать найденный уникальный контент для наполнения MFA, сплогов и даже СДЛ. Кроме того, найденные тексты можно использовать для размещения через биржи статей с целью продвижения вашего сайта.
  3. И наконец, самый простой способ – продать найденные уникальные статьи на биржах текстов, выдав их за свои.

Важно. Многие web-мастера, не желающие иметь проблем, связанных с нарушением авторского права, почему-то уверены в том, что парсинг Веб Архива является абсолютно безопасным. Дескать, если сайт умер, то принадлежность размещенных на нем когда-то статей доказать невозможно. Однако не стоит забывать, что на найденном в archive.org «мертвом» сайте также могут находиться отсканированные статьи, принадлежащие конкретному автору, который при необходимости сможет легко доказать, что размещенные на вашем сайте статьи – не ваши. Поэтому будьте крайне внимательны и осторожны.

Как искать уникальный контент в Веб архиве: поиск «мертвых» сайтов

Основной вопрос новичков, которые собираются парсить уникальный контент из Веб архива: где находить адреса доменов, где когда-то располагались web-проекты с качественными и интересными статьями? Однозначного ответа на этот вопрос не существует, особенно если учесть, что Веб Архив ежедневно изучают сотни web-мастеров, ищущих ту самую «золотую жилу» - страницы с уникальными и интересными текстами, в результате чего хранящиеся в web.archive.org статьи быстро распространяются по Сети.

Приведем лишь несколько способов искать домены в Веб Архиве, каждый из которых имеет свои преимущества и недостатки.

Анализ списка освобождающихся доменов

Скачиваем список освобождающихся доменных имен со страницы https://www.nic.ru/auction/forbuyer/download_list.shtml. Открываем файл формата . TSV в Excel или любой другой аналогичной программе. Находим там домены, которые, предположительно, могут быть нам интересны. К примеру, имена, в состав которых входит слово seo, скорее всего, использовались для создания блога о раскрутке сайтов. Проверять все домены из списка подряд, не имея соответствующего софта, бессмысленно, так как это приведет к значительным потерям времени. Гораздо менее затратным будет даже самостоятельное написание статей, а не их поиск.

К недостаткам этого способа относится его значительные временные затраты: на изучение большого количества доменов может уйти немало времени.

Анализ конкурентных ресурсов

Неплохим решением может быть специальное отслеживание ряда конкурентных сайтов, которые по своим признакам и параметрам являются явными кандидатами попадания под фильтр АГС. К примеру, вы можете спарсить выдачу Google по важному для вас запросу, а затем вручную просмотреть сайты конкурентов. Если на этих проектах активно размещаются вечные внешние ссылки, в результате чего сайт быстро заспамливается, это явный признак того, что в скором времени владелец откажется от своего сайта, просто не продлив домен. Весь контент этого сайта в скором времени вылетит из индекса.

Способ подходит лишь тем, кто не жалеет времени на анализ конкурентных ресурсов.

Изучение старых каталогов ссылок и статей

Хороший список «мертвых» ресурсов можно найти в старых каталогах ссылок, прогон по которым осуществлялся несколько лет назад. Способ несколько нудный и муторный, зато позволяет быстро находить сайты определенной тематики.

The Wayback Machine: стоит ли овчинка выделки

Как видим, поиск уникального контента в Веб Архиве может потребовать у вас немало времени. Скорее всего, затраченное время намного выгодней было бы потратить на написание или заказ статей. Поиск в web.archive.org можно порекомендовать лишь тем, кто или твердо знает, что именно он ищет (читай: имеет список конкретных «мертвых» сайтов, которые хочет проверить), либо тем, кто испытывает культурологическое удовольствие от изучения сайтов прошлых лет.

Не забудьте и о том, что в случае вашего небрежного отношения к сайту и его техническому обеспечению, благодаря Веб Архиву, и ваш ресурс может возродиться под чужим руководством, спустя некоторое время после "виртуальной" смерти.


Меню сайта

Поиск текстов на web.archive.org
Поиск текстов на web.archive.org