Иногда владельцы сайтов сталкиваются с необходимостью удалить страницы из поиска Яндекс и Google, чтобы сделать свой web-ресурс более качественным в глазах поисковых роботов или исключить из выдачи случайно попавшую туда конфиденциальную информацию. Удаление страниц из поиска может понадобиться в случае, если в индекс попало множество дублей контента или полупустых страниц, служебные разделы (например, доступ в админ-панель или списки клиентов и сделанных ими покупок). Яркий пример необходимости скорого удаления страниц из поиска – это попавшие в поиск Яндекса ФИО покупателей магазина для взрослых, когда, введя в поисковую строку необходимый запрос, пользователь мог получить сведения о каждом покупателе, включая его местонахождения и приобретенный им товар.
Однако намного чаще вебмастерам приходится удалять страницы из поиска с целью предотвращения попадания под фильтр ПС из-за множества одинаковых страниц, дублирующих одну и ту же информацию. Далеко не все неопытные владельцы сайтов способны с первой попытки настроить CMS идеальным образом, поэтому порою исправлять ошибки приходится на уже действующем и проиндексированном ресурсе.
1. 404 ошибка
Самый простой вариант исключить страницу из индекса – это удаление ее на своем сайте таким образом, чтобы ее адрес отдавал 404-ую ошибку, указывающую на то, что эта страница теперь не существует.
HTTP/1.1 404 Not Found
Учтите, что после того, как вы удалите страницу, из выдачи поисковых систем она пропадет не сразу, а только после того, как робот посетит ее бывший адрес.
Данный способ имеет существенный недостаток: он не подходит владельцам сайта, которым требуется только исключить страницу из поиска, а не удалять ее полностью.
2. Запрет в robots.txt
Файл robots.txt – это наиболее удобный способ указать поисковым роботам, какая информация запрещена для индексации. Синтаксис robots.txt позволяет удалять из поиска страницы, разделы и даже отдельные элементы сайта, включающие в свой адрес определенное сочетание символов.
Закрыть от индексации админ-панель можно так:
User-Agent: *
Disallow: /admin/
Скрыть от индексации определенную страницу:
User-Agent: *
Disallow: /contacts.html
Disallow: /search.php?q=*
Запрет индексации в robots.txt также потребует некоторого времени, пока поисковые роботы не исключат из поиска нужные страницы. Кроме того, несмотря на запрет в robots.txt, они могут продолжать оставаться в индексе, если на них стоят внешние ссылки.
3. Мета-тег robots
Использование специального мета тега
<meta name="robots" content="noindex,nofollow" />
в HTML коде страницы указывает роботам на то, что эту страницу не нужно показывать в поиске. Многие CMS или дополнительные модули к ним по умолчанию включают данный тег в страницы, присутствие которых в индексе принесет только вред сайту. К ним относятся результаты поиска, отдельные сообщения на форумах, ссылки на отдельные комментарии и некоторые другие.
Если же такая опция в CMS отсутствует, то внедрить данный тег может быть довольно затруднительно: это потребует анализа всего кода движка и написание PHP скрипта, выявляющего страницы, которые нужно удалить из индекса по определенным параметрам.
4. X-Robots-Tag
Владельцы сайтов, которым требуется удалить страницы из индекса Google и других зарубежных ПС, могут использовать http-заголовок X-Robots-Tag, который не виден в HTML коде страницы.
Оптимальный способ для желающих скрыть факт наличия ссылок от поисковых роботов, но обмануть купивших ссылку на сайте сеошников.
Ускорить исключение из индекса может запрос в панели вебмастеров, который позволяет удалить страницу из поиска в течение нескольких часов в Google, и в следующем апдейте в Яндексе. Однако этот способ может использоваться только как дополнение к предыдущим: удаляемый адрес должен отдавать 404 ошибку, закрыт в robots.txt или содержать мета тег
<meta name="robots" content="noindex,nofollow" />
Попадание в индекс поисковых систем ненужных страниц – это не только значительное повышение вероятности попадания под фильтр, но и значительный риск потери лояльности клиентов и постоянных посетителей, которые могут пострадать, если в поиске окажутся их данные. Именно поэтому работу по составлению robots.txt, а также размещению мета тега meta name="robots" стоит проводить заблаговременно перед началом работы web-ресурса.
Меню сайта
Как удалить страницу из индекса Яндекса и Google |