SEO продвижение > Панель инструментов Google Webmaster Tools > Гугл WMT: ошибка считывания

Google Webmaster Tools: ошибки при сканировании

Ошибки считывания - это проблемы, с которыми может столкнуться Google бот во время перебора страниц вашего сайта. Так что информация будет полезной. Когда я только начал писать эту статью, то в большинстве случаев я описывал, какие появились улучшения, и лишь в некоторых (действительно сводящих с ума) случаях, я описывал, как некоторые полезные функции были удалены. Но после того, как я внимательно просмотрел все эти изменения, пришлось внести поправки. Была удалена очень полезная информация, которая кроется под несколькими изменениями в пользовательском интерфейсе. Если честно признаться, то мне не очень приятно писать об этом, по той простой причине, что мне очень нравится webmaster tools.

Ошибки сайта и ошибки URL

Ошибки поискового робота были разделены на две основные категории: ошибки сайта и ошибки URL. Очевидно, что ошибки сайта встречались именно на самом сайте, чего нельзя сказать об URL.

Ошибки сайта разбиты на категории:

DNS – подобные ошибки включают следующие сообщения: тайм-аут DNS, доменное имя не найдено и ошибка DNS. (Хотя в настоящее время эти специфические ошибки больше не включены в список. Об этом будет написано ниже).
Связь с сервером – данный тип ошибок включает следующие сообщения: сеть недоступна, нет ответа, в доступе отказано, перезагрузка доступа. (Эти характерные ошибки также более не включены в список).
Доступность Robots.txt – эти ошибки характерны для файла robots.txt. Google бот получает ошибку сервера, когда пытается получить доступ к этому файлу. В этом случае поисковой робот просто не знает, существует ли вообще файл robots.txt. И если так, то робот не может знать, какие страницы необходимо блокировать. Таким образом, поисковой бот перестает анализировать сайт, до тех пор, пока не устраняется ошибка с данным файлом.

Ошибки URL разбиты на следующие категории

Ошибки сервера – это ошибки 5хх (такие как ошибка 503, которая возникает при техническом обслуживании сервера).
Программные ошибки 404 – это URL, которые возвращают пользователя на страницу ошибки, но не предоставляют ответный код 404 (обычно они предоставляют ответный код 200 или 301/302). Страницы с ошибками, которые не содержат код 404, могут значительно навредить сайту, поскольку Google бот может просто перестать возвращаться на подобные страницы, и, соответственно не будет индексировать доступные страницы. В результате чего, страницы могут просто не оказаться в индексе, что не очень хорошо не только для веб мастера, но и для пользователя.
Доступ запрещен – это URL, которые выдают ответные коды 401, 403 или 407. Очень часто это означает, что подобные URL напоминают о том, что необходимо войти на сайт, что, соответственно, не является ошибкой. Тем не менее, чтобы избежать неприятностей при сборе информации с вашего сайта поисковым пауком, лучше подобные URL заблокировать. Для поискового бота это будет более эффективно.
Не найден – это типичные ошибки, которую выдают ответные коды 404 или 410.
Переход не выполнен – (обновлено) Это URL, являющиеся синхронизированными редиректами, при переборе которых у Google бота появляются затруднения (например, из-за цикличности редиректа). В списке UI есть ошибки с редиректом URL, которые выдают ответный код 301 или 302, однако детальной информации по этой ошибке не предоставлено.
Другие – это очень обобщенное понятие, которое включает все иные ошибки.

В настоящее время Google отображает тенденции за последние 90 дней для каждого типа ошибки. Кажется, что ежедневный подсчет объединяет URL с определенным количеством ошибок, о которых в очередной раз удалось узнать Google, а не количество ошибок, с которыми столкнулся поисковой бот в определенный день. Как только Google бот возвращается на ваш сайт, и больше не сталкивается с той или иной ошибкой URL, то данная ошибка удаляется из списка (и подсчета). Вдобавок к этому, Google все еще сохраняет в списке дату, когда Google бот впервые столкнулся с ошибкой. Но сейчас, когда вы кликаете по определенному URL, чтобы узнать подробности, вы можете увидеть дату, когда Google бот последний раз пытался получить доступ к URL.

Приоритеты и фиксированный статус

Разработчики Google говорят, что в настоящее время URL располагаются в списке по порядку, который основан на большом количестве факторов. Они включают следующие показатели: можете ли вы решить проблему или нет, находится ли URL в карте сайта, получает ли страница с данным URL много трафика или нет, и сколько входящих ссылок ведет на данный URL. При этом вы можете напротив каждого проблемного URL поставить значение «исправлено» и удалить его из списка. Однако, если Google бот вновь окажется на странице с данным URL, и ошибка окажется неисправленной, то URL вновь окажется в списке.

Вы можете использовать «проверку на доступность» (fetch) – инструмент от Google, который имитирует действия поискового паука. Так вы сможете понять, удалось ли вам решить ту или иную проблему. В настоящее время сделать это вы можете с помощью кнопки на панели вебмастера, которая будет доступна, как только вы перейдете на страницу с детальной информацией. Поскольку есть ограничения на использование данного инструмента (воспользоваться проверкой на доступность того или иного URL можно 500 раз в неделю на одном аккаунте (не на одном сайте)), нужно подходить к количеству его использований с умом. Кстати говоря, предыдущий лимит ограничений на использование увеличился.

К сожалению, с появлением данных обновлений, некоторые весьма полезные функции просто пропали.

Возможность загружать все источники ошибок. Раньше можно было загрузить CSV файл, содержащий список URL, которые выдавали ошибку. Также в этом файле содержался список страниц, которые ссылались на данные URL. Можно было отсортировать CSV по ресурсам, которые ссылались на страницы с ошибками, чтобы найти битые ссылки внутри сайта. Таким образом, у вас был список сайтов, с которыми можно было связаться для изменения обратных ссылок, ведущих на важные страницы вашего сайта. В настоящее время эту информацию можно получить только после того, как кликнешь на URL, где можно посмотреть детали, после этого нужно кликнуть на указатель «Ссылающиеся источники» (linked from). Судя по всему нет способа загрузить эту информацию, на уровне каждой отдельно взятой ссылки. (Обновление: детальная информация все еще доступна через механизм API, который основан на ошибках считывания информации поисковыми ботами).

100К URL каждого типа. До этого, можно было загрузить до 100 000 URL с каждым типом ошибок. В настоящее время и отображение и загрузка ограничены до 1000. Разработчики Google говорят, что «меньше не значит хуже» и что «на самом деле не было реального способа просмотреть все 100 000 ошибок, также не было способа отсортировать, найти их или же определить уровень исправленных ошибок». Google не прав. Были абсолютно достижимые способы просмотреть, отсортировать и найти ошибки, а также определить количество исправленных ошибок. Все это можно было сделать с помощью загрузки файла CSV и его последующей интеграции в Excel. Чем больше информации, тем проще выявить шаблоны, особенно, когда речь идет о больших сайтах, которые имеют большое количество серверов, систем управления контентом и дизайнов страниц. Можно сказать, что в этом пункте разработчики не предусмотрели многих вещей. (Обновление: 100К URL для каждого типа ошибок снова доступны через основанные на API ошибки считывания, а также через основанную на API загрузку CSV файла).

Ошибки редиректа – необъяснимо, но ошибки, связанные с невозможностью перейти по ссылке, более не вносятся в список, как ошибки цикличности редиректа или как большое количество редиректа. Вместо этого теперь отображается ответный код (301 или 302). По мне, так это очень странно (если не говорить о малоэффективности), поскольку 301 обычно не содержат ошибок вовсе, то есть перенаправление осуществляется должным образом, а код 302 бывает лишь изредка проблематичным. Но при этом наличие дополнительной информации всегда было очень важным, поскольку именно благодаря ней можно было проще решить проблему. То, что в списке содержатся URL, по которым не удается перейти и которые выдают 301 статус, просто вводит в заблуждение. Если по определению это список URL, которые содержат ошибки редиректа, то упущение того, что из себя представляет ошибка (например, слишком большое количество редиректов), делает данную информацию совсем бесполезной. (Обновление: согласовали с Google, что данный список URL, которые выдают 301 или 302 ответные коды, говорит о том, что Google бот не сумел счесть эти ссылки. Однако, специфические детали все еще доступны через фид ошибок поискового бота, основанном на API, а также через загрузку CSV, также основанную на API ).

Специфические черты программной ошибки 404. Отчет о программной ошибке 404 имел обыкновение определять, URL в списке выдавали статус 200 или перенаправляли на ошибочную страницу. Однако в настоящее время колонка со статусом кода пуста. (Обновление: Эта информация доступна через фид ошибок поискового бота, основанном на API, а также через загрузку CSV, также основанную на API ).

URL, блокируемые в robots.txt. Разработчики Google говорят, что они удалили данный отчет, потому что «в то время как эта информация может оказаться полезной для установления проблемы с вашим файлом robots.txt, как правило, страницы с проблемным URL блокируются вами намеренно». Также они говорят, что подобная информация будет в скором времени доступна в секции «доступ поискового робота» в webmaster tools. Зачем удалять информацию, которую вы планируете заменить до ее замены? Нельзя ли было перенести отчетность в секцию «доступ поискового робота»? У меня складывается такое впечатление, что они не будут заменять эту информацию, а просто предоставят менее детальную отчетность. Конечно, справедливо замечено, что информация об ошибках в данном отчете ни к чему, сам отчет все же был весьма полезен. Можно было просмотреть файл CSV, чтобы найти страницы, которые по вашим догадкам должны были индексироваться, но оказались заблокированы. Также отчет был очень полезен для установления причин. Почему определенные страницы не индексируются? Можно было воспользоваться данным отчетом, вместо того, чтобы тратить огромное количество времени на поиск источника проблемы. Но в настоящее время ничего этого сделать не удастся. (Обновление 17/3/12: этот отчет все еще доступен через фид ошибок поискового бота, основанном на API, а также через загрузку CSV, основанную на API ).

Характерные особенности уровней сайта. Предыдущая версия данных отчетов содержала список специфических проблем (такие как «DNS тайм-аут» или «доменное имя не найдено»). Они были очень полезны и помогали узнать, что происходит в настоящий момент. В настоящее время, вы получаете информацию только по общей категории, а не по специфическим ошибкам, которые были внутри категории. (Обновление 17/3/12: эта детальная информация все еще доступна через фид ошибок поискового бота, основанном на API, а также через загрузку CSV, тоже основанную на API ).

Специфические URL с ошибками на уровне «сайта». Google считает, что вам не нужно знать URL, если проблема была на уровне сайта. В большинстве случаев, данное утверждение правдиво. Но я сталкивался со случаями, в особенности с ошибками DNS, когда ошибка происходила именно со специфическими URL, а не на всем сайте. Если вы будете знать URL, из-за которого появилась проблема, то таким образом будет легче справиться с ошибкой. (Обновление 17/3/12: эта детальная информация все еще доступна через фид ошибок поискового бота, основанном на API, а также через загрузку CSV, тоже основанную на API ).

Что касается моего комментария в предыдущей версии данной истории, в котором я говорил, что «у меня складывается впечатление, что большинство всех этих недавних изменений имеет цель сделать всю эту информацию более доступной для владельцев небольших сайтов. При этом крупные порталы не были учтены. Для последних гораздо лучше иметь больше информации, поскольку у нас есть системы парсинга и сбора информации», то Google ответил вот что:

«Стратегия Webmaster Tools заключается в том, чтобы улучшить веб интерфейс и предоставить важную, действенную и полезную информацию. Все эти изменения нацелены не только на владельцев небольших сайтов, но и на всех пользователей, включая более продвинутых. Например, мы внесли изменения, согласно которым теперь ошибки считывания отображаются за последние 90 дней. Делалось это для того, чтобы показать полную совокупность URL ошибок, вместо простого отображения 100 000 URL. Продвинутые пользователи все еще могут получить доступ к более расширенной информации посредством API. Одно из улучшений коснулось отображения ошибок – теперь отображается полный список URL с ошибками, и мы полагаем, что данное нововведение позволит получить крупным ресурсам более точную информацию. Например, если раньше у сайта было 35 миллионов ошибок «не найдено», то это количество ограничивалось списком в 100 000 ошибок. В настоящее же время, владелец сайта может видеть новые числа, и даже следить за тем, где произошло увеличение. Мы думаем, что это значительное улучшение того, что было раньше».

Появление общего количество ошибок, конечно же, хорошо. Очень большие сайты, вероятно, имеют большее количество ошибок, чем 100 000. Знание важности проблемы полезно при выставлении приоритетов.


Меню сайта

Google Webmaster Tools: ошибки при сканировании
Google Webmaster Tools: ошибки при сканировании