Начнем с того, что они это делают. От этого стонут рерайтеры (с копипастерами расправились уже на предыдущем этапе), пребывают в недоумении многие SEO-оптимизаторы, а некоторые, поняв далеко не очевидный принцип оценки полезности текстов, довольно потирают руки и бесплатно продвигают свои сайты в ТОП, казалось бы, ни на чем. Как же алгоритмы поисковиков устанавливают, полезен или нет тот или иной текст? А примерно так же, как и люди: сравнивая образец с тем, что привыкли видеть до этого. Своего рода текст на чрезмерную "уникальность".
Человек даже беглым просмотром отличает дорвей от нормального сайта, тексты на котором написаны человеком. Никогда не задумывались, как он это делает? А если дорвей написан на китайском, и при этом имеет приличный дизайн - многие ли отличат? Люди узнают фальшивку по неприемлимо большому количеству нечеловеческих словосочетаний, например "этот поисковые системы способствует разница контент". Самые ушлые догадаются даже, какую фразу пытались синонимизировать. А поисковая система и не собирается гадать: как только процент подобных оборотов существенно превысил максимально возможное количество ошибок, которые свойственно делать людям, принимается решение, что такой текст никому не полезен и не нужно его показывать в выдаче. Если сайт уж очень сильный, то следует один беглый взгляд асессора - и нажимается красная кнопка "бан".
Как поисковые системы отлавливают плохо сделанные рерайты?
Долгие годы эта задача была не по зубам создателям алгоритмов индексации и ранжирования, но этой осенью Гугол показал, что и это он способен решить (а вот Яндекс - пока что нет). Плохо сделанные рерайты он отлавливает методом описательных слов. Для этого отбрасываются редкие и очень короткие слова, все прилагательные, а по остальным собирается статистика как со всего сайта в целом, так и с проверяемой страницы.
Сгенерированными текстами и плохими рерайтами поисковик не обманешь!
Если вычищенное таким образом семантическое ядро страницы в целом соответствует тематике сайта, и если в Интернете не находится текста, который уж очень сильно напоминает эту выборку, и если частота словоформ примерно соответствует статистике для данного языка - то никаких подозрений не возникает, можно спокойно жить дальше. Если же из подозрительных страниц состоит 90% сайта - то они никогда не будут ранжироваться Гуглом без штрафа. Размер штрафа тем больше, чем ниже "полезность" текста.
Меню сайта
Значимость уникального контента |