Наполнение сайта контентом > Воровство контента > Защита от парсинга и плагиата

Как предотвратить парсинг RSS-лент

Появление RSS-лент сделало очень удобным для пользователя Интернета агрегацию обновлений нужных ресурсов, но, в то же время предоставло злоумышленникам возможность легко получать чужой контент и использовать его в своих целях.

Методов защиты от этого нет, есть только варианты усложнения воровства с блогов. К ним относятся:

  1. отдача в RSS анонса поста, а не полной версии;
  2. использование ссылок на свои материалы на постоянной основе;
  3. установка на рисунки, используемые в постах, ссылок на блог или его страницы;
  4. создание всплывающих подсказок на тексте и копирайтов, помогающих установить автора украденного материала;
  5. замена части текста прозрачными изображениями с аналогичным текстом;

Если вы устанавливаете ссылки на изображения, используемые в постах, и делаете внутреннюю перелинковку, то есть небольшой шанс, что вор заберет с вашего сайта не только чистый текст, но и прописанные вами ссылки.

Использование адреса вашего блога и имени во всплывающих подсказках к тексту или в закомментированных строках (через <!-- и -->) позволяет легко доказать, что текст был украден с вашего блога. Еще лучше, если в RSS-ленте будет показываться ваш копирайт, свидетельствующий о ваших авторских правах на материалы. Предъявив эти свидетельства хостеру сайта вора, можно с большей уверенностью надеяться на отключение площадки преступника.

И, наконец, о том, почему замена русских букв в RSS-ленте на английские аналоги, является самым верным способом оградить вас от негативных последствий воровства. Для того, чтобы страницы какого-либо ресурса участвовали в результатах поисковой выдачи, они должны содержать уникальный текст. Страницы с неуникальными текстами вызывают подозрение поисковиков, и могут находиться на последних местах в выдаче, или вовсе не участвовать в ней. Проще говоря, неуникальный контент попадает под пессимизацию или другие негативные санкции поисковиков.

Поэтому вопрос уникализации материалов остро стоит и перед оптимизаторами, занимающимися статейным продвижением, и перед вебмастерами, зарабатывающими на созданных для Sape сайтах. Тем не менее, из-за несовершенства поисковиков, неуникальные страницы могут достаточно долгое время находиться в индексе ПС и даже в выдаче занимать более высокие места, чем первоисточник материала.

Если же страница содержит сомнительный, сгенерированный без ручной проверки текст, текст, состоящий не из осмысленных предложений, а представляющий собой «кашу», то странице с таким текстом будет сложно не только попасть в индекс, но и сложно в нем удержаться. Бессмысленный набор слов может привести к бану сайта. Забаненные площадки не принимаются к участию в биржах ссылок, а если сайт попал в бан после прохождения модерации, то площадка вскоре будет исключена из биржи.

Я говорю о биржах потому, что автоматически наполняемые ворованными материалами блоги и сайты, созданные для бирж ссылок, сейчас являются главной причиной воровства. Крадеными текстами наполняют и обычные сайты, которые зарабатывают на продажах услуг или товаров, но воровство для бирж происходит, все же, чаще.

Использование этих методов помогает если не предотвратить, то усложнить воровство текстов с блога. Если блоггер вполне способен ставить ссылки на изображения в посте, и регулярно ссылаться на свои прежние материалы, то вставка копирайта в текст, отдаваемый в RSS, а главное, подмена букв, зависят от плагинов. Некоторые плагины позволяют вставить свой копирайт в подвал фида, некоторые делают возможным вставку произвольного текста в произвольное место в RSS-посте, и ни один не позволяет сделать подмену букв.

Плагин для защиты от парсинга RSS

Deferred RSS, еще один плагин для WordPress, который выполняет сразу несколько функций. Во-первых, плагин позволяет через настройки, не редактируя шаблон и не копаясь в исходниках, отложить отправку материала в RSS на заданное время — на минуты, часы или дни. Во-вторых, в подвал RSS-публикаций можно вставить свой копирайт. В-третьих, можно в любом месте поста задать произвольный текст, который будет показан только в RSS или наоборот, в RSS показан не будет. И, наконец, в-четвертых, плагин заменяет русские буквы английскими аналогами.

Вставка копирайтов работает нормально и пользоваться ей можно.

Отложенная публикация в RSS нужна для того, чтобы дать поисковым системам возможность проиндексировать контент на вашем блоге раньше, чем на сайте злоумышленника. Это немного увеличивает шансы быть признанным первоисточником, а не дубликатом. К сожалению, на автонаполняемые ресурсы, куда воруются наши материалы, поисковые боты могут заглядывать чаще, чем на блог первоисточника, так как автор выдает посты реже, нежели на сайте преступника появляются новые ворованные материалы. Чем реже вы пишете, тем меньше у вашего блога шансов быть первоисточником в глазах ПС.

Выставленную в настройках Deferred RSS отсрочку, нужно использовать для сообщения поисковикам о новом материале на блоге. Для этого подойдет и пинг, и кросспосты на блогхостинги. Кросспосты не должны быть автоматическими, так как автоматический кросспост использует RSS, а значит, новые посты появятся на блог-хостингах не раньше, чем в ридерах, и русские буквы в них будут уже заменены на английские. Лучше использовать ручной кросспостинг: краткую выдержку из новой публикации в блоге вставить в пост на livejournal.com со ссылкой на полную версию. А уже из livejournal.com настроить кросспост на другие платформы. Хорошо подойдут сообщества, где вы можете проанонсировать свой новый пост, а также социальные закладки.

В подвал публикации в RSS нужно вставить подробный текст, а не ограничиваться краткой отпиской в виде даты и значка копирайта. Читателям абсолютно не помешает даже если вы засунете туда несколько абзацев, а вот ворам совершенно ни к чему строки с условиями ре-публикации ваших материалов. Поэтому, подробно прописывайте свои условия, пусть они гордо висят на автонаполняемых сайтах.

Через синтаксис плагина можно вывести нужную информацию только в RSS-ленте, но не в блоге, или только в блоге, но не в RSS-ленте. Вставляйте копирайты, сообщайте о себе, как об авторе материалов. Еще раз повторюсь, что читателям ваши копирайты не помешают, а в блоге они будут идти как комментарий и будут видны только в исходном коде. К тексту в этих тегах можно применять стили, можно ставить ссылки, можно подгружать изображения, которые будут видны только в RSS-ленте. Ну и еще один способ применения этой функции — предоставление каких-либо «вкусностей» подписчикам. Раньше приходилось подключать еще один плагин, чтобы скрыть какое-либо содержимое блога, а сейчас можно это делать с помощью Deferred RSS>.


Меню сайта

Как предотвратить парсинг RSS-лент
Как предотвратить парсинг RSS-лент