К сожалению, веб-разработчикам так и не удалось придумать эффективный способ борьбы с парсерами, «извлекающими» информацию с сайта. Ведь по принципу работы они схожи с ботами поисковых систем. Поэтому если «закрываться» от «гостей», вероятнее всего, вы не попадете или вылетите из топа поисковой выдачи, т.к. ни Яндекс, ни Google не смогут просканировать ваш ресурс. Кроме того, засилье ботов отразится на поведенческих факторах не самым лучшим образом: поисковые системы могут заподозрить вас в накрутке и понизить позиции в результатах выдачи.
Но как понять, что ваш сайт парсят, а также остановить и предупредить подобные эксцессы в будущем? Существует ли «идеальная» защита от парсинга и нужна ли она вообще? Как скрипты, программы и онлайн-сервисы обходят выставленные барьеры? Что такое автопарсинг для сайта? Эксперты команды проекта «СПАРСИМ» решили ответить на эти вопросы, поделившись важной, полезной и актуальной информацией со всеми читателями нашего блога!

Какие способы защиты сайта от парсинга существуют и нужны ли они?
Суть ЭФФЕКТИВНОЙ защиты от парсинга не в закрытии, а в усложнении получения данных со страниц вашего сайта без нарушения доступа для реальных пользователей и поисковых систем. В идеале, защиту от ботов должен предоставлять сам хостинг, поэтому экономить на нем не стоит. Особенно если вы считаете парсеры злом всея интернета.
При схожести поставленных задач, достигать их можно по-разному:
- При помощи CAPTCHA;
- Через блокировку IP с «подозрительной» активностью;
- Посредством предоставления доступа к контенту после регистрации;
- Используя сложную логику построения Javascript;
- За счет динамического изменения структуры страницы;
- Подтверждением авторства в Google и Яндекс;
- Ограничением частоты запроса и объема загружаемых данных;
- Отображением важной информации в виде графических изображений.
Кроме того, при этом стоит отметить, что выставлять такую «оборону» должен профессионал, сведущий во всех особенностях, нюансах и тонкостях парсинга. Ведь в противном случае, вы рискуете навлечь на себя гнев поисковых роботов, попасть под фильтры и вылететь из выдачи без возможности восстановления утраченных позиций. Смиритесь с тем, что информация, выкладываемая в сеть, может быть «позаимствована» конкурентами.
В качестве утешения следует отметить, что Яндекс и Google стоят на стороне авторов и правообладателей, поэтому даже в случае полного копирования, «пират» не получит практически никакой выгоды, а скорее наоборот – множество минусов. А овчинка, не стоящая выделки, вряд ли вызовет интерес у «предприимчивого парсера».
Как понять, что парсят сайт и остановить этот процесс?
Подозрительная активность, отражающаяся в логах сайта и статистике трафика, может говорить о двух вещах. Либо ваш ресурс подвергся массированной DDoS-атаке с целью вывода его из строя, хотя скорее всего его «шерстят» скриптами, ПО или онлайн-сервисами. Если вы не хотите мириться с тем, что наработки и вложенные средства будут использованы «предприимчивыми» конкурентами, попробуйте заблокировать или ограничить доступ IP, с которого поступает множество однотипных запросов.
Кроме того, выявить парсер можно и по косвенным признакам:
- Большая скорость заполнения форм;
- Необычное место нажатия на кнопки;
- Размер экрана, часовой пояс, шрифты в User-Agent.
В ходе “классической” парсинг-атаки на сайт, вы будете получать множество запросов с одного адреса, а юзер агент покажет, что «пользователи» выполняют идентичные действия и нажимают на кнопки в одном и том же месте, с одинаковым интервалом. Остановить это можно с помощью обычной блокировки «подозрительных» IP.
При этом стоит отметить, что при блокировке явного “пирата” не стоит сообщать ему причину, т.к. это может стать подсказкой для модификации парсера с целью обхода существующей блокировки. Кроме того, можно использовать cookies: это поможет повысить скорость загрузки страниц, а также убережет вас от намеренного сканирования с целью похищения важных данных.
Кроме того, вы можете:
- Попросить людей перестать парсить ваши данные. При этом такой способ действительно работает: некоторые пользователи уважают такие просьбы и не вносят ваш ресурс в свои списки;
- Открыть доступ к информации полностью. Но взамен, затребовать указание авторства и ссылку на сайт. Это даст свои плоды в виде повышения ТИц, PR и уровня траста.
Но главное – найти «золотую середину», чтобы принятые меры смогли ограничить присутствие ботов, но не отразились на работе реальных пользователей.
Как парсеры обходят защиту сайта от парсинга?
Существующие программы и сервисы могут обойти любую защиту посредством:
- Копирования страниц;
- Сценариев командной строки;
- Регулярных выражений из шаблонов HTML;
- Запуска виртуальной машины с захватом экрана;
- Ручного поиска вариантов обхода запрета.
Кроме того, одним из видов парсинга можно считать простейший копипаст, от которого, увы, никуда не денешься. Ведь если информация находится в открытом доступе, каждый пользователь может зайти на страницу, выделить нужный фрагмент и, с помощью комбинации CTRL+C – CTRL+V, скопировать его на свой сайт.
Увы, но в попытках заблокировать доступ ботам, люди «подстегнули» интерес специалистов к теме обхода блокировки и сегодня, боты могут вести себя идентично живому пользователю. При этом стоит отметить, что попытки выставить защиту сайта от парсинга оказываются нерентабельными из-за стоимости технической разработки средств, а также проблем, которые могут возникнуть у пользователей, заинтересованных в вашем ресурсе. Гораздо интереснее и эффективное сделать собственный открытый API с продуманной экосистемой. Ведь именно за такими технологиями стоит будущее всего интернета!