Владельцы популярных сайтов относятся к парсингу по-разному. И если одни не против, чтобы конкуренты «заимствовали» информацию для проведения маркетинговых исследований, тем самым поддерживая здравую конкуренцию в выбранной нише рынка, то другие стараются «защититься» от этого любыми способами, в том числе и блокировкой парсинга. В частности, речь идет о проверке IP-адреса, анализе заголовка HTTP-запросов, мониторинге использования Javascript и т.д. При этом стоит отметить, что обойти запреты и блокировки достаточно просто, особенно – при заблаговременном выявлении проблемы. И команда проекта «Спарсим» решила рассказать, как парсить данные без риска блокировки со стороны проекта ( или же как обойти блокировку парсинга ), поделившись важной, полезной, интересной, а также актуальной на 2021 год информацией со всеми читателями нашего блога!

Как сканировать сайты без блокировок?
Обойти блокировку парсинга, ограничения, установленные разработчиком, а также снизить вероятность попадания в «Черный список» можно несколькими способами:
1. Подмена IP
Немногим ранее, проверка IP пользователей считалась одной из самых эффективных тактик защиты от парсинга. Поэтому часть сервисов использует несколько разных адресов. При блокировке одного из них, скрипт направляет запрос от другого. При этом стоит отметить, что при настройке скрипта можно пользоваться API разработчиков, либо подключать сторонние прокси-сервера, направляющие запрос через серию разных IP.
При этом стоит отметить, что часть сайтов используют «черные списки» — базы данных адресов, с которых хотя бы раз наблюдалась подозрительная активность. Обойти это ограничение также просто: достаточно использовать домашние или мобильные прокси. В любом случае, подобрав правильные IP, вы сможете парсить нужную информацию без риска блокировки.
2. Настройка реального UserAgent
Разработчики большинства популярных сервисов не утруждают себя настройкой UserAgent – особого идентификатора, сообщающего информацию об используемом браузере. Следовательно, в отсутствие такой информации, сайт «выдаст» блокировку. К счастью, настроить его можно в несколько кликов, а во избежание неприятных ситуаций, вы можете «замаскироваться» под бота Google.
Важно понимать, что UserAgents должны быть «свежими» и учитывать данные, соответствующие последним обновлениям разработчиков популярных браузеров – Firefox, Opera, Chrome, Safari и т.д. Нелишним будет и «чередование» между разными браузерами, т.к. внезапный всплеск одинаковых запросов может стать причиной обнаружения парсера и помещает «вытащить» нужную информацию.
3. Правильный интервал между запросами
Если с одного IP фиксируется по несколько запросов в секунду на протяжении 24 часов, даже самая примитивная блокировка парсинга заподозрит неладное и наложит соответствующие ограничения. Во избежание таких недоразумений, при настройке парсера желательно настроить случайные задержки (в пределах 2-10 секунд). При этом стоит отметить, что желание извлечь нужные данные быстро – это хорошо, но не забывайте, что таким образом вы можете «уронить» сайт для всех посетителей.
Более того, особо «вежливые» разработчики оставляют информацию о перерывах между запросами в robots.txt, найти который можно по адресу http://example.com/robots.txt или http://www.example.com/robots.txt.
4. Настройка рефереров
При настройке заголовка HTTP-запроса можно установить идентификатор, определяющий, откуда именно вы попали на страницу. В большинстве случаев, речь идет о поисковой системе – Google или Yandex, нередко используют и соцсети — Facebook, Twitter, Instagram. При этом сам рефферер выглядит следующим образом:
«Referer»: «https://www.google.com/»
В случае с Google, при парсинге сайтов по региональной выдаче, лучше установить соответствующий домен: .ru, .com.ua, .kz и т.д.
Кроме того, вы можете использовать:
- Безлоговые браузеры;
- Обнаружители невидимых ссылок;
- Мониторинг динамических изменений;
- Службы решения CAPTCHA.
При этом стоит отметить, что если информация нужна срочно, но доступ ограничен по ряду причин, вы можете воспользоваться «обходным путем» и спарсить все необходимые данные с кэшированной (сохраненной копии) страницы Google.