Если с десяток лет назад, анализировать конкурентов по нише приходилось вручную, то сегодня, благодаря стремительному развитию информационных технологий, компании получили по-настоящему уникальный инструмент для быстрого сбора и эффективной обработки данных из открытых источников. Речь идет о веб-скрепинге – простейшем скрипте, способном анализировать сотни страниц для последующего формирования точного отчета, либо обновления данных в режиме реального времени. При этом стоит отметить, что далеко не все владельцы сайтов рады такому «заимствованию» и стараются защититься от «скребков».

В большинстве случаев, столкнувшись с выставленной «обороной», большинство скриптов пропускают такие страницы. Но нередко, именно на них и содержится вся нужная нам информация. Поэтому если в ходе парсинга вы столкнулись с блокировкой – не стоит отчаиваться, ведь выход есть всегда.
Что мы знаем о парсинге?
Несмотря на сравнительно недавнее распространение, глобальная сеть стала крупнейшим источником информации в мире. Ведь по статистике, на каждого жителя нашей планеты приходится от 1 до 3 сайтов с бесчисленным количеством отдельных страниц. Причем речь идет не только о новостных, информационно-развлекательных или корпоративных ресурсах. Ведь интернет считается одним из самых перспективных каналов для реализации различных товаров и услуг.
При этом стоит отметить, что сравнительно недавно, «молодые» интернет-магазины не могли конкурировать с сайтами по типу Amazon или Flipkart из-за масштабов этих проектов. Ведь проанализировать товарный ассортимент, уровень конверсии и прочие показатели, что отражаются на успешности электронной коммерции, вручную было практически невозможно (с учетом того, что данные обновляются ежеминутно).
В поисках решения этой проблемы, программистам удалось автоматизировать процесс извлечения информации как со статических, так и с динамических страниц. Скрипт, получивший название «парсер», лег в основу веб-скрепинга и позволил собирать данные о товарном ассортименте, ценах на продукцию, а также скидках у конкурентов для анализа успешности промо-кампаний, направленных на привлечение клиентов.
К примеру, ваша компания занимается разработкой и продажей офисного ПО. Прежде чем выйти на рынок, вам придется проанализировать нишу, а также изучить данные о ближайших конкурентах. Далее, проанализировав сайты «соседей», вы сможете получить представление об актуальных ценах на рынке и сформировать максимально выгодное предложение для потенциального покупателя.
Как сайты защищаются от парсинга и реально ли обойти выставленную оборону?
Начинающим онлайн-предпринимателям, делающим первые шаги в сфере электронной коммерции, придется ориентироваться на популярные, хорошо зарекомендовавшие себя сайты. При чем в процессе скрепинга вы можете натолкнуться на различные ошибки, вызванные защитой проекта от «соскабливания».

Как это работает?
Информация, размещенная на страницах, может использоваться по-разному. Обычные пользователи просматривают её при выборе того или иного продукта, в то время как конкуренты анализируют сайт для «извлечения» информации, позволяющей получить конкурентное преимущество. При этом часть предпринимателей, не довольных такими раскладами, стараются защититься от «проникновения» ботов.
Инструменты, используемые программистами крупных проектов, идентифицируют скрипты и преграждают им путь к получению нужной информации. Чаще всего, речь идет о:
- Блокировке “подозрительного” IP-адреса. Одна из простейших схем защиты, обходится с помощью подмены идентификатора через прокси-сервера и VPN-сервисы;
- Анализе User-agent, содержащем информацию об используемом устройстве, браузере и т.д. Чтобы «перехитрить» такую оборону, достаточно «заменить» файл на копию «подлинника», либо настроить скрипт по аналогии с
- “Подозрительной активности”. Избежать этого можно с помощью настройки бота под действия, имитирующие поведение реального пользователя, выставив правильные интервалы между обращениями к отдельным страницам.
Кроме того, для определения парсеров используют:
- Анализ источника, с которого вы перешли на сайт. Решение – добавление заголовка referrer — https://www.google.com/;
- Ловушки-приманки – невидимые ссылки, улавливаемые исключительно роботом. Поэтому прежде, чем начать парсинг важной страницы, проанализируйте ее через исходный код или «цветовые схемы»;
- Ошибки в логах. Обход – использование безлоговых браузеров, позволяющих имитировать тот или иной веб-обозреватель с возможностью «подстановки» нужных нам параметров;
- КАПЧА (Captcha, reCaptcha и т.д.) – графический ключ, не отображающийся у ботов. Решение – оплата услуг сервисов автоматического решения капчи.
Кроме того, обойти выставленную защиту можно с помощью парсинга «истории», сохраненной в Google Cache.