В арсенале современного маркетолога должны быть программы для парсинга, автоматизирующие сбор открытой информации с сайтов конкурентов. Конечно же, все это можно делать и вручную, тратя ценное время, которое, как известно, стоит денег. Поэтому парсинг сайтов – это настоящая находка для современного бизнеса.
Ведь программа, занимающаяся поиском данных под контролем пользователя или в автоматическом режиме, позволяет:
- Снизить нагрузку на персонал организации, оставив время на решение более важных стратегических задач;
- Разгрузить бюджет компании посредством сокращения средств на содержание отдела аналитики;
- Получать максимально свежие, объективные данные об актуальных акциях, распродажах, промо-кампаниях конкурентов.
Поэтому мы решили рассказать о самых популярных сценариях использования парсеров, дать правовую оценку парсингу в России, а также рассмотреть десяток популярных программ и сервисов, применяемых маркетологами крупных компаний.
Сферы использования данных парсинга

Парсер сайтов – инструмент универсальный. Ведь при правильной настройке, он позволяет находить, систематизировать, анализировать полезную информацию, используемую при построении стратегии развития вашего бизнеса. Программы, онлайн-сервисы, приложения и плагины для браузеров используют с целью:
- Сбора данных для маркетингового исследования рынка. Возможность проанализировать конкурентов, а также отследить изменения их каталогов за квартал или полугодие позволит оценить актуальную ситуацию в выбранной вами нише. В случае с парсерами, речь идет не об одном, а о нескольких (подчас – десятках) сайтах;
- Сбор контактной информации. Парсер позволяет собрать и систематизировать номера телефонов, почтовые и email-адреса, а также сайты потенциальных поставщиков или ссылки на страницы социальных сетей клиентов, попадающих в категорию целевой аудитории вашего проекта;
- Конкурентная разведка в офлайне. «Скопировав» нужные данные в отдельный файл, вы сможете изучать своих соперников не подавая признаков посещения их сайта, а также работать независимо от интернет-соединения. Кроме того, этот инструмент помогает в обучении молодых специалистов, занимающихся web-программированием или UX-дизайном;
- Поиск соискателей на вакантные должности. Гибкость настроек выборки данных на основе десятков предлагаемых фильтров позволит найти десятки кандидатов с нужной квалификацией, заинтересованных в трудоустройстве в вашей компании. Причем это работает в обе стороны – соискатели могут настроить парсер на поиск открытых вакансиий по своей специальности;
- Мониторинг цен для рядовых пользователей. Сбор информации по одному и тому же товару из десятков интернет-магазинов позволит найти самое выгодное предложение в соотношении «цена-качество сервиса», а также подтолкнуть потенциального покупателя к принятию верного решения.
Правовая оценка парсинга в России

Не считается ли “заимствование” информации, лежащей в открытых источниках, нарушением права на интеллектуальную собственность? Именно таким вопросом задаются люди, знакомящиеся с парсингом. В соответствии с действующим законодательством РФ, все, что не запрещено считается разрешенным. И покуда работа парсера не перечит положениям закона – он разрешен.
Вообще, в отношении сети интернет в России действует ряд законов, не допускающих:
- Нарушение авторского и смежного права;
- Неправомерный доступ к личным данным граждан;
- Сбор информации, составляющей коммерческую тайну;
- Злоупотребление гражданским правом;
- Использование прав в целях конкуренции.
Таким образом, любая организация может парсить информацию, размещенную в открытом доступе, соблюдая ряд условий:
- Собираемые данные не попадают под закон об авторских и смежных правах;
- Сбор информации не противоречит актуальным положениям законодательства;
- Получение данных не приводит к сбоям в работе сайтов;
- Полученные материалы не создают ограничений свободной конкуренции.
В остальных же случаях, парсинг данных с сайта является незаконным.
Инструменты парсинга для сбора информации

Приступим к разбору десятки самых популярных сервисов, использующихся маркетологами и программистами для быстрого извлечения нужных данных с любого сайта в сети. Часть из них являются абсолютно бесплатными, некоторые не требуют оплаты, но работают с ограниченным функционалом, а другие предлагают воспользоваться всеми функциями сразу после оплаты месячной подписки.
1. Import.io
Простой, понятный, удобный сервис, позволяющий формировать собственные пакеты данных в несколько кликов. Достаточно импортировать информацию со страницы, после чего алгоритм программы экспортирует всю информацию в CSV-файл. Позволяет сканировать и копировать содержимое тысяч страниц в считанные минуты, не написав ни единой строчки кода.
Представлен программным обеспечением для Windows, Mac OS X и Linux, а также онлайн-версии на сайте проекта. Бесплатная версия дает базовый функционал, полный потенциал приложения раскрывается после оплаты ежемесячной подписки в соответствии с выбранным тарифом.
2. ParseHub
Инструмент, способный сканировать и копировать данные с сайтов, использующих JavaScript, AJAX, Cookies, редиректы и т.д. В основе парсера лежат алгоритмы машинного обучения, способные распознавать сложные документы в поисках нужной информации. Программа генерирует отчеты в файлах различных форматов: от txt до баз данных или презентаций в PowerPoint.
Основной упор сделан на веб-версию, однако в магазинах приложений Windows и Mac, а также на сайте компании можно найти десктопные версии программы. В обоих случаях, пользователь может вести лишь 5 проектов одновременно. Но при покупке премиум-доступа по ежемесячной подписке вы сможете запускать до 20 запросов, анализируя десятки тысяч страниц в поисках нужной вам информации.
3. OutWit Hub
Плагин для браузера Mozilla Firefox. При сравнительно небольшом потреблении вычислительных мощностей, инструмент может просматривать, искать и сохранять нужную пользователю информацию в любом удобоваримом формате. Благодаря простому интерфейсу, работать с ним можно даже без базовых навыков программирования.
С его помощью можно «вытянуть» любую информацию с сайта не отрываясь от его просмотра. А в панели настроек – создать автоматические агенты для парсинга, с формированием простых, но крайне понятных отчетов о найденных данных.
4. Scrapinghub
Облачный сервис, обладающий максимально гибкими настройками парсинга. Примечателен наличием защиты от блокировок посредством прямого доступа к прокси-серверу, подменяющему IP краулера при срабатывании системы защиты сканируемого сайта. А благодаря использованию вычислительных мощностей из «облака», сканирование десятков тысяч страниц происходит в считанные минуты.
При этом стоит отметить, что алгоритм сервиса преобразовывает страницу в папки с сортировкой контента: от текста до изображений. Примечательно, что команда проекта готова отвечать на вопросы всех пользователей, в том числе – тех, кто не оформил платную подписку на сервис.
5. Webhose.io
Один из немногих инструментов, способных парсить данные на любом языке мира без особых проблем. При этом сервис может собирать данные из тысяч источников в считанные минуты, сохраняя их в файлы формата, удобного для дальнейшей обработки или интеграции в системы управления контентом.
Бесплатная версия приложения позволяет обрабатывать до 1000 запросов в месяц. Если нужно больше – придется оплатить месячную подписку, раскрывающую полноценный доступ ко всем возможностям сервиса.
6. Dexi.io (CloudScrape)
Поисковые роботы Dexi настроены под работу с различными шаблонами, обрабатывая информацию даже с динамичных сайтов, а также дополняя формируемые отчеты в режиме реального времени. При этом пользователь может сохранять результаты парсинга в офлайн-форматах, а также добавлять их в Google Drive, Dropbox и прочие редакторы для совместной обработки с командой или получения удаленного доступа.
При этом сервис защищен от блокировок во время сканирования страницы и копирования информации посредством ряда прокси-серверов, скрывающих данные клиента при обращении к серверу. Опробовать его можно бесплатно: неограниченный функционал «пробной» версии – 20 часов. После придется оплатить подписку на месяц, в тарифы подобраны в зависимости от потребностей пользователя.
7. VisualScraper
Сервис с простым и понятным интерфейсом, способным «извлекать» нужную информацию в один клик. Результаты парсинга экспортируются в файлы любого удобного формата: XML, JSON, CSV или SQL. Основной упор сделан на онлайн-версию, однако пользователи Windows могут скачать десктопное приложение с возможностью использования ряда дополнительных функций.
Бесплатной версии нет, однако цены на использование VisualScrapper крайне демократичны. Особенно – для частных клиентов. А в случае с корпоративной подпиской, программа может обрабатывать до 100 тысяч запросов. Этого достаточно для бесперебойного парсинга по 2-3 в течение нескольких месяцев.
8. Spinn3r
Веб-приложение для парсинга данных из блогов, новостных порталов, развлекательных ресурсов с лентой RSS или ATOM. Можно использовать для извлечения данных из соцсетей. API приложения обновляется каждую неделю, разработчики стараются обеспечить максимальный уровень защиты бота от внезапных блокировок посредством хорошо налаженной сети прокси-серверов.
Алгоритм работы схож с принципом индексации сайтов поисковыми системами. При необходимости, инструмент может постоянно сканировать сеть в поисках информации по заданному запросу, экспортируя найденные материалы в файл формата JSON для быстрой публикации на вашем сайте или блоге.
9. 80legs
Один из мощнейших инструментов для парсинга, во многом благодаря гибкости настраиваемых параметров поиска информации. Благодаря использованию облачного сервера, вычислительных мощностей которого хватает для обработки тысяч страниц, он может сканировать сеть и извлекать нужные данные в режиме реального времени.
Примечательно, что постоянными клиентами 80Leg являются такие гиганты как PayPal и MailChimp. Уникальная функция Datafiti позволяет искать данные с молниеносной скоростью, что позволяет сделать собственную высокоэффективную поисковую сеть, способную найти нужные вам данные быстрее поисковиков. В бесплатный пакет входит сканирование 10 тысяч ссылок за одну сессию, Корпоративная же подписка обеспечит непрерывный парсинг информации со 100 тысяч URL.
10. Scraper
Небольшое расширение для браузера Google Chrome с максимально простым, понятным и удобным функционалом. Используется при проведении маркетинговых исследований, позволяет извлекать нужную информацию в документ таблиц Google с возможностью предоставления общего доступа для команды. Одинаково эффективен как в руках новичка-маркетолога, так и на вооружении у опытного программиста.
Главное преимущество – функционал полноценного парсера без каких-либо ограничений, прямиком из браузера, абсолютно бесплатно. А отсутствие гибких настроек делает его простым, понятным и удобным для использования. Базового функционала Скрэпера хватает для проведения полноценного маркетингового исследования.