Автоматизированный анализ конкурентов для сбора данных, необходимых для принятия правильных бизнес-решений для компаний, работающих во всемирной сети – один из самых полезных инструментов современного маркетолога. Но увы, из-за того, что мало кто способен признаться в этом в открытую, вокруг него собралось множество заблуждений и мифов парсинга. Поэтому команда проекта «СПАРСИМ» решила развеять основные мифы о парсинге, поделившись важной, полезной, интересной и актуальной информацией со всеми читателями нашего блога!

API и веб-парсинг — один и тот же процесс
API – канал, по которому запрос пользователя отправляется на сервер, после чего возвращается к нему в виде данных JSON по протоколу HTTP. Но без знаний, технических навыков и практического опыта, достать нужную информацию – практически невозможно. Более того, крупные компании стараются «защитить» их всеми возможными способами.
В свою очередь скрипт сканирует сайт исключительно по заданным параметрам, а большинство популярных сервисов могут предложить несколько десятков шаблонов, позволяющих извлечь данные, имея лишь адрес сайта или ключевые слова.
Парсер — это тот же краулер
Под термином «краулинг» скрывается сканирование сайта ботом поисковых систем. Во время проверки, роботы Google учитывают более 200 различных параметров, влияющих на позицию страницы при ранжировании списка поисковой выдачи. Парсинг же включает извлечение определенных данных с целевой страницы или группы страниц: с его помощью вы можете собрать метаданные, изучить товарный ассортимент конкурента, отслеживать динамику изменения цен и многое другое.
Можно парсить сайты для получения любых данных
К сожалению, нет. Ведь в соответствии с действующими законодательствами большинства стран, автоматический сбор информации запрещает:
- Извлечение личных данных, подразумевающих ввод логина и пароля от веб-сервисов;
- Копирование и использование данных, защищенных авторским правом (без указания автора или источника);
- Нарушать условия предоставления услуг, что прямо или косвенно запрещают использование парсеров.
При этом стоит отметить, что большинство сайтов (в т.ч. крупные социальные сети) лояльны по отношению пользователям, не переходящим границы закона. Однако в правилах того же Facebook значиться, что для извлечения какой-либо информации необходимо получить письменное разрешение от компании.
Возможность распоряжаться полученной информацией в любых целях
Сведения из открытых источников могут использоваться для аналитики на законных основаниях. Однако сбор конфиденциальных данных с целью получения прибыли (например – сбор личных контактов руководителей или баз данных клиентов для продажи третьим лицам) является нарушением закона. Кроме того, незаконным считается и использование «чужого» авторского контента.
Для использования инструментов парсинга нужно быть программистом
Совершенно не обязательно. Ведь если изначально парсеры представляли собой самописные скрипты, то нынешние сервисы собирают информацию для проведения маркетинговых, экономических, финансовых исследований и коммерческой аналитики, генерируя таблицы, графики, диаграммы. Кроме того, результаты проверки могут сохраняться в файлы любых форматов и расширений.
Парсер — универсальная программа
К сожалению, разработчикам современных инструментов автоматизированного извлечения информации так и не удалось «обучить» сервисы автоматической настройке при работе с динамическими сайтами. Поэтому сканировать можно далеко не все страницы. Тем не менее, после корректировки параметров поиска, бот продолжит собирать данные в обычном режиме.
Возможность парсить веб ресурсы на большой скорости
Извлечение большого объема данных на высокой скорости может повлечь за собой перегрузку с последующим сбоем работы сервера. В таком случае, пользователь, запустивший скрипт, несет материальную ответственность за ущерб в соответствии с законом о «цифровом посягательстве» (действует в США и Европе).
Только бизнес нуждается в парсинге сайтов
Помимо бизнес-аналитики, парсеры могут использоваться для:
- Поиска научных работ;
- Отслеживания новых объявлений на досках;
- Мониторинга популярных блогеров в соцсетях;
- Сбора свежих и актуальных новостей.
При грамотной настройке, вы сможете находить и извлекать любые данные в огромных количествах.
Полученную информацию нельзя использовать без анализа и обработки
Парсеры могут собирать различные данные. И далеко не все они нуждаются в тщательной обработке. К примеру, для изучения конкурентной среды достаточно собрать сведения о товарном ассортименте или актуальных ценах, технических характеристиках товаров и т.д. Но в случае с отзывами, узнать о настроениях клиентов можно только после тщательного анализа каждого из них.
Законность парсинга на территории разных стран
Законодательства большинства стран не препятствуют работе скриптов-парсеров лишь в случае, если извлечение происходит из открытых источников, владелец сайта дал согласие на обработку контента, а действия пользователя не нарушают политику конфиденциальности и условия предоставления услуг. При этом стоит отметить, что парсинг попадает под ряд международных правовых норм:
- CFAA (Закон о компьютерном мошенничестве, злоупотреблении);
- DMCA (Защита авторских прав в цифровую эпоху);
- Цифровое посягательство;
- Незаконное присвоение;
- Игнорирование договорных отношений.
При этом стоит отметить, что в России (так же, как и в странах бывшего СССР) само понятие парсинга не фигурирует ни в одном законодательном акте. Тем не менее, использование полученной информации в мошеннических целях считается грубым нарушением закона о защите авторских прав.