Автоматизований аналіз конкурентів для збору даних, необхідних для прийняття правильних бізнес-рішень для компаній, що працюють у всесвітній мережі, – один із найкорисніших інструментів сучасного маркетолога. Але на жаль, через те, що мало хто здатний зізнатися в цьому відкрито, навколо нього зібралося безліч помилок і міфів парсингу. Тому команда проекту «СПАРСИМ» вирішила розвіяти основні міфи про парсинг, поділившись важливою, корисною, цікавою та актуальною інформацією з усіма читачами нашого блогу!

API та веб-парсинг – той самий процес
API – канал, яким запит користувача надсилається на сервер, після чого повертається до нього у вигляді даних JSON за протоколом HTTP. Але без знань, технічних навичок та практичного досвіду дістати потрібну інформацію – практично неможливо. Більше того, великі компанії намагаються «захистити» їх усіма можливими способами.
У свою чергу, скрипт сканує сайт виключно за заданими параметрами, а більшість популярних сервісів можуть запропонувати кілька десятків шаблонів, що дозволяють отримати дані, маючи лише адресу сайту або ключові слова.
Парсер – це той самий краулер
Під терміном «краулінг» ховається сканування сайту пошуковим системом. Під час перевірки роботи Google враховують понад 200 різних параметрів, що впливають на позицію сторінки під час ранжування списку пошукової видачі. Парсинг же включає вилучення певних даних із цільової сторінки або групи сторінок: за його допомогою ви можете зібрати метадані, вивчити товарний асортимент конкурента, відстежувати динаміку зміни цін та багато іншого.
Можна парсувати сайти для отримання будь-яких даних
На жаль немає. Адже відповідно до чинних законів більшості країн, автоматичний збір інформації забороняє:
- Вилучення особистих даних, що мають на увазі введення логіна та пароля від веб-сервісів;
- Копіювання та використання даних, захищених авторським правом (без вказівки автора чи джерела);
- Порушувати умови надання послуг, що прямо чи опосередковано забороняють використання парсерів.
При цьому варто відзначити, що більшість сайтів (в т.ч. великі соціальні мережі) лояльні по відношенню до користувачів, які не переходять межі закону. Однак у правилах того ж Facebook значиться, що для отримання будь-якої інформації необхідно отримати письмовий дозвіл від компанії.
Можливість розпоряджатися отриманою інформацією з будь-якою метою
Відомості з відкритих джерел можуть бути використані для аналітики на законних підставах. Однак збирання конфіденційних даних з метою отримання прибутку (наприклад, збирання особистих контактів керівників або баз даних клієнтів для продажу третім особам) є порушенням закону. Крім того, незаконним вважається використання «чужого» авторського контенту.
Для використання інструментів парсингу потрібно бути програмістом
Зовсім необов’язково. Адже якщо спочатку парсери були самописними скриптами, то нинішні сервіси збирають інформацію для проведення маркетингових, економічних, фінансових досліджень та комерційної аналітики, генеруючи таблиці, графіки, діаграми. Крім того, результати перевірки можуть зберігатися у файли будь-яких форматів та розширень.
Парсер – універсальна програма
На жаль, розробникам сучасних інструментів автоматизованого вилучення інформації так і не вдалося «навчити» сервіси автоматичного налаштування під час роботи з динамічними сайтами. Тому можна сканувати далеко не всі сторінки. Тим не менш, після налаштування параметрів пошуку, бот продовжить збирати дані в звичайному режимі.
Можливість парсити веб ресурси на великій швидкості
Вилучення великого обсягу даних на високій швидкості може спричинити перевантаження з наступним збоєм роботи сервера. У такому разі користувач, який запустив скрипт, несе матеріальну відповідальність за шкоду відповідно до закону про «цифрове посягання» (діє в США та Європі).
Тільки бізнес потребує парсингу сайтів
Крім бізнес-аналітики, парсери можуть використовуватися для:
- пошуку наукових праць;
- Відстеження нових оголошень на дошках;
- Моніторингу популярних блогерів у соцмережах;
- Збір свіжих та актуальних новин.
При грамотному налаштуванні, ви зможете знаходити та витягувати будь-які дані у величезних кількостях.
Отриману інформацію не можна використовувати без аналізу та обробки
Парсери можуть збирати різні дані. І далеко не всі вони потребують ретельної обробки. Наприклад, для вивчення конкурентного середовища достатньо зібрати відомості про товарний асортимент або актуальні ціни, технічні характеристики товарів і т.д. Але у разі відгуків, дізнатися про настрої клієнтів можна тільки після ретельного аналізу кожного з них.
Законність парсингу на території різних країн
Законодавства більшості країн не перешкоджають роботі скриптів-парсерів лише у випадку, якщо вилучення відбувається з відкритих джерел, власник сайту погодився на обробку контенту, а дії користувача не порушують політику конфіденційності та умови надання послуг. При цьому варто зазначити, що парсинг підпадає під низку міжнародних правових норм:
- CFAA (Закон про комп’ютерне шахрайство, зловживання);
- DMCA (Захист авторських прав у цифрову епоху);
- Цифрове посягання;
- Незаконне присвоєння;
- Ігнорування договірних відносин.
При цьому слід зазначити, що в Росії (так само, як і в країнах колишнього СРСР) саме поняття парсингу не фігурує в жодному законодавчому акті. Проте використання отриманої інформації з шахрайською метою вважається грубим порушенням закону про захист авторських прав.