Якщо з десяток років тому аналізувати конкурентів по ніші доводилося вручну, то сьогодні завдяки стрімкому розвитку інформаційних технологій компанії отримали по-справжньому унікальний інструмент для швидкого збору та ефективної обробки даних з відкритих джерел. Йдеться про веб-скріпінг – найпростіший скрипт, здатний аналізувати сотні сторінок для подальшого формування точного звіту, або оновлення даних у режимі реального часу. При цьому варто відзначити, що далеко не всі власники сайтів раді такому запозиченню і намагаються захиститися від скребків.

У більшості випадків, зіткнувшись із виставленою «обороною», більшість скриптів пропускають такі сторінки. Але нерідко саме на них і міститься вся потрібна нам інформація. Тому якщо під час парсингу ви зіткнулися з блокуванням – не варто зневірятися, адже вихід є завжди.
Що ми знаємо про парсинг?
Незважаючи на порівняно недавнє поширення, глобальна мережа стала найбільшим джерелом інформації у світі. Адже за статистикою, на кожного жителя нашої планети припадає від 1 до 3 сайтів із незліченною кількістю окремих сторінок. Причому йдеться не лише про новинні, інформаційно-розважальні чи корпоративні ресурси. Адже інтернет вважається одним із найперспективніших каналів для реалізації різних товарів та послуг.
При цьому варто відзначити, що порівняно недавно «молоді» інтернет-магазини не могли конкурувати з сайтами на кшталт Amazon або Flipkart через масштаби цих проектів. Адже проаналізувати товарний асортимент, рівень конверсії та інші показники, що відбиваються на успішності електронної комерції, було практично неможливо вручну (з урахуванням того, що дані оновлюються щохвилини).
У пошуках вирішення цієї проблеми програмістам вдалося автоматизувати процес вилучення інформації як зі статичних, так і з динамічних сторінок. Скрипт, що отримав назву «парсер», ліг в основу веб-скріпінгу та дозволив збирати дані про товарний асортимент , ціни на продукцію, а також знижки у конкурентів для аналізу успішності промо-кампаній, спрямованих на залучення клієнтів.
Наприклад, ваша компанія займається розробкою та продажем офісного ПЗ. Перш ніж вийти на ринок, вам доведеться проаналізувати нішу, а також вивчити дані про найближчих конкурентів. Далі, проаналізувавши сайти «сусідів», ви зможете отримати уявлення про актуальні ціни на ринку та сформувати максимально вигідну пропозицію для потенційного покупця.
Як сайти захищаються від парсингу і чи обійти виставлену оборону?
Початківцям онлайн-підприємцям, які роблять перші кроки у сфері електронної комерції, доведеться орієнтуватися на популярні сайти, що добре зарекомендували себе. При чому в процесі скріпінгу ви можете натрапити на різні помилки, спричинені захистом проекту від «зіскабливання».

Як це працює?
Інформація, розміщена на сторінках, може бути використана по-різному. Звичайні користувачі переглядають її при виборі того чи іншого продукту, тоді як конкуренти аналізують сайт для отримання інформації, що дозволяє отримати конкурентну перевагу. При цьому частина підприємців, які не задоволені такими розкладами, намагаються захиститися від «проникнення» ботів.
Інструменти, які використовуються програмістами великих проектів, ідентифікують скрипти і перешкоджають їм шлях до отримання необхідної інформації. Найчастіше йдеться про:
- Блокування “підозрілої” IP-адреси. Одна з найпростіших схем захисту обходиться за допомогою підміни ідентифікатора через проксі-сервера та VPN-сервіси;
- Аналіз User-agent, що містить інформацію про пристрій, браузер і т.д. Щоб «перехитрити» таку оборону, достатньо «замінити» файл на копію «оригіналу», або налаштувати скрипт за аналогією з
- “Підоглядної активності”. Уникнути цього можна за допомогою налаштування бота під дії, що імітують поведінку реального користувача, виставивши правильні інтервали між зверненнями до окремих сторінок.
Крім того, для визначення парсерів використовують:
- Аналіз джерела з якого ви перейшли на сайт. Рішення – додавання заголовка referrer – https://www.google.com/;
- Пастки-приманки – невидимі посилання, що вловлюються виключно роботом. Тому перш ніж розпочати парсинг важливої сторінки, проаналізуйте її через вихідний код або «колірні схеми»;
- Помилки у логах. Обхід – використання безлогових браузерів, що дозволяють імітувати той чи інший веб-браузер з можливістю “підстановки” потрібних нам параметрів;
- КАПЧА (Captcha, reCaptcha і т.д.) – графічний ключ, що не відображається у роботів. Рішення – оплата послуг автоматичного рішення капчі.
Крім того, обійти виставлений захист можна за допомогою парсингу “історії”, збереженої в Google Cache.