На жаль, веб-розробникам так і не вдалося вигадати ефективний спосіб боротьби з парсерами, які «витягують» інформацію з сайту. Адже за принципом роботи вони схожі з роботами пошукових систем. Тому якщо «закриватися» від «гостей», найімовірніше, ви потрапите чи вилетите з топу пошукової видачі, т.к. ні Яндекс, ні Google не можуть просканувати ваш ресурс. Крім того, засилля ботів позначиться на поведінкових факторах не найкращим чином: пошукові системи можуть запідозрити вас у накрутці та знизити позиції у результатах видачі.
Але як зрозуміти, що ваш сайт парсять, а також зупинити та попередити подібні ексцеси в майбутньому? Чи існує «ідеальний» захист від парсингу і чи потрібний він взагалі? Як скрипти, програми та онлайн-сервіси обходять виставлені бар’єри? Що таке автопарсинг для сайту? Експерти команди проекту «СПАРСИМ» вирішили відповісти на ці питання, поділившись важливою, корисною та актуальною інформацією з усіма читачами нашого блогу!

Які засоби захисту сайту від парсингу існують і чи потрібні вони?
Суть ЕФЕКТИВНОГО захисту від парсингу не в закритті, а в ускладненні отримання даних зі сторінок вашого сайту без порушення доступу для реальних користувачів та пошукових систем. В ідеалі захист від ботів повинен надавати сам хостинг, тому економити на ньому не варто. Особливо якщо ви вважаєте парсер злом всієї інтернету.
При схожості поставлених завдань, досягати їх можна по-різному:
- За допомогою CAPTCHA;
- Через блокування ІР з «підозрілою» активністю;
- За допомогою надання доступу до контенту після реєстрації;
- Використовуючи складну логіку побудови Javascript;
- за рахунок динамічної зміни структури сторінки;
- Підтвердженням авторства в Google та Яндекс;
- Обмеженням частоти запиту та обсягу завантажених даних;
- Відображення важливої інформації у вигляді графічних зображень.
Крім того, при цьому варто зазначити, що виставляти таку «оборону» має професіонал, який обізнаний у всіх особливостях, нюансах та тонкощах парсингу. Адже в іншому випадку, ви ризикуєте викликати гнів пошукових роботів, потрапити під фільтри і вилетіти з видачі без можливості відновлення втрачених позицій. Змиріться з тим, що інформація, що викладається у мережу, може бути «запозичена» конкурентами.
Як втіху слід зазначити, що Яндекс і Google стоять на стороні авторів і правовласників, тому навіть у разі повного копіювання, пірат не отримає практично ніякої вигоди, а швидше навпаки – безліч мінусів. А овчинка, яка не варта вичинки, навряд чи викличе інтерес у «підприємливого парсера».
Як зрозуміти, що парять сайт і зупинити цей процес?
Підозрювальна активність, що відображається в логах сайту та статистиці трафіку, може говорити про дві речі. Або ваш ресурс зазнав масованої DDoS-атаки з метою виведення його з ладу, хоча швидше за все його «вовняють» скриптами, ПЗ або онлайн-сервісами. Якщо ви не хочете миритися з тим, що напрацювання та вкладені кошти будуть використані «підприємливими» конкурентами, спробуйте заблокувати або обмежити доступ IP, з якого надходить безліч однотипних запитів.
Крім того, виявити парсер можна і за непрямими ознаками:
- Велика швидкість заповнення форм;
- Незвичайне місце натискання кнопок;
- Розмір екрана, часовий пояс, шрифти у User-Agent.
У ході “класичної” парсинг-атаки на сайт, ви будете отримувати безліч запитів з однієї адреси, а користувач агент покаже, що “користувачі” виконують ідентичні дії і натискають на кнопки в тому самому місці, з однаковим інтервалом. Зупинити це можна за допомогою звичайного блокування “підозрілих” IP.
У цьому слід зазначити, що з блокування явного “пірата” годі повідомляти йому причину, т.к. це може стати підказкою для модифікації парсера з метою обходу блокування. Крім того, можна використовувати cookies: це допоможе підвищити швидкість завантаження сторінок, а також убереже вас від навмисного сканування з метою викрадення важливих даних.
Крім того, ви можете:
- Попросити людей перестати парсити ваші дані. При цьому такий спосіб дійсно працює: деякі користувачі поважають такі прохання та не вносять ваш ресурс до своїх списків;
- Відкрити доступ до інформації повністю. Але натомість, зажадати вказівку авторства та посилання на сайт. Це дасть свої плоди у вигляді підвищення ТІц, PR та рівня трасту.
Але головне – знайти «золоту середину», щоб вжиті заходи змогли обмежити присутність ботів, але не вплинули на роботу реальних користувачів.
Як парсери обходять захист сайту від парсингу?
Існуючі програми та сервіси можуть обійти будь-який захист за допомогою:
- Копіювання сторінок;
- Сценаріїв командного рядка;
- Регулярних виразів із шаблонів HTML;
- Запуск віртуальної машини із захопленням екрану;
- Ручний пошук варіантів обходу заборони.
Крім того, одним із видів парсингу можна вважати найпростіший копіпаст, від якого, на жаль, нікуди не дінешся. Адже якщо інформація знаходиться у відкритому доступі, кожен користувач може зайти на сторінку, виділити потрібний фрагмент та за допомогою комбінації CTRL+C – CTRL+V скопіювати його на свій сайт.
На жаль, але в спробах заблокувати доступ ботам, люди «підштовхнули» інтерес фахівців до теми обходу блокування і сьогодні, боти можуть поводитися ідентично живому користувачеві. При цьому варто відзначити, що спроби виставити захист сайту від парсингу виявляються нерентабельними через вартість технічної розробки коштів, а також проблеми, які можуть виникнути у користувачів, зацікавлених у вашому ресурсі. Набагато цікавіше та ефективніше зробити власний відкритий API із продуманою екосистемою. Адже саме за такими технологіями стоїть майбутнє інтернету!