Найчастіше термін «бот» сприймається в негативному ключі. Однак насправді все не так однозначно, адже нарівні з «поганими», в мережі орудують і абсолютно нешкідливі, «хороші», корисні боти, до яких можна віднести веб-парсери. Але через схожість функціоналу та основних характеристик, системи захисту сайтів не відрізняють «корисних» роботів від шкідливих програм, блокуючи кожну з них.

При цьому варто відзначити, що чим розумнішим стає поганий бот, тим складніше працювати хорошому. Адже розробники шкідливих скриптів та програмного забезпечення готові «знести» будь-які перешкоди на шляху до швидкого прибутку, через що легальні інструменти (в т.ч. парсер боти) отримують незаслужене блокування.
Тому ми вирішили розповісти, що таке боти і які вони бувають, а також як сайти виявляють і блокують ботів, розглянувши це питання з погляду веб-парсингу.
Бот-трафік: що це таке?
По суті, за цим терміном ховається будь-яка активність, не пов’язана з людьми. У більшості випадків, скрипти та програми виконують автоматичні та повторювані дії набагато швидше, ніж це робить звичайна людина. Саме завдяки можливості швидкого виконання «рутинних» та монотонних завдань, боти набули великої популярності не лише серед зловмисників, а й у звичайних онлайн-підприємців, які намагаються працювати в рамках правового поля.
Що таке добре, а що таке погано?
До списку «хороших» ботів можна віднести:
- Роботів пошукових систем, що виконують сканування сторінок ресурсу для побудови топу пошукової видачі за релевантними запитами;
- Програми для моніторингу сайтів щодо можливих проблем: тривалого завантаження, «битих» посилань, відсутності склеювання тощо;
- Парсер боти та скрепери, що використовуються при зборі загальнодоступних даних для подальшого проведення маркетингових досліджень, моніторингу відгуків про бренд і т.д.
До «шкідливих» можна зарахувати:
- Спамери, які застосовуються для розсилки спаму за допомогою підроблених профілів на форумах, сторінок у соцмережах, акаунтів у месенджерах;
- Ботів для DDoS-атак, призначення – послабити захист для крадіжки особистої інформації, а також «покласти» сайт за рахунок перевантаження сервера;
- Автоклікер, що наживається на рекламні банери для “викачування” грошей із транзакцій.
Іншими словами, до першої групи можна віднести ботів, які не впливають на роботу сайту (а скоріше, навпаки – допомагають зробити його кращим), у той час як діяльність других йде в розріз з морально-етичними нормами, а також (якоюсь мірою) порушує закон.
Проблема виявлення
Якщо спочатку системи захисту могли визначати роботів за поведінкою, то в нинішній ітерації їх дії буквально не відрізняються від людських. При цьому експерти з кібербезпеки виділяють кілька поколінь ботів:
- Перше. Найпростіші скрипти, що використовують «базові» сценарії автоматизації – парсинг, розсилання спаму тощо;
- Друге. “Підробляють” iFrame і виділяються за рахунок “підозрілих” JavaScript, по функціоналу схожі з роботами пошукових систем;
- Третє. Чи здатні «маскуватися» під реальних користувачів, імітуючи присутність на сайті через різні пристрої та браузери;
- Четверте. Побудовані на основі алгоритмів машинного навчання, здатні імітувати поведінку людини – нелінійні рухи миші, прокручування «ривками» тощо.
При цьому слід зазначити, що виявлення роботів останнього покоління ускладнюється необхідністю використання «просунутих» інструментів, побудованих на основі інтелектуального аналізу поведінкової взаємодії.