В арсеналі сучасного маркетолога мають бути програми для парсингу, що автоматизують збирання відкритої інформації з сайтів конкурентів. Звичайно, все це можна робити і вручну, витрачаючи цінний час, який, як відомо, коштує грошей. Тому парсинг сайтів – справжня знахідка для сучасного бізнесу.
Адже програма, що займається пошуком даних під контролем користувача або в автоматичному режимі, дозволяє:
- знизити навантаження на персонал організації, залишивши час вирішення найважливіших стратегічних завдань;
- Розвантажити бюджет компанії у вигляді скорочення коштів утримання відділу аналітики;
- Отримувати максимально свіжі, об’єктивні дані про актуальні акції, розпродажі, промо-кампанії конкурентів.
Тому ми вирішили розповісти про найпопулярніші сценарії використання парсерів, дати правову оцінку парсингу в Росії, а також розглянути десяток популярних програм та сервісів, які застосовують маркетологи великих компаній.
Сфери використання даних парсингу
Парсер сайтів – універсальний інструмент. Адже при правильному налаштуванні він дозволяє знаходити, систематизувати, аналізувати корисну інформацію, що використовується при побудові стратегії розвитку вашого бізнесу. Програми, онлайн-сервіси, програми та плагіни для браузерів використовують з метою:
- Збір даних для маркетингового дослідження ринку. Можливість проаналізувати конкурентів, а також відстежити зміни їх каталогів за квартал чи півріччя дозволить оцінити актуальну ситуацію у вибраній вами ніші. У випадку з парсерами, йдеться не про один, а про декілька (часом – десятки) сайтів;
- Збір контактної інформації. Парсер дозволяє зібрати та систематизувати номери телефонів, поштові та email-адреси, а також сайти потенційних постачальників або посилання на сторінки соціальних мереж клієнтів, які потрапляють до категорії цільової аудиторії вашого проекту;
- Конкурентна розвідка у офлайні. “Скопіювавши” потрібні дані в окремий файл, ви зможете вивчати своїх суперників не подаючи ознак відвідування їх сайту, а також працювати незалежно від інтернет-з’єднання. Крім того, цей інструмент допомагає у навчанні молодих фахівців, які займаються web-програмуванням або UX-дизайном;
- Пошук претендентів на вакантні посади. Гнучкість налаштувань вибірки даних на основі десятків фільтрів, що пропонуються, дозволить знайти десятки кандидатів з потрібною кваліфікацією, зацікавлених у працевлаштуванні у вашій компанії. Причому це працює в обидві сторони – претенденти можуть налаштувати парсер на пошук відкритих вакансій за своєю спеціальністю;
- Моніторинг цін для пересічних користувачів. Збір інформації по тому самому товару з десятків інтернет-магазинів дозволить знайти найвигіднішу пропозицію у співвідношенні «ціна-якість сервісу», а також підштовхнути потенційного покупця до прийняття вірного рішення.
Правова оцінка парсингу в Україні
Чи не вважається “запозичення” інформації, що лежить у відкритих джерелах, порушенням права на інтелектуальну власність? Саме таким питанням ставляться люди, які знайомляться з парсингом. Відповідно до чинного законодавства, все, що не заборонено, вважається дозволеним. І поки робота парсера не суперечить положенням закону – він дозволений.
Взагалі, щодо мережі інтернет в Україні діє низка законів, що не допускають:
- Порушення авторського та суміжного права;
- неправомірний доступ до особистих даних громадян;
- Збір інформації, що становить комерційну таємницю;
- зловживання цивільним правом;
- Використання прав у цілях конкуренції.
Таким чином, будь-яка організація може ширити інформацію, розміщену у відкритому доступі, дотримуючись ряду умов:
- Дані, що збираються, не потрапляють під закон про авторські та суміжні права;
- Збір інформації суперечить актуальним положенням законодавства;
- Отримання даних не призводить до збоїв у роботі сайтів;
- Отримані матеріали не створюють обмежень вільної конкуренції.
В інших випадках, парсинг даних з сайту є незаконним.
Інструменти парсингу для збирання інформації
Приступимо до розбору десятки найпопулярніших сервісів, що використовуються маркетологами та програмістами для швидкого отримання потрібних даних з будь-якого сайту в мережі. Частина є абсолютно безкоштовними, деякі не вимагають оплати, але працюють з обмеженим функціоналом, а інші пропонують скористатися всіма функціями відразу після оплати місячної підписки .
1. Import.io
Простий, зрозумілий, зручний сервіс, що дозволяє формувати власні пакети даних у кілька кліків. Достатньо імпортувати інформацію зі сторінки, після чого алгоритм програми експортує всю інформацію до CSV-файлу. Дозволяє сканувати та копіювати вміст тисяч сторінок за лічені хвилини, не написавши жодного рядка коду.
Представлений програмним забезпеченням для Windows, Mac OS X та Linux, а також онлайн-версії на сайті проекту. Безкоштовна версія дає базовий функціонал, повний потенціал програми розкривається після сплати щомісячної підписки відповідно до обраного тарифу.
2. ParseHub
Інструмент, здатний сканувати та копіювати дані з сайтів, які використовують JavaScript, AJAX, Cookies, редиректи тощо. В основі парсера лежать алгоритми машинного навчання, здатні розпізнавати складні документи у пошуках потрібної інформації. Програма генерує звіти у файлах різних форматів: від txt до баз даних чи презентацій PowerPoint.
Основний упор зроблено на веб-версію, однак у магазинах додатків Windows та Mac, а також на сайті компанії можна знайти десктопні версії програми. В обох випадках користувач може вести лише 5 проектів одночасно. Але при покупці преміум-доступу за щомісячною передплатою ви зможете запускати до 20 запитів, аналізуючи десятки тисяч сторінок у пошуках потрібної вам інформації.
3. OutWit Hub
Плагін для браузера Mozilla Firefox. При порівняно невеликому споживанні обчислювальних потужностей інструмент може переглядати, шукати і зберігати потрібну користувачеві інформацію в будь-якому зручному форматі. Завдяки простому інтерфейсу працювати з ним можна навіть без базових навичок програмування.
З його допомогою можна «витягнути» будь-яку інформацію з сайту, не відриваючись від його перегляду. А в панелі налаштувань – створити автоматичні агенти для парсингу з формуванням простих, але вкрай зрозумілих звітів про знайдені дані.
4. Scrapinghub
Хмарний сервіс, що має максимально гнучкі налаштування парсингу. Примітний наявністю захисту від блокувань за допомогою прямого доступу до проксі-сервера, що підміняє IP краулер при спрацюванні системи захисту сайту, що сканується. А завдяки використанню обчислювальних потужностей із «хмари», сканування десятків тисяч сторінок відбувається за лічені хвилини.
При цьому варто відзначити, що алгоритм сервісу перетворює сторінку на папки з сортуванням контенту: від тексту до зображень. Примітно, що команда проекту готова відповідати на запитання всіх користувачів, зокрема тих, хто не оформив платну підписку на сервіс.
5. Webhose.io
Один з небагатьох інструментів, здатних розбивати дані будь-якою мовою світу без особливих проблем. При цьому сервіс може збирати дані з тисяч джерел за лічені хвилини, зберігаючи їх у файли формату, зручного для подальшої обробки або інтеграції в системи керування контентом.
Безкоштовна версія програми дозволяє обробляти до 1000 запитів на місяць. Якщо потрібно більше – доведеться сплатити місячну передплату, яка розкриває повноцінний доступ до всіх можливостей сервісу.
6. Dexi.io (CloudScrape)
Пошукові роботи Dexi налаштовані під роботу з різними шаблонами, обробляючи інформацію навіть з динамічних сайтів, а також доповнюючи звіти, що формуються в режимі реального часу. При цьому користувач може зберігати результати парсингу в офлайн-форматах, а також додавати їх до Google Drive, Dropbox та інших редакторів для спільної обробки з командою або отримання віддаленого доступу.
При цьому сервіс захищений від блокувань під час сканування сторінки та копіювання інформації за допомогою ряду проксі-серверів, які приховують дані клієнта під час звернення до сервера. Випробувати його можна безкоштовно: необмежений функціонал “пробної” версії – 20 годин. Після цього доведеться сплатити підписку на місяць, у тарифи підібрані залежно від потреб користувача.
7. VisualScraper
Сервіс із простим і зрозумілим інтерфейсом, здатним «витягувати» потрібну інформацію в один клік. Результати парсингу експортуються до будь-якого зручного формату: XML, JSON, CSV або SQL. Основний упор зроблено на онлайн-версію, проте користувачі Windows можуть завантажити десктопну програму з можливістю використання низки додаткових функцій.
Безкоштовної версії немає, проте ціни на використання VisualScrapper є вкрай демократичними. Особливо для приватних клієнтів. А у випадку з корпоративною підпискою програма може обробляти до 100 тисяч запитів. Цього достатньо для безперебійного парсингу по 2-3 кілька місяців.
8. Spinn3r
Веб-додаток для парсингу даних з блогів, порталів новин, розважальних ресурсів зі стрічкою RSS або ATOM. Можна використовувати для отримання даних із соцмереж. API програми оновлюється щотижня, розробники намагаються забезпечити максимальний рівень захисту бота від раптових блокувань за допомогою налагодженої мережі проксі-серверів.
Алгоритм роботи схожий на принцип індексації сайтів пошуковими системами. При необхідності інструмент може постійно сканувати мережу в пошуках інформації за заданим запитом, експортуючи знайдені матеріали у файл формату JSON для швидкої публікації на вашому сайті або блозі.
9. 80legs
Один з найпотужніших інструментів для парсингу, багато в чому завдяки гнучкості параметрів пошуку інформації. Завдяки використанню сервера хмари, обчислювальних потужностей якого вистачає для обробки тисяч сторінок, він може сканувати мережу і витягувати потрібні дані в режимі реального часу.
Постійними клієнтами 80Leg є такі гіганти як PayPal і MailChimp. Унікальна функція Datafiti дозволяє шукати дані з блискавичною швидкістю, що дозволяє зробити власну високоефективну пошукову мережу, здатну знайти потрібні дані швидше пошуковиків. У безкоштовний пакет входить сканування 10 тисяч посилань за одну сесію, Корпоративна підписка забезпечить безперервний парсинг інформації зі 100 тисяч URL.
10. Scraper
Невелике розширення для браузера Google Chrome з максимально простим, зрозумілим та зручним функціоналом. Використовується при проведенні маркетингових досліджень, що дозволяє витягувати потрібну інформацію в документ таблиць Google з можливістю надання спільного доступу для команди. Так само ефективний як у руках новачка-маркетолога, так і на озброєнні у досвідченого програміста.
Головна перевага – функціонал повноцінного парсера без будь-яких обмежень, прямо з браузера, абсолютно безкоштовно. А відсутність гнучких налаштувань робить його простим, зрозумілим та зручним для використання. Базового функціоналу Скрэпера вистачає щодо повноцінного маркетингового дослідження.