Незважаючи на різноманітність безкоштовних інструментів для парсингу інформації, далеко не кожен з них підходить «пересічному» користувачеві, який не знає особливостей, нюансів і тонкощів програмування. З іншого боку, програми, додатки та розширення з простим, зрозумілим інтерфейсом, здебільшого виявляються платними (хоч і поширюються за підпискою, а базового функціоналу виявляється достатньо задоволення найпростіших завдань).
Тим не менш, ви вільні вибирати, з чим саме ви хочете працювати. Наше завдання – розповісти про найкращих парсерів. Тому команда «Спарсим» виділила 9 інструментів, які підійдуть як недосвідченим користувачам, так і «материм» програмістам та готова поділитися корисною, цікавою та актуальною інформацією з усіма читачами нашого блогу!
Користувальницькі служби парсингу

Актуальні версії веб-скріперів здатні шукати та витягувати потрібну вам інформацію у фоновому режимі, «обходити» блокування по IP за допомогою проксі-серверів та вбудованих VPN-клієнтів або сервісів anti-Captcha. До найпопулярніших інструментів можна віднести:
1. Octoparse
Універсальний інструмент, придатний як для персонального, так і корпоративного використання. Поширюється у вигляді програми, сумісної з двома популярними операційними системами – Microsoft Windows та Apple Mac OS X. На відміну від більшості аналогічних парсерів, здатний отримувати дані із соціальних мереж, інтернет-магазинів, дощок оголошень, сайтів нерухомості тощо, оскільки аналізує не лише HTML-код, а й динамічні сайти на Ajax, JavaScript тощо.
Octoparse має два режими:
- Шаблон завдань. Використовується для отримання потрібної інформації зі сторінки у формат структурованих даних. Середня швидкість сканування посилання – 6,5 секунд, залежно від завдання може «діставати» потрібний текстовий або графічний контент, формуючи підсумковий файл у потрібному форматі;
- Розширений. Відрізняється гнучкістю налаштувань, повним контролем над робочим процесом, можливістю зміни параметрів у процесі парсингу. Може використовуватися для створення власного пошукового робота, заточеного під потреби вашого бізнесу.
При цьому варто зазначити, що програма використовує обчислювальні потужності хмарних серверів, що прискорює процес скріпінгу в десятки разів.
2. ParseHub
Веб-скрепер, здатний “діставати” потрібну вам інформацію практично з будь-яких сайтів, у тому числі – з технологіями AJAX або JavaScript, Cookies і т.д. При цьому слід зазначити, що в основі програми лежить алгоритм машинного навчання, здатний переглядати, аналізувати та формувати документи в автоматичному режимі. Причому після кожного наступного сканування, ІІ ParseHub стає “розумнішим”, справляючись із завданнями набагато швидше.
Представлений у вигляді програмного забезпечення під Windows, Mac OS X, а також Linux різних збірок та редакцій. Має розширення для браузера (щоправда, з вкрай «урізаним» функціоналом). Частина функцій безкоштовна, але щоб розкрити весь потенціал цього інструменту, доведеться сплатити місячну передплату. При цьому варто відзначити, що розробники постаралися забезпечити своє «дітище» детальними інструкціями та посібниками, а служба підтримки готова відповісти на всі питання, що вас цікавлять.
3. Import.io
Особливість – простий, візуально зрозумілий, продуманий графічний інтерфейс. При цьому програма інтегрується з SaaS, може сканувати графіку та витягувати інформацію з PDF-файлів, надаючи звіти у форматі, зручному для подальшої обробки. А вбудовані інструменти можуть здійснювати аналіз даних.
Завдяки налаштованому API, отриману інформацію можна передавати до інших систем. Іншими словами, Import – багатофункціональний універсальний інструмент, який виконує всі завдання парсингу на одній платформі.
Розширення та плагіни для парсингу

На відміну від програмного забезпечення, розширення та плагіни працюють з браузера. І здебільшого націлені на людей, які не знають у програмуванні. Причому їхнього функціоналу вистачає для швидкого вилучення потрібної інформації з кількох сторінок. До найпопулярніших можна віднести:
1. OutWit Hub
Плагін для Firefox, що займає перші місця у магазині розширень Mozilla. Примітний функцією Fast Scrape, що дозволяє знайти, зібрати та систематизувати інформацію за вказаним списком URL-адрес. Ще одна «фішка» – максимально простий та інтуїтивно зрозумілий інтерфейс, що дозволяє освоїти OutWit Hub навіть без знань англійської мови.
2. Data Scraper (Chrome)
Створено для отримання даних зі сторінок з таблицями. Безкоштовної версії вистачає для вирішення найпростіших завдань, пов’язаних із парсингом. Після оплати місячної підписки, плагін «розкриває» свій потенціал за допомогою API, ротації проксі, а також збирання інформації в режимі реального часу з обробкою від 500 сторінок на місяць.
3. Web scraper
Представлений у двох варіантах – розширення для браузера Chrome та «хмарному» форматі. Перший є актуальним за наявності базових навичок програмування, т.к. вимагає створювати «дорожню карту» для бота вручну, у той час як другий, задіявши обчислювальні потужності сторонніх серверів, має алгоритм машинного навчання і може структурувати дані для подальшого формування файлів у форматі CSV або підготовки до збереження даних у Couch DB.
4. Scraper (Chrome)
Один із найпростіших інструментів для парсингу, що дозволяє витягувати потрібні вам дані з таблиці з подальшим завантаженням отриманої інформації до таблиць Google Sheets або документів Google Docs для спільного доступу. Щоб запустити процес очищення, достатньо виділити текст, клацнути правою кнопкою миші, після чого знайти меню “спасити схожі”. Після сканування плагін запропонує зберегти контент за допомогою XPath або JQuery.
Програми для парсингу

На відміну від користувацьких служб, програми для парсингу ЗАВЖДИ мають візуально простий і зрозумілий інтерфейс. Інакше кажучи, користувач вибирає дані очищення, а програма створює парсер під задані критерії. До цього типу можна віднести парсери від:
1. Dexi.io
Сервіс для користувачів, які знають тонкощі програмування. Примітний тим, що може створювати три типи пошукових роботів для більш точного вилучення даних. Завдяки гнучкості налаштувань дозволяє завантажувати практично будь-яку інформацію з усіх існуючих сайтів. При цьому в додатку є анонімні проксі-сервери для обходу блокувань та аналізу потрібних вам сторінок.
Дані, що отримуються програмою, зберігаються на серверах Dexi протягом 2 тижнів, після чого розміщуються в архіві. Однак найчастіше програмісти налаштовують сервіс на прямий експорт інформації у файли JSON або CSV.
2. Webhose.io
Один з небагатьох інструментів скрапінгу, здатних ширяти інформацію з джерел, розміщених у мережі darknet. Відрізняється розширеним мовним пакетом, різноманітністю фільтрів, можливістю експортування результатів парсингу у формати XML, JSON та RSS (завдяки останньому підходить для регулярного збирання свіжих новин або оновлень біржових котирувань).
“Безкоштовна” версія дозволяє сканувати до 1000 сторінок на місяць. Вартість платної підписки залежить від потреб у скріпінгу – чим більше запитів, тим вища ціна. Проте, для корпоративних клієнтів розцінки на додаток виявляються максимально адекватними та доступними.