Несмотря на разнообразие бесплатных инструментов для парсинга информации, далеко не каждый из них подходит «рядовому» пользователю, не сведущему в особенностях, нюансах и тонкостях программирования. С другой стороны, программы, приложения и расширения с простым, понятным интерфейсом, в большинстве своем оказываются платными (хоть и распространяются по подписке, а базового функционала оказывается достаточно для удовлетворения простейших задач).
Тем не менее, вы вольны выбирать, с чем же именно вы хотите работать. Наша задача – рассказать о лучших парсерах. Поэтому команда «Спарсим» выделила 9 инструментов, которые подойдут как неопытным пользователям, так и «матерым» программистам и готова поделиться полезной, интересной и актуальной информацией со всеми читателями нашего блога!
Пользовательские службы парсинга

Актуальные версии веб-скреперов способны искать и извлекать нужную вам информацию в фоновом режиме, «обходить» блокировки по IP с помощью прокси-серверов и встроенных VPN-клиентов или сервисов anti-Captcha. К самым популярным инструментам можно отнести:
1. Octoparse
Универсальный инструмент, пригодный как для персонального, так и для корпоративного использования. Распространяется в виде приложения, совместимого с двумя популярными операционными системами – Microsoft Windows и Apple Mac OS X. В отличие от большинства аналогичных парсеров, способен извлекать данные из социальных сетей, интернет-магазинов, досок объявлений, сайтов недвижимости и т.д., поскольку анализирует не только HTML-код, но и динамические сайты на Ajax, JavaScript и т.д.
Octoparse имеет два режима:
- Шаблон задач. Используется для извлечения нужной информации со страницы в формат структурированных данных. Средняя скорость сканирования ссылки – 6,5 секунд, в зависимости от задачи может «доставать» нужный вам текстовый или графический контент, формируя итоговый файл в нужном формате;
- Расширенный. Отличается гибкостью настроек, полным контролем над рабочим процессом, возможностью изменения параметров в процессе парсинга. Может использоваться для создания собственного поискового робота, «заточенного» под потребности вашего бизнеса.
При этом стоит отметить, что приложение использует вычислительные мощности облачных серверов, что ускоряет процесс скрепинга в десятки раз.
2. ParseHub
Веб-скрепер, способный «доставать» нужную вам информацию практически с любых сайтов, в том числе – с технологиями AJAX или JavaScript, Cookies и т.д. При этом стоит отметить, что в основе приложения лежит алгоритм машинного обучения, способный просматривать, анализировать и формировать документы в автоматическом режиме. Причем после каждого последующего сканирования, ИИ ParseHub становится “умнее”, справляясь с задачами намного быстрее.
Представлен в виде программного обеспечения под Windows, Mac OS X, а также Linux различных сборок и редакций. Имеет расширение для браузера (правда, с крайне «урезанным» функционалом). Часть функций бесплатна, но чтобы раскрыть весь потенциал этого инструмента, придется оплатить месячную подписку. При этом стоит отметить, что разработчики постарались снабдить свое «детище» детальными инструкциями и руководствами, а служба поддержки готова ответить на все интересующие вас вопросы.
3. Import.io
Особенность – простой, визуально понятный, продуманный графический интерфейс. При этом приложение интегрируется с SaaS, может сканировать графику и извлекать информацию из PDF-файлов, предоставляя отчеты в формате, удобном для дальнейшей обработки. А встроенные инструменты могут совершать анализ данных.
Благодаря настроенному API, полученную информацию можно передавать в другие системы. Иными словами, Import – многофункциональный универсальный инструмент, выполняющий все задачи парсинга на одной платформе.
Расширения и плагины для парсинга

В отличие от программного обеспечения, расширения и плагины работают из браузера. И в большинстве своем, нацелены на людей, не сведущих в программировании. Причем их функционала хватает для быстрого извлечения нужной информации с нескольких страниц. К самым популярным можно отнести:
1. OutWit Hub
Плагин для Firefox, занимающий первые места в магазине расширений Mozilla. Примечателен функцией Fast Scrape, позволяющей найти, собрать и систематизировать информацию по указанному списку URL-адресов. Еще одна «фишка» — максимально простой и интуитивно понятный интерфейс, позволяющий освоить OutWit Hub даже без знаний английского языка.
2. Data Scraper (Chrome)
Создан для извлечения данных со страниц с таблицами. Бесплатной версии хватает для решения простейших задач, связанных с парсингом. После оплаты месячной подписки, плагин «раскрывает» свой потенциал с помощью API, ротации прокси, а также сбора информации в режиме реального времени с обработкой от 500 страниц в месяц.
3. Web scraper
Представлен в двух вариантах – расширение для браузера Chrome и «облачном» формате. Первый актуален при наличии базовых навыков программирования, т.к. требует создавать «дорожную карту» для бота вручную, в то время как второй, задействуя вычислительные мощности сторонних серверов, обладает алгоритмом машинного обучения и может структурировать данные для дальнейшего формирования файлов в формате CSV или подготовки к сохранению данных в Couch DB.
4. Scraper (Chrome)
Один из простейших инструментов для парсинга, позволяющий извлекать нужные вам данные из таблицы с последующей загрузкой полученной информации в таблицы Google Sheets или документы Google Docs для общего доступа. Чтобы запустить процесс очистки, достаточно выделить текст, щелкнуть правой кнопкой мыши, после чего найти меню «спарсить похожие». После сканирования, плагин предложит сохранить контент с помощью XPath или JQuery.
Приложения для парсинга

В отличие от пользовательских служб, приложения для парсинга ВСЕГДА имеют визуально простой и понятный интерфейс. Иными словами, пользователь выбирает данные для очистки, а программа создает парсер под заданные критерии. К этому типу можно отнести парсеры от:
1. Dexi.io
Сервис для пользователей, сведущих в тонкостях программирования. Примечателен тем, что может создавать три типа поисковых «роботов» для более точного извлечения данных. Благодаря гибкости настроек, позволяет скачивать практически любую информацию со всех существующих сайтов. При этом в самом приложении есть анонимные прокси-серверы для обхода блокировок и анализа нужных вам страниц.
Данные, извлекаемые программой, хранятся на серверах Dexi в течение 2 недель, после чего помещаются в архив. Однако чаще всего, программисты настраивают сервис на прямой экспорт информации в файлы JSON или CSV.
2. Webhose.io
Один из немногих инструментов скрапинга, способных парсить информацию из источников, размещенных в сети darknet. Отличается расширенным языковым пакетом, разнообразием фильтров, возможностью экспортирования результатов парсинга в форматы XML, JSON и RSS (благодаря последнему подходит для регулярного сбора свежих новостей или обновлений биржевых котировок).
«Бесплатная» версия позволяет сканировать до 1000 страниц в месяц. Стоимость платной подписки зависит от потребностей в скрепинге – чем больше запросов, тем выше цена. Однако, для корпоративных клиентов расценки на приложение оказываются максимально адекватными и доступными.