Под термином Big Data скрываются инструменты, подходы и методики сбора и последующей обработки структурированных или неструктурированных данных с целью использования для решения конкретных задач или достижении определенных целей. Термин, введенный Клиффордом Линчем в 2008 году, сумел описать явление, вызванное стремительным ростом глобального объема цифровой информации в связи с появлением технологической возможности для их хранения и анализа — Crawl Web а также Scrape Web Page.

Немногим ранее, получить её можно было исключительно вручную, переходя на страницы сайтов. Но такой подход отнимал не только время, а силы и, что немаловажно, деньги. Следовательно, автоматизация сбора данных стала вопросом времени. И спустя несколько лет, маркетологи, СЕО-специалисты и аналитики получили сразу несколько эффективных инструментов для работы с Big Data – веб-скреперы и веб-краулеры. Но несмотря на схожие задачи, между скрепингом и краулингом есть масса различий.
В чем разница?
Краулер ( веб краулер илии же веб скрепер ), он же «паук» — автономный бот, сканирующий сайты для индексации и поиска контента «внутри» них. При этом он может перемещаться между страницами без четко определенной цели или задачи, исследуя сам проект по десяткам или сотням критериев. Применяется поисковыми системами, дорабатывается за счет машинного обучения, а результаты сканирования учитываются при построении топов выдачи.
Скрепер, он же «парсер» — программа или скрипт, занимающаяся извлечением определенных данных, указанных пользователем. В отличие от «паука», он ищет конкретную информацию на определенном сайте или странице.
При этом стоит отметить, что веб-краулер создает и сохраняет копию страницы, в то время как веб-скребок извлекает данные для создания или наполнения нового сайта. Кроме того, автономные боты работают со всем содержимым ресурса – текстами, изображениями, медиаконтентом, файлами и т.д. Парсер же извлекает исключительно текстовую информацию, помещая её в файл формата, удобного для дальнейшей работы.
Подводя итог
Краулинг – то, чем занимаются поисковые системы. В ходе сканирования, он сохраняет:
- Текст;
- Изображения;
- Ключевые слова;
- Исходящие ссылки;
- Внутреннюю перелинковку;
- Медиаконтент.
Скрепинг (Web Data Scraping) или парсинг же нацелен на определенные сайты и собирает исключительно конкретные данные – товарный ассортимент компаний-конкурентов в нише, информацию об акциях, скидках или распродажах, отзывы о товаре/продукте со специализированных площадок и т.д.
Таким образом, веб-краулинг – процесс глобальный, т.к. охватывает все существующие и работающие сайты, в то время как веб-скрейпинг – «точечное» извлечение информации с определенных страниц ради получения данных, пригодных для проведения маркетинговых исследований, «освежения» контента сайта или генерирования новых уникальных материалов.