Под термином «отпечаток браузера» понимают набор данных, описывающих устройство, с которого пользователь просматривает страницы в сети. При этом стоит отметить, что в большинстве случаев информации, передаваемой на сервер сайта, достаточно для того, чтобы злоумышленник смог получить сведения, необходимые для совершения противоправных действий. В частности, речь идет об ОС, часовом поясе, языках, подключенных плагинах, используемых шрифтах, параметрах используемого оборудования и т.д.
Посмотреть, как выглядит «след» вашего браузера ( цифровой отпечаток браузера ), можно через специальные сервисы. И несмотря на кажущуюся «типичность», каждый отпечаток представляет собой уникальный набор данных. Иными словами, вероятность полного совпадения информации равна 1 к 28 677, что делает его одним из лучших идентификаторов фактического пользователя, стоящего за использованием обозревателя.

Более того, вопреки существующему заблуждению, ни прокси, ни службы VPN, ни режим инкогнито не позволяют достичь полной анонимности. При чем отказаться от подобной «слежки» тоже невозможно. С другой стороны, fingerprint вводился во благо рядового юзера, т.к. с появлением этой технологии «захват» аккаунта стал практически невозможным. Кроме того, при грамотной обработке поступающих данных, система безопасности сайта может получать максимально точную маркетинговую аналитику, а также фиксировать явно нечеловеческий трафик.
Однако главная проблема внедрения технологии отпечатка браузера – возможность идентификации органического трафика. В паре с системами WebRTC и WASM, сайты смогут определять реальных пользователей за счет гипер персонализации. Более того, эксперты склоняются к тому, что за технологией персонализации стоит будущего всего интернета.
Персонализация – что это?
В сфере электронной коммерции, под персонализацией подразумевают сбор и дальнейшее использование информации из нескольких источников для настройки персональной выдачи каждому покупателю, что позволит повысить коэффициент конверсии и отразиться на уровне продаж даже «начинающих» интернет-магазинов.
При этом стоит отметить, что:
- Данные могут собираться как извне (поисковые системы, соцсети, форумы), так и внутри сайта (просмотренные товары, добавленное в корзину и т.д.);
- Собранная информация может быть явной (посты, лайки, репосты и т.д.), так и неявной (время, проведенное на сайте, совершенные действия и т.д.).
- Персонализация может быть предписывающей (информация собирается в обязательном порядке) или адаптивной (система фиксирует часть действий пользователя).
Добавим к этому анализ поведенческих факторов и получаем максимально «изощренный», но при этом ненавязчивый способ «фильтрации» трафика для поиска ботов.
Отразится ли это на парсинге?
Вероятнее всего, цифровой отпечаток браузера будет положен в основу защиты от парсеров. Ведь далеко не все владельцы сайтов готовы «делиться» информацией с конкурентами (даже с учетом того, что она является открытой). Идентификация через персонализацию создаст серьезное препятствие на пути ботов-парсеров, «извлекающих» общедоступные данные. Вероятнее всего, разработчикам таких сервисов придется «адаптироваться» под новые условия, а также учесть все ошибки, допускаемые при имитации обычного поведения пользователя во время настройки бота.
На данный момент, единственно возможный способ «обхода» такой защиты – создание полностью управляемого скрипта, способного вести себя максимально органично. Добиться этого можно уже сегодня, с помощью нейросетей, сканирующих поведение пользователей, а также их логику принятия решений при обычном «серфинге» или переходе на сайте с целью совершения какой-либо покупки.
При этом стоит отметить, что грамотная настройка нейросети позволит имитировать отпечаток браузера на основе данных, собранных от миллионов пользователей с тысяч различных сайтов с помощью все того же парсинга. Иными словами, будущее инструмента массового сбора данных в том, чтобы начать заниматься этим прямо сейчас.