javascript

Как работают антиботы

  • суббота, 17 мая 2025 г. в 00:00:04
https://habr.com/ru/articles/908658/

По данным целого ряда исследователей на 2025 год, боты впервые стали генерировать больше трафика в интернете, чем люди.

  • мартовский отчёт F5 Labs по итогам анализа 207 миллиардов веб- и API-транзакций с ноября 2023 года по сентябрь 2024 года, показал 50,04% запросов страниц из автоматизированных источников;

  • апрельский выпуск ежегодного отчёта Imperva Bad Bot Report 2025 также обнаружил, что в 2024 году автоматизированный трафик в первый раз за 12 лет их наблюдений превысил человеческий, дойдя до 51%. При этом 37% глобального интернет-трафика определено как генерируемый вредоносным ПО — на 5% больше, чем в 2023. 14% — хорошие боты. И 49% — люди.

Полученное превосходство ботов над людьми, как и скачок в объёмах трафика вредоносных ботов, исследователи связывают, естественно, с распространением ChatGPT и аналогов.

The Independent

Помимо непосредственно того вреда, для которого создаются «плохие» боты, рост их совокупного трафика как таковой ставит под удар всю логику функционирования интернета, действовавшую со времён первых домашних страниц — теперь, когда более половины посещаемости любого сайта, в среднем, становятся боты.

Это проблема и для контентных ресурсов, живущих за счёт рекламы, и для e-коммерса, платящего при покупке рекламы живые напополам с автоматическими переходы.

Представьте: интернет-магазин товаров для йоги видит, что 40% посетителей — мужчины 18–24 лет, активно кликающие на коврики с единорогами. Владелец увеличивает рекламу в TikTok, но продажи падают. Почему? Потому что трафик генерировали боты-парсеры конкурентов, а реальная аудитория — женщины 30+.

Это реальная история — одна из тысяч. 68% компаний в 2023 году (тогда ещё в эпоху доминирующего человеческого присутствия в интернете) неверно сегментируют аудиторию из-за бот-трафика:

  • Боты имитируют Safari/iOS, чтобы выглядеть как мобильные пользователи;

  • прокручивают страницы, совершают «случайные» клики — всё, чтобы обойти Google Analytics;

  • подменяют cookies для создания иллюзии уникальных сессий.

Семь бед — один ответ

После внедрения фильтрации ботов трафик EcoYoga из примера выше, трафик упал на 37% — но конверсия выросла в 2,1 раза.

Как работают антиботы

Задача антибота — выявлять два типа ботов: простые HTTP-боты и продвинутые JavaScript-боты, которые могут искажать аналитику, спамить формы или фальшивить клики в рекламе. Для этого используются следующие подходы:

  1. Пассивный:

    • блокировка известных бот-сетей (например, ASN хостингов-однодневок);

    • Rate-limiting для запросов к API (/product/*).

  2. Установка JS скрипта на сайт, который анализирует JS для выявления бота. Механику борьбы с JS-ботами можно прочитать в статье «Защищаем сайт от парсеров и поведенческих ботов с помощью DNS-прокси», автор которой, хабраюзер @grigoriy-melnikov— разработчик ботов со стажем, теперь занимающийся защитой от ботов, и разработчик собственного антибота KillBot. Фишка антибота Мельникова — слепок браузера: авторское ноу-хау, это уникальный набор параметров, которые, в отличие от обычных fingerprint, которые легко покупаются и подменяются пачками, пока нигде не купить.

    Посмотреть свой снимок браузера: killbot.ru/snpsht.html
    Посмотреть свой снимок браузера: killbot.ru/snpsht.html
  3. Использование предобработчика для анализа HTTP-трафика перед загрузкой сайта;

  4. Антибот-экран: скрытие сайта за промежуточным сервером по аналогии с Cloudflare для защиты от ботов любого типа, поскольку весь трафик сначала проходит через него — например, для прохождения капчи — который действует как «таможня» для трафика, прежде чем попасть на сайт.

    • Варианты взаимодействия с ботами: CAPTCHA, блокировка доступа, скрытие аналитических тегов, поведенческий анализ.

    • Промежуточный сервер также предотвращает сканирование на уязвимости, так как первое взаимодействие происходит с сервером-прокладкой, а не с самим сайтом.

Антибот-экран

Варианты реализации:

Принцип работы во всех случаях один и тот же: на промежуточном сервере (и промежуточном экране с точки зрения пользователя) к трафику применяется поведенческий анализ в реальном времени:

  • по траектории движения мыши — боты движутся по прямым траекториям с пиксельной точностью;

  • по времени реакции — ответ на капчу за 0.3 сек — явный признак скрипта;

  • семантические ловушки: Внедрение скрытых «маячков» (например, невидимых кнопок с CSS-классом .bot-trap)

// Код для выявления эмуляции браузера
if (navigator.webdriver || window.document.documentElement.getAttribute('webdriver')) {
  fetch('https://killbot.io/log-bot', { method: 'POST' });
}

По итогам фильтрации, «таможня» блокирует HTTP-боты и помечает JS-парсеры как ботов для ручной блокировки (например автоматически помечая «бот/не бот» в метриках через интеграцию с Google Analytics или Yandex Metrica Webvisor).

Пройти верификацию могут только сложные JS-боты — массовые HTTP-запросы не завалят сайт.

При этом интернет-пользователям, которых распознаёт поведенческий анализ, зачастую даже капчу вводить не приходится.

Всеобщая антибот-вакцинация

Бороться с захватом интернета ботами, которые уже сейчас сжигают впустую огромные вычислительные и энергетические мощности, можно двумя путями:

  1. на стороне источника проблем — борьбой с разработчиками, заказчиками и, главное, бенефицирами;

  2. на стороне пользователя — сделав фильтрацию трафика и антиботы универсальным стандартом для всех интернет-сайтов.

Пункт 2 в этой борьбе может оказаться решающим. Главная причина, по которой ботов в интернете в прямом смысле стало больше, чем людей — не в технологическом прорыве, обеспеченном LLM-чатботами, а в том, что для них есть цели и задачи.

Ботов в этом смысле можно сравнить с инфекциями — они продолжают существовать и эволюционировать, пока находят носителей. Каким образом человечеству удалось избавиться от вируса полиомиелита или оспы (одного из самых страшных человеческих врагов в истории)? Путём массовой, глобальной вакцинации, лишившей эти заразы возможности зацепиться хоть за кого-нибудь в человеческой популяции.

Вполне возможно, что это просто часть эволюции интернета: как, в своё время, организмам понадобилось обзавестись иммунитетом, чтобы выживать в биосфере Земли, так и для сайтов протокол за протоколом (уже стали нормой https, двустороннее шифрование в мессенджерах итд.) формируется стандарт средств и методов, без которых нарастающая лавина ботов угрожает задушить весь интернет.