Полмиллиона запросов за месяц: мой LLM-challenge и первые выводы
- пятница, 16 мая 2025 г. в 00:00:10
Привет, Хабр! Меня зовут Евгений, я работаю разработчиком в Университете Кембриджа (UK). В начале апреля я запустил llm7.io - полностью бесплатный LLM-провайдер, совместимый с популярными библиотеками chat completion
. Цель была простая: проверить, насколько эффективно можно построить отказоустойчивую архитектуру под настоящую high-load-нагрузку, и при этом дать всем желающим доступ к мощным языковым моделям - без регистрации, API-токенов, смс и прочих барьеров.
Через месяц после запуска: 572 000+ обработанных запросов. Делюсь опытом, выводами и тем, чего не ожидал.
Хотел протестировать свои инженерные навыки под боевой нагрузкой.
Хотел дать исследователям и разработчикам простой и прямой доступ к топовым LLM без лишней бюрократии.
Хотел собрать анонимизированный семантический кэш для возможного [до]обучения своих моделей в будущем.
Неожиданный эпизод случился 14 апреля - сервис внезапно получил 462 000 запросов за один день. Похоже, кто-то использовал его для массовой обработки на относительно большом дата-сете. Я был уверен, что сервис упадёт. Не упал. Архитектура справилась, и это стало хорошей проверкой на прочность.
В остальные дни трафик стабилизировался - максимум был около 10 000 запросов в сутки.
Логи показали интересную картину: многие пользователи не утруждают себя выбором подходящих моделей. Например, отправляют изображения в текстовые модели (я наблюдал массовые 400 из-за некорректных запросов клиентов), которые вообще не поддерживают мультимодальность. Причём продолжают слать их в цикле и даже находят меня в соц сетях и пишут с просьбой «починить ошибку» сервиса 🤪.
Решение: я не стал блокировать такие запросы, а реализовал автоматическое перенаправление на подходящие модели.
Как показывает практика, одним из основополагающих классов тестирования LLM на пользовательский ввод - это отнюдь не "умные" вопросы с целью решить задачку из дата-сета MATH
.
Часть пользователей активно проверяют LLM на грани цензуры. Даже при анонимизации семантика запросов местами была таковой, что у инженера далекого от специфики - волосы встанут дыбом.
По логам видно, что кто-то запускал ботов, массово генерирующих неприемлемый контент - это подтверждается ошибками по Policy Violation от самих моделей.
Хорошо, что современные модели имеют базовые защитные фильтры. Но вопрос борьбы с завуалированной токсичностью и обходами цензуры - это отдельная инженерная задача, которой я теперь тоже всерьёз интересуюсь, чтобы корректно обучать собственные модели.
Многие пользователи… боятся пользоваться бесплатным сервисом. Когда рядом бесплатный, дешевый и дорогой - выбирают платный. Психология: если платишь, значит это надёжно. Удивительно, но факт. Здесь важную роль играет и UX — отсутствие красивого лендинга или привычного onboarding-а снижает доверие, даже если технически всё работает отлично.
Я написал простые клиенты:
Они позволяют работать с llm7.io без регистрации - просто установи и используй. Но пока пользователей немного. Если у вас есть идеи, как масштабировать проект и привлечь аудиторию - буду рад услышать в комментариях.
Архитектура прошла боевое крещение.
Ввод пользователя - это испытание и для моделей, и для серверной части.
Бесплатный сервис - это не только про доступность, но и про сложную инженерию, фильтрацию и пр.
Я получил уникальный опыт, увидел реальные паттерны использования LLM, и готов продолжать эксперимент.
Спасибо за внимание! Если вам было интересно - поддержите и поделитесь, пожалуйста, статьёй (так я буду видеть интерес аудитории и feedback). Если нагрузка ещё вырастет или появятся новые инсайты - обязательно напишу продолжение.Пишите в комментарии - буду рад обсудить идеи и фидбэк.