Масло, вода, ртуть, акварель. Простой тест для LLM… или нет?
- среда, 3 сентября 2025 г. в 00:00:03
Недавно я провёл небольшой эксперимент: проверил, как разные модели от OpenAI справляются с одной и той же задачей, создать красивую симуляцию «жидкостей в стакане» с помощью HTML5 Canvas и JavaScript.
На словах всё звучит просто, но на деле это проверка и кода, и физики, и UX. Результаты получились очень показательные, а кое-где даже удивительные. Делюсь наблюдениями и видео 👇
Я дал четырём моделям, GPT-4.5, OpenAI/OSS-120b (think hard), GPT-5 (Thinking) и GPT-5 PRO — один и тот же промпт:
"Я хочу, чтоб ты сделал на HTML5 Canvas и JavaScript очень красивую и эффектную симуляцию. Представь, что в центре экрана стоит стакан с водой, пользователь может выбрать одну из 3-х жидкостей (масло, акварель и ртуть) и добавлять её в стакан с водой, зажимая левую кнопку мыши. Затем он наблюдает за красивой физикой. Подумай очень хорошо и постарайся учесть все нюансы, чтобы вышло максимально красиво!"
На первый взгляд формулировка простая, но на деле задача комплексная. Системные промпты я оставил максимально «казуальными» и повседневными — без подсказок про опыт программирования или дизайна. Хотелось посмотреть, как модели будут действовать без опоры на «роль эксперта».
Умение писать корректный код.
Умение учитывать UX (пользовательский опыт).
Понимание и симуляция физических законов.
Умение прототипировать приятный визуал.
Способность комплексно решать задачу с «размытым» ТЗ.
Что получилось:
– Код сразу работал без ошибок.
– Визуально был объект похожий на стакан, жидкости имели базовую физику: масло всплывает, ртуть оседает.
– Акварель порадовала особенно: только эта модель сделала такие яркие, «вкусные» цвета.
Что не получилось:
– Физика в целом очень упрощённая: акварель ведёт себя почти как ртуть и оседает на дно, частицы одинаково отпрыгивают от дна.
– UX минимальный, выглядит как заглушка.
Запускался на моём ПК через LMStudio с параметрами: --temp 1.0, --min-p 0.0, --top-p 1.0, --top-k 0.0
.
Что получилось:
– Модель тоже уловила задачу и даже добавила воду в виде частиц.
– Физика стала ближе к реальности: ртуть ощущается тяжелее, акварель мягче двигается.
– Интерфейс вписан в тёмную тему, выглядит приятнее, чем у GPT-4.5.
Что не получилось:
– Вода вся ушла наверх вместо равномерного распределения.
– Частицы по-прежнему отскакивают от дна и верха.
– UX по сути остался базовым: только выбор жидкости.
Что получилось:
– Стакан визуально аккуратнее, внутри подложка, похожая на воду.
– Более продуманный UX: есть контролы и подсказки к интерфейсу.
– Масло и ртуть визуально отличаются.
Что не получилось:
– Физика отсутствует, частицы летают беспорядочно вылетая за стакан и воду.
– Акварель толком не отображается.
– Честно, я удивился: даже GPT-4.5 без «thinking» справилась с физикой лучше. Вероятно, дело в ошибке планирования и баге в коде, я верю что если посидеть с моделью по дольше конечно же это можно решить. Если у вас есть идеи, почему так вышло, поделитесь, мне интересно!
Что получилось:
– Это единственная модель, которая смогла удержать все 5 критериев.
– Хороший UX (для такого короткого промта), продуманная физика.
– Масло и ртуть соединяются в крупные капли, акварель мягко растворяется в воде.
– Есть завихрения, влияющие на капли, учтена вязкость, сила потока и размер капель.
– Даже визуал волн на воде реализован.
Что не получилось:
– Тут действительно нечего добавить.
GPT-5 PRO показала по-настоящему комплексный подход. Как арт-директор с многолетним опытом могу сказать: не каждый прототип от человека в геймдеве выглядит так же цельно уже на первом проходе.
GPT-4.5 остаётся сильнейшей в текстах и цветах. OSS-120b приятно удивила креативностью и тем, что даже локально способна так много. GPT-5 (Thinking) добавила интересный UX, но подвела с физикой.
А GPT-5 PRO продемонстрировала баланс всех аспектов, я впечатлён её способностями!