news.shamcode.ru | Масло, вода, ртуть, акварель. Простой тест для LLM… или нет?

конечно графика немного не такая, в тесте, но мы явно движемся к этому =)

Недавно я провёл небольшой эксперимент: проверил, как разные модели от OpenAI справляются с одной и той же задачей, создать красивую симуляцию «жидкостей в стакане» с помощью HTML5 Canvas и JavaScript.
На словах всё звучит просто, но на деле это проверка и кода, и физики, и UX. Результаты получились очень показательные, а кое-где даже удивительные. Делюсь наблюдениями и видео 👇

Суть задачи

Я дал четырём моделям, GPT-4.5, OpenAI/OSS-120b (think hard), GPT-5 (Thinking) и GPT-5 PRO — один и тот же промпт:

"Я хочу, чтоб ты сделал на HTML5 Canvas и JavaScript очень красивую и эффектную симуляцию. Представь, что в центре экрана стоит стакан с водой, пользователь может выбрать одну из 3-х жидкостей (масло, акварель и ртуть) и добавлять её в стакан с водой, зажимая левую кнопку мыши. Затем он наблюдает за красивой физикой. Подумай очень хорошо и постарайся учесть все нюансы, чтобы вышло максимально красиво!"

На первый взгляд формулировка простая, но на деле задача комплексная. Системные промпты я оставил максимально «казуальными» и повседневными — без подсказок про опыт программирования или дизайна. Хотелось посмотреть, как модели будут действовать без опоры на «роль эксперта».

Что именно проверялось?

Умение писать корректный код.
Умение учитывать UX (пользовательский опыт).
Понимание и симуляция физических законов.
Умение прототипировать приятный визуал.
Способность комплексно решать задачу с «размытым» ТЗ.

Результаты

GPT-4.5 (единственная модель без размышлений)

Что получилось:
– Код сразу работал без ошибок.
– Визуально был объект похожий на стакан, жидкости имели базовую физику: масло всплывает, ртуть оседает.
– Акварель порадовала особенно: только эта модель сделала такие яркие, «вкусные» цвета.

Что не получилось:
– Физика в целом очень упрощённая: акварель ведёт себя почти как ртуть и оседает на дно, частицы одинаково отпрыгивают от дна.
– UX минимальный, выглядит как заглушка.

OpenAI/gpt-oss-120b (think hard), локально в LMStudio

Запускался на моём ПК через LMStudio с параметрами: --temp 1.0, --min-p 0.0, --top-p 1.0, --top-k 0.0.

Что получилось:
– Модель тоже уловила задачу и даже добавила воду в виде частиц.
– Физика стала ближе к реальности: ртуть ощущается тяжелее, акварель мягче двигается.
– Интерфейс вписан в тёмную тему, выглядит приятнее, чем у GPT-4.5.

Что не получилось:
– Вода вся ушла наверх вместо равномерного распределения.
– Частицы по-прежнему отскакивают от дна и верха.
– UX по сути остался базовым: только выбор жидкости.

GPT-5 (Thinking)

Что получилось:
– Стакан визуально аккуратнее, внутри подложка, похожая на воду.
– Более продуманный UX: есть контролы и подсказки к интерфейсу.
– Масло и ртуть визуально отличаются.

Что не получилось:
– Физика отсутствует, частицы летают беспорядочно вылетая за стакан и воду.
– Акварель толком не отображается.
– Честно, я удивился: даже GPT-4.5 без «thinking» справилась с физикой лучше. Вероятно, дело в ошибке планирования и баге в коде, я верю что если посидеть с моделью по дольше конечно же это можно решить. Если у вас есть идеи, почему так вышло, поделитесь, мне интересно!

GPT-5 PRO

Что получилось:
– Это единственная модель, которая смогла удержать все 5 критериев.
– Хороший UX (для такого короткого промта), продуманная физика.
– Масло и ртуть соединяются в крупные капли, акварель мягко растворяется в воде.
– Есть завихрения, влияющие на капли, учтена вязкость, сила потока и размер капель.
– Даже визуал волн на воде реализован.

Что не получилось:
– Тут действительно нечего добавить.

Итоги

GPT-5 PRO показала по-настоящему комплексный подход. Как арт-директор с многолетним опытом могу сказать: не каждый прототип от человека в геймдеве выглядит так же цельно уже на первом проходе.
GPT-4.5 остаётся сильнейшей в текстах и цветах. OSS-120b приятно удивила креативностью и тем, что даже локально способна так много. GPT-5 (Thinking) добавила интересный UX, но подвела с физикой.
А GPT-5 PRO продемонстрировала баланс всех аспектов, я впечатлён её способностями!