Как я тестировал локально новый Qwen 3.6 и Gemma 4
- воскресенье, 19 апреля 2026 г. в 00:00:11
Всем привет
! Текст полностью написан человеком и не форматировался ИИ !
На днях вышла локальная модель от алибабы - Qwen 3.6, весь реддит забит этой темой. И я рискнул проверить что она может в сравнении с Gemma 4

Оборудование на котором тестировал (ноутбук Asus Tuf Gaming + дискретная Nvidia rtx 4070 8GB):

Софт: Windows + LMstudio + Zed IDE
* сразу отвечу почему не использовал opencode/claude/pi.dev и прочие cli клиенты, так как работа tools в них слабая, многое не запускается, либо на старте долго грузится из-за системных промптов, или файлы не редактируются, или сбоит постоянно и LLM не может понять в какой она оболочке - bash или powershell. В итоге отлично все заработало именно в Zed IDE с включенным AI

Для тех кто все-таки хочет работать в cli - есть решение для qwen3.х моделей, необходимо в LMstudio кликнуть слева на значок "MyModels" (с описанием при наведении мыши) , выбрать нужную qwen модель и справа от нее нажать иконку шестеренки, далее во вкладке inference в самом низу изменить шаблон jinja на этот
{%- set image_count = namespace(value=0) %} {%- set video_count = namespace(value=0) %} {%- macro render_content(content, do_vision_count, is_system_content=false) %} {%- if content is string %} {{- content }} {%- elif content is iterable and content is not mapping %} {%- for item in content %} {%- if 'image' in item or 'image_url' in item or item.type == 'image' %} {%- if is_system_content %} {{- raise_exception('System message cannot contain images.') }} {%- endif %} {%- if do_vision_count %} {%- set image_count.value = image_count.value + 1 %} {%- endif %} {%- if add_vision_id %} {{- 'Picture ' ~ image_count.value ~ ': ' }} {%- endif %} {{- '<|vision_start|><|image_pad|><|vision_end|>' }} {%- elif 'video' in item or item.type == 'video' %} {%- if is_system_content %} {{- raise_exception('System message cannot contain videos.') }} {%- endif %} {%- if do_vision_count %} {%- set video_count.value = video_count.value + 1 %} {%- endif %} {%- if add_vision_id %} {{- 'Video ' ~ video_count.value ~ ': ' }} {%- endif %} {{- '<|vision_start|><|video_pad|><|vision_end|>' }} {%- elif 'text' in item %} {{- item.text }} {%- else %} {{- raise_exception('Unexpected item type in content.') }} {%- endif %} {%- endfor %} {%- elif content is none or content is undefined %} {{- '' }} {%- else %} {{- raise_exception('Unexpected content type.') }} {%- endif %} {%- endmacro %} {%- if not messages %} {{- raise_exception('No messages provided.') }} {%- endif %} {%- if tools and tools is iterable and tools is not mapping %} {{- '<|im_start|>system\n' }} {{- "# Tools\n\nYou have access to the following functions:\n\n<tools>" }} {%- for tool in tools %} {{- "\n" }} {{- tool | tojson }} {%- endfor %} {{- "\n</tools>" }} {{- '\n\nIf you choose to call a function ONLY reply in the following format with NO suffix:\n\n<tool_call>\n<function=example_function_name>\n<parameter=example_parameter_1>\nvalue_1\n</parameter>\n<parameter=example_parameter_2>\nThis is the value for the second parameter\nthat can span\nmultiple lines\n</parameter>\n</function>\n</tool_call>\n\n<IMPORTANT>\nReminder:\n- Function calls MUST follow the specified format: an inner <function=...></function> block must be nested within <tool_call></tool_call> XML tags\n- Required parameters MUST be specified\n- You may provide optional reasoning for your function call in natural language BEFORE the function call, but NOT after\n- If there is no function call available, answer the question like normal with your current knowledge and do not tell the user about function calls\n</IMPORTANT>' }} {%- if messages[0].role == 'system' %} {%- set content = render_content(messages[0].content, false, true)|trim %} {%- if content %} {{- '\n\n' + content }} {%- endif %} {%- endif %} {{- '<|im_end|>\n' }} {%- else %} {%- if messages[0].role == 'system' %} {%- set content = render_content(messages[0].content, false, true)|trim %} {{- '<|im_start|>system\n' + content + '<|im_end|>\n' }} {%- endif %} {%- endif %} {%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %} {%- for message in messages[::-1] %} {%- set index = (messages|length - 1) - loop.index0 %} {%- if ns.multi_step_tool and message.role == "user" %} {%- set content = render_content(message.content, false)|trim %} {%- if not(content.startswith('<tool_response>') and content.endswith('</tool_response>')) %} {%- set ns.multi_step_tool = false %} {%- set ns.last_query_index = index %} {%- endif %} {%- endif %} {%- endfor %} {%- if ns.multi_step_tool %} {{- raise_exception('No user query found in messages.') }} {%- endif %} {%- for message in messages %} {%- set content = render_content(message.content, true)|trim %} {%- if message.role == "system" %} {%- if not loop.first %} {{- raise_exception('System message must be at the beginning.') }} {%- endif %} {%- elif message.role == "user" %} {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }} {%- elif message.role == "assistant" %} {%- set reasoning_content = '' %} {%- if message.reasoning_content is string %} {%- set reasoning_content = message.reasoning_content %} {%- else %} {%- if '</think>' in content %} {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %} {%- set content = content.split('</think>')[-1].lstrip('\n') %} {%- endif %} {%- endif %} {%- set reasoning_content = reasoning_content|trim %} {%- if loop.index0 > ns.last_query_index %} {{- '<|im_start|>' + message.role + '\n<think>\n' + 'I cannot call a tool until I stop thinking.' + reasoning_content + '\n</think>\n\n' + content }} {%- else %} {{- '<|im_start|>' + message.role + '\n' + content }} {%- endif %} {%- if message.tool_calls and message.tool_calls is iterable and message.tool_calls is not mapping %} {%- for tool_call in message.tool_calls %} {%- if tool_call.function is defined %} {%- set tool_call = tool_call.function %} {%- endif %} {%- if loop.first %} {%- if content|trim %} {{- '\n\n<tool_call>\n<function=' + tool_call.name + '>\n' }} {%- else %} {{- '<tool_call>\n<function=' + tool_call.name + '>\n' }} {%- endif %} {%- else %} {{- '\n<tool_call>\n<function=' + tool_call.name + '>\n' }} {%- endif %} {%- if tool_call.arguments is mapping %} {%- for args_name in tool_call.arguments %} {%- set args_value = tool_call.arguments[args_name] %} {{- '<parameter=' + args_name + '>\n' }} {%- set args_value = args_value | tojson if args_value is mapping or (args_value is iterable and args_value is not string) else args_value | string %} {{- args_value }} {{- '\n</parameter>\n' }} {%- endfor %} {%- endif %} {{- '</function>\n</tool_call>' }} {%- endfor %} {%- endif %} {{- '<|im_end|>\n' }} {%- elif message.role == "tool" %} {%- if loop.previtem and loop.previtem.role != "tool" %} {{- '<|im_start|>user' }} {%- endif %} {{- '\n<tool_response>\n' }} {{- content }} {{- '\n</tool_response>' }} {%- if not loop.last and loop.nextitem.role != "tool" %} {{- '<|im_end|>\n' }} {%- elif loop.last %} {{- '<|im_end|>\n' }} {%- endif %} {%- else %} {{- raise_exception('Unexpected message role.') }} {%- endif %} {%- endfor %} {%- if add_generation_prompt %} {{- '<|im_start|>assistant\n' }} {%- if enable_thinking is defined and enable_thinking is false %} {{- '<think>\n\n</think>\n\n' }} {%- else %} {{- '<think>\n' }} {%- endif %} {%- endif %}
И ПЕРЕД тестом, там же в настройках модели, начнем с небольшой оптимизации LMstudio - отключим thinkining, чтобы ответы были быстрее. Добавим первой строкой в jinja шаблон эту строку:
{%- set enable_thinking = false %}

Далее, если отмотать в этом окне выше темплейта jinja-шаблона, то можно задать системный промпт, у меня он такой 😁

Теперь готово! Сначала качаем модели через поиск слева. А потом грузим модель в память, и начнем с НОВЕНЬКОЙ Qwen3.6-35B-A3B-Q4_K_M! В самой верхней строке LMstudio по центру выбираем скаченную модель и делаем примерно такие настройки!

Обращаем внимание на красное сверху, этого не должно быть! ВАЖНО, что мы разгружаем память видеокарты, используя всего 80-90% через настроку на скрине "Передача на GPU", не больше 90% общей VRAM. И "Длина контекста", основное для RAM, советую не более 60к для начала, или выставляйте под свои нужды с учетом свободной RAM (здесь также важно, чтобы 10-15% оставалось для системы)
НАШ ОСНОВНОЙ ПРОМПТ ДЛЯ ПРОЕКТА:
Привет. Ты профессиональный разработчик React/NextJS. В текущей директории ты должен создать качественный,стильный и современный сайт в темной стилистике Deep Blue & Violet на тему финансов, и чтобы на сайте был крутой и качественный ипотечный калькулятор. Технологический стек: react / nextjs / tailwind css. Итоговый результат должен быть полностью законченным и готовым к показу заказчику через npm run dev. Обрати внимание на верстку! Чтобы сайт был адаптивным под каждое устройство и все должно быть идеально отцентровано и красиво
(далее я буду убирать/добавлять Deep Blue & Violet , так что может цветовая схема не соответствовать)
В итоге с Qwen3.6-35B-A3B-Q4_K_M получаем такой сайт за ~20-30 минут, примерно 15-20 токенов в секунду. При удлинении контекста модель чуть медленнее начинает писать код
next.config.ts node_modules/ package-lock.json public/ tsconfig.json next-env.d.ts package.json postcss.config.mjs src/


Видим в целом "качественную" работу 😁 С версткой не справилась LLM. Пробовал переделывать и фиксить, а также делать с нуля повторно, ничего не меняется, результат подобный.
Qwen3.6-35B-A3B-Q4_K_M тест завалила!
Далее возьмем чуть выше квантование Qwen3.6-35B-A3B-Q6, размер модели также в ГБ на 10% выше Q4. По скорости примерно 30 минут на такой "проект"
В итоге РЕЗУЛЬТАТ:
AGENTS.md next-env.d.ts postcss.config.mjs srccomponents/ srccomponentsfooter/ srchooks/ CLAUDE.md node_modules/ public/ srccomponentscalculator/ srccomponentshero/ srclib/ eslint.config.mjs package.json README.md srccomponentscharts/ srccomponentsnav/ tsconfig.json next.config.ts package-lock.json src/ srccomponentsfeatures/ srccomponentsstats/


Qwen3.6-35B-A3B-Q6 тест ЗАВАЛИЛА!
Далее qwen-3.5 (тут не помню, вроде бы это 9b была). Также по времени 20-30 минут на создание


Итог для QWEN'ов:
В целом работа квинов понравилась именно с работой tools, скорее всего это лучшее решение для openclaw и других агентских задач, но для разработки видимо необходимо продумывать архитектуру и обращаться к "дорогим" моделям за подробным планом и декомпозировать на этапы(фазы). Еще есть вероятность что с включенным thinking будет лучше (проверю отдельно)
Далее перейдем к Gemma-4-26b-a4b (дизайн НЕ Deep Blue)


Результат понравился, все идеально работает, хоть и проще.
Gemma-4-26b-a4b TEST PASSED!
Далее Gemma-4-31b , вариант поинтереснее, но ДОЛГИЙ! Несколько часов.


Результат впечатляет. Это полноценный рабочий вариант.
Gemma-4-31b TEST PASSED! Да долго, но можно потерпеть 2-3 часа)
БОНУС!
Claude Opus 4.7 так и не смог пофиксить за 5-6 итераций верстку "квинов" 😭
ЗАМЕЧАНИЯ
Предвижу вопросы в стиле "надо было сначала сделать план в Opus/Gemini 3.1 pro, а потом уже в локальную модель пулять". С чем НЕ СОГЛАШУСЬ, так как локальная модель ОБЯЗАНА работать также, к примеру, если у вас нет интернета. Возможно, что с подробным планом из Opus/Gemini результат был бы другим, но это тогда не чистый тест.
Мои выводы:
Время локальных моделей которые РЕАЛЬНО могут уже пришло, достаточно иметь любой ноутбук премиум класса с DDR5 или тот же mac с достаточным кол-вом RAM. К сожалению, с длинным контекстом еще пока не реально работать и запускать llm, так как это требует х2 RAM в некоторых моделях, и могут теряться детали. Лучше следовать логике декомпозиции задач и предварительно разбивать подзадачи с сохранением в текстовые файлы. Также можно сохранять историю чата с агентом в отдельный файл, чтобы можно было сжать ее и работать дальше.
Минусы локального запуска: жарить свое оборудование и терпеть тормоза возможно не всем подойдет.
Тут должна быть ссылка на телеграм, но ее не будет) ну или ищите linuxlife )