Карты Tenstorrent для DIY-сервера с локальной LLM
- суббота, 5 июля 2025 г. в 00:00:12
В апреле 2025 года компания Tenstorrent начала принимать заказы на PCIe-карты Blackhole и Wormhole (на фото). Ускорители TPU на открытой архитектуре RISC-V с 28−32 ГБ видеопамяти предназначены непосредственно для разработчиков, которые желают запускать LLM на домашнем ПК или небольшом DIY-сервере. Это реальная альтернатива в сегменте, где пока доминирует Nvidia.
Во главе Tenstorrent стоит легендарный инженер Джим Келлер, ветеран Intel и AMD, создатель микроархитектуры AMD Zen и соавтор x86-64.
Благодаря радикальной открытости своих решений Tenstorrent уже привлекла небольшую армию фанатов среди LLM-энтузиастов.
Появление мощных LLM с открытыми весами типа Llama, Qwen, Mixtral и QwQ стимулировало спрос на производительное оборудование для сборки DIY-серверов. Энтузиасты уделяют приоритетное внимание объёму VRAM и пропускной способности памяти. Это важно для приемлемой скорости инференса (токены в секунду). Типичная конфигурация домашнего сервера включает несколько бэушных GPU от Nvidia, таких как RTX 3090, см. «Быстрый и экономичный инференс в прикладных задачах».
Карты Tenstorrent ориентированы именно на эту высококонкурентную нишу, где главный параметр — соотношение цены и производительности.
Для предварительного заказа доступны карты Blackhole p100a, p150a и p150b, а также Wormhole n150d и n300d.
Технические характеристики карт Blackhole:
Технические характеристики карт Wormhole:
Tenstorrent подчёркивает открытый подход с использованием свободного ПО, предлагая кастомный форк популярного сервера инференса vLLM, который поддерживает такие модели, как Llama, Qwen, Mistral, Mixtral и Falcon. Документация и руководство по установке — в разделе для разработчиков.
Для локального инференса LLM, особенно генерации токенов, решающее значение имеет пропускная способность памяти. Именно она определяет, насколько быстро работает модель. Посмотрим, как выглядят карты Tenstorrent в сравнении предложениями Nvidia, учитывая рекомендованную розничную цену и текущие рыночные цены, источник:
Сравнение Tenstorrent Blackhole и Nvidia RTX
Характеристика | Tenstorrent p100a | Tenstorrent p150a | Nvidia RTX 3090 (б/у) | Nvidia RTX 4090 | Nvidia RTX 5090 |
---|---|---|---|---|---|
VRAM | 28 ГБ GDDR6 | 32 ГБ GDDR6 | 24 ГБ GDDR6X | 24 ГБ GDDR6X | 32 ГБ GDDR7 |
Пропускная способность (BW) | 448 ГБ/с | 512 ГБ/с | 936 ГБ/с | 1008 ГБ/с | 1790 ГБ/с |
Питание (TBP) | 300 Вт | 300 Вт | 350 Вт | 450 Вт | 575 Вт |
Цена (текущая) | $999 | $1399 | $1000 | ~$3000 | ~$3300 |
Цена (MSRP) | $999 | $1399 | $1499 | $1599 | $1999 |
$/ГБ VRAM (текущая) | ~$35,68 | ~$43,72 | ~$41,67 | ~$125,00 | ~$103,13 |
$/(ГБ/с) BW (текущая) | ~$2,23 | ~$2,73 | ~$1,07 | ~$2,98 | ~$1,84 |
Интерфейс | PCIe | PCIe | PCIe | PCIe | PCIe |
Сравнение Tenstorrent Wormhole и Nvidia RTX
Характеристика | Tenstorrent n150d | Tenstorrent n300d | Nvidia RTX 3090 (б/у) | Nvidia RTX 4090 |
---|---|---|---|---|
VRAM | 12 ГБ GDDR6 | 24 ГБ GDDR6 | 24 ГБ GDDR6X | 24 ГБ GDDR6X |
Пропускная способность (BW) | 288 ГБ/с | 576 ГБ/с | 936 ГБ/с | 1008 ГБ/с |
Питание (TBP) | 160 Вт | 300 Вт | ~350 Вт | ~450 Вт |
Цена (текущая) | $1099 | $1449 | ~$1000 | ~$3000 |
Цена (MSRP) | $1099 | $1449 | $1499 | $1599 |
$/ГБ VRAM (текущая) | ~$91,58 | ~$60,38 | ~$41,67 | ~$125,00 |
$/(ГБ/с) BW (текущая) | ~$3,82 | ~$2,52 | ~$1,07 | ~$2,98 |
Интерфейс | PCIe | PCIe | PCIe | PCIe |
Как видим, объём памяти 28−32 ГБ у топовых моделей превышает 24-гигабайтный лимит RTX 3090 и 4090. Это позволяет использовать более крупные модели и более высокую точность без необходимости установки нескольких GPU.
Карта p150a по объёму VRAM (32 ГБ) равняется гораздо более дорогой RTX 5090.
С точки зрения соотношения цена/ГБ, карты Blackhole выглядят привлекательно по сравнению с текущими ценами Nvidia.
Главной проблемой этих карт остаётся дефицит пропускной способности. На обеих картах Blackhole она примерно вдвое ниже, чем у RTX 3090. На Wormhole пропускную способность немного больше, но всё же значительно отстаёт от 3090.
Преимуществом Tenstorrent является более высокая вычислительная способность (в TFLOPS), но она не компенсирует пропускную способность в плане скорости генерации токенов.
Другое уникальное преимущество Tenstorrent — порты QSFP-DD на p150a (800G) и n300d/n150d (200G) для высокоскоростных межсоединений, что позволяет масштабировать несколько карт и обойти стандартные ограничения пропускной способности PCIe в больших кластерах.
Схема соединения ускорителей:
Таким образом, систему можно масштабировать от небольшой рабочей станции с несколькими картами до серверных стоек Galaxy Wormhole Server в сетке 8×32 ускорителей с интерконнектом:
У Nvidia есть интерконнект NVLink, но он дорогой или недоступен на потребительских картах. А здесь всё доступно.
Теперь Tenstorrent работает над созданием всё более крупных кластеров для обучения моделей. На данный момент построен кластер из шести Backhole Galaxy (192 чипа), в течение следующих шести месяцев появятся более крупные. Конечная цель — система из 16-ти серверов Galaxy, ещё 16 для коммутации и ещё 16 в качестве «оптимизатора».
В такой архитектуре можно в любой момент отключить любой узел — и кластер продолжит работать.
Самая большая версия будет работать на двух миллионах ядер RISC-V, все вместе параллельно под управлением одной программы. «Мы собираемся построить безумно большие компьютеры, — говорит Джим Келлер. — Это действительно весело».
Джим Келлер — легендарный инженер в микроэлектронной промышленности, ветеран Intel и AMD, а также Apple и Tesla. «Что ни сделает Nvidia — мы сделаем наоборот», — говорит он.
Его миссия — делать железо для ИИ. На двери офиса Келлера в Санта-Кларе висит доска, на которой он написал большими буквами: «Мы победим!», а рядом — список моделей LLM, которые работают на Blackhole.
Tenstorrent не только пользуется преимуществами экосистемы Open Source, но и вносит свой вклад: «Мы вкладываемся в компилятор [RISC-V]», — говорит Келлер. — Наши патчи в LLVM повысили производительность компилятора на 10 %. Операционная система, драйверы, наборы инструментов — всё становится лучше. Я доволен, RISC-V отлично проявляет себя, мы приняли правильное решение — и собираемся на этом заработать».
Келлер сказал, что в долгосрочной перспективе RISC-V победит архитектуры набора команд, которые не поддерживают настройку в достаточной степени: «Генерация с помощью ИИ сделает код гораздо более параллельным и изменит архитектуру CPU, — считает он. — Другие архитектуры не позволяют это контролировать, в отличие от RISC-V».
В настоящее время у Tenstorrent есть европейские офисы в Сербии, Германии и Польше, планируется также офис на Кипре, который будет работать с местными университетами, использующими компьютеры Tenstorrent. Испания — ещё одно вероятное место для открытия офиса в будущем, учитывая наличие в стране талантливых специалистов по RISC-V и поддержку со стороны правительства, говорит Келлер.
В Японии Tenstorrent сотрудничает с фабрикой по производству микроэлектроники Rapidus. Уже запущена пилотная линия по производству ASIC по технологическому процессу 2 нм.
Свободное ПО изменило мир. Везде, где появляется опенсорс, совершается технологическая революция. Мы это видели на примере целого ряда ключевых технологий: весь интернет работает на открытом ПО, отрасль ИИ базируется на открытых фреймворках. Даже популярные проприетарные продукты невозможно представить без открытых технологий, на которых они базируются. Так, создание macOS было бы невозможным без Unix, а Netflix — без FFmpeg.
Опенсорс везде, а в мире аппаратного обеспечения есть его аналог — открытая архитектура. Вот как раз RISC-V — это эквивалент Linux в мире ИИ.
Архитектура RISC-V была разработана в 2010 году в Калифорнийском университете Беркли как бесплатный открытый стандарт, альтернативный проприетарным архитектурам, таким как Intel x86 и ARM.
Её открытость предполагает возможность глубокой модификации всеми желающими, что особенно привлекательно для приложений ИИ и серверного железа. В итоге RISC-V получил невероятное распространение: от крупных корпораций как Google, до маленьких стартапов как Tenstorrent — все создают микросхемы TPU на архитектуре RISC-V.
Такие TPU могут составить реальную конкуренцию GPU при сборке серверов для локального хостинга LLM. Как и в других приложениях самохостинга, локальная LLM на своём сервере даёт ряд преимуществ перед облачными серверами. Самое главное — это контроль над данными. Это критическое требование для компаний, которые не могут себе позволить передавать проприетарный код и другие данные в публичный сервис.
Кроме информационной безопасности, самохостинг LLM позволяет сэкономить деньги на платных подписках.
Архитектура RISC-V в перспективе поможет в будущем открыть весь стек ИИ: от аппаратного обеспечения до конечных моделей и приложений. Репозиторий Tenstorrent на Github
содержит подробные сведения об аппаратном обеспечении и программах, которые разрабатывает компания.
На диаграмме фиолетовым показан программный стек Tenstorrent, в контексте общего стека ИИ. Здесь TT-LLK — это среда для программирования одиночных TPU (написание ядер), TT-Metalium — низкоуровневая среда выполнения, которая координирует работу чипов, TT-NN — библиотека операций и API, а TT-Forge — новый компилятор MLIR. Всё это лежит в репозитории, открыто для изучения, использования и модификаций.
Таким образом, не только большие корпорации имеют возможность проектировать и продавать аппаратные AI-ускорители. Это может делать даже небольшой стартап, особенно во главе с талантливым инженером, и придерживаясь открытой архитектуры.
Локальные LLM становятся доступнее. Всё больше компаний инвестируют в генеративные нейросети, включая запуск корпоративных вычислительных кластеров и серверов LLM для локального инференса. Более того, подобные решения доступны и для отдельных пользователей, DIY-энтузиастов LLM, а также предпринимателей, которые имеют возможность поднять полноценный бэкенд для AI-приложений. Карта
Выход PCIe-карт Blackhole и Wormhole — долгожданное начало конкуренции на этом рынке. Например, Blackhole p150a стала первой в мире, которая преодолела барьер 24 ГБ VRAM по цене ниже $1500, что является значительным достижением. К сожалению, для типичных рабочих нагрузок LLM желательно ещё увеличить пропускную способность памяти. Но начало положено.
Tenstorrent уже анонсировала модель Blackhole p300 с 64 ГБ VRAM и пропускной способностью 1 ТБ/с (на плате два чипа Blackhole по 512 ГБ/с с быстрым интерконнектом), это уже гораздо более сбалансированный вариант. Дальше — больше:
Келлер верит, что в следующие 5−10 лет архитектура RISC-V станет повсеместно использоваться в дата-центрах, особенно для научных вычислений и суперкомпьютеров.
© 2025 ООО «МТ ФИНАНС»