http://habrahabr.ru/company/selectel/blog/244653/
Спешим сообщить, что в наших дата-центрах теперь доступны для заказа выделенные серверы на базе процессоров нового семейства Intel Xeon E5v3 и памяти DDR4. Мы — первые в России, кто предлагает клиентам эти серверы самых новых и производительных на сегодняшний день конфигураций.
Полный список доступных конфигураций представлен на
нашем сайте.
В этой статье мы подробно расскажем о новых процессорах и их возможностях.
Intel Xeon E5v3: что нового
Процессоры Intel Xeon E5v3 производятся по тому же технологическому процессу, что и процессоры предшествующего поколения, но при этом в них реализовано множество улучшений на уровне микроархитектуры и усовершенствован дизайн чипа.
Основные нововведения перечислены в таблице ниже:
Область |
Изменение |
Преимущество |
Накристальные межсоединения |
Две кольцевые шины на процессор |
Повышает вычислительную мощность и пропускную способность ядер |
Контроллер памяти (Home Agent) |
- DDR4
- По два home agent в большем количестве моделей процессоров
|
- Увеличение полосы пропускания памяти и энергоэффективности
- Увеличение полосы пропускания сокета
|
Кэш последнего уровня (Last Level Cache, LLC) |
- Схема «кластер на кристалле» (Cluster On Die, COD)
- Усовершенствованная политика выделения кэша последнего уровня
|
- Повышение производительности и снижение времени задержки
- Улучшение общей производительности
|
Управление электропитанием |
Каждое ядро работает на собственной частоте под напряжением, соответствующим текущей нагрузке |
- Улучшенная производительность на ватт
- Снижение энергопотребления на сокет в режиме простоя
|
QPI 1.1 |
Увеличение до 9,6ГТ/с |
Ускорение синхронизации кэшей в многопроцессорных конфигурациях |
Встроенный контроллер ввода-вывода (IO-Hub) |
- Отслеживание принадлежности кэша контроллера ввода-вывода
- Увеличение буферов PCIe
|
Увеличенная полоса пропускания PCI в ситуации конфликта (несколько одновременных попыток доступа к одной и той же строке кэша) |
PCI Express 3.0 |
Позволяет осуществлять одновременную запись по шине в несколько устройств |
Уменьшение загрузки полосы пропускания шины |
Ниже мы расскажем о них более подробно.
Кластер на кристалле (Cluster on Die)
Как уже было упомянуто выше, в процессорах Intel Xeon E5v3 используется схема кластер на кристалле (Cluster on Die). Чтобы лучше понять особенности этой схемы, сравним её с предыдущими микроархитектурами.
Процессоры Sandy Bridge состояли из двух рядов ядер и блоков кэша последнего уровня, соединенных одной кольцевой шиной. В процессорах Ivy Bridge (Intel Xeon E5v2) было три ряда, соединенных двумя кольцевыми шинами. Кольцевые шины перемещали данные в противоположных направлениях (по часовой стрелке и против часовой стрелки), чтобы обеспечить их доставку по кратчайшему маршруту и сократить время задержки. После того, как данные поступали в кольцевую структуру, требовалось скоординировать их маршрут во избежание смешения с предыдущими данными.
На процессорах Intel Xeon E5v3 ядра расположены в четыре ряда вокруг двух блоков кэша последнего уровня. Управлять перемещением данных при использовании такой схемы очень сложно, и поэтому было предложено следующее решение: две кольцевые шины были отделены друг от друга. Для обмена данными между ними используется буферный переключатель (buffered switch) — это похоже на то, как коммутатор Ethernet делит сеть на два сегмента.
Кольцевые шины могут работать независимо, и благодаря этому увеличивается полоса пропускания. Это нововведение оказывается особенно полезным, когда инструкции FMA/AVX работают с большими 256-битными порциями данных.
Помимо описанной конфигурации, существуют ещё и две других. Основная информация о них представлена на следующей графической схеме:
Схема процессора |
Количество рядов |
Количество Home Agent |
Количество ядер |
Потребляемая мощность |
Количество транзисторов, миллиардов |
Площадь кристалла, мм2 |
HCC |
4 |
2 |
14 — 18 |
110 — 145 |
5.69 |
662 |
MCC |
3 |
2 |
6 — 12 |
65 — 160 |
3.84 |
492 |
LCC |
2 |
1 |
4 — 8 |
55 — 140 |
2.60 |
354 |
Первая поддерживает от 4 до 8 ядер. В её состав входит одна двойная кольцевая шина, две колонки ядер и агент контроллеров памяти. Кэш последнего уровня в этой конфигурации меньше, и время задержки у него ниже.
Вторая конфигурация поддерживает 10 — 12 ядер и представляет собой уменьшенную версию конфигурации, которую мы уже описали выше. В этой конфигурации кристалл оснащён двумя агентами контроллеров памяти. Синим цветом на схеме отмечены точки, где данные переходят в кольцевые шины.
Во всех трех схемах процессора конфигурация кристаллов несимметрична: например, у 18-ядерного процессора на одной стороне расположены 8 ядер и 20 МБ кэша последнего уровня, а на другой — 10 ядер и 25 МБ кэша.
Данные и инструкции для ядер не хранятся в расположенных рядом с ними секциях кэша. Такое решение, может быть, и не обеспечивает минимальной возможной задержки, но зато позволяет избежать переполнения кэша. Данные хранятся на физических адресах, что обеспечивает равномерный доступ ко всем ячейкам кэша последнего уровня. Транзакции проходят по кратчайшему маршруту.
Каждая кольцевая шина работает на своей частоте и под напряжением, оптимизированным под текущую нагрузку. В случае увеличения нагрузки шинам может быть выделено дополнительное электропитание, что позволяет обеспечить более высокую скорость работы.
Улучшение наборов инструкций
По сравнению с предыдущим поколением производительность новых процессоров существенно возросла. Это стало возможным благодаря самому масштабному за последние три года улучшению набора инструкций AVX 2.0.
Разрядность блоков векторных вычислений в новых процессорах увеличена со 128 до 256 бит. В результате производительность вычислений с плавающей точкой возросла на 70 — 100%. Увеличилась скорость выполнения многих прикладных операций: например, при подсчёте контрольных сумм при дедупликации данных и Thin Provisioning нагрузка на процессор снижается примерно в два раза.
В состав AVX 2.0 входит также обновленный набор инструкций FMA (fused-multiply-add, умножение-сложение с однократным округлением). Для кода, выполняющего последовательные операции умножения-сложения, FMA сокращает количество циклов вдвое. Это нововведение позволяет существенно увеличить скорость работы высокопроизводительных приложений (профессиональная графика, распознавание образов и т.п.).
В новом семействе процессоров улучшен также набор команд Intel Advanced Encryption Standard New Instructions (AES-NI), что позволило повысить скорость шифрования и расшифровки почти вдвое.
Энергоэффективность
По сравнению с предыдущим поколением процессоры Intel Xeon E5v3 потребляют на 36% меньше электроэнергии.
Такое повышение энергоэффективности стало возможным благодаря технологии PCPS (Per-Core P-States). Во-первых, каждое ядро теперь работает на собственной частоте с напряжением, соответствующим текущей нагрузке. Во-вторых, ядра новых процессоров могут переходить в режим пониженного энергопотребления не только все вместе (как это было у процессоров предыдущего поколения), но и по отдельности.
Виртуализация
В процессорах Intel Xeon E5v3 увеличилось количество ядер, что позволило повысить плотность виртуализации (количество ВМ на сервер). В связи с этим возникла необходимость улучшений в области инструкций аппаратной виртуализации. Такие улучшения были реализованы; они заключаются в использовании технологий Cache Quality of Service Monitoring, Virtual Machine Control Structure Shadowing и Extended Page Accessed and Dirty Bits, а также в усовершенствовании технологии Direct Data I/O.
Рассмотрим более детально эти технологии и их преимущества.
Cache Quality of Service Monitoring
Эта технология позволяет в реальном времени следить за загрузкой кэша на уровне ядра, потока, приложения или виртуальной машины. Благодаря ей можно снизить вероятность вытеснения данных из кэша одной ВМ, улучшить отзывчивость виртуальных машин и повысить их производительность.
Мониторинг Cache QoS поможет выявить в виртуальном окружении «плохих соседей», потребляющих слишком большие объёмы кэша, а также оптимизировать нагрузку в многопользовательских средах.
Virtual Machine Control Structure Shadowing
С помощью этой технологии можно запускать гипервизор в гипервизоре. Она даёт гостевым гипервизорам доступ к аппаратному обеспечению сервера (под контролем первичного гипервизора). Благодаря этому можно запускать любое гостевое ПО с минимальным падением производительности.
Технология VMCS Shadowing может быть использована для тестирования и отладки гипервизоров, операционных систем и других программ, которым нужен непосредственный доступ к VMCS (Virtual Machine Control Structure) и VMM (Virtual Machine Monitor).
Поддержка VMCS Shadowing уже реализована в KVM-3.1 и Xen-4.3 и выше.
Extended Pages Accessed and Dirty Bits
Миграция виртуальных машин сопряжена с рядом проблем, особенно в случае миграции активно выполняющихся ВМ. При переносе виртуальных машин важно, чтобы в памяти были перенесены актуальные данные.
Технология EPT A/D Bits (Extended Pages Accessed and Dirty Bits) позволяет гипервизорам получить больше информации о состоянии страниц памяти ВМ, используя флаги Accessed и Dirty, что уменьшает число вызовов инструкции VMExit при миграции ВМ. Её применение ускоряет миграцию, и, следовательно, снижает время простоя виртуальных машин.
Улучшение технологии Direct Data I/O
Одним из ключевых нововведений семейства процессоров Intel E5 была технология Direct Data I/O, позволяющая периферийным устройствам направлять трафик подсистемы ввода-вывода непосредственно в кэш-память процессора. В результате её использования снижается объём данных, передаваемых в системную память, оптимизируется энергопотребление и сокращаются задержки ввода-вывода.
В процессорах Intel Xeon E5v3 эта технология была усовершенствована. С её помощью теперь можно настраивать привязку LLC к ядрам и линиям PCIe. Это позволяет уменьшить обращения к памяти и кэшу при виртуализации ввода-вывода, что ещё больше увеличивает производительность и уменьшает задержки.
С подробной информацией об этих технологиях можно также ознакомиться в
блоге для разработчиков Intel.
DDR4
Одной из ключевых характеристик процессоров Intel Xeon E5v3 является поддержка нового стандарта памяти DDR4 SDRAM.
Важное отличие DDR4 от предыдущих поколений заключается в организации чипов памяти: количество банков удвоено до 16 (технические подробности см., например,
здесь). Переключение между банками происходит быстрее; чипы DDR4 открывают произвольные строки в два раза быстрее по сравнению с DDR3.
Увеличение числа банков и связанные с ним технологические новации, во-первых, дают возможность создавать модули памяти повышенной ёмкости, а во-вторых — способствуют повышению производительности.
Память DDR4 отличается высокой энергоэффективностью: обладая более высокой по сравнению с предыдущим поколением производительностью, новая память потребляет на 40% меньше энергии.
Доступные конфигурации
Мы предлагаем следующие конфигурации серверов на базе процессоров семейства Intel Xeon E5v3:
Процессор |
Память |
Диски |
Цена, руб./мес. |
Xeon E5-1650v3 3.5 ГГц |
64 ГБ DDR4 |
2 × 4 ТБ SATA |
10000 |
Xeon E5-1650v3 3.5 ГГц |
64 ГБ DDR4 |
2 × 480 ГБ SSD |
12000 |
2 × Xeon E5-2630v3 2.4 ГГц |
128 ГБ DDR4 |
2 × 480 ГБ SSD |
15500 |
2 × Xeon E5-2630v3 2.4 ГГц |
64 ГБ DDR4 |
2 × 4 ТБ SATA,
2 × 480 ГБ SSD |
16000 |
2 × Xeon E5-2670v3 2.3 ГГц |
256 ГБ DDR4 |
2 × 800 ГБ SSD |
30000 |
Серверы уже доступны для заказа в Санкт-Петербурге. В самое ближайшее время их можно будет заказать и в Москве. Также скоро появится и возможность собирать серверы произвольных конфигураций на основе новых процессоров Xeon E5v3.
P.S. Серверы всех предыдущих конфигураций теперь доступны на
распродаже. Спешите арендовать выделенные серверы на очень выгодных условиях!
Читателей, которые по тем или иным причинам не имеют возможности оставлять комментарии здесь, приглашаем
в наш блог.