Программа управления кластерами утраивает эффективность дата-центров
- четверг, 13 марта 2014 г. в 06:07:02
Инженеры из Стэнфордского университета разработали программное обеспечение Quazar, которое за счет более интеллектуального распределения нагрузки между серверами способно втрое увеличить эффективность работы серверов в дата-центрах. Описание программы с результатами нагрузочного тестирования в EC2 авторы представили 1 марта на международной конференции ASPLOS 2014 по архитектурной поддержке языков программирования и операционных систем: “Quasar: Resource-Efficient and QoS-Aware Cluster Management” (зеркало).
Основная проблема дата-центров в том, что в серверы загружены, в среднем, на 20%. Дата-центры вынуждены резервировать мощности, чтобы выполнить свои обязательства перед клиентами в периоды максимальной нагрузки их приложений. А клиенты резервируют мощности по максимуму, самостоятельно делая предположения, сколько понадобится CPU, RAM и проч.
Распределением нагрузки между серверами занимаются специальные программы — кластер-менеджеры (cluster manager), распределяя задачи через «агентов» (cluster management agent), установленных на каждом сервере. Один из самых популярных кластер-менеджеров — Apache Mesos. Именно с этой программой разработчики сравнивают Quasar по эффективности.
Значительное улучшение коэффициента использования серверов достигается за счет отказа от стандартной практики резервирования мощностей для каждого приложения. Вместо этого Quazar ориентируется на целевую производительность приложения, которую указывает заказчик. При этом используются особые алгоритмы распределения нагрузки, схожие с алгоритмами в системах рекомендаций на сайтах интернет-магазинов. Они помогают определить, какие конкретно задачи из разных приложений можно осуществлять параллельно на одном и том же сервере, а какие нужно перенести на другой, с динамической адаптацией в процессе работы.
Такие впечатляющие результаты оптимизации нагрузки кажутся невероятными, но разработчики написали реализацию Quazar и в реальности проверили ее на кластере из 200 серверов Amazon EC2, так что научная работа подкреплена убедительной доказательной базой.