Сравнение Эльбрус-4С и Эльбрус-8С в нескольких задачах машинного зрения
- вторник, 6 июня 2017 г. в 03:17:56
В этой статье мы покажем, как работают технологии распознавания образов на Эльбрус-4С и на новом Эльбрус-8С: рассмотрим несколько задач машинного зрения, немного расскажем об алгоритмах их решения, приведем результаты бенчмаркинга и наконец покажем видео.
Эльбрус-8С — новый 8-ядерный процессор МЦСТ с VLIW-архитектурой. Мы тестировали инженерный образец с частотой 1.3 ГГц. Возможно, в серийном выпуске она еще возрастет.
Приведем сравнение характеристик Эльбрус-4С и Эльбрус-8С.
Эльбрус-4С | Эльбрус-8С | |
---|---|---|
Тактовая частота, МГц | 800 | 1300 |
Число ядер | 4 | 8 |
Число операций за такт (на ядро) | до 23 | до 25 |
L1 кэш, на ядро | 64 Кб | 64 Кб |
L2 кэш, на ядро | 2 Мб | 512 Кб |
L3 кэш, общая | - | 16 Мб |
Организация оперативной памяти | До 3 каналов DDR3-1600 ECC | До 4 каналов DDR3-1600 ECC |
Технологический процесс | 65 нм | 28 нм |
Количество транзисторов | 986 млн. | 2730 млн. |
Ширина SIMD инструкции | 64 бита | 64 бита |
Поддержка многопроцессорных систем | до 4 процессоров | до 4 процессоров |
Год начала производства | 2014 | 2016 |
Операционная система | ОС “Эльбрус” 3.0-rc27 | ОС “Эльбрус” 3.0-rc26 |
Версия компилятора lcc | 1.21.18 | 1.21.14 |
В Эльбрус-8С более чем в полтора раза повысились тактовая частота, вдвое увеличилось число ядер, а также произошло усовершенствование самой архитектуры.
Так, например, Эльбрус-8С может исполнять до 25 инструкций за 1 такт без учета SIMD (против 23 у Эльбрус-4С).
Важно: нами не проводилось никакой специальной оптимизации под Эльбрус-8С. Была задействована библиотека EML, однако объем оптимизаций под Эльбрус в наших проектах сейчас явно меньше, чем под другие архитектуры: там он постепенно наращивался в течение нескольких лет, а платформой Эльбрус мы занимаемся не так давно и не столь активно. Основные времязатратные функции, конечно же, были оптимизированы, но вот до остальных пока не дошли руки.
Разумеется, начать освоение новой для нас платформы мы решили с запуска нашего продукта Smart IDReader 1.6, предоставляющего возможности по распознавания паспортов, водительский прав, банковских карт и других документов. Необходимо отметить, что стандартная версия этого приложения может эффективно задействовать не более 4 потоков при распознавании одного документа. Для мобильных устройств этого более чем достаточно, а вот при бенчмаркинге десктоп-процессоров это может приводить к занижению оценок производительности многоядерных систем.
Предоставленная нам версия ОС Эльбрус и компилятора lcc не потребовали никаких специальных изменений в исходном коде и мы без каких-либо трудностей собрали наш проект. Отметим, что в новой версии появилась полная поддержка С++11 (она также появилась и в свежих версиях lcc для Эльбрус-4С), что не может не радовать.
Для начала мы решили проверить, как работает распознавание паспорта РФ, о котором мы уже писали тут, на Эльбрус-8С. Мы провели тестирование в двух режимах: поиск и распознавание паспорта на отдельном кадре (anywhere-режим) и на видеоролике, снятом с веб-камеры (webcam-режим). В anywhere режиме распознавание разворота паспорта выполняется на одном кадре, причем паспорт может находиться в любой части кадра и быть произвольным образом ориентированным. В режиме webcam выполняется распознавание только страницы паспорта с фото, причем обрабатывается серия кадров. При этом предполагается, что строки паспорта горизонтальны и паспорт слабо смещается между кадрами. Полученная с разных кадров информация интегрируется для повышения качества распознавания.
Для тестирования мы взяли по 1000 изображений для каждого из режимов и замеряли среднее время работы распознавания (т.е. время без учета загрузки картинки) при запуске в 1 поток и запуске с распараллеливанием. Полученное время работы приведено ниже в таблице.
Режим | Эльбрус-4С, с/кадр | Эльбрус-8С, с/кадр | Ускорение, раз |
---|---|---|---|
Anywhere-режим, 1 поток | 4.57 | 2.78 | 1.64 |
Anywhere-режим, max потоков | 3.09 | 1.78 | 1.74 |
webcam-режим, 1 поток | 0.81 | 0.49 | 1.65 |
webcam-режим, max потоков | 0.58 | 0.34 | 1.71 |
Результаты для однопоточного режима вполне соответствуют ожидаемым: помимо ускорения за счет повышения частоты (а кратность частот 4С и 8С равна 1300 / 800 = 1.625), заметно небольшое ускорение за счет усовершенствования архитектуры.
В случае запуска на максимальном числе потоков ускорение для обоих режимов составило 1.7. Казалось бы, число ядер в Эльбрус-8С вдвое больше, чем в 4С. Так где же ускорение за счет дополнительных 4 ядер? Дело в том, что наш алгоритм распознавания активно задействует только 4 потока и слабо масштабируется дальше, поэтому прирост производительности совсем незначительный.
Далее мы решили добиться полной загрузки всех ядер обоих процессоров и запустили несколько процессов распознавания паспорта. Каждый вызов распознавания был распараллелен так же, как и в предыдущем эксперименте, однако здесь время обработки паспорта включало загрузку изображения из файла. Замеры времени выполнялись на все той же тысяче паспортов. Результаты при полной загрузке Эльбрусов приведены ниже:
Режим | Эльбрус-4С, с/кадр | Эльбрус-8С, с/кадр | Ускорение, раз |
---|---|---|---|
Anywhere | 1.38 | 0.43 | 3.2 |
webcam | 0.47 | 0.19 | 2.5 |
Для anywhere-режима полученное ускорение приблизилось к ожидаемому ускорению в ~3.6 раза, не дотянув до него из-за того, что мы учитывали время загрузки картинки из файла. В случае с webcam-режимом влияние времени загрузки еще больше и поэтому ускорение получилось более скромным — 2.5 раза.
Детекция объектов заданного типа — одна из классических задач технического зрения. Это может быть детекция лиц, людей, оставленных предметов или любого другого типа объектов, обладающих явными отличительными признаками.
Для нашего примера мы решили взять задачу детекции автомобилей, движущихся в попутном направлении. Подобный детектор может использоваться в системах автоматического управления транспортными средствами, в системах распознавания автомобильных номеров и т.д. Не долго думая, мы отсняли видео для обучения и тестирования с помощью авторегистратора неподалеку от нашего офиса. В качестве детектора мы использовали каскадный классификатор Виолы-Джонса [1]. Дополнительно мы применили экспоненциальное сглаживание положений найденных автомобилей для тех из них, которые мы наблюдаем несколько кадров подряд. Стоит отметить, что детектирование выполняется только в прямоугольнике ROI (region of interest), который занимает не весь кадр, поскольку малоосмысленно пытаться детектировать внутренности нашего автомобиля, а также машины, не полностью попадающие в кадр.
Таким образом, наш алгоритм состоял из следующих шагов:
Входные данные: последовательность цветных кадров размера 800х600 пикселей.
Здесь и далее для оценки fps (frame per second) использовалось среднее время работы по 10 запускам программы. При этом учитывалось только время обработки изображений, поскольку сейчас мы работали с записанным роликом, и изображения просто загружались из файла, а в реальной системе они могут, например, поступать с камеры. Оказалось, что детекция работает с весьма приличной скоростью, выдавая 15.5 fps на Эльбрус-4С и 35.6 fps на Эльбрус-8С. На Эльбрус-8С загрузка процессора оказывается далеко не полной, хотя в пике задействованы все ядра. Очевидно, это связано с тем, что не все вычисления в этой задаче были распараллелены. Например, перед применения детектора Виолы-Джонса мы выполняем достаточно тяжеловесные вспомогательные преобразования каждого кадра, а эта часть системы работает последовательно.
Теперь пришло время демонстрации. Интерфейс приложения и отрисовка выполнены с помощью стандартных средств Qt5. Никакой дополнительной оптимизации не проводилось.
Эльбрус-4С
Эльбрус-8С
В этом приложении мы решили продемонстрировать визуальную локализацию на основе особых точек. Использовав панорамы Google Street View с GPS-привязкой, мы научили нашу систему узнавать местонахождение камеры без использования данных о её GPS-координатах или другой внешней информации. Такая система может использоваться для беспилотников и роботов в качестве резервной системы навигации, для уточнения текущего местоположения или для работы в системах без GPS.
Сначала мы обработали базу панорам с GPS-координатами. Мы взяли 660 изображений, покрывающих приблизительно 0.4 км^2 московских улиц:
Затем мы создали описание изображений с помощью особых точек. Для каждого изображения мы:
На этом приготовления закончены, теперь перейдем к тому, что происходит непосредственно во время работы программы:
Входные данные: последовательность цветных кадров размера 800х600 пикселей.
Такая система выдает 3.0 fps на Эльбрус-4С и 7.2 fps на Эльбрус-8С.
Покажем, как же оно работает:
Эльбрус-4С
Эльбрус-8С
Для удобства основные характеристики Эльбрусов и полученные результаты по нашим программам собраны в таблице:
Тест | Эльбрус-4С | Эльбрус-8С | Ускорение, раз |
---|---|---|---|
Детекция автомобилей | 15.5 fps | 35.6 fps | 2.3 |
Визуальная локализация | 3.0 fps | 7.2 fps | 2.4 |
Паспорт, anywhere режим, с/кадр | 3.09 | 1.78 | 1.74 |
Паспорт, webcam режим, c/кадр | 0.58 | 0.34 | 1.71 |
Паспорт, anywhere режим, с/кадр, полная загрузка процессора | 1.38 | 0.43 | 3.2 |
Паспорт, webcam режим, c/кадр, полная загрузка процессора | 0.47 | 0.19 | 2.5 |
Результаты для распознавания паспорта получились довольно скромные, поскольку наше приложение в своем текущем виде не может эффективно задействовать более 4 потоков. Похожая ситуация с детекцией автомобилей и визуальной локацией: алгоритмы имеют нераспараллеленные участки, поэтому не приходится ожидать линейного масштабирования при росте числа ядер. Однако там, где нет ограничений на загрузку приложениями всех ядер процессора, мы наблюдаем рост в 3.2 раза, это близко к теоретическому пределу в 3.6 раз. В среднем разница производительности между поколениями процессоров МЦСТ на нашем наборе задач составляет порядка 2-3 раз, и это очень радует. Только за счёт увеличения частоты и совершенствования архитектуры мы наблюдаем выигрыш более чем в 1.7 раза. МЦСТ быстро нагоняет Intel с ее стратегией в добавлении 5% в год.
В процессе тестов под полной нагрузкой мы не испытывали проблем с зависаниями и падениями, что говорит о зрелости процессорной архитектуры. Подход VLIW, развиваемый в Эльбрусах-8С, позволяет добиваться работы в реальном времени различных алгоритмов компьютерного зрения, а библиотека EML содержит весьма солидный набор математических функций, которые позволяют экономить время тем, кто не собирается оптимизировать код сам. В заключение мы провели еще один эксперимент, запустив сразу 3 демонстрации (локализацию, поиск машин и поиск лиц) на одном процессоре Эльбрус-8С и получив среднюю загрузку процессора около 80%. Тут уж без комментариев.
Хотим сказать большое спасибо компании и сотрудникам МЦСТ и ИНЭУМ Брука за возможность попробовать Эльбрус-8С и поздравить их — восьмерка более чем достойный процессор и пожелать им успехов!
[1] P. Viola, M. Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features”, Proceedings of CVPR 2001.
[2] B. Fan, Q. Kong, T. Trzcinski, Z. H. Wang, C. Pan, and P. Fua, “Receptive fields selection for binary feature description,” IEEE Trans. Image Process., pp. 2583–2595, 2014.