Гетерогенные вычисления на платформе Supermicro
Аналитические вычисления на базе искусственного интеллекта (AI) поднимают огромные пласты информации, находящейся в «озерах», а подчас и «болотах» данных — т.е. в таких хранилищах, где необработанные данные хранятся в оригинальном формате или до тех пор, пока они не понадобятся. Эти алгоритмы с помощью операций линейной алгебры трудятся над анализом поведенческих факторов, распознаванием изображений и голоса, обработкой естественного языка и т.п. Выбирая серверную платформу для решения таких задач, стоит присмотреться к Supermicro SYS-7049GP-TRT. Чем она примечательна с точки зрения процессорных ресурсов общего назначения — базиса гетерогенных вычислений, использующих различные типы вычислительных блоков?
Масштабируемые процессоры и сегрегация данных
Моделирование AI является мощным драйвером рынка гетерогенных платформ и напрямую связано с применением операций линейной алгебры, основными объектами которых являются векторы и матрицы. В первую очередь стоит обратить внимание на поддержку платформой процессоров Cascade Lake-SP. Их вычислительные возможности расширены за счет 32 регистров ZMM0-ZMM31, разрядность которых составляет 512 бит. Особенность длинных форматов представления данных состоит в том, что в рамках развития функционального расширения FMA (Fused Multiply-Add, умножение-сложение с однократным округлением) количество чисел, загружаемое в векторный регистр, равно частному разрядности регистра и разрядности числа.
Плата Supermicro X11DPG-QT оснащена двумя сокетами LGA3647 для установки процессоров Intel Xeon Scalable семейства Cascade Lake-SP
Системная плата Supermicro X11DPG-QT в составе серверной платформы Supermicro SYS-7049GP-TRT оснащена двумя сокетами LGA3647 для установки процессоров Intel Xeon Scalable семейства Cascade Lake-SP
Другими словами, AVX512 (Advanced Vector Extensions — расширение системы команд x86 для микропроцессоров Intel и AMD, предложенное Intel в марте 2008) оперирует с отдельными полями ZMMx: одной инструкцией в регистре можно обработать, например, восемь 64-битных чисел двойной точности (double precision). Это весьма кстати для решения ряда задач, моделирующих искусственный интеллект: можно использовать числа меньшей разрядности — до 8-битных целых, кратно увеличив их количество в векторном регистре. Налицо рост эффективности вычислений за счет повышения производительности. Важным дополнительным фактором является экономное расходование объемов ОЗУ и ресурсов дорогостоящей кэш-памяти. Пример вычисления скалярного произведения векторов: обрабатываются 8-битные множители и вычисляется 32-битное произведение (сравнение реализации несколькими инструкциями из набора AVX512 BW и одной инструкцией из набора VNNI)

Пример вычисления скалярного произведения векторов: обрабатываются 8-битные множители и вычисляется 32-битное произведение (сравнение реализации несколькими инструкциями из набора AVX512 BW и одной инструкцией из набора VNNI)
Инструкции же функционального расширения VNNI (Vector Neural Network Instructions) обеспечивают аппаратную поддержку операции умножения векторов, которая, в свою очередь может стать строительным блоком для умножения матриц.
GPU ускоряет вычисления
Альтернативным видом радикальной оптимизации обработки больших массивов данных по праву считается технология SIMT, получившая распространение в графических процессорах. Здесь используется множество скалярных потоков данных, параллельно выполняемых под управлением общего потока инструкций.
Платформа Supermicro SYS-7049GP-TRT годится для установки четырех NVIDIA-ускорителей с шиной PCI Express x16, даже если каждый из них требует два корпусных отсека
Гетерогенные вычисления позволяют перенести чувствительные к производительности рабочие нагрузки с процессоров общего назначения на GPU. Мощность вычислений здесь напрямую зависит от количества обрабатываемых скалярных потоков. Серверная плата Supermicro X11DPG-QT в составе платформы SYS-7049GP-TRT годится для установки четырех NVIDIA-ускорителей с шиной PCI Express x16, даже если каждый из них требует два корпусных отсека. Такое расширение платформы особенно важно для поддержки графических ускорителей в контейнерных средах.
Для дополнительной оснастки дисковой и сетевой подсистем остаются еще два слота PCIe x16 и один PCIe x4. Подходы к реализации систем хранения и средств коммуникации вполне могут быть подстроены под особые требования самого взыскательного пользователя.
Вместо резюме
Возрастающий интерес к результатам от применения GPU подпитывается разработкой аппаратных платформ, способных решать самые разнообразные задачи. Практическое их применение для интеллектуального анализа данных будет находить новые области применения, отражая все аспекты повседневной жизни. Реализация подобных программ лучше всего осуществляется с помощью гетерогенных вычислений на платформах, гармонично совмещающих мощь процессоров общего назначения и глубину графических вычислителей.
Источник
|