Гетерогенні обчислення на платформі Supermicro
Аналітичні обчислення на базі штучного інтелекту (АІ) підіймають великі пласти інформації, яка знаходиться в «озерах», а іноді і «болотах» даних — тобто, у таких сховищах, де необроблені дані зберігаються в оригінальному форматі або до тих пір, поки вони не знадобляться. Ці алгоритми за допомогою операцій лінійної алгебри працюють над аналізом поведінкових факторів, озпізнаванням зображень та голосу, обробкою природної мови тощо. Вибираючи серверну платформу для вирішення таких завдань, варто придивитися до Supermicro SYS-7049GP-TRT. Чим вона примітна з погляду процесорних ресурсів загального призначення — базису гетерогенних обчислень, які використовують різні типи обчислювальних блоків?
Процеси, що масштабуються і сегрегація даних
Моделювання АІ є потужним драйвером ринку гетерогенних платформ і безпосередньо пов'язане із застосуванням операцій лінійної алгебри, основними об'єктами яких є вектори та матриці. Насамперед варто звернути увагу на підтримку платформою процесорів Cascade Lake-SP. Їхні обчислювальні можливості розширені за рахунок 32 регістрів ZMM0-ZMM31, розрядність яких становить 512 біт. Особливість довгих форматів подання даних полягає в тому, що в рамках розвитку функціонального розширення FMA (Fused Multiply-Add, множення-складання з одноразовим округленням) кількість чисел, що завантажується у векторний регістр, дорівнює приватному розрядності регістру та розрядності числа.
Плата Supermicro X11DPG-QT оснащена двома сокетами LGA3647 для встановлення процесорів LGA3647 сімейства Cascade Lake-SP
Системна плата Supermicro X11DPG-QT в составі серверної платформи Supermicro SYS-7049GP-TRT оснащена двома сокетами LGA3647 для встановлення процесорів Intel Xeon Scalable сімейства Cascade Lake-SP
Іншими словами, AVX512 (Advanced Vector Extensions — розширення системи команд х86 для мікропроцесорів Intel та AMD, запропоноване Intel в березні 2008) оперує з окремими полями ZMMx: однією інструкцією в регістрі можна обробити, наприклад, вісім 64-бітних чисел подвійної точності (double precision). Це дуже доречно для вирішення ряду завдань, що моделюють штучний інтелект: можна використовувати числа меншої розрядності — до 8-бітних цілих, кратно збільшивши їх кількість у векторному регістрі. Зростання ефективності обчислень за рахунок підвищення продуктивності. Важливим додатковим фактором є економне витрачання обсягів ОЗП та ресурсів дорогої кеш-пам'яті. Приклад обчислення скалярного твору векторів: обробляються 8-бітні множники та обчислюється 32-бітовий твір (порівняння реалізації кількома інструкціями з набору AVX512 BW та однією інструкцією з набору VNNI).
Приклад обчислення скалярного твору векторів: обробляються 8-бітні множники та обчислюється 32-бітовий твір (порівняння реалізації кількома інструкціями з набору AVX512 BW та однією інструкцією з набору VNNI)
Інструкції функціонального розширення VNNI (Vector Neural Network Instructions) забезпечують апаратну підтримку операції множення векторів, яка, у свою чергу, може стати будівельним блоком для множення матриць.
GPU прискорює обчислення
Альтернативним видом радикальної оптимізації обробки великих масивів даних по праву вважається технологія SIMT, що набула поширення в графічних процесорах. Тут використовується безліч скалярних потоків даних, що паралельно виконуються під управлінням загального потоку інструкцій.
Платформа Supermicro SYS-7049GP-TRT підходить для встановлення чотирьох NVIDIA-прискорювачів з шиною PCI Express x16, навіть якщо кожен з них вимагає два корпусні відсіки
Гетерогенні обчислення дозволяють перенести чутливі до продуктивності робочі навантаження із процесорів загального призначення на GPU. Потужність обчислень тут залежить від кількості оброблюваних скалярних потоків. Серверна плата Supermicro X11DPG-QT в составі платформи SYS-7049GP-TRT підходить для встановлення чотирьох NVIDIA-прискорювачів з шиною PCI Express x16, навіть якщо кожен з них вимагає два корпусні відсіки. Таке розширення платформи є особливо важливим для підтримки графічних прискорювачів у контейнерних середовищах.
Для додаткового оснащення дискової та мережевої підсистеми залишаються ще два слоти PCIe x16 та один PCIe x4. Підходи до реалізації систем зберігання та засобів комунікації цілком можуть бути підлаштовані під особливі вимоги найвибагливішого користувача.
Замість резюме
Зростаючий інтерес до результатів від застосування GPU підживлюється розробкою апаратних платформ, здатних вирішувати найрізноманітніші завдання. Практичне їх застосування для інтелектуального аналізу даних буде знаходити нові сфери застосування, відображаючи всі аспекти повсякденного життя. Реалізація подібних програм найкраще здійснюється за допомогою гетерогенних обчислень на платформах, що гармонійно поєднують міць процесорів загального призначення та глибину графічних обчислювачів.
Джерело
|