Open Compute Project – новая реальность или передел рынка?
OCP (Open Compute Project) — результат дальнейшей централизации вычислительных мощностей,
нацеленный на экономию в стоимости владения. Унификация стоечных серверов привела к ревизии
габаритных параметров, удешевлению системы питания, пересмотру ее бесперебойной доставки и
надежного охлаждения. Наряду со сменой форм-фактора стоечных шасси, в рамках OCP наиболее
значимой стала иная, более плотная компоновка серверов с возможностью горячей замены узлов —
обязательно из «холодной зоны». Необходимость фронтального доступа обусловила появление нового
дизайна флеш-накопителей и сетевых адаптеров. Что стало причиной перемен, почему устоявшиеся
конструкции шасси вошли в противоречие с серверной инфраструктурой?
История вопроса
Старт эры серверных x86-платформ прошел в ускоренном темпе. Их производительность росла, как на дрожжах:
тактовые частоты процессоров, памяти и шин обмена данными неуклонно повышались. Поддерживать высокий темп
роста становилось все сложнее и сложнее, и настал момент, когда производительности перестала отвечать
запросам рынка. Наметился второй путь: распараллеливание вычислений с помощью мультипроцессорных
систем. Благо, наиболее требовательные к вычислительным ресурсам задачи поддавались такому переходу
на «параллельные вычисления» без кардинальных переделок. И на фоне краха «гонки частот», постепенно
подходящей к физическим пределам технологий, мы стали свидетелями взрывного роста количества
процессорных ядер — на кристалле, в сокете, в сервере, в стойке, в контейнере, в дата-центре.
На сегодня технологические возможности позволяют построить вычислительный комплекс практически с
любой заданной (и сколь угодно большой) производительностью. Но, как и всегда, этот показатель
оказался в очередной раз ограничен, на сей раз — экономикой. Пока суперкомпьютеры строили в основном
для организаций, не разменивающихся на мелкий прайс — типа Министерства энергетики США с его
моделированием ядерных процессов, — особых трудностей не возникало: государственные закрома большие,
сколько понадобится — столько и будет выделено. Но когда потребность в соизмеримых производительных
вычислительных системах появилась у коммерческих предприятий — ситуация резко изменилась.
Гиганты бизнеса облачных решений уровня Google, Amazon, Facebook, Microsoft постепенно осознали, что в мире,
требующем все больше и больше вычислений, главным параметром становится уже не столько производительность
сама по себе, сколько эффективность вычислений. Наращивание производительности вычислительного
кластера легко осуществляется вводом в эксплуатацию очередного контейнера с серверами. Но каждый такой
контейнер, помимо самой стоимости, приводит к росту «стоимости владения» — это расходы на
электроэнергию для его питания и охлаждения, оплата обслуживающего персонала, сервисные
процедуры и т.п.
Каждый в отдельности оператор рынка облачных решений стал задумываться о снижении стоимости владения единицей
быстро растущей IT-инфраструктуры. Пересматривалось все — начиная со стоимости серверной
комплектации до пересмотра концепции аппаратных платформ. В апреле 2011 года Facebook выступает с
инициативой открыто делиться наработками в области разработок продукции для дата-центров. Компании, к тому
времени успевшие и сами заняться разработками в этой области, ясно представили масштабы грядущих
затрат и разумно рассудили скооперировать усилия для поиска взаимоприемлемого варианта. И в результате
совместных усилий был организован Open Compute Project — организация, участники которой обмениваются идеями
и разработками (включая серверы, системы хранения данных, стойки, сетевое оборудование, электропитание и
охлаждение) и программного обеспечения для современных дата-центров
Открытая дверь OCP
Изначально на столь масштабный проект решились только гиганты IT-индустрии, впоследствии к нему стали
присоединяться и другие игроки: одних интересовала оптимизация затрат, другие готовы были вложиться в
разработки, обретающие практическое наполнение и сулящие реальную экономию.
За время, прошедшее с запуска проекта, концепция OCP получила дальнейшее развитие: сегодня открытый
конструктив стоечных серверов регламентирует уже третья версия спецификации. Из интересных
нововведений — пересмотр места и роли объединительной платы (бэкплейна), что дало заметное сокращение
количества компонентов и привело к оптимизации схемы распределения питания. Как результат — повышение
эксплуатационных эффективности и надежности за счет «горячего» подключения карт из фронтальной (т.е. из
«холодной») зоны серверной стойки.
Из прочих особенностей OCP стоит отметить возможность установки в стойки оборудования увеличенной
ширины (21" вместо стандартных 19"). Также стандартом OCP вводится новая единица измерения серверных «юнитов»
OpenU, равная 48 мм (1OU=48mm). Все это позволяет разместить больше оборудования в том же самом объеме и
повысить эффективность охлаждения.
Mellanox: законодатель мод
Одним из первых в 2011 году к Open Compute Project присоединилась компания Mellanox, предоставив сообществу
как свои наработки, так и готовые решения, позволяющие повысить энергоэффективность и
масштабируемость сетевой инфраструктуры. Основным направлением, в котором Mellanox сконцентрировала свои
усилия, был перенос обработки все более и более сложных сетевых протоколов из центральных процессоров в
специализированные сетевые контроллеры для освобождения ресурсов CPU под другие задачи.
Визитной карточкой Mellanox для Open Compute Project V3.0 являются решения 200G Infiniband в SFF-формате (76 х
115 мм) с возможностью использования двух сетевых интерфейсов. Разумеется, такой форм-фактор кардинально
отличается и от привычных PCIe-плат половинной и полной высоты, и от мезонинных сетевых технологий.
Адаптеры SFF OCP V3.0 предназначены для установки в совершенно иные серверные платформы, разработанные
в расчете максимально плотную упаковку компонентов с оптимизацией как по энергозатратам и
теплоотводу, так и по занимаемому ими объему.
Показательно, что в июньском рейтинге суперкомпьютеров TOP500 (2020 г.) почти три четверти новых систем, оснащены
коммутаторами NVIDIA Mellanox HDR 200G InfiniBand. Это явным образом говорит о важности быстрого обмена данными
внутри вычислительных систем.
Supermicro: особое мнение
Компания Supermicro присоединилась к Open Compute Project не так давно, но у нее на счету есть очень любопытное
решение в виде AIOM — усовершенствованных модулей ввода-вывода, соответствующих требованиям OCP
V3.0. Это компромисс для центров обработки данных, использующих привычные 19-дюймовые шасси,
ориентированные тем не менее на Small From Factor.
В отличие от топовых моделей Mellanox, с которой Supermicro, кстати, поддерживает тесные деловые контакты, у
тайваньского производителя предложением сетевых адаптеров OCP V3.0 на любой вкус и кошелек.
Рассмотрим решения Supermicro, построенные на базе сетевых контроллеров Intel — главного конкурента Mellanox
в области RoCE.
Адаптеры семейства AOC-ATG-i2T представлены в полновысотном 1U-конструктиве и в виде устройств половинной
высоты, что теоретически позволяет удвоить плотность серверной компоновки. Сетевые карты соответствуют
требованиям SFF OCP V3.0: они оснащены ножевым типом ламелей, что обеспечивает легкость, простоту и
удобство hot-plug подключений.
Выполненные на контроллерах Intel X550, адаптеры AOC-ATG-i2T поддерживают классические подключения по витой
паре на скорости до 10GbE. Поддержка технологий виртуализации NVGRE и VXLAN одинаково хорошо находит
применение для них, как на платформах под управлением Microsoft, так и в VMware-средах.
Ассортимент сетевых адаптеров OCP V3.0 у Supermicro расширен за счет использования контроллеров от Broadcom
— еще одного стратегического партнера компании. Семейство AOC-A25G-b2S, как и версия на Intel, выполнено в
двух разновысотных конструкциях, предназначенных для 1U-шасси, но в отличие от них использует
оптический интерфейс SFP28, необходимый для поддержки 25GbE. В своем классе это одни из самых экономных по
устройств — паспортные характеристики ограничивают их потребляемую мощность 7,7 Ваттами. Кроме
технологий сетевой виртуализации, контроллер Broadcom BCM57414 обеспечивает адаптеры AOC-A25G-b2S работой по
протоколу RDMA over Converged Ethernet.
Серверы MegaDC для дата-центров
Спецификация OCP NIC 3.0, определяющая использование адаптеров с открытой архитектурой Open Compute Project, легла
в основу новой линейки серверов Supermicro MegaDC. Это первые в отрасли готовые системы, предназначенные для
крупномасштабного развертывания в центрах обработки данных.
Основой для MegaDC послужили шасси, рассчитанные на установку в 19-дюймовые стойки. Тем самым компания
демонстрирует, что и классические серверные системы далеко не исчерпали потенциал для оптимизации
эффективности по всем направлениям – от производительности на каждый ватт используемой
мощности до трудозатрат по развертыванию требуемой серверной конфигурации.
Линейка MegaDC состоит из пяти моделей поколения X11 – двух 1U-серверов и трех 2U, предназначенных специально для
крупных и масштабируемых центров обработки данных. Все они отличаются максимально плотной для своих размеров
компоновкой и возможностью подключения AIOM – сетевых карт SFF OCP 3.0, когда требуются максимальные скорости
сетевых интерфейсов.
Учитывая, что с точки зрения энергоэффективности вычислительные системы, использующие графические
процессоры NVIDIA, в 2,8 раза эффективнее систем без GPU NVIDIA (при замере в гигафлопсах на ватт), очень
перспективной является серия MegaDC GPU, в которой предусмотрена возможность установки двух карт Double Wide GPU
или пяти Single Wide GPU и использование интерконнект-карт OCP 3.0/AIOM.
Из наработок OCP используется новый метод сопряжения, который упрощает установку и извлечение внешних устройств,
сокращая общее время простоя. Для подключения SFF OCP 3.0 применяется универсальный коннектор SFF-TA-1002,
отлично зарекомендовавший себя с SSD-накопителями в формате Ruler, т.е. EDSFF.
Вычислительная мощность MegaDC обеспечивается поддержкой двух процессоров с разъемом LGA3647 (Socket P),
вплоть до новейшего второго поколения Intel Xeon Scalable с TDP до 205 Вт. Имеется 16 слотов DIMM, способных
работать с модулями DDR4-2933. Суммарно в серверном шасси можно разместить до 3 терабайт оперативной
памяти, в том числе и энергонезависимые модули Intel Optane.
Для большей гибкости новые серверы поддерживают открытые стандарты управления и администрирования, включая
OpenBMC для контроля за функциональностью платформы и поддержкой актуальных версий микропрограммного
обеспечения.
Перспективы
Из-за пандемии в 2020 году ежегодное мероприятие OCP Global Summit было проведено в виртуальном виде. Есть
надежда, что OCP Global Summit 2021, запланированный на 3-4 марта, состоится в привычном формате.
Спецификация OCP предусматривает стандартизацию оборудования, увеличение надежности решений, упрощение
обслуживания и разработку унифицированного оборудования, что приведет к значительным изменениям в
сегменте серверов высокой плотности. Также инициатива OCP открывает новые горизонты для роста вычислительных
мощностей, стимулирует производителей выпускать сетевое оборудование сразу в двух конструктивах.
Пока что популяризацию устройств стандарта OCP V3.0 сдерживают существующие подходы к проектированию серверных
платформ, которые допускают загрузку OCP-адаптеров как с фронтальной, так и с тыльной зоны. И хотя на рынке
доля устройств OCP V3.0 еще невелика, похоже, что классические PCIe-устройства и их мезонинные варианты уже в
ближайшем будущем рискуют стать рудиментом, востребованным разве что в отдельно стоящих либо в пьедестальных
серверах.
Не за горами выход новых процессоров Intel с кодовым названием Cooper Lake 2S, в которых уже включена поддержка OCP
3.0.
Вот как выглядит «концепт-cервер» от Facebook – Sonora Pass на процессорах Cooper Lake. В нем предусмотрены два
слота под сетевые платы OCP 3.0, два слота PCIe под полновысотные карты половинной глубины (FHHL — full height,
half length), один 3,5" отсек SATA HDD и слот расширения под SSD-накопитель форм-фактора E1.S (25 мм). Есть два
порта USB 3.0 и отладочный OCP-разъем для USB debug port. В сервер могут устанавливаться до восьми 40-мм
вентиляторов, обеспечивающих мощное охлаждение.

|