На протяжении бо́льшей части следующего года в американской лаборатории ORNL будет проводиться подготовка к запуску суперкомпьютера Summit с расчётной производительностью 200 Пфлопс. Его основой станут узлы IBM Power Systems AC922, сочетающие в себе разработки IBM, NVIDIA и других компаний.
В эти дни в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory, ORNL), находящейся в американском штате Теннесси, кипит работа по вводу в строй суперкомпьютера Summit, расчётная производительность которого примерно в два раза выше, чем у нынешнего рекордсмена Sunway TaihuLight с пропиской в Китае. С показателем быстродействия около 200 Пфлопс Summit опережает в том числе и своего предшественника Titan (17,6 Тфлопс), базирующегося на процессорах Opteron 6274 и HPC-ускорителях Tesla K20X.
Основой Summit являются приблизительно 4600 серверных узлов IBM Power Systems AC922 «Newell». У Titan узлов в четыре раза больше (18 688 шт.), но на каждый приходится только по одному CPU и GPU. В свою очередь, у «строительного блока» Summit по два центральных и шесть графических процессоров. Узлы AC922, сочетающие в себе процессоры IBM POWER9 и HPC-ускорители NVIDIA Volta GV100 (Tesla V100), демонстрировались на недавней выставке-конференции SC17 в Денвере (штат Колорадо, США).
IBM AC922 собираются в 2U-корпусах, где, кроме прочего, размещаются 16 модулей оперативной памяти DDR4-2666 общим объёмом 512 Гбайт (с возможностью расширения до 2 Тбайт), 1,6 Тбайт энергонезависимой буферной памяти для нужд основного хранилища (суммарно 250 Пбайт, интерфейс 2,5 Тбайт/с), два 2200-Вт блока питания с возможностью горячей замены и множественные узлы системы жидкостного охлаждения.
СЖО замысловатой конструкции призвана справиться с шестью 300-Вт GPU и парой 190-Вт CPU. Воздушное охлаждение для тех же целей было бы не таким дорогим, но эксплуатационные расходы в таком случае могли бы значительно вырасти. Пиковое энергопотребление суперкомпьютера ожидается на уровне 13 МВт (по другим данным — 15 МВт). По этому показателю ORNL Titan скромнее с его 9 МВт в условиях максимальной нагрузки. Система питания Summit проектируется с учётом возможного усиления суперкомпьютера дополнительными узлами. После гипотетического апгрейда предельное энергопотребление может достигать 20 МВт.
Согласно Tom’s Hardware, полностью собранный ORNL Summit займёт площадь двух баскетбольных площадок, то есть около 873 квадратных метров. Суммарная длина кабелей Summit составит 219 км. Прежде сообщалось, что суперкомпьютер будет готов к загрузке ресурсоёмкими научными задачами с января 2019 года. Теперь же речь идёт о его вводе в эксплуатацию в течение 2018 года. При этом, как указывает пресс-служба TOP500, Summit уже в июне возглавит обновлённый рейтинг мощнейших серверных систем, где, похоже, пропишется и NVIDIA DGX SaturnV второго поколения на 5280 ускорителях Tesla V100.
Директор Национальной лаборатории Ок-Ридж Томас Закария (Thomas Zacharia) в общении с представителями ресурса top500.org подчеркнул важность ввода в эксплуатацию такого производительного суперкомпьютера, как Summit:
«Один из наших коллективов разрабатывает алгоритм машинного обучения для Summit, чтобы помочь в выборе лучшего метода лечения рака у каждого конкретного пациента, — отметил г-н Закария. — Другая команда сегодня использует ресурсы Titan для проектирования и мониторинга реакторов на базе технологии управляемого термоядерного синтеза. Ещё одна группа специалистов использует машинное обучение, чтобы помочь классифицировать типы траекторий нейтрино, наблюдаемых в ходе различных экспериментов».
Впрочем, исключительно машинным обучением дело не ограничится. Директор лаборатории Ок-Ридж упомянул о таких вариантах использования Summit, как моделирование климата, решение задач из области релятивистской квантовой химии, вычислительной химии, астрофизики, физики плазмы и биофизики. Собственно, многие проекты уже запущены либо могут быть запущены на мощностях Titan, однако нехватка производительности является препятствием для углублённых исследований.
Длительная подготовка к запуску Summit объясняется не только необходимостью предварительного тестирования тысяч серверных узлов, но и задержкой со стороны IBM, которая пока не изготовила все заказанные ORNL процессоры POWER9. Со стороны NVIDIA, наоборот, задержек нет, ведь HPC-ускорители Tesla V100 поставляются клиентам уже не первый месяц.
«Сегодня Национальная лаборатория Ок-Ридж находится в завидном положении, — продолжил Томас Закария. — Мы располагаем уникальным опытом исследований в областях химии и физики материалов, нейтронной физики, ядерной физики, компьютерных наук и технических решений. Всё это в сочетании с талантом наших сотрудников позволяет решать проблемы и задачи, связанные с энергетикой, национальной безопасностью, производством и сетевой кибербезопасностью. Одна из наших основных целей заключается в том, чтобы стать ведущим исследовательским центром в мире. Это само по себе вдохновляет нас на новые свершения».
Источник: ServerNews.ru