Зеленый свет! TOP500 становится быстрее и энергоэффективнее с NVIDIA

Зеленый свет! TOP500 становится быстрее и энергоэффективнее с NVIDIA

Решения NVIDIA ускоряют 8 из 10 самых мощных суперкомпьютеров мира. Дебют NVIDIA Selene — самой быстрого индустриального суперкомпьютера с лучшим показателем энергоэффективности.

Опубликован новый рейтинг суперкомпьютеров TOP500. В 8 из 10 ведущих суперкомпьютеров мира установлены графические процессоры NVIDIA и/или решения InfiniBand. В их число входят самые мощные системы США, Европы и .

Решения NVIDIA, теперь совместно с решениями Mellanox, находятся в основе в основе 2/3 обновленного списка TOP500 (333 системы), что существенно превышает результаты 2017 года (203 системы с технологиями NVIDIA и/или Mellanox).

Почти три четверти (74%) новых систем с InfiniBand из данного списка оснащены коммутаторами NVIDIA Mellanox HDR 200G InfiniBand, что говорит о все большей важности быстрого обмена данными внутри вычислительных систем.

Число систем TOP500 с коммутаторами HDR InfiniBand почти удвоилось с ноября 2019 года. Технология InfiniBand сегодня используется в 141 суперкомпьютере из данного списка, что на 12% больше, чем в июне 2019 года.

Все больше систем TOP500 переходят на GPU NVIDIA и/или сети Mellanox.

Адаптеры NVIDIA Mellanox InfiniBand и Ethernet установлены в 305 системах (61%) из списка TOP500, включая 141 систему InfiniBand и 164 (63%) системы с Ethernet-соединениями.

С точки зрения энергоэффективности, графическим процессорам NVIDIA по-прежнему нет равных. В среднем, они в 2.8 раза эффективнее систем без GPU NVIDIA, при замере в гигафлопсах/Вт.

Это одна из причин, почему графические процессоры NVIDIA сегодня установлены в 20 из 25 ведущих суперкомпьютеров TOP500.

GPU NVIDIA повышают энергоэффективность суперкомпьютеров TOP500.

Лучшим примером энергоэффективности служит система Selene (на рисунке выше), недавно ставшая частью вычислительного кластера NVIDIA. Она заняла вторую строчку в рейтинге Green500 и седьмую в TOP500 с результатом 27.5 петафлопсов в бенчмарке Linpack.

С эффективностью в 20.5 гигафлопс/Вт Selene незначительно отстает от лидера списка Green500. Ее опередила гораздо меньшее по вычислительным возможностям система, занимающая по производительности 394 место.

Selene — это единственная система в Top 100, которой удалось взять барьер в 20 гигафлопсах на Ватт. Кроме того, это второй по мощности индустриальный суперкомпьютер в мире, уступающий место только системе № 6 от итальянского гиганта энергоиндустрии Eni S. p. A., построенной также на базе графических процессоров NVIDIA.

С точки зрения энергопотребления Selene в 6.8 раза экономичнее средней системы TOP500, не оснащенной GPU NVIDIA. Высокая производительность и энергоэффективность Selene стала возможна благодаря тензорным ядрам третьего поколения в GPU NVIDIA A100, которые ускоряют традиционные 64-битные математические операции в моделировании и вычисления пониженной точности для ИИ.

Показатели Selene выглядят впечатляюще для системы, которую построили менее чем за месяц. Инженерам удалось быстро собрать Selene благодаря модульной референсной архитектуре NVIDIA. В основе масштабируемой архитектуры DGX SuperPOD модули NVIDIA DGX A100.

DGX A100 — это доступная уже сегодня гибкая система с восьмью GPU A100 в 6U сервере с коммутаторами NVIDIA Mellanox HDR InfiniBand. Она предназначена для ускорения широкого спектра ресурсоемких вычислений, анализа данных и ИИ-задач, включая обучение и инференс. Система может начать использоваться в рекордно короткие сроки.

Масштабирование от систем до SuperPOD

Референсный дизайн позволяет организациям быстро создавать кластеры мирового уровня. Он показывает, как 20 систем DGX A100 можно быстро соединить по принципу лего с помощью высокоскоростных коммутаторов NVIDIA Mellanox InfiniBand.

InfiniBand ускоряет семь из ведущих 10 суперкомпьютеров, включая самые мощные системы Китая, Европы и США Четыре оператора могут собрать кластер из 20 систем DGX A100 менее чем за час, создав мощную 2-х петафлопсную систему уровня TOP500. Такие системы предназначены для комфортной работы в рамках стандартных ЦОД.

С помощью дополнительных коммутаторов NVIDIA Mellanox InfiniBand инженеры соединили 14 из 20 блоков, создав Selene со следующими характеристиками:

280 систем DGX A100

2240 GPU NVIDIA A100

494 коммутатора NVIDIA Mellanox Quantum 200G InfiniBand

56 ТБ/с в соединениях

7ПБ высокоскоростной флэш-памяти

Одним из самых впечатляющих показателей Selene является производительность в ИИ-задачах свыше 1 экзафлопса. Кроме того, Selene установила новый рекорд при использовании всего 16 из всех ее систем DGX A100 в главном бенчмарке анализа данных TPCx-BB, показав результаты в 20 раз лучше любой другой системы.

Эти результаты имеют решающее значение в наше время, когда ИИ и анализ данных становятся неотъемлемой частью научных вычислений.

Во всем мире исследователи применяют глубокое обучение и анализ данных, чтобы определить самые выгодные области для проведения экспериментов. Такой подход сокращает число дорогих и затратных по времени экспериментов и ускоряет получение результатов.

В настоящий момент строятся еще шесть систем на базе анонсированных в прошлом месяце GPU A100. Они ускоряют высокопроизводительные вычисления и задачи ИИ, открывая двери в новую вычислительную эру.

TOP500 расширяет возможности научных вычислений

Одна из таких систем находится в Аргонской национальной лаборатории, где исследователи применят кластер из 24 систем NVIDIA DGX A100 для сканирования миллиардов лекарств с целью создания лекарства против COVID-19.

«Большую часть этой работы сложно смоделировать на компьютере, поэтому мы использовали ИИ, чтобы определить, где и когда брать следующие образцы», — говорит Арвинд Раманатан (Arvind Ramanathan), специалист по вычислительной биологии из Аргонской лаборатории, в отчете по первым пользователям GPU A100.

Научно-исследовательский центр NERSC применяет ИИ в нескольких проектах на системе Perlmutter с 6200 GPU A100.

Один из проектов предполагает использование обучения с подкреплением для управления экспериментами с источниками света, в другом генеративные модели будут применяться для воссоздания дорогих симуляций в ФВЭ-детекторах.

Ученые из Мюнхена обучают модели естественного языка на 6000 GPU в суперкомпьютере Summit для ускорения анализа белков коронавируса. Это еще одно подтверждение того, что системы TOP500 выходят за рамки традиционных процессов моделирования с операциями двойной точности.

ИИ, анализ данных и периферийный стриминг меняют природу научных вычислений.

По мере того, как исследователи обращаются к глубокому обучению и анализу данных, они также прибегают к облачным сервисам и стримингу данных с удаленных платформ на Edge-устройства сети. Вместе эти элементы формируют четыре направления современных научных вычислений, которые ускоряет NVIDIA:

Симуляции: В борьбе с COVID-19 исследователи из Окриджской национальной лаборатории моделируют свыше 2 млрд химических соединений в сутки в AutoDock на GPU суперкомпьютера Summit.

ИИ и анализ данных: GPU-ускорение для Spark0 обеспечивает более высокую производительность критически важной и трудоемкой клиентской части конвейера машинного обучения.

Периферийный стриминг в науке: ЦЕРН недавно заявил, что GPU NVIDIA в 500 раз сократят объемы данных, получаемых при столкновении частиц в Большом адронном коллайдере.

Визуализация: ПО NVIDIA IndeX и Magnum IO помогает в визуализации данных с аппарата Mars Lander — самой крупной в мире интерактивной объемной визуализации реального времени.

Сегодня как исследователи, так и компании стремятся ускорить ИИ-задачи и анализ данных на периферии сети. Именно поэтому крупнейшие облачные провайдеры вместе с ведущими OEM-производителями применяют графические процессоры NVIDIA.

В этом плане новейший рейтинг TOP500 отражает усилия NVIDIA сделать ИИ и HPC-вычисления доступнее. Любая компания, которая хочет получить лучшие вычислительные возможности, может воспользоваться технологиями NVIDIA, например, системами DGX, которые находятся в основе самых мощных суперкомпьютеров.

Наконец, NVIDIA поздравляет с первым местом японских инженеров, построивших суперкомпьютер Fugaku, доказав, насколько Arm становится востребованным в высокопроизводительных вычислениях. Это одна из причин, по которой NVIDIA объявила год назад о доступности ПО ускоренных вычислений CUDA на процессорной архитектуре Arm.