OpteronからMilanへ。クラッシャーのスパコンが新しいAMD CPUとMI250X GPUを搭載してオンラインに登場

AMDのMI250Xは、NvidiaのV100 GPUに大きな勝利を収めている

本日、Oak Ridge Leadership Computing Facility(OLCF)は、米国初のエクサスケールマシンとなる6億ドルのスーパーコンピュータ「Frontier」の小型版「Crusher」がオンラインになり、素晴らしい結果を出していることを発表しました。
Crusherの192枚のHPE Cray EXブレードは、1.5個のキャビネットに詰め込まれ、従来の4,352平方フィートのTitanスーパーコンピュータの100分の1のサイズでありながら、新システムはより速い総合性能を実現しています。

Crusherは、1.5エクサフロップのスーパーコンピュータFrontierと同じアーキテクチャーのコンポーネントを備えており、各HPE Cray EXブレードには64コアのAMD EPYC "Trento" 7A53 CPUと4つのAMD "Aldebaran" MI250X GPUが1枚搭載されていますが、研究者に提供できるのは2023年1月1日までとされています。

しかし、研究者は現在、Crusherを使用してFrontier用の科学コードを今日から準備し、素晴らしい結果を得ています。
その結果、NvidiaとIBMが開発したスーパーコンピュータ「Summit」において、Frontier用に書き直した天体物理学のコード「Cholla」が15倍も高速化されたのである。
一方、原子核物理学コードNuCCORは、Summitで使用されたNvidia V100 GPUと比較して、MI250X GPUで8倍のスピードアップを達成しました。
さらに、OLCFは、10万原子までの大規模シミュレーションを行うLSMS材料コードもCrusherでの実行に成功し、Frontierのフルシステムで実行できるように拡張すると発表しています。
また、OLCFはTransformer深層学習モデルのワークロードで、これまでの不特定多数のシステムと比べて80%向上したとアピールしています。

Crusherの新しいハードウェアがTitanスパコンを上回るのは驚くべきことではありません。
この古い広大なスパコンは2013年にオンラインになり、200台のキャビネットに18,688個のAMD Opteron 6274 16コアCPU、18,688個のNvidia Tesla K20X GPU、Gemini interconnectが収容され、これらが合計8.2MWを消費していたのです。
このシステムは4,352平方フィートに広がり、Linpackで17.6ペタFLOPSの持続的性能、理論ピークで27ペタFLOPSの性能を実現しました。

OLCFは、Crusherシステムの消費電力やLinpackでのピーク性能についてはまだ公表していない。
しかし、768個のMI250Xがそれぞれ53TFLOPSの倍精度のピークを出すことが分かっており、理論上のピークは約40PetaFLOPS(リニアスケーリングと仮定)であることが分かっている。

Frontierは、米国初のエクサスケール級スパコンとなるが、これは、遅延が続いていたIntel搭載のスパコン「Aurora」が2023年まで再び延期されたからに他ならない。
しかし、IntelはSapphire RapidsとPonte Vecchioを搭載したAuroraの性能予測を、当初の1.5ExaFLOPSからピーク2ExaFLOPSに変更し、少なくともピーク測定に関してはFrontierをリードすることになる。
また、2023年にオンラインになる予定のAMD搭載の2ExaFLOP El Capitanシステムにも並ぶと言われています。

つまり、米国のエクサスケールクラスのシステム3つすべてが、中国の2つの新しいエクサスケールシステム、Sunway OcealiteとTianhe-3スーパーコンピュータよりも高速になるわけです。
この2つのスーパーコンピュータは、どちらも〜1エクサFLOPの性能に達したと言われていますが、政治的理由によりトップ500には掲載されていません。

HPEとAMDはFrontierを2021年に予定通り納入しましたが、システムはまだ統合とテスト中で、展開が技術的な課題に遭遇しているという主張を巻き起こしています。
納品時期については、DoEがシステムは予定通りであると主張しており、やや争いがありますが、単に意味論(「受入」と「利用可能」の使い分け)に帰着する可能性もあります。
いずれにせよ、米国エネルギー省は、Frontierが2023年1月に研究者に利用可能になるよう計画通りに進んでいるとしている。
https://www.tomshardware.com/news/from-opteron-to-milan-crusher-supercomputer-comes-online-with-amd-cpus-and-gpus