AMD EPYCを搭載したOCI Compute HPCシェイプによる画期的なパフォーマンス

※ 本記事は、Kevin Jorissenによる”Breakthrough performance with OCI Compute HPC shapes powered by AMD EPYC“を翻訳したものです。

2023年12月11日

AMD第4世代EPYC(コードネームGenoa)に基づくE5.HPCシェイプは、Ansys Fluentパフォーマンスを公開したE5.Standardと密接に関連しています。E5.HPCは、Oracleの超低レイテンシ・リモート・ダイレクト・メモリー・アクセス(RDMA)ネットワーク上の144コアのベアメタル・サーバーであり、数万コアに効率的にスケーリングできます。各E5.HPCインスタンスには、3.2TBのローカルNVMeストレージと768 GBの高速DDR5 RAMが付属しています。

第4世代AMD EPYCプロセッサができること

第4世代AMD EPYCプロセッサの定義機能は、高速DDR5 RAMと組み合せたメモリー帯域幅(500 GBps)の大きな飛躍です。メモリ帯域幅を大量に消費する高性能コンピューティング(HPC)コードは、前世代よりも多くのノードあたりのコアで効率的に実行できます。これにより、コアとコンピュート・サイクルの方が安価になります。

その結果、最も要求の厳しいHPCジョブのパフォーマンスが向上すると同時に、ジョブ当たりのコストを古いシェイプと比較して通常20%から50%削減できます。研究開発予算または研究助成金の中で、より多くのシミュレーションとモデリングを行うことができます。一方、Oracleは、36コアで低コア密度BM.Optimized3シェイプを提供し続けているため、必要に応じて高密度および低密度シェイプを実行できます。

CFDのベンチマークと比較

まず、一般的に実行される小規模な数値流体力学(CFD)ベンチマークを見てみましょう。通常、Ansysのパフォーマンスはratingで報告されますが、このメトリックをruntime = cst./ratingに変換しました。

**Ansys Fluent aircraft_wing_14m**
シェイプ	ノード	コア	レーティング	Runtime (s)	Cost ($)	Performance/core	Performance/node
E5.HPC	1	144	3,011	2,870	$5.05	2.42	348.5
	2	288	6,570	1,315	$4.63	2.64	380.2
	4	576	13,091	660	$4.65	2.63	378.7
E4	1	128		6,103	$10.63	1.28	163.8
Optimized3	1	36		9,907	$7.43	2.80	100.8
	2	72		4,962	$7.44	2.80	100.8
	4	144		2,500	$7.50	2.78	100.1
	8	288		1,245	$7.47	2.79	100.5
	16	576		625	$7.50	2.78	100.1

E5.HPCは、ノードごとにBM.Optimized3より約3.5倍高速で、E4より約2.1倍高速です。また、RDMA over Converged Ethernet v2(RoCE v2)ネットワークでほぼ完全にスケーリングできます。実行時間は、E5.HPCまたはOptimized3ノードを追加すると直線的に短くなります。一方でコア当たりのパフォーマンスとジョブ当たりのコストは同じままです。そのため、ジョブを高速化しても効率は低下せず、E5.HPCでは1ノードから2ノード間の超線形スケーリングが見られます。

第3に、E5.HPCはコア当たりのパフォーマンスが4倍高いコア密度でOptimized3とほぼ同じになります。E5.HPCはノード当たり144コアですが、BM.Optimized3はノード当たり36コアのみです。この比較は、AMD第4世代EPYCの作業時のメモリー帯域幅の増加を示しています。最後に、オンデマンドの価格を使用してジョブ当たりのコストを調べると、このワークロードはE5.HPCで約4.65ドル、BM.Optimized3より約38%安く、前世代のBM.E4より54%安くなります。

次のシェイプをAzureの第4世代EPYC (HBv4)ブログの次のシェイプと比較します。ランタイム、コスト、およびコアあたりのパフォーマンスを計算するために、利用可能な最も安価なリージョンにオンデマンド・リスト価格を使用しました。

シェイプ: Azure HBv4
ノード: 1
コア: 176
Rating: 3,248
Runtime (in seconds): 2,660
Cost (in USD): $5.32
Performance/core: 2.14

**Converge Si8**
シェイプ	ノード	コア	Runtime (s)	Cost ($)	Performance/core
E5.HPC	1	144	8,321	$14.64	8.35
Optimized3	4	144	8,839	$26.52	7.86

コア数が等しい場合、E5.HPCはコアあたりのパフォーマンスを高め、ターンアラウンド時間を短縮し、ジョブあたりのコストを45%削減します。

**WRF CONUS2.5km (v4.4)**
シェイプ	ノード	コア	Runtime (s)	Cost ($)	Performance/core
Optimized3	1	36	2041	$1.53	13.61
E5.HPC	1	144	631	$1.11	11.01

この天気予測のワークロードでは、ジョブ当たりのコストが28%削減されます。ノードごとに、E5.HPCは3倍高速です。

幅広いHPCベンチマークを平均化すると、平均的なコスト削減率は28%になります:

ベンチマーク	Cost per job (E5.HPC as % of Optimized3)
Ansys Fluent	76%
LSDYNA	62%
Altair RADIOSS	73%
PAM-CRASH	56%
AVL CFD	97%
WRF	81%
Converge	56%
Average cost:	72%
Average savings:	28%

反例としてAVL CFDを示します: この例では適切にスケーリングされず、E5.HPCの多くのコアをうまく使用することはできません。この場合、ノードごとに複数のジョブを実行したり、144コア未満のベア・メタル・インスタンスをダウンコア化してライセンス・コストを削減したり、VM.Standard.E5などの別のシェイプを選択したりできます。しかし、旧世代のプロセッサーではうまくスケールしなかった多くのHPCコードが、第4世代AMD EPYCでは非常にうまくスケールしています。

まとめ

まとめると、E5は高コア密度汎用HPCシェイプです。コア当たりのパフォーマンスは低コア密度シェイプとほぼ同じですが、ノード当たりのターンアラウンド時間が大幅に短縮され、ジョブ当たりのコストが大幅に削減されます。今後のブログでは、これらのアプリケーションをE5.HPCで実行する最善の方法について詳しく説明します。このハードウェアは、一般リリースにおいて限定公開となっているため、詳細は Oracleの販売担当者に問い合わせてください。

AMD EPYCを搭載したOCI Compute HPCシェイプによる画期的なパフォーマンス

第4世代AMD EPYCプロセッサができること

CFDのベンチマークと比較

まとめ

Hiroyuki Yoshino

Oracle Architecture Centerの新着情報: 2023年11月

Oracle GoldenGate for Distributed Applications and Analytics 23.4.1.0.0 (2023/12/07)

AMD EPYCを搭載したOCI Compute HPCシェイプによる画期的なパフォーマンス

第4世代AMD EPYCプロセッサができること

CFDのベンチマークと比較

まとめ

Authors

Hiroyuki Yoshino

Oracle Architecture Centerの新着情報: 2023年11月

Oracle GoldenGate for Distributed Applications and Analytics 23.4.1.0.0 (2023/12/07)