※ 本記事は、Kevin Jorissenによる”Breakthrough performance with OCI Compute HPC shapes powered by AMD EPYC“を翻訳したものです。

2023年12月11日


AMD第4世代EPYC(コードネームGenoa)に基づくE5.HPCシェイプは、Ansys Fluentパフォーマンスを公開したE5.Standardと密接に関連しています。E5.HPCは、Oracleの超低レイテンシ・リモート・ダイレクト・メモリー・アクセス(RDMA)ネットワーク上の144コアのベアメタル・サーバーであり、数万コアに効率的にスケーリングできます。各E5.HPCインスタンスには、3.2TBのローカルNVMeストレージと768 GBの高速DDR5 RAMが付属しています。

第4世代AMD EPYCプロセッサができること

第4世代AMD EPYCプロセッサの定義機能は、高速DDR5 RAMと組み合せたメモリー帯域幅(500 GBps)の大きな飛躍です。メモリ帯域幅を大量に消費する高性能コンピューティング(HPC)コードは、前世代よりも多くのノードあたりのコアで効率的に実行できます。これにより、コアとコンピュート・サイクルの方が安価になります。

その結果、最も要求の厳しいHPCジョブのパフォーマンスが向上すると同時に、ジョブ当たりのコストを古いシェイプと比較して通常20%から50%削減できます。研究開発予算または研究助成金の中で、より多くのシミュレーションとモデリングを行うことができます。一方、Oracleは、36コアで低コア密度BM.Optimized3シェイプを提供し続けているため、必要に応じて高密度および低密度シェイプを実行できます。

CFDのベンチマークと比較

まず、一般的に実行される小規模な数値流体力学(CFD)ベンチマークを見てみましょう。通常、Ansysのパフォーマンスはratingで報告されますが、このメトリックをruntime = cst./ratingに変換しました。

Ansys Fluent aircraft_wing_14m

シェイプ

ノード

コア

レーティング

Runtime (s)

Cost ($)

Performance/core

Performance/node

E5.HPC

1

144

3,011

2,870

$5.05

2.42

348.5

 

2

288

6,570

1,315

$4.63

2.64

380.2

 

4

576

13,091

660

$4.65

2.63

378.7

E4

1

128

 

6,103

$10.63

1.28

163.8

Optimized3

1

36

 

9,907

$7.43

2.80

100.8

 

2

72

 

4,962

$7.44

2.80

100.8

 

4

144

 

2,500

$7.50

2.78

100.1

 

8

288

 

1,245

$7.47

2.79

100.5

 

16

576

 

625

$7.50

2.78

100.1

E5.HPCは、ノードごとにBM.Optimized3より約3.5倍高速で、E4より約2.1倍高速です。また、RDMA over Converged Ethernet v2(RoCE v2)ネットワークでほぼ完全にスケーリングできます。実行時間は、E5.HPCまたはOptimized3ノードを追加すると直線的に短くなります。一方でコア当たりのパフォーマンスとジョブ当たりのコストは同じままです。そのため、ジョブを高速化しても効率は低下せず、E5.HPCでは1ノードから2ノード間の超線形スケーリングが見られます。

第3に、E5.HPCはコア当たりのパフォーマンスが4倍高いコア密度でOptimized3とほぼ同じになります。E5.HPCはノード当たり144コアですが、BM.Optimized3はノード当たり36コアのみです。この比較は、AMD第4世代EPYCの作業時のメモリー帯域幅の増加を示しています。最後に、オンデマンドの価格を使用してジョブ当たりのコストを調べると、このワークロードはE5.HPCで約4.65ドル、BM.Optimized3より約38%安く、前世代のBM.E4より54%安くなります。

次のシェイプをAzureの第4世代EPYC (HBv4)ブログの次のシェイプと比較します。ランタイム、コスト、およびコアあたりのパフォーマンスを計算するために、利用可能な最も安価なリージョンにオンデマンド・リスト価格を使用しました。

  • シェイプ: Azure HBv4
  • ノード: 1
  • コア: 176
  • Rating: 3,248
  • Runtime (in seconds): 2,660
  • Cost (in USD): $5.32
  • Performance/core: 2.14
Converge Si8

シェイプ

ノード

コア

Runtime (s)

Cost ($)

Performance/core

E5.HPC

1

144

8,321

$14.64

8.35

Optimized3

4

144

8,839

$26.52

7.86

コア数が等しい場合、E5.HPCはコアあたりのパフォーマンスを高め、ターンアラウンド時間を短縮し、ジョブあたりのコストを45%削減します。

WRF CONUS2.5km (v4.4)

シェイプ

ノード

コア

Runtime (s)

Cost ($)

Performance/core

Optimized3

1

36

2041

$1.53

13.61

E5.HPC

1

144

631

$1.11

11.01

この天気予測のワークロードでは、ジョブ当たりのコストが28%削減されます。ノードごとに、E5.HPCは3倍高速です。

幅広いHPCベンチマークを平均化すると、平均的なコスト削減率は28%になります:

ベンチマーク

Cost per job (E5.HPC as % of Optimized3)

Ansys Fluent

76%

LSDYNA

62%

Altair RADIOSS

73%

PAM-CRASH

56%

AVL CFD

97%

WRF

81%

Converge

56%

Average cost:

72%

Average savings:

28%

反例としてAVL CFDを示します: この例では適切にスケーリングされず、E5.HPCの多くのコアをうまく使用することはできません。この場合、ノードごとに複数のジョブを実行したり、144コア未満のベア・メタル・インスタンスをダウンコア化してライセンス・コストを削減したり、VM.Standard.E5などの別のシェイプを選択したりできます。しかし、旧世代のプロセッサーではうまくスケールしなかった多くのHPCコードが、第4世代AMD EPYCでは非常にうまくスケールしています。

まとめ

まとめると、E5は高コア密度汎用HPCシェイプです。コア当たりのパフォーマンスは低コア密度シェイプとほぼ同じですが、ノード当たりのターンアラウンド時間が大幅に短縮され、ジョブ当たりのコストが大幅に削減されます。今後のブログでは、これらのアプリケーションをE5.HPCで実行する最善の方法について詳しく説明します。このハードウェアは、一般リリースにおいて限定公開となっているため、詳細は Oracleの販売担当者に問い合わせてください。