※ 本記事は、Kevin Jorissenによる”Breakthrough performance with OCI Compute HPC shapes powered by AMD EPYC“を翻訳したものです。
2023年12月11日
AMD第4世代EPYC(コードネームGenoa)に基づくE5.HPCシェイプは、Ansys Fluentパフォーマンスを公開したE5.Standardと密接に関連しています。E5.HPCは、Oracleの超低レイテンシ・リモート・ダイレクト・メモリー・アクセス(RDMA)ネットワーク上の144コアのベアメタル・サーバーであり、数万コアに効率的にスケーリングできます。各E5.HPCインスタンスには、3.2TBのローカルNVMeストレージと768 GBの高速DDR5 RAMが付属しています。
第4世代AMD EPYCプロセッサができること
第4世代AMD EPYCプロセッサの定義機能は、高速DDR5 RAMと組み合せたメモリー帯域幅(500 GBps)の大きな飛躍です。メモリ帯域幅を大量に消費する高性能コンピューティング(HPC)コードは、前世代よりも多くのノードあたりのコアで効率的に実行できます。これにより、コアとコンピュート・サイクルの方が安価になります。
その結果、最も要求の厳しいHPCジョブのパフォーマンスが向上すると同時に、ジョブ当たりのコストを古いシェイプと比較して通常20%から50%削減できます。研究開発予算または研究助成金の中で、より多くのシミュレーションとモデリングを行うことができます。一方、Oracleは、36コアで低コア密度BM.Optimized3シェイプを提供し続けているため、必要に応じて高密度および低密度シェイプを実行できます。
CFDのベンチマークと比較
まず、一般的に実行される小規模な数値流体力学(CFD)ベンチマークを見てみましょう。通常、Ansysのパフォーマンスはratingで報告されますが、このメトリックをruntime = cst./ratingに変換しました。
| シェイプ |
ノード |
コア |
レーティング |
Runtime (s) |
Cost ($) |
Performance/core |
Performance/node |
| E5.HPC |
1 |
144 |
3,011 |
2,870 |
$5.05 |
2.42 |
348.5 |
| 2 |
288 |
6,570 |
1,315 |
$4.63 |
2.64 |
380.2 |
|
| 4 |
576 |
13,091 |
660 |
$4.65 |
2.63 |
378.7 |
|
| E4 |
1 |
128 |
|
6,103 |
$10.63 |
1.28 |
163.8 |
| Optimized3 |
1 |
36 |
|
9,907 |
$7.43 |
2.80 |
100.8 |
| 2 |
72 |
|
4,962 |
$7.44 |
2.80 |
100.8 |
|
| 4 |
144 |
|
2,500 |
$7.50 |
2.78 |
100.1 |
|
| 8 |
288 |
|
1,245 |
$7.47 |
2.79 |
100.5 |
|
| 16 |
576 |
|
625 |
$7.50 |
2.78 |
100.1 |
E5.HPCは、ノードごとにBM.Optimized3より約3.5倍高速で、E4より約2.1倍高速です。また、RDMA over Converged Ethernet v2(RoCE v2)ネットワークでほぼ完全にスケーリングできます。実行時間は、E5.HPCまたはOptimized3ノードを追加すると直線的に短くなります。一方でコア当たりのパフォーマンスとジョブ当たりのコストは同じままです。そのため、ジョブを高速化しても効率は低下せず、E5.HPCでは1ノードから2ノード間の超線形スケーリングが見られます。
第3に、E5.HPCはコア当たりのパフォーマンスが4倍高いコア密度でOptimized3とほぼ同じになります。E5.HPCはノード当たり144コアですが、BM.Optimized3はノード当たり36コアのみです。この比較は、AMD第4世代EPYCの作業時のメモリー帯域幅の増加を示しています。最後に、オンデマンドの価格を使用してジョブ当たりのコストを調べると、このワークロードはE5.HPCで約4.65ドル、BM.Optimized3より約38%安く、前世代のBM.E4より54%安くなります。
次のシェイプをAzureの第4世代EPYC (HBv4)ブログの次のシェイプと比較します。ランタイム、コスト、およびコアあたりのパフォーマンスを計算するために、利用可能な最も安価なリージョンにオンデマンド・リスト価格を使用しました。
- シェイプ: Azure HBv4
- ノード: 1
- コア: 176
- Rating: 3,248
- Runtime (in seconds): 2,660
- Cost (in USD): $5.32
- Performance/core: 2.14
| シェイプ |
ノード |
コア |
Runtime (s) |
Cost ($) |
Performance/core |
| E5.HPC |
1 |
144 |
8,321 |
$14.64 |
8.35 |
| Optimized3 |
4 |
144 |
8,839 |
$26.52 |
7.86 |
コア数が等しい場合、E5.HPCはコアあたりのパフォーマンスを高め、ターンアラウンド時間を短縮し、ジョブあたりのコストを45%削減します。
| シェイプ |
ノード |
コア |
Runtime (s) |
Cost ($) |
Performance/core |
| Optimized3 |
1 |
36 |
2041 |
$1.53 |
13.61 |
| E5.HPC |
1 |
144 |
631 |
$1.11 |
11.01 |
この天気予測のワークロードでは、ジョブ当たりのコストが28%削減されます。ノードごとに、E5.HPCは3倍高速です。
幅広いHPCベンチマークを平均化すると、平均的なコスト削減率は28%になります:
| ベンチマーク |
Cost per job (E5.HPC as % of Optimized3) |
| Ansys Fluent |
76% |
| LSDYNA |
62% |
| Altair RADIOSS |
73% |
| PAM-CRASH |
56% |
| AVL CFD |
97% |
| WRF |
81% |
| Converge |
56% |
| Average cost: |
72% |
| Average savings: |
28% |
反例としてAVL CFDを示します: この例では適切にスケーリングされず、E5.HPCの多くのコアをうまく使用することはできません。この場合、ノードごとに複数のジョブを実行したり、144コア未満のベア・メタル・インスタンスをダウンコア化してライセンス・コストを削減したり、VM.Standard.E5などの別のシェイプを選択したりできます。しかし、旧世代のプロセッサーではうまくスケールしなかった多くのHPCコードが、第4世代AMD EPYCでは非常にうまくスケールしています。
まとめ
まとめると、E5は高コア密度汎用HPCシェイプです。コア当たりのパフォーマンスは低コア密度シェイプとほぼ同じですが、ノード当たりのターンアラウンド時間が大幅に短縮され、ジョブ当たりのコストが大幅に削減されます。今後のブログでは、これらのアプリケーションをE5.HPCで実行する最善の方法について詳しく説明します。このハードウェアは、一般リリースにおいて限定公開となっているため、詳細は Oracleの販売担当者に問い合わせてください。
