※ 本記事は、Seshadri Dehalisan, Akshai Parthasarathy, Ruzhu Chenによる”OCI’s exceptional performance for AI validated in MLPerf Inference v3.1 results“を翻訳したものです。
2023年9月27日
著者らは、OCIエンジニアリング担当シニア・ディレクタのSanjay Basu氏と、OCIエンジニアリング担当シニア・マネージャであるRob Dolin氏に、これらの結果の公開に関する支援を感謝したいと考えています。
Oracle Cloud Infrastructure (OCI)は、AIインフラストラクチャのパフォーマンスを測定するための業界標準であるMLCommons Inference Datacenter v3.1スイートの複数のベンチマークで強力な結果を達成しました。OCIは、NVIDIA H100 Tensor Core GPU、NVIDIA A100 Tensor Core GPU、NVIDIA A10 Tensor Core GPUなどのNVIDIA GPUを搭載した複数のシェイプでテストされ、次の主な特徴があります:
- 8つのNVIDIA H100 GPUを備えたOCIのBM.GPU.H100.8シェイプは、RESNET、RetinaNet、BERT、DLRMv2、およびGPT-Jベンチマークの競合他社を上回るパフォーマンスまたは一致する結果をもたらしました。
- BM.GPU.A100-v2.8 (8つのNVIDIA A100 GPU)も、ボード全体で強力なパフォーマンスを発揮しました。
- 4つのNVIDIA A10 GPUを搭載したBM.GPU.A10.4は、RetinaNetやRNNTなど、選択したベンチマークでコスト効率に優れたパフォーマンスを発揮しました。
OCIは高パフォーマンスに注力
OCIは当初から、あらゆるワークロードにハイパフォーマンスなインフラストラクチャを提供することに注力してきました。オラクルは、ネイティブのベア・メタル・インスタンスと、ノード間通信用の高パフォーマンスRDMAネットワークのサポートを提供する初のクラウド・プロバイダの1つでした。トレーニングや推論など、AIワークフローのすべてのフェーズをサポートできます。多くの組織は、AIとNVIDIA GPUを使用してOCIでイノベーションを推進しています。これには、MosaicML、Twist Bioscience、Emory Universityが含まれます。
この発表は、MLCommons Inference Datacenter v3.1ベンチマークによるOCIのMLPerf結果の初版です。MLCommonsは、ベンチマーク、パブリック・データセットおよびリサーチを通じてAIエコシステムを開発することに重点を置いたコラボレーション・エンジニアリング組織です。OCIのGPUシェイプのポートフォリオには、NVIDIA H100、NVIDIA A100、NVIDIA A10 GPUなどがあります。業界をリードする3つのNVIDIA GPUシェイプすべてについて、推論ベンチマーク結果を取得しました。
MLCommons Inference v3.1用にベンチマークされたOCIコンピュート・シェイプ
NVIDIA H100 GPUを搭載したベア・メタル・シェイプ: BM.GPU.H100.8
BM.GPU.H100.8 シェイプには、8つのNVIDIA H100 GPUが含まれ、GPU当たり80 GBのGPUメモリーが搭載されています。CPUプロセッサは、2Tバイトのシステムメモリーと112コアを備えた Intel Xeon Platinum 8480+です。シェイプには、それぞれ3.84TBの容量を持つ16のローカルNVMeドライブも含まれます。
次の表に、BM.GPU.H100.8のベンチマーク結果を示します。結果は代替の結果と同等または優れています。完全な結果については、「ML Commons Inference Data Center」ページを参照してください。
|
|
シナリオ |
|
| ベンチマーク |
Server (Queries/sec) |
Offline (Samples/sec) |
| RESNET |
584,197.00 |
703,548.00 |
| RetinaNet |
12,884.60 |
14,047.20 |
| 3D U-Net 99 |
– |
51.45 |
| 3D U-Net 99.9 |
– |
51.48 |
| BERT 99 |
56,022.10 |
70,689.90 |
| BERT 99.9 |
49,617.50 |
62,285.50 |
| DLRM v2 99 |
300,033.00 |
339,265.00 |
| DLRM v2 99.9 |
300,033.00 |
339,050.00 |
| GPT-J 99 |
79.90 |
106.69 |
NVIDIA A100 GPUを搭載したベア・メタル・シェイプ: BM.GPU.A100-v2.8
このシェイプには、8つのNVIDIA A100 GPUが含まれ、GPU当たり80 GBのGPUメモリーが含まれます。CPUは、128コアと2TBのシステム・メモリーを備えたAMD EPYC 7J13 64コア・プロセッサです。ベンチマークの結果は、他のハイパースカラーよりも優れているとは言わないまでも、同等の結果であることを示しました。
|
|
シナリオ |
|
| ベンチマーク |
Server (Queries/sec) |
Offline (Samples/sec) |
| RESNET |
290,028.00 |
325,567.00 |
| RetinaNet |
5603.34 |
6512.98 |
| 3D U-Net 99 |
– |
30.32 |
| 3D U-Net 99.9 |
– |
30.33 |
| RNNT |
104,012.00 |
107,408.00 |
| BERT 99 |
25,406.20 |
28.028.60 |
| BERT 99.9 |
12,824.10 |
14,534.40 |
| DLRM v2 99 |
80,018.10 |
138,331.00 |
| DLRM v2 99.9 |
80,018.10 |
138,179.00 |
| GPT-J 99 |
16.92 |
27.13 |
| GPT-J 99.9 |
17.04 |
25.29 |
NVIDIA A10 GPUを搭載したベア・メタル・シェイプ: BM.GPU.A10.4
BM.GPU.A10.4 シェイプには、4つのNVIDIA A10 GPUが含まれ、24のGBのGPUメモリーと1TBのシステム・メモリーが含まれています。シェイプには、2つの3.5TB NVMeローカル・ストレージも含まれます。
ベンチマークでは、NVIDIA A10 GPUに基づくOCI Computeインスタンスが、最適な価格パフォーマンスで特定のモデルを推論するのに適したオプションであると判断しました。この反復では、GPTJおよびDLRMv2ベンチマークはA10.4で実行されませんでした。
完全な結果は、ML Commons Inference Data Centerページで確認できます。
|
|
シナリオ |
|
| ベンチマーク |
Server (Queries/sec) |
Offline (Samples/sec) |
| RetinaNet |
855.00 |
953.53 |
| 3D U-Net 99 |
– |
5.15 |
| RNNT |
9,202.52 |
16,989.30 |
テイクアウト
Oracle Cloud Infrastructureは、トレーニングや推論など、AIワークロード用に最適化されたGPUオプションの包括的なポートフォリオを提供します。MLPerfの推論の結果は、OCIのAIインフラストラクチャにおける競争上の強みと、大規模な言語モデルなどの要求の厳しいワークロードを処理する機能を示しています。製品の詳細は、GPUおよびAIインフラストラクチャのページを参照してください。
