※ 本記事は、Sagar Zanwar, Akshai Parthasarathyによる"Now Generally Available: The Largest, Fastest AI Supercomputer in the Cloud"を翻訳したものです。
NVIDIA H200 Tensor Core GPUを搭載したOracle Cloud Infrastructure (OCI) Superclusterの提供開始を発表できることを嬉しく思います。クラウドで利用可能な最大のAIスーパーコンピュータ*。最新のSuperclusterは、業界をリードする65,536 GPUまで拡張できます。最大規模で、最大260のExaFLOPSのピークFP8パフォーマンス(前世代の4倍以上)を提供できます。
Supercluster内の各OCIコンピュート・インスタンスでは、H100インスタンスと比較して、高帯域幅のメモリー容量が76%、メモリー帯域幅が40%増加しているため、最大1.9倍で大容量言語モデル(LLM)推論のパフォーマンスが向上します。データの取り込みと取得のためのフロントエンド・ネットワーク・スループット(インスタンス当たり200Gbps)を2倍にすることで、クラスタとの間のデータ転送も劇的に改善され、AIモデルのトレーニングとデプロイメントがさらに加速されます。
NVIDIA H200 GPUを搭載したOCI Supercluster: 優れた価格でさらに高いスケーラビリティとパフォーマンスを実現
AIモデルは、精度、流暢性、効率性、マルチモーダル機能、その他の次元を向上させるために、1兆個以上のパラメータを使用することで、進化し続け、より能力を発揮します。これらの新しいモデルでは、非常に大規模なクラスタに配置された高速なGPUが必要です。OCIスーパークラスタには、次の機能があります:
- OCIのベア・メタルGPUコンピュートは、ハイパースケーラの中で独特であり、ハイパーバイザーのオーバーヘッドを取り除き、エンド・ユーザーは各インスタンスのCPUとGPUから最大の価値を得ることができます。
- NVIDIA ConnectX-7ネットワーク・インタフェース・カード(NIC)上でRDMA over Converged Ethernet Version 2 (RoCE v2)を使用し、高スループット(ラック間の400Gbps GPUからGPUへのインターコネクト)と超低レイテンシの2.5-9.1マイクロ秒をサポートする、OCIのカスタム設計クラスタ・ネットワーク。この構成により、数万のGPUにわたってLLMのトレーニングを高速化できます。
- アップグレードされた200Gbpsのフロントエンド・ネットワークにより、新しいSupercluster内のインスタンスは、ストレージとGPU間で大規模なデータセットをより効率的に移動できるため、反復を高速化し、スケーリングを効率化できます。
- 組み込みのハードウェア・アクセラレーションと効率的なネットワーク処理により、AI固有のハードウェアとソフトウェアを加速し、高パフォーマンスのマウント・ターゲット(HPMT)、フルマネージドのLustreファイル・サービス(近日提供)、およびその他のAI固有のサービスでOCI File Storageを強化します。
何よりも、NVIDIA H100 GPU (BM.GPU.H100.8)の前の世代のインスタンスと同じように、価格はGPU当たり1時間当たり10ドルです。
BM.GPU.H200.8 技術仕様
NVIDIA H200シェイプには、次の仕様があります:
- インスタンス名: BM.GPU.H200.8
- インスタンス・タイプ: Bare metal (ハイパーバイザなし)
- GPU: NVIDIA NVLinkを介して接続された8つのNVIDIA H200 Tensor Core GPU
- GPUメモリー容量: それぞれ141GBのHBM3eメモリー(NVIDIA H100より76%多い)
- GPUメモリー帯域幅: 4.8TB/秒(NVIDIA H100の1.4倍)
- CPU: Two 56-core Intel Sapphire Rapids 8480+
- システム・メモリ: 3 TB DDR5
- ローカル・ストレージ: 8台の3.84Tバイト NVMe SSD
- クラスタ・ネットワーク: 3,200 Gbps (8つの400Gビット/秒リンク)
- フロントエンド・ネットワーク: 200 Gbps (BM.GPU.H100.8 の2倍)
- OCI Superclusterスケール: 最大65,536のNVIDIA H200 GPU(NVIDIA H100 GPUを搭載したOCI Superclusterの4倍)
- 定価: GPU/時間あたり10ドル(BM.GPU.H100.8と同じ)
はじめに
NVIDIA H200 GPUを使用してOracle Cloud Infrastructure Superclusterにアクセスするには、Oracle営業チームに連絡し、AIインフラストラクチャについてさらに学習します。
* CSP 1のスケーラビリティ: 20,000 NVIDIA H200 GPU、CSP 2およびCSP 3のスケーラビリティ: 公開なし
Hiroyuki Yoshino
Product Release Manager in Japan