提供開始: クラウドで最大かつ最速のAIスーパーコンピュータ

January 13, 2025 | 1 minute read
Text Size 100%:

※ 本記事は、Sagar Zanwar, Akshai Parthasarathyによる"Now Generally Available: The Largest, Fastest AI Supercomputer in the Cloud"を翻訳したものです。

2025年1月14日


NVIDIA H200 Tensor Core GPUを搭載したOracle Cloud Infrastructure (OCI) Superclusterの提供開始を発表できることを嬉しく思います。クラウドで利用可能な最大のAIスーパーコンピュータ*。最新のSuperclusterは、業界をリードする65,536 GPUまで拡張できます。最大規模で、最大260のExaFLOPSのピークFP8パフォーマンス(前世代の4倍以上)を提供できます。

Supercluster内の各OCIコンピュート・インスタンスでは、H100インスタンスと比較して、高帯域幅のメモリー容量が76%、メモリー帯域幅が40%増加しているため、最大1.9倍で大容量言語モデル(LLM)推論のパフォーマンスが向上します。データの取り込みと取得のためのフロントエンド・ネットワーク・スループット(インスタンス当たり200Gbps)を2倍にすることで、クラスタとの間のデータ転送も劇的に改善され、AIモデルのトレーニングとデプロイメントがさらに加速されます。

NVIDIA H200 GPUを搭載したOCI Supercluster: 優れた価格でさらに高いスケーラビリティとパフォーマンスを実現

AIモデルは、精度、流暢性、効率性、マルチモーダル機能、その他の次元を向上させるために、1兆個以上のパラメータを使用することで、進化し続け、より能力を発揮します。これらの新しいモデルでは、非常に大規模なクラスタに配置された高速なGPUが必要です。OCIスーパークラスタには、次の機能があります:

  • OCIのベア・メタルGPUコンピュートは、ハイパースケーラの中で独特であり、ハイパーバイザーのオーバーヘッドを取り除き、エンド・ユーザーは各インスタンスのCPUとGPUから最大の価値を得ることができます。
  • NVIDIA ConnectX-7ネットワーク・インタフェース・カード(NIC)上でRDMA over Converged Ethernet Version 2 (RoCE v2)を使用し、高スループット(ラック間の400Gbps GPUからGPUへのインターコネクト)と超低レイテンシの2.5-9.1マイクロ秒をサポートする、OCIのカスタム設計クラスタ・ネットワーク。この構成により、数万のGPUにわたってLLMのトレーニングを高速化できます。
  • アップグレードされた200Gbpsのフロントエンド・ネットワークにより、新しいSupercluster内のインスタンスは、ストレージとGPU間で大規模なデータセットをより効率的に移動できるため、反復を高速化し、スケーリングを効率化できます。
  • 組み込みのハードウェア・アクセラレーションと効率的なネットワーク処理により、AI固有のハードウェアとソフトウェアを加速し、高パフォーマンスのマウント・ターゲット(HPMT)、フルマネージドのLustreファイル・サービス(近日提供)、およびその他のAI固有のサービスでOCI File Storageを強化します。

何よりも、NVIDIA H100 GPU (BM.GPU.H100.8)の前の世代のインスタンスと同じように、価格はGPU当たり1時間当たり10ドルです。

BM.GPU.H200.8 技術仕様

NVIDIA H200シェイプには、次の仕様があります:

  • インスタンス名: BM.GPU.H200.8
  • インスタンス・タイプ: Bare metal (ハイパーバイザなし)
  • GPU: NVIDIA NVLinkを介して接続された8つのNVIDIA H200 Tensor Core GPU
    • GPUメモリー容量: それぞれ141GBのHBM3eメモリー(NVIDIA H100より76%多い)
    • GPUメモリー帯域幅: 4.8TB/秒(NVIDIA H100の1.4倍)
  • CPU: Two 56-core Intel Sapphire Rapids 8480+
  • システム・メモリ: 3 TB DDR5
  • ローカル・ストレージ: 8台の3.84Tバイト NVMe SSD
  • クラスタ・ネットワーク: 3,200 Gbps (8つの400Gビット/秒リンク)
  • フロントエンド・ネットワーク: 200 Gbps (BM.GPU.H100.8 の2倍)
  • OCI Superclusterスケール: 最大65,536のNVIDIA H200 GPU(NVIDIA H100 GPUを搭載したOCI Superclusterの4倍)
  • 定価: GPU/時間あたり10ドル(BM.GPU.H100.8と同じ)

はじめに

NVIDIA H200 GPUを使用してOracle Cloud Infrastructure Superclusterにアクセスするには、Oracle営業チームに連絡し、AIインフラストラクチャについてさらに学習します。

 


* CSP 1のスケーラビリティ: 20,000 NVIDIA H200 GPU、CSP 2およびCSP 3のスケーラビリティ: 公開なし

Hiroyuki Yoshino

Product Release Manager in Japan


Previous Post

Exadata Database ServiceとAutomonous DatabaseでのExadata X11Mの紹介

Eriko Minamino | 3 min read

Next Post


Oracle Database@AzureのTerraformサポートの拡張を発表

Hiroyuki Yoshino | 3 min read
Oracle Chatbot
Disconnected