※ 本記事は、Leo Leung, Akshai Parthasarathyによる”AI Infrastructure cloud cost comparison: Who provides the best value?“を翻訳したものです。
2023年6月22日
AIインフラストラクチャは、AIモデルの構築とトレーニングに必要なクラウド・リソースを指し、現在はChatGPTなどの製品で有名になりました。インフラストラクチャは、高帯域幅ネットワークによって接続され、高パフォーマンスのファイル・システムに接続されたコンピュート・インスタンスのクラスタで構成されます。簡単にするために、このドキュメントではファイル・システムを省略します。
4つすべてのハイパースケーラは、このタイプのワークロードを対象としたコンピュート・インスタンスを提供しますが、OCIは、GPUを備えたベア・メタル・インスタンスを提供する唯一のプロバイダであり、仮想化の分離性とオーバーヘッドは発生しません。OCIは、より多くのローカル・ストレージ、CPUコア、CPUメモリーも提供します。OCIは個々のインスタンスのコストを22%削減しますが、クラスタ化されたワークロードの場合、クラウド・プロバイダ間の違いはさらに大きくなります。
| メトリック | 単位 | Azure | AWS | Google Cloud | OCI |
|---|---|---|---|---|---|
| NDm A100 v4 | P4de.24xlarge | A2-ultragpu-8g | BM.GPU.GM4.8 | ||
| リージョン | 名前 | US East (N. VA) | East US (N. VA) | US-Central1 | 任意のリージョン |
| インスタンス・タイプ | 仮想マシン | 仮想マシン | 仮想マシン | ベア・メタル | |
| CPU | vCPU | 96 | 96 | 96 | 256 |
| CPUメモリー | GB | 1900 GiB | 1152 GB | 1360 GB | 2048 GB |
| GPUタイプ | NVIDIA A100 80GB | NVIDIA A100 80GB | NVIDIA A100 80GB | NVIDIA A100 80GB | |
| インスタンス当たりのGPU数 | GPUs | 8 | 8 | 8 | 8 |
| ローカル記憶域 | TB | 6.4 TiB | 8 TB | 3 TB | 27.2 TB |
| インスタンス | Instance/month (730 時間) | $23,922 | $29,905 | $29,602 | $23,360 |
GPTなど大型言語モデルをトレーニングするには、複数のコンピュート・インスタンスでの緊密な結合と低レイテンシのデータ交換が必要です。GPUを囲むインフラストラクチャは、パフォーマンスの主要な決定要素であり、特にコンピュート・インスタンス間のネットワーキング(クラスタ・ネットワーキングとも呼ばれる)です。
OCIは、クラスタ・ネットワーキング帯域幅の4倍とGCPの8倍を提供します(帯域幅はOCIとAzureの間で類似しています)。業界の専門家は、相互接続の帯域幅の量が、NCCL(同じ名前のベンチマークを持つ)のような業界標準のAIフレームワークのパフォーマンスにほぼ直接変換されると述べています。インスタンス間のネットワーキングを、インスタンス内の個々のGPU間のネットワーキングと混同しないでください。ベンダーは「NVスイッチ」や「NVLinkインターコネクト」などの用語を使用しますが、これらはすべて単一インスタンス内のテクノロジです。
| メトリック | 単位 | Azure | AWS | Google Cloud | OCI |
|---|---|---|---|---|---|
| NDmA100v4 | P4de.24xlarge | A2-ultragpu-8g | BM.GPU.GM4.8 | ||
| インスタンス | Instance / month (730 hours) | $23,922 | $29,905 |
$29,602 | $23,360 |
| クラスタ・ネットワーク帯域幅 | Gbps | 1600 Gbps | 400 Gbps | 200 Gbps | 1600 Gbps |
| クラスタ価格 / パフォーマンス (低い方が良い) | 15.0 |
74.8 | 148.0 | 14.6 |
AIインフラストラクチャのコスト計算式
各AIインフラストラクチャ・クラスタの実費用の式は、次の式で計算されます。:
合計価格 = インスタンス料金 x クラスタ・サイズ
料金が計算される場所:
- インスタンス料金 = (# GPUs) x (price-per-GPU-hour) x (# GPU-duration-hours)
- クラスタ・サイズ = (# インスタンス)
AIインフラストラクチャのクラウド・コストの比較
実際のユース・ケースの実際のコストを比較するために、一般的なワークロードを表すシナリオを使用します。10億のパラメータGPT-3の大言語モデルをトレーニングします。このユース・ケースでは、16個のコンピュート・インスタンス(128 GPU)の単一クラスタが、1Bトークンの処理にかかるかぎり実行されています。MosaicMLによる2022年の調査に基づくと、このシナリオでOCIを使用するのに0.5時間かかりました。2
帯域幅とパフォーマンスの間には完全な相関関係があると想定できますが、これは必ずしもそうとは限りません。特に、最大1600 Gb/秒の帯域幅を必要としない小規模なクラスタの場合です。帯域幅が連続して半分になるごとに、パフォーマンスが10%の控えめな低下を想定します。
帯域幅が半分になったときに、次の処理時間に達します。:
- 0.5 + (10%*0.5) = 0.55 hours with 800 Gb/sec of bandwidth
- 0.55 + (10%*0.55) = 0.605 hours with 400 Gb/sec of bandwidth
- 0.605 + (10%*0.605) = 0.6665 hours with 200 Gb/sec of bandwidth
Azure NDmA100v4 (0.5 hours to process 1B tokens with 1600 Gb/sec of bandwidth)
- インスタンス料金 = 0.5 x 8 x $4.10 = $16.39
- クラスタ・サイズ = 16
- 合計 = $16.39 x 16 = $262.16
AWS P4de.24xlarge (0.605 hours to process 1B tokens with 400 Gb/sec of bandwidth)
- インスタンス料金 = 0.605 x 8 x $5.12 = $24.78
- クラスタ・サイズ = 16
- 合計 = $24.78 x 16 = $396.55
Google A2-ultragpu-8g (0.6665 hours to process 1B tokens with 200 Gb/sec of bandwidth)
- インスタンス料金 = 0.6665 x [($3.93 x 8) + $9.11)] = $27.03
- クラスタ・サイズ = 16
- 合計 = $27.03 x 16 = $432.43
OCI BM.GPU.GM4.8 (0.5 hours to process 1B tokens with 1600 Gb/sec bandwidth)
- インスタンス料金 = 0.5 x 8 x $4.00 = $16.00
- クラスタ・サイズ = 16
- 合計 = $16.00 x 16 = $256.00
1600 Gb/秒の帯域幅を連続的に半減させるごとにパフォーマンスへの影響がわずか10%であると仮定しても、AWSのコストがOCIの155%であり、GCPコストがOCIの169%となっています。
| Azure | AWS | GCP | OCI |
|---|---|---|---|
| $262.40 | $396.55 | $432.43 | $256.00 |
| ~ OCIと同等 | OCIコストの155% | OCIコストの169% | OCIは最も低コストで最高の価値。 AWSよりも35%低コスト、GCPより41%低コスト |
詳細は、AIインフラストラクチャのサイトを参照してください。
1. すべての計算は、2023年5月2日時点で公開されたオンデマンドの定価(Azure、AWS、GCP、OCI)を使用しています。
2. Mosaic LLMs (パート1): Billion-Parameter GPT Training Made Easy, by Abhinav Venigalla & Linden Li, 2022
