※ 本記事は、Leo Leung, Akshai Parthasarathyによる”AI Infrastructure cloud cost comparison: Who provides the best value?“を翻訳したものです。

2023年6月22日


AIインフラストラクチャは、AIモデルの構築とトレーニングに必要なクラウド・リソースを指し、現在はChatGPTなどの製品で有名になりました。インフラストラクチャは、高帯域幅ネットワークによって接続され、高パフォーマンスのファイル・システムに接続されたコンピュート・インスタンスのクラスタで構成されます。簡単にするために、このドキュメントではファイル・システムを省略します。

4つすべてのハイパースケーラは、このタイプのワークロードを対象としたコンピュート・インスタンスを提供しますが、OCIは、GPUを備えたベア・メタル・インスタンスを提供する唯一のプロバイダであり、仮想化の分離性とオーバーヘッドは発生しません。OCIは、より多くのローカル・ストレージ、CPUコア、CPUメモリーも提供します。OCIは個々のインスタンスのコストを22%削減しますが、クラスタ化されたワークロードの場合、クラウド・プロバイダ間の違いはさらに大きくなります。

AIコンピュート・インスタンスの公開オンデマンド・リスト最低価格1
メトリック 単位 Azure AWS Google Cloud OCI
    NDm A100 v4 P4de.24xlarge A2-ultragpu-8g BM.GPU.GM4.8
リージョン 名前 US East (N. VA) East US (N. VA) US-Central1 任意のリージョン
インスタンス・タイプ   仮想マシン 仮想マシン 仮想マシン ベア・メタル
CPU vCPU 96 96 96 256
CPUメモリー GB 1900 GiB 1152 GB 1360 GB 2048 GB
GPUタイプ   NVIDIA A100 80GB NVIDIA A100 80GB NVIDIA A100 80GB NVIDIA A100 80GB
インスタンス当たりのGPU数 GPUs 8 8 8 8
ローカル記憶域 TB 6.4 TiB 8 TB 3 TB 27.2 TB
インスタンス Instance/month (730 時間) $23,922 $29,905 $29,602 $23,360

GPTなど大型言語モデルをトレーニングするには、複数のコンピュート・インスタンスでの緊密な結合と低レイテンシのデータ交換が必要です。GPUを囲むインフラストラクチャは、パフォーマンスの主要な決定要素であり、特にコンピュート・インスタンス間のネットワーキング(クラスタ・ネットワーキングとも呼ばれる)です。

OCIは、クラスタ・ネットワーキング帯域幅の4倍とGCPの8倍を提供します(帯域幅はOCIとAzureの間で類似しています)。業界の専門家は、相互接続の帯域幅の量が、NCCL(同じ名前のベンチマークを持つ)のような業界標準のAIフレームワークのパフォーマンスにほぼ直接変換されると述べています。インスタンス間のネットワーキングを、インスタンス内の個々のGPU間のネットワーキングと混同しないでください。ベンダーは「NVスイッチ」や「NVLinkインターコネクト」などの用語を使用しますが、これらはすべて単一インスタンス内のテクノロジです。

メトリック 単位 Azure AWS Google Cloud OCI
    NDmA100v4 P4de.24xlarge A2-ultragpu-8g BM.GPU.GM4.8
インスタンス Instance / month (730 hours) $23,922

$29,905

$29,602 $23,360
クラスタ・ネットワーク帯域幅 Gbps 1600 Gbps 400 Gbps 200 Gbps 1600 Gbps
クラスタ価格 / パフォーマンス (低い方が良い)  

15.0

74.8 148.0 14.6

AIインフラストラクチャのコスト計算式

各AIインフラストラクチャ・クラスタの実費用の式は、次の式で計算されます。:

合計価格 = インスタンス料金 x クラスタ・サイズ

料金が計算される場所:

  • インスタンス料金 = (# GPUs) x (price-per-GPU-hour) x (# GPU-duration-hours)
  • クラスタ・サイズ = (# インスタンス)

AIインフラストラクチャのクラウド・コストの比較

実際のユース・ケースの実際のコストを比較するために、一般的なワークロードを表すシナリオを使用します。10億のパラメータGPT-3の大言語モデルをトレーニングします。このユース・ケースでは、16個のコンピュート・インスタンス(128 GPU)の単一クラスタが、1Bトークンの処理にかかるかぎり実行されています。MosaicMLによる2022年の調査に基づくと、このシナリオでOCIを使用するのに0.5時間かかりました。2

帯域幅とパフォーマンスの間には完全な相関関係があると想定できますが、これは必ずしもそうとは限りません。特に、最大1600 Gb/秒の帯域幅を必要としない小規模なクラスタの場合です。帯域幅が連続して半分になるごとに、パフォーマンスが10%の控えめな低下を想定します。

帯域幅が半分になったときに、次の処理時間に達します。:

  • 0.5 + (10%*0.5) = 0.55 hours with 800 Gb/sec of bandwidth
  • 0.55 + (10%*0.55) = 0.605 hours with 400 Gb/sec of bandwidth
  • 0.605 + (10%*0.605) = 0.6665 hours with 200 Gb/sec of bandwidth

Azure NDmA100v4 (0.5 hours to process 1B tokens with 1600 Gb/sec of bandwidth)

  • インスタンス料金 = 0.5 x 8 x $4.10 = $16.39
  • クラスタ・サイズ = 16
  • 合計 = $16.39 x 16 = $262.16

AWS P4de.24xlarge (0.605 hours to process 1B tokens with 400 Gb/sec of bandwidth)

  • インスタンス料金 = 0.605 x 8 x $5.12 = $24.78
  • クラスタ・サイズ = 16
  • 合計 = $24.78 x 16 = $396.55

Google A2-ultragpu-8g (0.6665 hours to process 1B tokens with 200 Gb/sec of bandwidth)

  • インスタンス料金 = 0.6665 x [($3.93 x 8) + $9.11)] = $27.03
  • クラスタ・サイズ = 16
  • 合計 = $27.03 x 16 = $432.43

OCI BM.GPU.GM4.8 (0.5 hours to process 1B tokens with 1600 Gb/sec bandwidth)

  • インスタンス料金 = 0.5 x 8 x $4.00 = $16.00
  • クラスタ・サイズ = 16
  • 合計 = $16.00 x 16 = $256.00

1600 Gb/秒の帯域幅を連続的に半減させるごとにパフォーマンスへの影響がわずか10%であると仮定しても、AWSのコストがOCIの155%であり、GCPコストがOCIの169%となっています。

Billion-parameter GPT-3トレーニング
Azure AWS GCP OCI
$262.40 $396.55 $432.43 $256.00
~ OCIと同等 OCIコストの155% OCIコストの169%

OCIは最も低コストで最高の価値。

AWSよりも35%低コスト、GCPより41%低コスト

 

詳細は、AIインフラストラクチャのサイトを参照してください。

 


1. すべての計算は、2023年5月2日時点で公開されたオンデマンドの定価(AzureAWSGCPOCI)を使用しています。

2.  Mosaic LLMs (パート1): Billion-Parameter GPT Training Made Easy, by Abhinav Venigalla & Linden Li, 2022