※ 本記事は、Gautam Karmakarによる”Storage Solutions for AI Applications in Oracle Cloud Infrastructure“を翻訳したものです。

2025年5月21日


Oracle Cloud InfrastructureでのAIアプリケーションのストレージ・ソリューション

はじめに

非常に大規模な言語モデルのトレーニングには、最新のデータ・センターのコンピュート、ストレージおよびネットワーク・サービスに対してきわめて高いパフォーマンスが必要です。残念ながら、ストレージのパフォーマンスは、コンピュートやネットワークに注目することと比較して見落とされることがよくあります。ただし、ストレージ・パフォーマンスは、実際のトレーニング、大規模言語モデル、その他の大規模ディープ・ラーニングにおけるコンピュートとネットワーキングと同じくらい重要です。

この記事では、企業が考慮すべきストレージ・パフォーマンスの主な特性、および企業がOracle Cloud InfrastructureでAIワークロードをどのように拡張できるかについて説明します。

Oracle Cloud Infrastructureは、コンピュート、ネットワーク、ストレージなど、さまざまなAIトレーニングおよび推論インフラストラクチャを実行するための、柔軟で低コストでスケーラブルなオプションを提供します。この記事では、AIワークロードのストレージが従来のアプリケーションとAIワークロード用のOracle Cloud Storageの柔軟なオプションと比較してどのように異なるかを説明します。

将来の準備を計画

ストレージの計画は、あるストレージ・システムから別のストレージ・システムへのデータの移動が困難な場合があるため、コンピュートやネットワーキングよりも複雑になることがよくあります。データはさまざまなソース・システムから送られることが多く、AIトレーニングに必要なすべてのデータが1つの中央ストレージ・システムで使用できることはほとんどありません。このため、異種システムから供給される異種データの取り込み、準備、品質維持に複雑さと管理オーバーヘッドが増大されます。企業が対処する重要な質問には、次のものがあります:

  • AIプロジェクトを大規模に実行するために必要なすべてのデータを格納できますか?
  • ストレージ・システムはAIトレーニングのパフォーマンスの期待を満たしていますか?
  • 現在のストレージ・システムは、既存および将来のあらゆるタイプのデータを格納できますか?
  • 適切なストレージ・システムを選択する際に、将来の変化のニーズに柔軟に対応するにはどうすればよいですか?
  • 増え続けるデータ・サイズに合わせてクラウド・スケールを利用できますか? ストレージのハイブリッド・モデルは、このモデルにどのように適合しますか?
  • データ・ストレージと処理のコストはどのように制御できますか? すべてのデータに常に高パフォーマンスのストレージが必要ですか?

ストレージの考慮事項

これらの質問に対する答えは、直接のA/B比較なしにはわからないことが多く、その決断の影響は長期にわたって広範囲に及びます。ストレージの選択が適切でないと、パフォーマンスが低下し、コストの増加によって税金が発生し、高価でイノベーションが阻害される可能性があります。

初期段階のストレージ比較の考慮事項は次のとおりです:

  • 既存のストレージの代替品ですか、それともまったく新しい実装ですか?
  • アーキテクチャのリファクタリングはどれくらい必要で、どのような作業が必要ですか?
  • ストレージは完全にクラウドに実装されますか、それともハイブリッド・デプロイメントに実装されますか?
  • ローカルにアタッチする必要があるストレージとリモートにアタッチする必要があるストレージはどれくらいですか?
  • オブジェクト・ストレージ、ブロック・ストレージまたはファイル・システム・ストレージ間のデータの分散はどうなっていますか?
  • FlashストレージとHDDストレージ、SSDストレージ、および異なるパフォーマンス特性(IO/秒など)を使用するデータはどれくらいですか?
  • 使用された計算のメモリーに収まるデータはどれくらいですか?

GPUは、高パフォーマンスのエンタープライズAIコンピューティングの重要な要素です。GPUは、すべてのデータがメモリーに収まる場合に最大のパフォーマンスを提供します。ただし、ほとんどの大規模言語モデルまたは大規模なディープ・ラーニング・ワークロードでは、データ・セットが大きすぎてクラスタ内の使用可能なメモリーに収まりません。データはメモリー内およびメモリー外にスワップされ、パフォーマンスに影響し、ストレージとメモリーのトレーニング間のデータ転送のパフォーマンスに応じて、推論のパフォーマンスが大きく異なる場合があり、モデルのトレーニングに時間がかかり、推論が遅くなる可能性があります。自動運転車、ビデオ監視、不正検出のAIアプリは、GPUがデータを長く待つと影響が大きくなるアプリケーションの一部です。

さらに、ストレージ、処理、ネットワークを統合して最適なエンドツーエンドのパフォーマンスを提供する方法など、データセンターの検討事項があります。

AI向けストレージ・ソリューション

AIワークロードのストレージに関しては、すべてのソリューションに適合する規模はありません。今日はまったく問題ないことでも、明日期待されるパフォーマンスには不十分かもしれません。特定のワークロードでは、ストレージ・パフォーマンスが多すぎるというようなことはありません。大規模なAIモデルのトレーニングに必要なデータが飛躍的に増加しているため、パフォーマンスだけでなく、機能のスケール・アウトも非常に重要です。

結論として、GPUやその他のコンピュートが、より強力なAIの作成と使用を進めるには、ストレージのパフォーマンスとスケールも拡大し、将来の需要に備える必要があります。AIへの企業投資は、ストレージの性能低下のためにリターンが減少するようなことがあってはなりません。

NVMeフラッシュ・ストレージ

コンピュート・インスタンスにローカルにアタッチされたNVMe (Non-Volatile Memory Express)フラッシュ・ドライブは、AIクラスタで使用可能な最も高速なストレージ・システムです。高速なPCIe Busプロトコルを使用して、SSDとCPUとGPU間のデータ転送を高速化します。このプロトコルは、SSDからのデータの並列処理を利用して低レイテンシのデータ・アクセスを実現し、複数のCPUおよびGPUのNon-Uniform Memory Access (NUMA)用に最適化してデータ並列性を管理するように設計されています。

AIモデルのトレーニング中に、すべてのアクティブ化およびモデルの状態をコンピュート・クラスタに接続されたNVMeにオフロードして、計算と通信を加速できます。

Oracle Cloud Infrastructureは、ベア・メタル・シェイプと仮想マシン(VM)シェイプの両方で様々なインスタンス構成を提供します。各シェイプは、メモリー、CPUコア、ネットワーク帯域幅、Dense IOシェイプとHPCシェイプで検出されたローカルNVMe SSDストレージのオプションなど、複数の次元で異なります。

Oracle Cloud Infrastructureは、NVMeパフォーマンスのサービス・レベル合意(SLA)を提供します。測定性能は複雑で、変動にオープンです。Oracle Cloudベア・メタル・シェイプBM.DenseIO.E5.128は、4Kブロックのランダム書込みFIOベンチマーク・テストでSLAでサポートされている3.4MM IOPSを提供します。Oracle Cloud ComputeシェイプとそのNVMeパフォーマンス・ベンチマークの詳細は、こちらをご覧ください。

File Storage

AIプロセスは、データ・レプリケーション、整合性およびエンコーディングまたはSMBプロトコルをサポートするネットワーク・ファイル・システム(NFS v3)などの一般的なファイル・プロトコルを利用できます。ファイル・システムは、オブジェクト・ストレージまたはブロック・ストレージの上に構築された専用ファイル・サーバーまたはNASヘッドです。

File Storageは、NVMeサイズの制限を提供し、さらにスケール・アウトして、今日の大規模なニューラル・ネットワーク・トレーニングに必要なストレージ量を提供できます。推論ファイルベースのストレージ・システムでは、画像認識やオブジェクト分類などのデータを区別する場合に使用できます。

Oracle Cloud Infrastructure File Storageでは、データの冗長性と回復性を実現するために、異なるフォルト・ドメインにある5方向のレプリケートされたストレージを採用しており、ファイル・ロック機能には消去エンコーディングおよびネットワーク・ロック・マネージャ機能(NLM)があります。

Oracle Cloud High Performance File System (HFS)

高パフォーマンスのファイル・システムは、非常に高いスループット率でデータの読取りおよび書込みを行う機能を必要とするワークロードをサポートします。OCI HPC File Systems (HFS)は、Oracle Cloud Marketplaceで利用でき、業界をリードするさまざまな高性能ファイル・サーバーの導入が容易になります。わずか3回のクリックで、お客様は、2桁ギガバイトのスループットでファイル・サーバーをペタバイト規模で稼働させることができます。

Oracle Cloud High Performance Mount Target

ファイル・ストレージ・サービスでOCIの高パフォーマンスのマウント・ターゲット提供 (HPMT)し、標準的なファイル・ストレージ・システムよりもデータ処理速度を大幅に高速化できます。HPMTはスループットを80Gbpsに拡張でき、複数のマウント・ターゲットを組み合せて、最大480Gbpsの持続読取りスループットを直線的にスケールできます。これにより、複数のGPUクラスタにわたる大規模言語モデルのトレーニングで、優れた速度を実現できます。HPMTは、OCI分散ファイル・ストレージ・サービスの上に実装されており、AIワークロードに必要な高パフォーマンス・クラスタ処理に必要なスループットを提供します。HPMTのファイルストレージについてはこちらをご覧ください。

OCI File Storage with Lustre

Lustreは、高パフォーマンス・コンピューティング(HPC)のクラスタおよび環境に使用される、オープン・ソースのパラレル分散ファイル・システムです。Lustreという名前は、Linuxとクラスタの合成語です。ファイル・ストレージ・アーキテクチャは、1. メタデータ・サービス(MDS)、2. Object Storage、3. Lustreクライアント、の3つのレイヤーで構成されます。オープン・ソースであり、単一ディスク、ソフトウェア、ハードウェアRAID、論理ボリューム・マネージャなど、あらゆる種類のブロック・ストレージ・デバイスを備えたほとんどのコモディティ・ハードウェア上で実行されます。Lustreは多くの重要な大規模なAIアプリケーションで使用されており、1つのファイルシステムで最大512PB、1つのファイルに32PB、スループット2tb/sまで拡張できます。シングル・ポイント障害を使用せずに高可用性要件を満たすための組込み機能を提供します。

OCI File Storage with Lustreにより、Oracle Cloud Infrastructureは、Lustreファイル・システムの4つのフル・マネージド・パフォーマンス層を、1TBストレージあたり125MB/秒から、1TBストレージあたり1000MB/秒まで提供し、最大ファイル・システム・サイズは20PBです。さまざまなパフォーマンス層を選択するための低コストと柔軟性により、クラス最高のオープンソース・ファイル・ストレージ・システムでAIワークロードを実行するユニークな機会が提供されます。

Object Storage

オブジェクト・ストレージは、任意の形式でデータを格納できるため、AIワークロードで重要な位置を占めています。この数十年でAIが進歩し、画像、動画、音声、音声データを非構造化形式で処理できるようになるにつれて、オブジェクト・ストレージは、アプリケーションが処理する前のストレージになっています。オブジェクト・ストレージのもう1つの利点は、メタデータを格納できることです。一部のAIアプリケーションは、オブジェクト・メタデータを活用しながら、フラット・アドレス空間のオブジェクト・ストレージ・アーキテクチャの無限のスケールからもメリットを得ています。AI分析は、豊富なメタデータを活用して、精密なデータの分類と編成を可能にし、データをより有用かつ簡単に管理し、理解できるようにします。オブジェクト・ストレージは数百ペタバイトのデータまで拡張でき、データ・センター間でレプリケートして高可用性を実現できます。これは、パブリックにアクセスすることも、セキュリティ・レイヤーを上に追加してプライベートにアクセスすることもできます。

Oracle Cloud Infrastructureは、高可用性で耐久性のあるスケーラブルなオブジェクト・ストレージを提供し、AIアプリケーションに低コストのストレージ・ソリューションを提供します。

Block Storage

ブロック・ストレージは、AIに関してあらゆるタイプのアプリケーションに対して汎用的ですが、ローカルまたはリモートにアタッチされたNVMeは、レイテンシが低い場合に適しています。ブロック・ストレージには、オブジェクト・ストレージの利点となるメタデータがありません。大規模な並列処理や構造化データの格納を必要としないほとんどのエンタープライズ・アプリケーションでは、ブロック・ストレージが使用されます。

Oracle Cloudは、低レイテンシの高スループットと最大1PBのスケーラブルなブロック・ボリュームを提供し、プレミアムSSDディスクを使用します。300,000 IOPSまで、バランスのとれた高パフォーマンスと超高パフォーマンスのスループット、およびIOPS 225 IOPS / GBを実現できる仮想処理ユニット(VPU)を拡張できます。Oracleは、NVMeでバックアップされたブロック・ボリュームを提供し、フラットで高速なデータ・センター・ネットワークを利用して、1TBのブロック・ボリュームに480 Mbpsを提供します。

   ストレージ・タイプ

    パフォーマンス特性   サイズと制限
  NVMe ベア・メタルGPUノードの追加コストなしで、超低レイテンシと高パフォーマンスを実現し、モデルをローカルに格納するか、チェックポイント処理用のスクラッチとして使用します。 8 x 3.84 TB on H200 shape
BM.GPU.H200.8
   FSS 最大80 Gb/秒/マウント・ターゲットのスループットを実現する企業向けに、広く使用されているクラウドネイティブのファイル・ストレージ・サービスを、追加のマウント・ターゲットがある場合でも無限にスケーリングできます。 最大480Gbpsの持続集計読取りスループット
  オブジェクト・ストレージ あらゆるタイプのデータの11ナインの耐久性。非構造化データの容量はほぼ無制限に拡張できます。多様なワークロードおよびビッグ・データ処理に適した対話型ワークロードをサポートします。  
  Lustre Lustreを使用すると、Oracle Cloud Infrastructureベア・メタル・コンピュートおよびネットワーク接続ブロック・ストレージ上にHPCファイル・サーバーを構築したり、コンピュート・ノードにローカルにアタッチされたNVMe SSDを構築できます。2つのオブジェクト・ストレージ・サーバー(OSS)ノードと同じ小さい構成では、Oracle Cloud Infrastructure上のLustreファイル・システムによって5GiB/秒を超えるスループットが提供されます。 集約スループット 20 GiB/秒

 

企業の意思決定における重要なポイント

成功するAIプロジェクトでは、ストレージは「1つのサイズがすべてに適合する」わけではありません。規模や性能の点で、現在ストレージ・ソリューションとして満足のいくものであっても、すぐに不十分なものになるかもしれません。したがって、大規模言語モデル、ロボット工学、自動運転車、リアルタイム監視タイプのアプリケーションなど、ますます強力なAIの絶え間なく増加するコンピューティングおよびネットワーク速度の要求に対応できる深刻なAIイニシアチブにとって、規模とパフォーマンスの将来の要件を考慮することが重要です。また、クラウドと任意のデータ・センター間の相互運用性を考慮し、ハイブリッド・モデルで確実に機能させることも重要です。さらに、企業は予算の考慮事項に注意し、コスト効率とレイテンシが最も低く、スループットが最も高いバランスをとる必要があります。たとえば、コストは低くなりますが、パフォーマンスが遅いストレージ・システムは、GPUのアイドル状態を高め、トレーニングや推論時間を増やすため、コストが非常に非効率的です。最後に、ストレージはAIワークロードのパフォーマンス全体にとって重要な考慮事項であり、AIプロジェクトの優先度リストの一番下に置くべきではありません。

詳細は、次のリソースを参照してください: