※ 本記事は、Sabrinath Rao, Prashant Jagannathanによる”Generally Available: Fully Managed Lustre File Storage in the Cloud“を翻訳したものです。

2025年5月16日


25,000の会話が並行してあなたに向けられ、すべての会話が応答を待っているとします。これは、お客様が今日大規模言語モデル(LLM)をトレーニングおよびデプロイする際にストレージ・システムに起こります。画像、ビデオ、オーディオ、その他のリッチ・コンテンツを含むマルチモーダル・トレーニングをミックスに追加すると、10倍の大きさになりました。人工知能(AI)/機械学習(ML)ワークロードは、この規模で日常的に動作します。GPUは数十ペタバイト(PB)のデータを数十テラビット/秒(Tbps)のスループットで並列処理し、世界で最も複雑なモデルを可能にします。これには、100個から1000個のファイルに並列にアクセスし、それを100個から1000個のGPUに高速で供給できる非常に高速なストレージ・システムが必要です。

現在、Oracle Cloud Infrastructure (OCI) File Storage with Lustreを導入し、これらのワークロードのパフォーマンス需要に対応しています。Lustreは、並列I/Oパフォーマンスを大規模に提供するように設計されており、大規模大規模言語モデル(LLM)トレーニングおよびスーパーコンピューティングプロジェクトで広く使用されています。

OCI File Storage with Lustreは、Lustreをベースとしたフルマネージド・サービスです。ミリ秒単位のメタデータ・レイテンシ、ペタバイト単位の容量、毎秒テラバイト単位の高スループットなど、Lustreのパフォーマンスとスケール上のメリットを享受しながら、管理の複雑さを排除できます。フルマネージド・サービスとして、OCIはファイル・システムのデプロイメント、スケーリング、メンテナンスを自動化します。さらに、このサービスはOCIの先進的なBlock Storage Service上に構築されているため、Block Storage Service上で実行されるエンタープライズ・アプリケーションの同じエンタープライズ・クラスの可用性と耐久性が期待できます。

Lustreファイル・システムには、数千のクライアントからパラレルにアクセスできます。OCI File Storage with Lustreは、Oracle Kubernetes Engine (OKE)とシームレスに統合され、GPUホスト、ベア・メタルまたは仮想化環境にデプロイできます。

OCI File Storage with LustreがOracle Cloudコンソールで利用可能になりました。価格は、プロビジョニングされた容量およびパフォーマンス層に基づきます。詳細は、Oracle Cloud PricingのWebページを参照してください。

A diagram of OCI File Storage with Lustre within an Oracle Cloud region

顧客のユース・ケース

LLMトレーニングおよびエンジニアリング・シミュレーション・モデルなどのユース・ケースでは、すでにLustreサービスのメリットを享受しています。

大規模LLMトレーニング: OCIで管理される複数のPBへのOCI File Storage with Lustreファイル・システムのスケーリングを使用して実行された最近の大規模なLLMトレーニングでは、25,000個のGPUに合計速度で最大20テラビット/秒(Tbps)をフィードします。

エンジニアリングのためのAI: 産業用AIシミュレーションのリーダーであるNXAIは、製造、ロジスティクス、エネルギー分野向けの大規模言語モデルを提供し、OCI File Storage with Lustreを使用してAIトレーニングの速度を向上させています。

物理シミュレーション: Emmi AIは、物理アーキテクチャとモデルを強化して、電気システム、熱シミュレーション、航空宇宙工学のリアルタイムインタラクションを実現し、OCI File Storage with Lustreを使用してシミュレーション時間を短縮しています。

「OCI File Storage with Lustreの実装の容易さとスピードに感銘を受けました。AIトレーニング・プロセスを変革し、非常に効率化しました。これまで何日もかかっていたことが、4倍から10倍の性能アップのおかげで数時間で達成できるようになりました。このソリューションは、当社の業務にとって画期的なものです。」    — Fabian Schlager氏、AIプラットフォーム・オペレーション、Emmi AI (NXAIスピンオフ)

NXAI logo    Emmi AI logo

        www.nx-ai.com                             www.emmi.ai

OCI File Storage with Lustreを選択する理由

大規模なLLMモデルを実行しているお客様、GenAIアプリケーション、および物理シミュレーションを実行しているお客様はすでに、大規模本番環境でOCI File Storage with Lustreを使用しています。OCI File Storage with Lustreは、Oracle Kubernetes Engine (OKE)とシームレスに統合されており、ファイル・システムにはGPUホスト、ベア・メタルまたは仮想化サーバーからアクセスできます。主な機能は以下の通りです

  • 大規模なパフォーマンス: 数千のクライアントとGPUからパラレルにファイル・システムにアクセスします。OCI File Storage with Lustreは、大量のデータ・ロードを効率的に処理します。ファイル・システムは、最大20ペタバイト(PB)まで拡張できるため、トレーニング・データセット、研究モデル、チェックポイントなどのAI、MLおよびHPCデータを格納できます。プロビジョニングされた各テラバイト(TB)の容量に対して、高い持続性能を実現します。OCI File Storage with Lustreは、次のパフォーマンス層を提供します
    • 125 MBps per provisioned TB
    • 250 MBps per provisioned TB
    • 500 MBps per provisioned TB
    • 1000 MBps per provisioned TB
  • フルマネージド・サービス: OCI File Storage with Lustreは、ストレージ・サーバー、メタデータ・サーバー、データ・ボリュームなどのLustreインフラストラクチャ・コンポーネントの設定とメンテナンスの複雑さを解消するのに役立ちます。本番アプリケーションの実行を継続しながら、容量を簡単にスケール・アップし、オンデマンドでパフォーマンスを集計できます。この合理化により、インフラストラクチャ管理を気にすることなく、コア・ビジネス目標に集中できます。Oracle Cloudコンソール、コマンドライン・ツール、API、ソフトウェア開発者キット(SDK)またはterraformを使用して、ファイル・システムを数分で作成できます。
  • 高可用性アーキテクチャ: 重要なワークロードが、可用性が高く、インフラストラクチャの障害に耐障害性のあるデータにアクセスするのに役立ちます。
  • Lustreとオブジェクト間のシームレスなコピー (近日提供): Lustreファイル・システムをOCI Object Storageバケットにリンクすると、オンデマンドでオブジェクト・ストレージ・データをコピーし、Lustreファイル・システムから直接アクセスできます。これにより、アクセスを高速化するために、オブジェクトからファイル・システムにデータをロードできます。
  • 目標管理: OCI File Storage with Lustreを使用すると、ユーザー、グループおよびプロジェクトの容量制限を設定できます。これにより、ストレージ・コストの管理に役立つ予測可能なストレージ消費が可能になります。

はじめに

OCI Cloudコンソール、CLIまたはAPIからファイル・システムを簡単に作成できます。独自のLustreファイル・システムを今すぐ作成するには、Oracle Cloudコンソールで、Oracle CloudコンソールのLustre File Storageに移動します。次の図は、主なファイル・システム・セットアップ・パネルを示しています。

Figure 1: Select Lustre File Storage in Oracle Cloud Console

図1: Oracle CloudコンソールでのLustre File Storageの選択

Figure 2: Create new Lustre File System

図2: 新しいLustre File Systemの作成

Figure 3: select performance tier Figure 3: select capactiy

図3: パフォーマンス層と容量の選択

 

詳細は、次のリソースを参照してください: