※ 本記事は、Winston Linによる”Announcing the General Availability of NVIDIA GPU Device Plugin Add-On for OKE“を翻訳したものです。

2025年4月22日


Oracle Cloud Infrastructure (OCI) Kubernetes Engine (OKE)NVIDIA GPUデバイス・プラグイン・アドオンが提供開始されることをお知らせします。このアドオンは、OKEクラスタでGPU集中型ワークロードを実行しているお客様に対して、より優れた制御性、柔軟性、可視性を提供します。

OKEアドオン

多くのOKEのお客様は、AIトレーニングおよび推論ワークロードの実行にNVIDIA GPUを使用しています。KubernetesがGPUを利用するには、GPUリソースをワークロードに通知し、ノード内のGPUの数やGPUの健全性などの詳細を公開するために、GPUデバイス・プラグインが必要です。このリリースでは、NVIDIA GPUデバイス・プラグインを専用のOKEアドオンとして有効化および管理できます。この変更により、GPUリソース管理が簡素化され、透明性が向上し、特定のニーズに合わせてカスタマイズされた構成が可能になります。NVIDIA GPUデバイス・プラグインは、すべての新しい OKEクラスタに自動的にインストールされますが、それを管理するアドオンは、OKE基本クラスタではなく、OKE拡張クラスタでのみ使用できます。

OKEアドオンは、Kubernetesクラスタ機能を拡張するモジュール機能です。クラスタ運用ソフトウェアの管理をOracleにオフロードできるため、ライフサイクル管理が簡素化され、運用上のオーバーヘッドが増えることなく重要なコンポーネントを簡単にインストール、構成および更新できます。NVIDIA GPUデバイス・プラグイン・コンポーネントをアドオン・フレームワークに移行すると、より詳細な制御のために、より多くの構成属性が提供されます。

アドオンの有効化

NVIDIA GPUデバイス・プラグインは、Oracle Cloudコンソール、CLI、ソフトウェア開発者キット(SDK)およびREST APIから有効にできます。コンソールでは、OKEクラスタ・リソースの「アドオン」タブからアドオンを表示および構成できます。

Available add-ons in the Oracle Cloud Console.

ここから、クラスタのNVIDIA GPUデバイス・プラグインを有効または無効にし、必要な構成を選択できます。Oracleによる自動更新のオプト・インおよびオプト・アウトが可能です。Oracleは、選択したベンダーのデバイス・プラグイン・アドオンを自動的に更新し、新しいバージョンの起動時に最新の状態に保ちます。または、サポートされているバージョンのリストからアドオンのバージョンを選択し、podに共通のKubernetes引数を適用することもできます。使用可能な構成引数とドキュメントについては、NVIDIA GPU Pluginアドオン構成の引数を参照してください。

Editing an NVIDIA GPU plugin.

有効にすると、NVIDIA GPUデバイス・プラグイン・アドオンのステータスを確認できます。

Installed add-ons, whether they have automatic updates enables, statues, and versions.

このアドオンは、OCI AI Blueprintsの一部としても使用できます。

まとめ

この更新が、ユーザーがGPU集中型のワークロードをより効果的に構成および管理するのに役立つことを願っています。いつものように、お客様により良いサービスを提供するため、より多くの統合とソリューションを積極的に検討しています。詳細は、次のリソースを参照してください: