本記事はAaron Rimelによる”GPU Infrastructure and workload monitoring with OCI Stack Monitoring“の日本語翻訳版記事です。


Stack Monitoringの最新リリースを発表できることを嬉しく思います。このリリースでは、GPU インフラストラクチャとそのワークロードに不可欠な監視とアラーム管理機能を提供します。この新機能は、GPUフリートのターンキー監視を提供することで、監視UIの構築に煩わされることなく、GenAIプロジェクトに集中できるように設計されています。豊富なアラーム管理機能により、大規模なアラーム設定を容易にし、フリート全体で管理できます。

大規模環境全体で GPU アクセラレーション インフラストラクチャを監視

ホスト GPUのエンタープライズ・ヘルスとアラームは、インタラクティブな監視UIを使用してGPU インフラストラクチャのヘルスを可視化します。

例外による監視用に設計されており、ホストの可用性とオープンアラームを迅速に評価します。

  • 稼働中のホストの割合を一目で確認し、停止中のホストやレポートしていないホストまでドリルダウンします。
  • クラスター ネットワーク内のすべてのホストが利用可能かどうかを把握し、ドリルダウンして停止を調査します。
  • GPUインフラストラクチャ全体で発生しているすべての未解決アラームを、アラームの詳細までドリルダウンしてトリアージします。最新のメトリック値が表示されるため、トリアージの優先順位付けに役立ちます(例:GPUアラームはGPUの現在の温度が81°Cであることを示しています)。

GPUフリートを監視する際は、レスポンス、負荷、エラー、使用率という4つの主要なパフォーマンス・カテゴリに注目してください。エンタープライズ・ヘルスとアラームUIは、これらの4つのカテゴリに焦点を当て、フリート全体のパフォーマンス・ホットスポットの相関関係を把握できるように特別に設計されています。

  • 平均レイテンシが最も高く、ジョブの速度低下につながるGPUを特定します。
  • 十分に活用されていないGPUを特定し、より要求の厳しいジョブに追加できます。
  • ECC エラーの数が最も多いGPUを特定します。
  • GPUの高温とフリート全体の電力使用量を相関させることで、ワークロードの速度低下の可能性を特定するのに役立ちます。

パフォーマンス・チャートでは、各プロットポイントは固有のリソース(ホスト、GPUなど)を表します。プロット・ポイントをクリックすると、ドリルダウンしてパフォーマンスの推移を確認できます。メトリック・チャートには、現在のメトリックストリームに関するアラームの詳細が表示され、リソースのホームページに移動してさらに調査を進めることができます。

 

Figure 1: Enterprise Health and Alarms Host GPU fleet view

 

クラスタネットワークのホームページでは、ホストとGPUの健全性とアクティビティの概要が表示

ホスト GPUのエンタープライズ・ヘルスとアラーム・ビューから、クラスタ・ ネットワークのホームページにドリルダウンして、クラスター全体のコンピューティング (ホスト) と GPU のヘルスとアクティビティを評価します。

クラスター・ネットワークのホームページは、GPU アクセラレーション・ホストのクラスター全体のコンピューティングの健全性と開いているアラームを迅速に識別できるように設計されています。

  • 使用可能、使用不可、占有、および機能低下しているホストの数を決定します。
  • アラームの詳細をドリルダウンして、クラスター全体の開いているアラームを調査します。

パフォーマンス・チャートは、GPUのパフォーマンスと使用率を高、中、低の3段階に自動的に分類します。この分類により、クラスター・ネットワーク全体のすべてのGPUを迅速に分析できます。 

  • アクティブでないGPUの数を特定します。
  • 大量のメモリと電力を使用しているホストの数を特定します。
  • ワークロードに影響を及ぼす可能性のある高温の GPU を特定します。 
  • クラスター全体の平均レイテンシを確認します。 

クラスターのトポロジページを使用すると、クラスター ネットワーク全体の詳細なパフォーマンス・メトリックを一目で確認し、クラスター・ネットワーク、ネットワーク・ブロック、ローカル・ブロック、ホスト、GPUなどのクラスター全体を簡単に移動できます。

 

Figure 2: Cluster Network aggregating performance across the fleet including Topology view

コンピューティングのホームページでは、GPU アクセラレーション コンピューティングの健全性とパフォーマンスを提供

クラスター・ネットワークのトポロジページから、クラスター内の任意のホストまたはGPUに移動すると、そのホームページにアクセスできます。ホストのホームページでは、ホストとそのGPUの健全性とパフォーマンスを可視化できます。GPUアクセラレーション・コンピューティングのホームページは、GPU固有のメトリクス(GPUアクティブセッション、GPU ECCエラーなど)を含むように拡張されています。スタックモニタリングでは、複数のホストおよびGPUメトリクスの異常検出を含むベースラインをすぐに利用できます。

異常検出機能は、現在のパフォーマンスが想定範囲外にあることを視覚的に識別します。RDMA送信バイト数などのRDMAメトリックに対して追加のベースラインを有効にすると、ジョブの実行中に転送データ量が予期せず減少していないかどうかを判断できます。  

GPUパフォーマンス・タブでは、アクティビティ、アクティブセッション、メモリ使用量、ファン使用率、平均レイテンシ、温度、ECCエラーなど、すべてのGPUのパフォーマンスをまとめた情報が表示されます。パフォーマンス・チャートでは、これらのチャートに関連する未解決のアラームがハイライト表示されます。これにより、全体的な健全性を一目で把握できるだけでなく、パフォーマンスの相関関係を把握して一般的な問題をトリアージし、個々のGPUホームページにドリルダウンしてさらに詳細なトリアージを行うのに役立ちます。

  • レイテンシの高いGPUを識別します。
  • GPUの温度がサーマルスロットリングに近づいているかどうかを評価します。
  • 現在のGPUメモリ消費量が異常かどうかを判断します。
  • GPU クロック使用率の低下を正確に特定します。

 

Figure 3: GPU-accelerated host home page highlighting GPU performance metrics

プロセスセットによるワークロード監視

GPUワークロードの監視は、プロセスセットを使用して実現できます。プロセスセットは、GPUワークロードを構成する固有のプロセスを定義することで作成されます。プロセスセットが作成されると、スタックモニタリングはホスト上で実行されているプロセス数に加え、ステータス、CPU使用率、メモリ使用率を監視します。これらのメトリック(プロセス数など)に対してアラームを作成し、ワークロードを完了するのに十分なプロセス数があることを確認することができます。「トポロジ」タブでは、ワークロードが実行されているホストが識別されます。

 

Figure 4: Workload home page showing metric performance

モニタリング・テンプレートを使用して GPU アラームを大規模に管理

GPU アクセラレーション・リート全体にわたって個別のアラームを作成するのは時間がかかり、エラーが発生しやすくなります。モニタリング・テンプレートは、 GPU アクセラレーション・フリート全体のすべてのアラーム・ルールを作成できる単一のUIを提供することで、このプロセスを簡素化します。この単一のテンプレートには、ホストと GPU のアラーム ルールを作成するために必要なすべての情報が含まれており、数回のクリックでフリート全体に適用できます。フリートを拡張する場合 (例: ホスト、GPUなどを追加する場合)、新しく追加されたホストとGPUには、モニタリング・テンプレートのアラーム条件が自動的に適用されます。アラームしきい値の変更もテンプレート内で行うことができ、その変更はすべてのホストに適用されます。これらのテンプレートは、アラーム条件の管理にかかる時間を節約し、大規模環境全体で一貫性を確保します。

OCI Stack Monitoringを使用して、GPU インフラストラクチャとワークロードの可視性とアラーム管理を実現します。

今すぐ始めましょう!

 

リソース: