※ 本記事は、Arthur Cheng, Jingqiao Zhangによる”Achieve Cost-Efficient LLM Serving with Production-Ready Quantization Solution“を翻訳したものです。

2025年7月24日


量子化は、研究概念からエンタープライズAIの実用的な必要性へと急速に進化しています。メモリ使用量を2倍から4倍に削減し、精度への影響を最小限に抑えながら推論を加速することで、本番稼働可能な定量化により、スーパー・コンピュータ環境で大規模言語モデル(LLM)を実現できます。このブログでは、量子化がなぜ重要なのか、どのようにプロセスを工業化してきたのか、そして私たちが達成した現実世界の結果を探ります。

なぜ量子化?

GPUメモリー・ウォール

GPUのコンピュート・パフォーマンスがスケーリングされるにつれ、メモリー帯域幅は変化せず、大規模なモデルのデプロイメントを制限する「メモリー・ウォール」を作成します。たとえば、MetaのLlama-3.1-405BおよびLlama-4-Maverick (各 ~400Bパラメータ)では、FP16に最大 ~750GBのメモリーが必要であり、少なくとも2つのNVIDIA H100ノードが必要です。このようなインフラストラクチャは急激なコストがかかり、アクセシビリティが制限されます。

また、加重だけでなく、アクティブ化メモリー(KVキャッシュ、アテンション・マップ)も加速します。量子化は、このフットプリントを大幅に縮小するのに役立ちます。

量子化がもたらすもの

量子化は、わずかな精度と引き換えに、効率を大幅に向上させています:

  • メモリー: FP8ウェイトは、FP16と比較してメモリー使用量を半分に削減します。
  • 速度: FP8演算は、NVIDIA H100sで2倍高速に実行されます。
  • コストとエネルギー: 同じスループットでGPUを50%削減。
  • 精度: 動的FP8は、元のFP16と比較して、常に99から100%のモデル品質を維持します。

動的量子化技術は、高い忠実度を維持するために、テンソル、トークンまたはチャネルごとにスケール係数を調整します。

量子化フレームワーク

オラクルは、オープンソースおよび社内ソリューションの統合、評価の自動化、多様なLLMアーキテクチャのサポートを目的とした、堅牢な量子化パイプラインを構築しました。

主な機能:

  • 柔軟な量子化API: 複数のモデル・タイプと手法のための統合インタフェース。
  • 構成可能なアルゴリズム: 動的FP8、INT4およびその他の精度レベルをサポートします。
  • デプロイメントの最適化: 効率的なサービスを提供する量子化ウェイトを生成します。

大規模なベンチマーク

定量化されたモデルが生産基準を満たしていることを確認するために、完全に自動化されたベンチマーク・フレームワークを開発しました:

  • リクエスト・レベルとサーバー・レベルの両方でパフォーマンス・メトリックを提供:
    • 最初のトークンまでの時間 (TTFT)
    • 出力トークン当たりの時間 (TPOT)
    • サーバー・スループット
  • モデル品質チェック: モデル精度と元のモデルのリカバリ率を測定
  • パレート分析: パフォーマンスとモデルの精度を提供することの間で最適なトレードオフを選択するのに役立ちます
  • ワークロード・カバレッジ: 実世界およびドメイン固有のデータセットを使用した短期/長期の事前入力およびデコード・シナリオが含まれます

スループットのボトルネックの対処

オラクルの量子化技術は、注目の複数のLLM導入にわたって具体的な改善をもたらしました。マルチモーダルLlama 3.2-90Bモデルでは、FP8量子化を適用すると、ほぼ同じスループットを維持しながら、推論レイテンシが10%削減され、GPUの数の半分しか使用されません。Llama 3.3-70Bを使用すると、モデル品質が99%以上回復し、レイテンシが30%削減され、同じ数のGPUを使用する際のサーバー・スループットが50%向上しました。さらに、ラボ・サイエンティストと協力して、カスタム・カーネルとファイングレイン・レイヤー・チューニングを備えた革新的なINT4量子化を試し、多くのオープンソースのINT4アルゴリズムに欠けているサーバー・スループットを最適化しています。最初の結果は、GPUごとのスループットの50%以上改善し、GPU要件を元のFP16のわずか25%に削減し、すべて競争力のあるモデル精度で実現しました。

実務者のためのガイダンス

オラクルの実装経験に基づいて、量子化モデルの本番デプロイメントが3つの主要なプラクティスに成功しました。まず、ベンチマークを自動化して、測定可能で再現可能なパフォーマンス・データがすべての最適化をガイドするようにします。これにより、開発の加速と情報に基づいた意思決定がサポートされます。次に、バランスのとれたパフォーマンス・チューニングを目指します。リクエスト・レベルのレイテンシのみを最適化すると、サーバーのスループットが低下することが多いため、信頼性が高くスケーラブルなサービスを提供するには、両方のメトリックを考慮する必要があります。最後に、量子化は、研究実験ではなく生産要件として扱います。これは、大規模言語モデルを現実のシステムで導入可能、手頃な価格、環境に優しいものにするための基礎的な手法です。

次へ

今後、オラクルの焦点は、低ビット定量化とハードウェア対応の最適化の境界を押し上げることです。レイテンシとスループットの両方で競争力のあるパフォーマンスを持つ4ビットの量子化、2ビットと3ビットの精度を含む4ビットのサブ量子化方法、さらにメモリと計算の需要を減らしながらモデルの品質を維持するという目標、新しいアクセラレータ・プラットフォームのアーキテクチャ上の強みに沿ったハードウェア固有の量子化戦略など、いくつかの点で積極的に検討しています。ハードウェア機能で量子化技術を共同設計することで、企業規模のAI導入の効率性とパフォーマンスの向上をさらに高めることを目指しています。

量子化は単なる最適化ではなく、AIのイノベーションとAIの大規模な橋渡しです。本番レベルのツールと実際の検証により、現在最大のモデルに対してエンタープライズ対応のパフォーマンスを実現しています。

詳細は、Oracle営業担当にご連絡いただくか、生成AIサービスを試して、次世代のエンタープライズ・アプリケーションを構築するための高度な言語理解を備えた生成AIモデルの力を発見してください。