※ 本記事は、Sujith Raviによる”Accelerating Enterprise AI with NVIDIA Nemotron Models on Oracle Cloud“を翻訳したものです。
2025年12月24日
Oracle Media & Entertainmentにおける新しいNVIDIA Nemotron Vision Language Modelパワー・ビデオ機能
さまざまな業界の企業が、ビデオ、画像、ドキュメントの活用方法を変革しています。メディア・インテリジェンスからビジネス・オートメーションまで、マルチモーダルAIモデルにより、リッチ・コンテンツを理解して生成する新しい方法が実現します。Oracleは、Oracle Cloud Infrastructure(OCI)上のエンタープライズ・アプリケーションの次の波を強化するために、ドキュメント・インテリジェンスとビデオの理解のためのエンタープライズ対応マルチモーダル推論モデルであるNVIDIA Nemotron Nano 2 VLを導入しています。
よりスマートなビデオ理解と生成を強化
GTC DCで発表されたNemotron Nano 2 VLは、ビジュアル・フレーム、密なキャプション、テキスト・オーバーレイなど、複雑なビデオ・コンテンツを統一されたコンテキストで解釈するように設計されています。その革新的なEfficient Video Sampling(EVS)は、ビデオ・シーケンス内の一時的な静的パッチを識別およびプルーニングし、重要なセマンティクスと正確性を維持しながら、冗長トークンを最大4倍削減します。OCI Generative AIは、NVIDIA GB200 NVL72を使用して、Nemotron Nano 2 VLを活用し、大量のビデオを低コストで緻密にキャプションします。
Oracle Media & Entertainmentでは、ビデオ理解モデルによって、会議、トレーニング・セッション、ブロードキャストなどのエンタープライズ・レコーディングを自動的に要約し、情報の検出とナレッジ検索を加速できます。これらのモデルを活用することは、メディア組織(ニュース、スポーツ、ストリーミング・プラットフォーム、スタジオ、アーカイブ・ハウス)にとって大きなメリットにつながります:
- ターゲットを絞った検索と対話型のQ&A, チームは、自然言語で長い形式のビデオをクエリし、正確な瞬間、記録、エンティティを取得できます。
- より高速な索引付け, モデルがビデオ・コンテンツをすばやく分析およびラベル付けし、ビデオの膨大なコレクションを簡単にカタログ化および整理できる場所
- スマート・ビデオ・キュレーション, このモデルでは、自然言語に基づくロングフォーム・ビデオから重要なハイライトを効果的に特定および抽出し、時間、計算、手作業などのリソースを大幅に節約できます。
- スケーラブルなコンテンツ分析, このモデルでは、動画を分析および要約し、数万時間の映像からインサイトを導き出し、メディア企業がコンテンツの推奨を改善し、AIデータセットの品質を評価し、望ましくないコンテンツや安全でないコンテンツを排除し、コンテンツの作成や編集計画を通知するトレンドを明らかにすることができます。
生成AIモデリングのための大規模ビデオ・データセット・キュレーション
大規模なビデオ・データセットは、現代の視覚言語研究のための燃料ですが、未編集の映像だけでは大きな進展にはつながりません。重要なのは、その雑然とした膨大なクリップの海を、モデルが実際に学習、信頼できる、詳細に記述されたデータへと変えることです。目標は、単に「より多くのデータ」ではなく、適切なデータ(整然で、適切にラベル付け、検索可能)であるため、チームは迅速に反復し、正確性と堅牢性の実際の利益を確認できます。
オラクルのアプローチは、品質とコンテキストに集中しながら、容易に拡張できるデータ・エンジンの構築に集中しています。まずは、高シグナルなコンテンツだけがキュレートされたコーパスに取り込まれるようにし、次に画面上で実際に起きていることの記述に集中します。長いビデオが単一のキャプションに収まることはほとんどないため、全体像とシーンごとのニュアンスの両方をキャプチャし、表示される内容と、インデックス作成と評価が容易な簡潔なクリップレベルのサマリーを生成すると言われている内容をブレンドします。
Nemotron Nano 2 VLは、ここで重要な役割を果たしています。詳細で、きめ細かな記述を生成し、それらを動画の一場面の全体のストーリーを反映した首尾一貫したキャプションへとまとめ上げるのに役立ちます。そうしたより強力なキャプションは、より良い検索、より忠実な評価、そして最終的にはより優れたデータセットのキュレーションを、莫大な人手によるラベリングなしにもたらします。
その結果、未整理の生データからモデル学習にすぐ使えるコーパスへと至るまでのプロセスが高速化されます。研究者は、実験のための信頼できるバックボーンを獲得し、製品チームは機能の背後にあるデータセットに自信を持ち、組織は迅速な反復と安定した改善の両方をサポートする反復可能なキュレーション・ループの恩恵を受けます。要するに、NVIDIA Nemotron Nano 2 VLとのスケーラブルでコンテキストに富んだキュレーションにコアで投資することで、ビジョン言語システムが潜在能力を最大限に引き出すための条件を作り出します。
エンタープライズ・アプリケーションでのドキュメント・インテリジェンスのロック解除
企業にとって、Nemotron Parseは、Oracle Fusion Cloudアプリケーションに高度なドキュメント・インテリジェンスをもたらします。このモデルは、構造化コンテンツと非構造化コンテンツを理解し、インテリジェント・アシスタントが回答を取得してデータを要約し、意思決定を合理化できるようにします。
NVIDIA Nemotron Parseにより、カスタマーサービス、IT、財務、保険、ヘルスケアの組織は、複雑なドキュメントを正確かつ確実に解釈し、業務効率を向上させることができます。
オープン・モデルの効率性と柔軟性
NVIDIA Nemotronの視覚言語モデルは、アーキテクチャの効率性とイノベーションの民主化を兼ね備えています。ハイブリッドなTransformer-Mambaアーキテクチャに基づくNemotron Nano 2 VLモデルは、画像QA、OCR、キャプション生成、動画QA、画像推論などのタスクを網羅する1,100万件超の高品質サンプルで学習され、高いトークン・スループットと低レイテンシを実現し、大規模なテキストまたは視覚推論タスクに対して卓越した効率を発揮します。このモデルはvLLMでサポートされており、FP4、FP8およびBF16の精度で定量化され、パフォーマンスがさらに向上します。
オープン・ウェイトとオープン・トレーニング・データセットにより、開発者は、Oracle Fusion Applications全体にNemotronモデルを導入するための完全な透明性と柔軟性を備え、組織が希望する基盤モデル上にカスタム・モデルを構築できるようにします。
OracleでマルチモーダルAIの未来を実現
OracleのNVIDIA Nemotron統合により、ベンダーの請求書や注文に関するドキュメント・インテリジェンスから、小売カタログのイメージベースの推論まで、マルチモーダルAIのパワーと柔軟性がエンタープライズ・ワークロードに直接もたらされ、より迅速な検索、広告の配置、インタラクティブなQ&Aを実現するための高密なビデオ・キャプションが提供されます。NVIDIA AI EnterpriseをOCIコンソールにネイティブに統合することで、企業は、重要なビジネス・データを理解し、それに基づいて行動できる将来に対応したAIエージェントを構築することができます。
GTC DCのNVIDIA Nemotronの最新発表をご覧ください。
本ブログへの貢献に対し、Oracle AI for Fusion Applicationsチーム(Ashok Manthina、Kaushal Kurapati)、およびOCI AI Scienceチーム(Graham Horwood、Vasudev Lal、Sujeeth Bharadwaj)に感謝申し上げます。
将来の製品免責条項
前述の事項は、オラクルの一般的な製品の方向性の概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。マテリアルやコード、機能を提供することのコミットメント(確約)ではないため、購買決定を行う際の判断材料になさらないでください。Oracleの製品について記述されている特徴または機能の開発、リリース、タイミングおよび価格は、Oracle Corporationの単独の裁量により変更されることがあります。
