※ 本記事は、Rashmi Badanによる”New data lineage features in OCI Data Catalog“を翻訳したものです。

2024年6月28日


Sparkアプリケーションが分析システムにフィードされている場合は、その系統をOracle Cloud Infrastructure (OCI) Data Catalogで表示できるようになりました。OCI Data Catalogのデータ系統機能が、OCIデータ・フローおよび独自のシステムで実行されているSparkアプリケーションを対象に拡張されたことをお知らせします。系統機能を追加すると、組織内のデータの系統をより包括的に把握できます。

OCI Data Catalogのデータ系統の新機能

増え続けるデータには、従来のバッチ処理システムだけでなく、ストリーミング機械学習(ML)関連およびデータ・サイエンスのワークロードにも対応できるデータ処理フレームワークが必要です。Sparkは、これらのユース・ケースに対応し、現在、データ・パイプラインの重要な部分を形成しています。その結果、データ系統機能を拡張して、OCI Data Flowか、選択したSparkフレームワークかにかかわらず、Sparkサービスで処理されるデータをカバーしています。

これまでのところ、OCI Data Catalogでは、OCIデータ統合パイプラインで処理されたデータのデータ系統を確認できます。現在、系統のグラフィカル表現には、データ・パイプラインにSparkアプリケーションも含まれています。Sparkアプリケーションでは、表レベルと列レベルの両方の系統がサポートされています。

OCI Data Flowによる系統

OCI Data Catalogのデータ系統は、データ・ソースから処理システムを介して最終ターゲットまでのデータのエンドツーエンドのジャーニーをグラフィカルに表現します。データ・パイプラインの系統を表示する単一の場所を提供します。最新リリースでは、Data Catalogは、テナンシのOCI Data Flowまたは別のテナンシで実行されているSparkアプリケーションから系統メタデータを自動的に受信します。

同じテナンシのOCI Data Flowで実行されているSparkアプリケーションの場合、次のステップに従います:

  1. 次のIAMポリシーを設定します:

    allow any-user to manage data-catalog-data-assets in tenancy where all {request.principal.type = 'dataflowrun'}
  2. 系統を表示する特定のカタログ・インスタンスに系統関連メタデータをプッシュするように、OCI Data Flowでアプリケーションを構成します。既存のカタログを選択するか、クロステナンシのユース・ケースの詳細を手動で入力できます。
     
    Enabling data lineage collection in Data Flow
    図1: Data Flowアプリケーションでのデータ系統の有効化
  3. カタログでは、系統関連のメタデータが初めてプッシュされると、OCI Data Flowのデータ・アセットが自動的に作成されます。
  4. Sparkアプリケーションを実行します。
  5. Sparkアプリケーションは、関連するデータ・エンティティの系統グラフに表示されます。
     
    Data lineage graph in Data Catalog
    図2: Data Catalogのデータ系統グラフの表示

別のテナンシのOCI Data Flowサービスで実行されているSparkアプリケーションの場合、次のステップに従います

  1. 次のIdentity and Access Management (IAM)ポリシーを設定します:

    admit any-user of tenancy <Data Flow Tenancy> to manage data-catalog-data-assets in tenancy where all {request.principal.type = 'dataflowrun'} 
    endorse any-user to manage data-catalog-data-assets in tenancy <Data Catalog Tenancy> where all {request.principal.type = 'dataflowrun'}
  2. リモート・テナンシで、系統を表示する指定されたカタログ・インスタンスに系統関連のメタデータをプッシュするように、OCI Data Flowでアプリケーションを構成します。
  3. カタログを含むテナンシで、OCI Data Flowサービスのデータ・アセットを作成します。
     
    Creating a Data Flow data asset
    図3: Data Flowデータ・アセットの作成
  4. Sparkアプリケーションを実行します。
  5. 関連するデータ・エンティティの系統グラフに表示されるSparkアプリケーションを参照してください。

カスタム系統をカタログにプッシュ

Data Catalogによる系統メタデータの収集でネイティブにサポートされていないカスタム・アプリケーションまたはシステムでデータが処理される場合でも、これらのシステムを系統グラフに含めることができます。新しいData Catalog APIのimportLineage()を使用すると、このようなシステムから系統関連のメタデータをプッシュできます。APIは、openLineage準拠のペイロードを受け入れ、使用可能なopenLineageプラグインを開始点として使用できます。このメタデータは、データ・エンティティ用に収集された系統メタデータと組み合せられるため、カスタム・アプリケーションを含む完全な系統グラフを取得できます。

Lineage graph with a custom lineage
図4: 黄色のカスタム系統がハイリグレートされた系統グラフ

まとめ

OCI Data Catalogは、処理されるデータの系統を1箇所で確認できる、すべてのデータ処理システムを提供します。系統の全体像を把握することで、重要なビジネス上の意思決定に使用されるデータの信頼性と信頼性が向上します。

独自のOracle Cloud Infrastructure Data Catalogインスタンスの新機能を今すぐお試しください。

詳細は、Oracle Cloud Infrastructure Data Catalogのドキュメントおよび関連するチュートリアルを確認してください。