※ 本記事は、Rashmi Badanによる”New data lineage features in OCI Data Catalog“を翻訳したものです。
2024年6月28日
Sparkアプリケーションが分析システムにフィードされている場合は、その系統をOracle Cloud Infrastructure (OCI) Data Catalogで表示できるようになりました。OCI Data Catalogのデータ系統機能が、OCIデータ・フローおよび独自のシステムで実行されているSparkアプリケーションを対象に拡張されたことをお知らせします。系統機能を追加すると、組織内のデータの系統をより包括的に把握できます。
OCI Data Catalogのデータ系統の新機能
増え続けるデータには、従来のバッチ処理システムだけでなく、ストリーミング機械学習(ML)関連およびデータ・サイエンスのワークロードにも対応できるデータ処理フレームワークが必要です。Sparkは、これらのユース・ケースに対応し、現在、データ・パイプラインの重要な部分を形成しています。その結果、データ系統機能を拡張して、OCI Data Flowか、選択したSparkフレームワークかにかかわらず、Sparkサービスで処理されるデータをカバーしています。
これまでのところ、OCI Data Catalogでは、OCIデータ統合パイプラインで処理されたデータのデータ系統を確認できます。現在、系統のグラフィカル表現には、データ・パイプラインにSparkアプリケーションも含まれています。Sparkアプリケーションでは、表レベルと列レベルの両方の系統がサポートされています。
OCI Data Flowによる系統
OCI Data Catalogのデータ系統は、データ・ソースから処理システムを介して最終ターゲットまでのデータのエンドツーエンドのジャーニーをグラフィカルに表現します。データ・パイプラインの系統を表示する単一の場所を提供します。最新リリースでは、Data Catalogは、テナンシのOCI Data Flowまたは別のテナンシで実行されているSparkアプリケーションから系統メタデータを自動的に受信します。
同じテナンシのOCI Data Flowで実行されているSparkアプリケーションの場合、次のステップに従います:
-
次のIAMポリシーを設定します:
allow any-user to manage data-catalog-data-assets in tenancy where all {request.principal.type = 'dataflowrun'} - 系統を表示する特定のカタログ・インスタンスに系統関連メタデータをプッシュするように、OCI Data Flowでアプリケーションを構成します。既存のカタログを選択するか、クロステナンシのユース・ケースの詳細を手動で入力できます。
図1: Data Flowアプリケーションでのデータ系統の有効化 - カタログでは、系統関連のメタデータが初めてプッシュされると、OCI Data Flowのデータ・アセットが自動的に作成されます。
- Sparkアプリケーションを実行します。
- Sparkアプリケーションは、関連するデータ・エンティティの系統グラフに表示されます。
図2: Data Catalogのデータ系統グラフの表示
別のテナンシのOCI Data Flowサービスで実行されているSparkアプリケーションの場合、次のステップに従います
-
次のIdentity and Access Management (IAM)ポリシーを設定します:
admit any-user of tenancy <Data Flow Tenancy> to manage data-catalog-data-assets in tenancy where all {request.principal.type = 'dataflowrun'} endorse any-user to manage data-catalog-data-assets in tenancy <Data Catalog Tenancy> where all {request.principal.type = 'dataflowrun'} - リモート・テナンシで、系統を表示する指定されたカタログ・インスタンスに系統関連のメタデータをプッシュするように、OCI Data Flowでアプリケーションを構成します。
- カタログを含むテナンシで、OCI Data Flowサービスのデータ・アセットを作成します。
図3: Data Flowデータ・アセットの作成 - Sparkアプリケーションを実行します。
- 関連するデータ・エンティティの系統グラフに表示されるSparkアプリケーションを参照してください。
カスタム系統をカタログにプッシュ
Data Catalogによる系統メタデータの収集でネイティブにサポートされていないカスタム・アプリケーションまたはシステムでデータが処理される場合でも、これらのシステムを系統グラフに含めることができます。新しいData Catalog APIのimportLineage()を使用すると、このようなシステムから系統関連のメタデータをプッシュできます。APIは、openLineage準拠のペイロードを受け入れ、使用可能なopenLineageプラグインを開始点として使用できます。このメタデータは、データ・エンティティ用に収集された系統メタデータと組み合せられるため、カスタム・アプリケーションを含む完全な系統グラフを取得できます。
まとめ
OCI Data Catalogは、処理されるデータの系統を1箇所で確認できる、すべてのデータ処理システムを提供します。系統の全体像を把握することで、重要なビジネス上の意思決定に使用されるデータの信頼性と信頼性が向上します。
独自のOracle Cloud Infrastructure Data Catalogインスタンスの新機能を今すぐお試しください。
詳細は、Oracle Cloud Infrastructure Data Catalogのドキュメントおよび関連するチュートリアルを確認してください。
