※ 本記事は、Rashmi Badanによる”Introducing data lineage: Where does the data come from?“を翻訳したものです。
2023年9月21日
分析に基づいて重要な決定を下す前に、ソースを確かめたいと思いませんか?
Oracle Cloud Infrastructure(OCI) Data Catalogの最新リリースで、他の拡張機能を含むデータ系統機能を発表できることを嬉しく思います。OCI Data Catalogは、データの専門家がデータを発見し、データ・ガバナンスをサポートするのに役立つメタデータ管理サービスです。データ系統の追加機能により、検出されたデータの系統を表示できるようになりました。
データ系統が必要な理由
データ・アナリスト、ビジネス・アナリスト、データ・サイエンティストなどのデータ・コンシューマは、通常、様々なソースから取り込まれ、様々なシステムによって処理されるデータと連携します。データが信頼できるソースから取得されるかどうか、データが流れるシステム、およびデータ・パイプラインでどのように変化するかを理解する必要があります。これらの詳細を知ることで、データから得られた結果への信頼性が向上するだけでなく、データのトレーサビリティを改善してデータの問題をトラブルシューティングする際にも役立ちます。また、データ・パイプラインの作成、変更および保守を担当するデータ・エンジニアは、ダウンストリームのプロセスやアプリケーションに対するデータ変更の影響を理解し、今後の変更について適切なチームに事前に通知することを希望しています。
OCI Data Catalogでのデータ系統の入力
OCIデータ系統は、データ・ソースから処理システム、最終ターゲットまでのエンドツーエンドのデータのジャーニーをグラフィカルに表現します。また、データ系統は、複雑なパイプラインに隠された消去データの問題をトラブルシューティングおよびデバッグする場合にも役立ちます。OCIデータ系統を使用すると、OCIテナンシのOCIデータ統合ワークスペースで、アプリケーションによって処理されたデータの系統を表示できます。
OCI Data Catalogは、OCIおよびOracleエコシステム内のデータに関するデータを一元管理できるというメリットがあります。これにより、データ・コンシューマは、様々なデータ・システムの技術メタデータ、ビジネス・メタデータおよび運用メタデータを理解し、組織内のデータ・リテラシーを促進できます。これはユーザーが適切なデータを検出するのに最適な場所であり、現在ではデータ系統機能を使用して、そのデータの系統と影響を確認できます。
OCI Data Integrationとの統合
OCIでは、データ・レイクの多くのユースケースに、OCI Data Integrationサービス、OCIネイティブの抽出、変換、ロード(ETL)サービスを使用したOCI Object Storageへのデータの取り込みが含まれます。Data CatalogはData Integrationとシームレスに統合され、様々なデータ統合ワークスペースのアプリケーションおよびパイプラインで取り込んで処理されるデータの系統を提供します。
「Summary (要約)」タブと「Attributes (属性)」タブでは、エンティティと属性レベルの系統を提供する新しい「Lineage (系統)」タブを表示できます。データ処理に関連するOCI Data Integrationタスクの概要も示されています。OCI Data Integrationコンソールで各データ変換の詳細を確認するには、リンクに従います。

図1: データ系統グラフ
Data Integrationアプリケーションによって処理されるデータ・エンティティの系統にアクセスするには、次のステップを実行します。:
-
系統データを生成してData Catalogに公開するように、OCI Data Integrationワークスペースでアプリケーションを構成します。
-
カタログにOCI Data Integrationワークスペースのデータ・アセットを作成して、系統データをフェッチします。

図2: データ系統の構成
図2に示す設定の後、Data Catalogには、構成済のデータ統合アプリケーションで処理されたデータの系統が表示されます。
折れ線グラフで他のエンティティの詳細を表示できるのは、カタログに含まれるデータ・アセットを表示する権限が必要な場合のみです。カタログ内のデータ・アセットにアクセスするために設定されたIdentity and Access Management (IAM)ポリシーも、系統グラフで考慮されます。
その他の拡張機能
Data Catalogサービスのもう1つの更新は、Excelファイルへの拡張用語集エクスポートにアクセスして、複数のカテゴリおよびサブカテゴリにまたがる数万の用語を含む大規模な用語集をサポートすることです。大きなエクスポートは、カタログ内の専用の非同期ジョブで処理されるようになり、ユーザーは、対応するジョブ・ログでエクスポート中のエラーを追跡できます。
まとめ
OCI Data Catalogは、OCI Data Integrationアプリケーションによって処理されたデータの系統を簡単に表示する方法を提供します。データのソースを知ることは、データ・パイプラインへの信頼を構築し、データ・パイプラインに対する変更の影響を評価するのに役立ちます。これにより、データ・パイプラインがそれらの変更に対応するための先制的なアクションを実行できるようになります。
Oracle Cloud Infrastructure Data Catalogインスタンスで、この機能を今すぐお試しいただけます。
