※ 本記事は、Janet Peteloによる”Versioning and lifecycle management using the latest release of OCI Data Integration“を翻訳したものです。
2023年3月27日
Oracle Cloud Infrastructure(OCI)Data Integrationの新しいリリースを発表できることを嬉しく思います。このリリースでは、プロジェクトのコピー機能を使用したコード・バックアップおよびバージョニング機能が導入されています。また、テンプレートを作成し、パラメータ化によって繰返し可能な抽出、変換、ロード(ETL)パターンを再利用できるようにすることで、開発時間を短縮するソリューション・テンプレートを立ち上げています。独自のテンプレートを作成するか、OCI Data Integrationの事前構築済テンプレートのいずれかを使用できます。
クラウド・ネイティブなサーバーレスData Integration
OCI Data Integrationは、Oracle Cloud上のクラウド・ネイティブなフルマネージド・サーバーレスETLサービスです。AnalyticsとData Scienceのデータ・レイク、人工知能(AI)と機械学習(ML)をオブジェクト・ストレージで構築している組織は、Autonomous Dataウェアハウスを使用して、複数のデータ・サイロからのデータの統合を簡素化、自動化および高速化することで、インサイトをすばやく提供できます。
Data Integrationは、対話型のデータ準備およびプロファイリングを備えたグラフィカルなノーコード設計インタフェースを提供します。また、データ・エンジニアが、スキーマの進化を処理するためのパターンとルールを使用してデータ・パイプラインを設計するのにも役立ちます。データベースへのSpark ETLおよびELTプッシュダウン処理の両方をサポートします。この新しいサービスをよく理解していない場合は、このブログで詳細を確認してください: Oracle Cloud Infrastructure Data Integrationとは?
Data IntegrationはすべてのOCI商用リージョンで使用でき、OCI Integrationサービスの一部です。
コピー・プロジェクトを使用したバージョニングおよびCI/CD
継続的インテグレーションおよびデプロイメント(CI/CD)の目的は、ソース・コードに対する更新によって、リグレッションや異常などのエラーが生成されないようにすることです。CI/CDの主な柱の1つはバージョン管理またはソース・コントロールであり、経時的なソース・コードの変更を追跡および管理する手法です。ソース・コードのバージョン管理により、開発チームは、業務の迅速化とスマート化を支援することで、イノベーションを迅速化し、生産性を最大化できます。バージョン管理はコードへの変更を追跡し、間違いが発生した場合、開発者は変更を元に戻し、以前のバージョンのコードに戻して、チーム・メンバーの中断を最小限に抑えながらエラーを修正できます。OCI Data Integrationサービスの最新リリースでは、必要な権限を使用して、既存のプロジェクトを同じワークスペースまたは別のワークスペースにコピーできるようになりました。この主要機能では、ソース・コードをバージョニング、バックアップおよびリストアできます。
次の各項では、OCI Data Integrationによって、データ・エンジニアがプロジェクトをコピーして、プロジェクト内の設計時オブジェクトの変更を管理する方法について説明します。たとえば、プロジェクトでエンタープライズ・リソース・プランニング(ERP)データ・フロー、タスクおよび人材管理(HCM)を使用している場合、それらのフォルダ内の設計時オブジェクトに対する変更によって、プロジェクトのコピー・アクティビティがトリガーされ、バックアップおよびリストアのためにプロジェクトがバージョニングされます。新しいデータ・フローまたはタスクが作成または変更された場合、またはバグ修正にコード変更が必要な場合は、ERPおよびHCMプロジェクトに加えられたすべての変更の完全な履歴が存在するように、新しいバージョンのプロジェクトが作成されます。

図1: プロジェクト・フローのコピー

図2: プロジェクトのコピー
プロジェクトのコピーを使用して、プロジェクト内の設計時オブジェクトのポイント・イン・タイム・バージョンを保存できます。たとえば、2023年2月27日にプロジェクト”Customer_Demo”に変更を加えた場合、それに応じてプロジェクトのコピー・メカニズムを使用し、元のプロジェクト名とスナップショット日付を示すプロジェクト”Customer_Demo_20230227″の名前を変更できます。コピー・プロセス中に、競合の処理方法を構成できます。ソース・プロジェクトにターゲット・プロジェクトのアーティファクトと同じ名前のアーティファクトが含まれている場合、次のオプションがあります。:
-
ターゲットに存在するコンテンツの保持
-
ターゲットに存在するコンテンツをソースのコンテンツで置換
-
ソースからターゲットまでの名前に接頭辞、接尾辞またはその両方を追加して、コンテンツを複製
アプリケーション・コピーと組み合せて、この強力な新機能により重要なライフサイクル管理機能が提供されます。
テンプレートで開発者の生産性を最大化
開発者の生産性をさらに高めるために、このリリースのOCI Data Integrationにソリューション・テンプレートを導入しています。
ソリューション・テンプレートは、事前定義済のエンティティとフィールド・マッピングを提供するブループリントとして機能し、ソースから宛先へのデータのフローを可能にします。多くの場合、ソースと宛先のスキーマが異なります。事前定義済エンティティとフィールド・マッピングを含むテンプレートは、データ統合プロジェクトの出発点として役立ちます。様々なETLパイプラインの変換のタイプは、ソース・システムからのデータのタイプと、データ・ウェアハウス内の宛先ファクトまたはディメンションの性質によって異なる場合があります。
複数のソースからのデータの読取り、データの結合、マージまたは変換、およびデータ・ウェアハウス・リポジトリへのロードのデータ・フロー全体は変わりません。この形式のパイプラインで最も基本的な機能または最も頻繁に使用される機能を提供するETLパイプライン・テンプレートまたはデータ・フロー・テンプレートは、開発者がデータ・フローまたはデータ・パイプラインのテンプレートをクローニングして、最初から開始するのではなくカスタマイズを開始できるETLチームの再利用可能なアセットになります。
OCI Data Integrationテンプレートは、事前定義されたデータ・フロー、タスクまたはパイプラインであり、特に設計と開発に時間を費やすことなく、特定のワークフローを迅速に作成できます。パラメータ化のサポートにより、このプロセスがさらに強化され、再利用性が向上します。
たとえば、異なるOCI Object Storageバケットに日次ファイルを書き込むソース・システムが複数あり、データをOracle Autonomous Data Warehouseにロードする必要があるとします。ソリューション・テンプレートの「Load files from OCI Object Storage to Autonomous Data Warehouse」を使用して、Autonomous Data Warehouseにロードする必要がある日次ファイルを含むバケットごとにアプリケーションを作成できます。このアプリケーションは、サポートされている様々なファイル・タイプ(JSON、Parquet、CSVおよびAvro)に対して4つの異なるタスクを作成します。各タスクは、次の指定のためにパラメータ化されます。:
-
ソース・データ・アセット
-
ソース接続
-
ソース・コンパートメントおよびバケット
-
ソース・ファイル名(「source_file.avro」や「.avro」などのパターンによる正確な名前)
-
ターゲット・データ・アセット
-
ターゲット接続
-
ターゲット・スキーマ
-
ターゲット・エンティティ

図3: OCI Object StorageからAutonomous Data Warehouseテンプレートへのファイルのロードの説明

図4: アプリケーション・テンプレートの作成

図5: テンプレートから作成されたアプリケーションのパラメータの構成
テンプレートの詳細は、テンプレートのブログを参照してください。
もっと知りたいですか?
組織は、クラウドでの人工知能と機械学習によるデータレイクハウスと高度な分析で、次世代のアナリティクス・ジャーニーに着手しています。この取り組みを成功させるには、OCI Data Integrationを使用してデータを迅速かつ簡単に取り込み、準備、変換、ロードする必要があります。今すぐ試してみてください。
詳細は、OCI Data Integrationのドキュメント、関連するチュートリアルおよびOCI Data Integrationブログを参照してください。すべての統合ユースケースについてOracle Cloud Infrastructure Integrationサービスをご覧ください。
