※ 本記事は、Janet Peteloによる”New Oracle Cloud Infrastructure Data Integration release adds support for REST sources“を翻訳したものです。
2022年10月24日
Oracle Cloud Infrastructure(OCI)Data Integrationの新しいリリースを発表できることを嬉しく思います。このリリースでは、RESTをソースとして追加することで接続が拡張されます。これにより、アプリケーションにREST APIを使用する多くの一般的なWebおよびクラウド企業への扉が開かれ、Excelファイルの読取りがサポートされます。
このリリースでは、フラット化演算子や意思決定演算子など、開発者の生産性の向上に役立つ新しい演算子も追加されています。分析用のデータを準備するためにネストされたJSONまたは階層データを処理する必要があるユーザーは、データ統合での階層データ処理にフラット化演算子を使用できるようになりました。
クラウド・ネイティブなサーバーレス・データ統合
復習となりますが、OCI Data Integrationは、OCI上のクラウド・ネイティブで完全管理型のサーバーレス抽出、変換およびロード(ETL)サービスです。分析とデータ・サイエンスのレイクハウスを構築する組織、オブジェクト・ストレージを使用したOCIでの人工知能と機械学習、および自律型データ・ウェアハウスは、複数のデータ・サイロからのデータの統合を簡素化、自動化および加速することで、インサイトを迅速に提供できます。
Data Integrationは、対話型のデータ準備およびプロファイリングを備えた、コーディングを必要としないグラフィカルな設計インタフェースを提供します。また、データ・エンジニアは、スキーマの進化を処理するパターンとルールを使用してデータ・パイプラインを設計できます。データベースへのSpark ETLおよびELTプッシュダウン処理の両方をサポートします。この新しいサービスに慣れていない場合は、ブログ「Oracle Cloud Infrastructure Data Integrationとは?」をご確認ください。
Data Integrationは、すべてのOCI商用リージョンで使用できます。
接続性の拡張
ソースとしてのREST
さらに多様なデータ・ソースを含めるために、Data Integration接続スイートを拡大し続けます。Data Integrationユーザーは、汎用RESTデータ・アセット・タイプを使用してデータを抽出できるようになりました。汎用RESTデータ・アセットを使用して、ユーザーは基本認証を使用してRESTサービス・エンドポイントからデータを取り込むことができます。たとえば、RESTエンドポイントから天気データを抽出して予測の効果的なモデルを作成することで、Fusion Application Supply Chainデータをエンリッチできるようになりました。

図1: ソースとしてのREST
Excelサポート
また、Oracle Object Storage、Amazon S3またはHDFSに格納されているxlsxファイル形式(Excel)のサポートも追加しました。サポートされているデータ・アセットの完全なリストを参照してください。

図2: OCI Object StorageでのExcelサポート
Fusion(BICC)の機能拡張
BICCコネクタを使用してOracle Fusion Applicationsを取り込む際、データの取込み中にさらに高度なオプションを使用できるようになりました。デフォルト列のみ、デフォルト列とプライマリ列のみ、または主キーのみを抽出するように選択できるようになりました。この機能は、PVOに多数の列がある場合に、データ・フローおよびデータ・ローダー・タスクを最適化するのに役立ちます。

図3: BICC列セレクタ
SSLサポート
OCI Data Integrationでは、次のソースに対してSSLがサポートされるようになりました。:
-
Microsoft SQL Server Database
-
Microsoft Azure SQL Database
-
Kafka
-
Apache Hive
-
IBM DB2
オペレータを増やして開発者の生産性を向上
データ・フローのフラット化演算子
このリリースでは、OCI Data Integrationによってデータ・フローのフラット化演算子がサポートされるようになり、ユーザーはJSONの配列のような階層構造をリレーショナル形式にフラット化できます。複雑なデータがフラット化されると、変換、集計、結合を実行し、ターゲットにロードできます。

図4: RESTソース結果のフラット化
パイプライン内の決定演算子
OCI Data Integrationパイプラインに、新しい演算子「Decision operator」が追加されました。Decision operatorを使用して、パイプライン内の分岐フローを決定するブール条件を記述できます。この機能を使用すると、パイプライン内の条件に基づいて意思決定を行い、パイプラインの実行パスを決定するユースケースを解決できます。これらの条件は、前のタスク出力パラメータまたはシステム・パラメータを使用して記述できます。

図5: データ・フローのDecision Operator
OCI Loggingの統合
OCI Data Integrationでは、OCI Loggingを使用して、Consoleまたはコマンドライン・インタフェース(CLI)でロギングを有効にし、サービス・ログを取得できるようになりました。Data Integrationサービス・ログは、「Data Integration Workspace Logs」ログ・カテゴリを使用してワークスペース・リソース・レベルで有効化されます。この機能により、パイプラインおよびタスクをデバッグし、ユーザー・エクスペリエンスを向上できます。
Data Loaderの拡張機能
複数のエンティティ・ロード・モードでBICCコネクタを使用して、Oracle Fusionアプリケーションからデータを抽出できるようになりました。この機能を使用すると、データ・ローダー・タスクを記述して、複数のOracle FusionアプリケーションPVOからデータを抽出できます。この機能により、複数のエンティティについてOracle Fusion Applicationsから完全なデータ抽出を実行するチームの生産性が向上します。

図6: データ・ローダー複数Fusionエンティティ初期ロード
REGEXパターンまたは論理エンティティ修飾子を使用してルールを記述することで、OCI File Storageソース・タイプからデータ・エンティティを選択することもできます。

図7: 顧客を表す多くのファイルから「customers」を定義し、名前グループを「customers」と定義

図8: 「orders」グループの定義
さらに詳しく知りたいですか?
組織は、データレイクハウスと、人工知能と機械学習を備えた高度なアナリティクスにより、次世代のアナリティクス・ジャーニーに乗り出しています。この移行を成功させるには、Oracle Cloud Infrastructure Data Integrationでデータを迅速かつ簡単に取り込んで準備し、変換し、ロードする必要があります。今日試してみてください!
詳細は、Oracle Cloud Infrastructure Data Integrationのドキュメント、関連するチュートリアル、およびOracle Cloud Infrastructure Data Integrationのブログを参照してください。
