※ 本記事は、Rohit Sahaによる”OCI Data Integration introduces new connectors and operators“を翻訳したものです。

2022年10月6日


Oracle Cloud Infrastructure(OCI)Data Integrationの新しいリリースを発表できることを嬉しく思います。このリリースでは、ソースとしてのRESTの追加およびExcelファイルの読取りのサポートにより、接続が拡張されています。分析のためにデータを準備するためにネストされたJSONおよび階層データを処理する必要があるため、OCI Data Integrationでの階層データ処理のサポートを強化するフラット化演算子が導入されました。

クラウド・ネイティブなサーバーレス・データ統合

再確認となりますが、OCI Data Integrationは、OCI上のクラウド・ネイティブで完全に管理されたサーバーレスの抽出、変換およびロード(ETL)サービスです。オブジェクト・ストレージ・サービスとAutonomous Data Warehouseを使用して、OCI上で分析、データ・サイエンス、人工知能(AI)および機械学習(ML)のレイクハウスを構築している組織は、複数のデータ・サイロからのデータの統合を簡素化、自動化および加速することで、インサイトを迅速に提供できます。

Data Integrationは、対話型のデータ準備およびプロファイリングを備えた、コーディングを必要としないグラフィカルな設計インタフェースを提供します。データ・エンジニアが、スキーマの進化を処理するパターンとルールを使用してデータ・パイプラインを設計するのに役立ちます。データベースへのSpark ETLおよびELTプッシュダウン処理の両方をサポートします。この新しいサービスに慣れていない場合は、ブログ「What is Oracle Cloud Infrastructure Data Integration?」で詳細を確認してください。

Data Integrationは、すべてのOCI商用リージョンで使用できます。

接続性の拡張

引き続き、様々なデータ・ソースへの接続を拡張します。OCI Data Integrationユーザーは、汎用REST演算子を使用してデータを抽出できるようになりました。汎用のRESTオペレータ・ユーザーは、基本認証を使用してRESTサービス・エンドポイントからデータを取り込むことができます。たとえば、RESTエンドポイントから天気データを抽出してFusion Supply Chainデータをエンリッチし、予測用の効果的なモデルを作成できるようになりました。

OCI Object Storage、Amazon S3またはHDFSに格納されているMicrosoft Excel xlsxファイル形式のサポートも追加しました。サポートされているデータ・アセットの完全なリストを参照してください。

Business Intelligence Cloud Connector(BICC)を使用してOracle Fusionアプリケーションを取り込む際、データを取り込む際により高度なオプションが用意されています。デフォルト列のみ、デフォルト列とプライマリ列のみ、または主キーのみを抽出するように選択できるようになりました。この機能により、パブリック・ビュー・オブジェクト(PVO)に多数の列がある場合のデータ・フローおよびデータ・ローダー・タスクを最適化できます。

A screenshot of the type selection menu with Generic REST highlighted.
図1: RESTデータ・アセット

OCI Data Integrationでは、次のソースに対してSSLがサポートされるようになりました。:

  • Microsoft SQL Server database

  • Microsoft Azure SQL database

  • Kafka

  • Apache Hive

  • IBM DB2

 

データ・フローのフラット化演算子

このリリースでは、OCI Data Integrationによってデータ・フローのフラット化演算子がサポートされるようになり、JSONの配列などの階層構造をリレーショナル形式にフラット化できます。複雑なデータがフラット化されると、変換、集計結合およびターゲットへのロードを実行できます。

A screenshot of the Properties window of the data flow, showing the flatten operator.
図2: フラット化演算子

パイプライン内の決定演算子

OCI Data Integrationパイプラインに、新しい演算子「決定演算子」が追加されました。デシジョン演算子を使用して、パイプライン内の分岐フローを決定するブール条件を記述できます。この機能を使用すると、パイプライン内の条件に基づいて決定し、パイプラインの実行パスを決定するユースケースを解決できます。これらの条件は、前のタスク出力パラメータまたはシステム・パラメータを使用して記述できます。

A screenshot of the data flow showing the decision operator.
図3: 決定演算子

OCI Loggingの統合

OCI Data Integrationでは、OCI Loggingを使用して、ConsoleまたはCLIでロギングを有効にし、サービス・ログを取得できるようになりました。Data Integrationサービス・ログは、DISワークWorkspace Logsログ・カテゴリを使用してワークスペース・リソース・レベルで有効化されます。この機能により、パイプラインおよびタスクをデバッグし、ユーザー・エクスペリエンスを向上できます。

Data Loaderの拡張機能

複数のエンティティ・ロード・モードでBICCコネクタを使用して、Oracle Fusionアプリケーションからデータを抽出できるようになりました。この機能を使用すると、データ・ローダー・タスクを記述して、複数のOracle FusionアプリケーションPVOからデータを抽出できます。この機能は、複数のエンティティについてOracle Fusionアプリケーションから完全なデータ抽出を実行するチームの生産性を向上させるのに役立ちます。REGEXパターンまたは論理エンティティ修飾子を使用してルールを記述することで、ファイル・ストレージ・ソース・タイプからデータ・エンティティを選択することもできます。

さらに詳しく

組織は、クラウド内のAIとMLを使用したデータレイクハウスと高度なアナリティクスによる次世代アナリティクス・ジャーニーに乗り出しています。この移行を成功させるには、Oracle Cloud Infrastructure Data Integrationでデータを迅速かつ簡単に取り込んで準備し、変換し、ロードする必要があります。今日試してみてください!

詳細は、Oracle Cloud Infrastructure Data Integrationのドキュメント、関連するチュートリアル、およびOracle Cloud Infrastructure Data Integrationのブログを参照してください。