X

Big Data、Data Integration、Data Lakeに関するテクノロジー、製品・サービス情報、セミナー情報などをお届けします

データレイクのソリューションパターン

 ビッグデータソリューション は、様々なレイヤーのテクノロジーで構成されており、今日ではより複雑な構成になってきています。
我々は、正しいアーキテクチャを選択するために、目的別にアーキテクチャを整理する必要があります。

ソリューションパターン (または、デザインパターンと呼ばれる) は、私たちがシステムの全体構成を理解する事に役立ちます。細かい木々には言及しませんが、システム全体を大きな森として俯瞰することができます。

この記事では、データレイクのいくつのかのソリューションパターンを紹介します。データレイクは、多くの用途を持ち、様々なビジネス上の課題に対するソリューションを提供する重要な役割を果たします。

ここで説明するソリューションパターンは、最も一般的なビッグデータのユースケースに対処するために、データレイクを他のテクノロジと組み合わせた例を示します。オラクルのPaaSクラウドサービスを使用して、クラウドベースのソリューションに焦点を当てます。

データレイク 4つのソリューションパターン:

  1. データサイエンスラボ
  2. データウェアハウスのETLオフロード
  3. ビッグデータ機械学習
  4. ストリーミング分析

1.データサイエンスラボ ソリューションパターン

 まず最初に、データサイエンスラボのユースケースから説明します。データサイエンスのためのツールを利用してディスカバリや実験を行うため我々は「ラボ」と表現しています。 データサイエンスラボは、新しいデータの理解や既存データに対する新しいモデルの検討、また、異なるデータセットの結合などを行うことで、ビジネス課題解決のための機械学習を試行するための環境です。

 パターンの説明に入る前に、図の読み方を説明しておきます。青色の各ボックスはオラクルのクラウドサービスを表します。その枠内にあるグレーのボックスはその中で提供されている代表的なサービスを示しており、矢印は各サービス間のデータフローを意味します。

データサイエンスラボは、データレイクとデータビジュアライゼーションプラットホームが含まれます。データレイクはOracle Big Data Cloud に含まれる オブジェクトストレージとSparkおよび関連ツールで構成されます。 Oracle Analytics Cloud はデータの可視化およびデータの前処理のためのデータフローやRDBMSとデータレイクのマッシュアップ機能などを提供します。 また Oracle Database Cloud Service 上にメタデータを管理します。

データレイクのオブジェクトストアは、SwiftクライアントまたはOracle Software Applianceを利用して作成されます。

2.データウェアハウスのETLオフロード ソリューションパターン

データウェアハウスは、企業が最も大事とするビジネスデータをビジネスインテリジェンスのために管理する重要なツールです。リレーショナルデータベース上に構築されるデータウェアハウス は、高度に構造化されています。しががって、データウェアハウスにロードされる前に、データを目的の構造に変換する必要があります。

この変換処理は、場合によってはデータウェアハウスに重大な負荷となり、オペレーションコストを上昇させる可能性があります。その変換処理を他のプラットホームにオフロードすることで、必要な変換のレベルに応じてオペレーションコストを削減し、データウェアハウスの真の目的である、データを提供する役割に集中することができます。

Oracle’s Data Integration Platform Cloud (DIPC) は、データウェアハウスのデータ抽出・ロードおよび変換のための主要ツールです。Oracle Database Cloud Serviceでメタデータ管理を行います。ELT処理を利用して、データが存在する場所でデータ変換が実行されます。

ロード前に追加の変換処理が必要な場合(ETL)、または新しい種類のデータを追加する場合は、データをオブジェクトストレージに一時的にステージングし、Sparkを使用して処理できます。またこれにより、Oracle Autonomous Data Warehouse Cloud.の機能である、データレイクに直接クエリ可能なテクノロジを利用し、データウェアハウスを拡張することが可能です。

3.ビッグデータ機械学習 ソリューションパターン

Advanced analyticsは、機械学習、地理空間分析、グラフ分析技術を使用してデータ解析を行うデータレイクの最も一般的な事例です。ビッグデータに対する高度な分析機能は、データラボをエンタープライズ向けに拡張したものとも言えます。

また、ラボでは少数のプロセッサとストレージを使用する場合がありますが、高度な分析パターンでは、ワークロードの要求に合わせてシステムを拡張できます。


Oracle Data Integration Platform Cloudは、ソースでデータを取得し、オブジェクトストレージに格納するリモートエージェントを提供します。Oracle Big Data CloudのSparkに直接展開する事も可能です。一般的には、これは変換処理は実行されるジョブを定期的に自動実行する定型バッチとして利用されます。

処理結果のデータセットは、Oracle Analytics Cloudを使ってビジネスユーザーおよびアナリストがビジュアライゼーションや分析することができます。

4.ストリーミング分析 ソリューションパターン

ストリーミングデータに焦点を当てたBig Data Advance Analyticsのひとつです。ストリーミングデータは、データ生成と同時に提供とされ、多くの場合、リアルタイムな処理を求められます。

ストリームアナリティクスは不正行為の検出(detecting fraud)や取引パターンを検知し購買に関する予測などに使用されます。また、ジオフェンスを併用して、対象が地理的境界への侵入を検知し、そこからアクションを行うことができます。


ビジネスデータは、Oracle Data Integration Platform Cloudのリモートエージェントがソースデータとして取得し、Oracle Event Hub Cloud Service. のApache KafkaのTopiCにパブリッシュされます。Spark StreamingでKafka Topicをサブスクライブし、特定イベントの検索や、時系列分析、またリアルタイムなアクションなどを行います。

オープンデータやモバイルアプリケーションのデータなど、kafkaに直接パブリッシュできるデータソースについても、Sparkのジョブで処理できます。検出されたイベントや機械学習の予測結果は、下流のアプリケーションやビジネスプロセスで利用するために、他のKafka Topicにパブリッシュされます。

まとめ

ここで示した4つのソリューションパターンは、データレイクの使用開始にむけて参考になるかと思います。しかしながら、実際には複数のパターンを組み合わせることもあります。オラクルでは、共通のオブジェクトストアにアクセスできるOracle Big Data Cloudのインスタンスを簡単に作成し、どのような組み合わせのソリューションでも実現することが可能なのです。

 

本資料は、Oracle Big Data blog(https://blogs.oracle.com/bigdata/data-lake-solution-patterns-use-cases)を抄訳したものです。

The Documents contained within this site may include statements about Oracle’s product development plans. Many factors can materially affect Oracle’s product development plans and the nature and timing of future product releases. Accordingly, this Information is provided to you solely for information only, is not a commitment to deliver any material, code, or functionality, and SHOULD NOT BE RELIED UPON IN MAKING PURCHASING DECISIONS. The development, release, and timing of any features or functionality described remains at the sole discretion of Oracle. THIS INFORMATION MAY NOT BE INCORPORATED INTO ANY CONTRACTUAL AGREEMENT WITH ORACLE OR ITS SUBSIDIARIES OR AFFILIATES. ORACLE SPECIFICALLY DISCLAIMS ANY LIABILITY WITH RESPECT TO THIS INFORMATION. Refer to the LEGAL NOTICES AND TERMS OF USE (http://www.oracle.com/html/terms.html) for further information.

Be the first to comment

Comments ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.