X

Big Data、Data Integration、Data Lakeに関するテクノロジー、製品・サービス情報、セミナー情報などをお届けします

今注目のデータレイクとは何か?DWHと何が違うのか?

近年、データマネジメントに関して様々なキーワードが聞かれます。 データレイク, データウェアハウス(以下、DWH) – 本記事では、それらの位置づけを定義し、特徴や将来展望を整理します。

データレイクの定義

データレイクとは、構造化データや非構造化データを格納する場所であり、様々なデータソースから集められたデータを管理し、活用のための前処理を行える環境。
Hadoopやオブジェクトストレージ+Sparkで構成されることが多い。
詳しくはこちらの動画を参照

DWHの定義

データウェアハウスは、予め定義されたKPIなどの指標をモニタリング/分析するために、社内外の様々なデータソースからデータを収集し、検索のための最適化が行われた環境。
主にDWHのための機能を有したデータベースで構成される。

 

その他、関連キーワード

エンタープライズデータウェアハウス (EDW): 企業全体向けサービスを提供するデータウェアハウス。

データマート: 個々の部門によって利用されユーザが現在必要としているデータをより最適化された形で利用。

データスワンプ: 失敗したデータレイクの揶揄。なんでも入るからと、計画性のないデータ蓄積を行うとレイク(湖)は、すぐに使いにくいスワンプ(沼)となる。

それぞれの違いは何か?どう使い分けるのか

データレイクもDWHも様々なデータを格納するという点では共通しています。ここではデータを保存時に考慮すべきポイントは何かを考え、それぞれの役割について説明します。

データウェアハウスの特徴

1950年代に最初のデータベースが登場し、1980年代に現在のスタンダードであるリレーショナルデータベースが普及しました。データベースはリアルタイムの構造化データを更新する、つまりOLTP用途で利用されます。ビジネスが成長するにつれ、複数の場所や業態からデータが発生するようになり、すべてを分析するためには、それらを集約した場所が必要でした。それがデータウェアハウスです。

例えば、あなたは小売チェーン店の会員カードに入会しているかもしれませんが、データウェアハウスは、現在の買い物客の傾向を分析する目的において、あなたの購入記録を保持しているかもしれません。
データウェアハウスは、購入したすべてのアイテムの記録を保持し、最適化されるためデータ分析者はより簡単に分析することができます。

データレイクの特徴

2010年代になると、データレイクが台頭してきました。
データウェアハウスでも非構造化データを蓄積・処理できますが、最も効率的な方法ではありません。
ビッグデータと呼ばれる、非常に多くの種類・量のデータがあると、すべてをデータウェアハウスに格納した場合、多大な費用が発生する可能性があるからです。
さらに、時間と労力の制約があります。データウェアハウスに格納されるデータは、格納前にテーブルレイアウトに合うようにクレンジングする必要があります。(注1)多種多様なデータをETLするコストは膨大になってしまいます。それが、データレイクが人気を博した最大の理由です。データレイクは、主に非構造化データを最も費用対効果の高い方法で処理できます。非構造化データとは、単に構造化されていない業務データではなく、テキストやソーシャルメディア、IoTデバイスのログファイルやセンサー、マシンデータまで、あらゆるデータを対象とします。

ここでデータレイクの例を見てみましょう。
先ほどのDWHで使用した小売チェーンの例に戻って、考えてみます。
DWHでは、顧客がどのような商品を買ったのかという事実に基づいた分析が可能ですが、入店したが買わなかったことや将来どのようなものを購入するかの予測を行うことは難しいです。
そこで、データレイクに様々なデータを蓄積することが有効になります。例えば、Webチャネルと実来店を紐づけたり、顧客のSNSデータを取り込むことでより精度の高いオファーをすることが可能かもしれません。さらに、天気や気温などの外部情報を取り込むことで、仕入れの最適化も考えられます。
データレイクはデータウェアハウスのデータをより価値のあるものに高めてくれます。

注1:
データレイクを持っていても、クレンジングが不要になるわけではありません。あくまでも格納時にスキーマレスであり、活用に向けたクレンジングは必要になります。
しかしながら、Sparkを代表とする分散処理技術との相性の良さから、クレンジング処理を行う基盤としてもデータレイクは有効です。

DWHとデータレイクの将来は?

これらのテクノロジは、一方を淘汰するものではなく、共存共栄の関係にあります。
今後も、構造化されたデータをデータウェアハウスに保存し続けるでしょう。
しかし、企業は非構造化データについてはクラウド上のデータレイクに移動しています。
データの保存はコスト効率が最重要であるためです。
オラクルでは、DWHのディファクトスタンダードであるOracleDBをクラウド上で手軽に運用できる
Autonomous Data Warehouse Cloudをリリースしています。
また、非構造化データを安価に保持するため、Storage Cloudを提供しており、それらの情報を加工するための
環境としてBig Data Cloudをリリースしています。
もし、データレイクに興味があり、自信で構築してみたい方は、以下のチュートリアルを是非おためしください。

 free data lake trial with a step-by-step tutorial. Get started today.

 

本資料は、Oracle Big Data blog(https://blogs.oracle.com/bigdata/data-lake-database-data-warehouse-difference)を抄訳したものです。

Be the first to comment

Comments ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.Captcha