X

Big Data、Data Integration、Data Lakeに関するテクノロジー、製品・サービス情報、セミナー情報などをお届けします

データから価値を創出する鍵:それはData Preparation(データの前処理)

アナリティクスプロジェクトの成功は、分析データの品質に依存します。一方で、データの価値が認められた現在のビジネス環境において、企業は膨大で多様なデータを収集しているが、種類も量も指数関数的に増加しており、それらを分析のために使いやすい形式に変換するコストは大きな課題のひとつです。

Data Preparation(前処理)の難しさ

たとえば、分析の前には異なるデータセットを結合したり、粒度を整えるために集計したり、null値を補填したり、データの重複を排除したり、データの型を合わせたりと分析の8割は前処理と言われるようにプログラミング工数と処理のリソース両面で負荷がかかります。

これらのタスクは、通常IT部門のナレッジで対応できますが、昨今、分析プロジェクトのオーナーシップが業務部門にシフトしているため、より問題が顕著になっています。業務部門の中にもPythonやRなどを用いてデータの前処理を行える人材がいるケースがあるが、それをビッグデータに対してスケールさせる術に長けているとは限りません。その結果、処理依頼がIT部門へのバックログとして、時として数週間を要します。

これらの課題を認識している企業は data preparation technologiesにより解決を図ることができます。フォレスター社の調査(research from Forrester)によると、増大するデータの課題に対して2/3の企業がdata preparationツールの導入を検討しており、すでに56%が導入していると言われています。

昨今のData preparationツールは、IT専門知識を持つ人に限らず、企業が”前処理”を含む全ての分析プロセスを個々のビジネスラインに広げることを可能にします。これによりデータ分析のボトルネックが解消されるだけでなく、業務部門が率先して分析を行うことにより洞察精度の向上が期待できます。

ビッグデータを有効活用する仕組み

様々なデータソースからの溢れかえる膨大なデータを正しく制御し、ビジネス全体で一貫性を保ちながらアクセス可能であることも重要です。例えば、CaixaBank(CaixaBank is storing vast pools of data )は、データレイクとして1つの統合プラットフォームにビッグデータを格納しており、各事業部門は必要に応じて単一のデータソースとして関連データにアクセスし、分析することが可能です。

データレイクが構築されることにより、企業は新しいアイデアを探索するためにデータを使った試行錯誤(データドリブン)が可能になります。例えば、テレフォニカ(Telefonica worked with a single view of its data )は、TV配信コンテンツを顧客別にパーソナライズし、最適な価格を算出するアルゴリズムをテストするためにデータレイクを使用しました。PoCの後、テレフォニカはこのアルゴリズムを実装し、コンバージョンレートが向上し、顧客の解約率20%低下しました。

ビジネスにおけるデータの価値が高まりつつある中、企業がデータの管理と監督を強化するために強力な規制の推進力があります。EUのGDPR(EU’s GDPR )が発行され、顧客情報の収集・使用・共有の仕方に対して透明性が求められ、違反が認められる場合には厳しい罰則が課せられます。

まとめ

データドリブンによる新しいビジネスを手掛けていくためには、Data preparationは、企業の最重要課題であり、ビッグデータを扱う上での最優先事項です。

毎日データに向き合うデータサイエンティストやアナリストからビジネスリーダーまで、オラクルは組織内のすべての人に豊富な統合ソリューションを提供しています。

本資料は、Oracle Big Data blog(https://blogs.oracle.com/bigdata/big-data-preparation-value)を抄訳したものです。

Be the first to comment

Comments ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.