X

Big Data、Data Integration、Data Lakeに関するテクノロジー、製品・サービス情報、セミナー情報などをお届けします

Big Data and Data Integration - Japan

Big Data and Data Integration - Japan

Data Integration Platform Cloud (DIPC) 18.4.3 リリース

※本投稿は、Data Integration Platform Cloud (DIPC) 18.4.3 is Now Available を元に翻訳した投稿です。 Data Integration Platform Cloud (DIPC) 18.4.3 がリリースされました。...

※本投稿は、Data Integration Platform Cloud (DIPC) 18.4.3 is Now Available を元に翻訳した投稿です。 Data Integration Platform Cloud (DIPC) 18.4.3 がリリースされました。 DIPCを御存知無い方はこちらの「紹介ビデオ(2分)」をご覧下さい! Data Integration Platform Cloud(DIPC)は、さまざまなベストオブブリードなデータ統合ソリューションがどのように連携してシームレスに機能し、機能の相乗効果を見つけ、より小さな断片的なタスクやプロジェクトをソリューションベースのアプローチへ高めるかをあらためて想像したものです。 たとえば、DIPCでは「Elevated Tasks」と「Atomic Tasks」の概念が導入されています。 後者のAtomic Tasksは、より小さなデータ要件とロジックを達成するために使用されるポイントタスクと同等です。一方、前者のElevated Tasksは、頻...

Big Data and Data Integration - Japan

【Oracle Cloud Advent Calendar 2018連動企画】Oracle Analytics Cloudで機械学習コンペしてみた

早いもので今年も12月になってしまいました。 今回は、いつものブログと少し趣を変えまして、Oracle Cloud Advent Calendar 2018との連動企画として少し砕けた感じで執筆します。...

早いもので今年も12月になってしまいました。 今回は、いつものブログと少し趣を変えまして、Oracle Cloud Advent Calendar 2018との連動企画として少し砕けた感じで執筆します。 さて、テーマですが、前回紹介したOracle Analytics Cloud(OAC)を使った機械学習にしようと思い、オラクルお馴染みのInsuranceデモを準備していたのですが、Cloudii様のブログでOACによるタイタニック生存予測の記事を見つけまして、勝手にコンペしてみよう企画にします。 題材は、同じkaggleのTitanic。目標精度は73%以上を目指します。 【Cloudii様の記事一部抜粋】   1.データの理解 さて、何はともあれまずは「データの理解」から始めたいと思います。 今回のデータセットは、タイタニック号に搭乗された方がどのような属性であったかを表しているデータになります。 PassengerId – 乗客識別ユニークID Survived – 生存フラグ(0=死亡、1=生存) Pclass – チケットクラス...

Big Data and Data Integration - Japan

データから価値を創出する鍵:それはData Preparation(データの前処理)

アナリティクスプロジェクトの成功は、分析データの品質に依存します。一方で、データの価値が認められた現在のビジネス環境において、企業は膨大で多様なデータを収集しているが、種類も量も指数関数的に増加しており、それらを分析のために使いやすい形式に変換するコストは大きな課題のひとつです。 Data...

アナリティクスプロジェクトの成功は、分析データの品質に依存します。一方で、データの価値が認められた現在のビジネス環境において、企業は膨大で多様なデータを収集しているが、種類も量も指数関数的に増加しており、それらを分析のために使いやすい形式に変換するコストは大きな課題のひとつです。 Data Preparation(前処理)の難しさ たとえば、分析の前には異なるデータセットを結合したり、粒度を整えるために集計したり、null値を補填したり、データの重複を排除したり、データの型を合わせたりと分析の8割は前処理と言われるようにプログラミング工数と処理のリソース両面で負荷がかかります。 これらのタスクは、通常IT部門のナレッジで対応できますが、昨今、分析プロジェクトのオーナーシップが業務部門にシフトしているため、より問題が顕著になっています。業務部門の中にもPythonやRなどを用いてデータの前処理を行える人材がいるケースがあるが、それをビッグデータに対してスケールさせる術に長けているとは限りません。その結果、処理依頼...