X

Big Data、Data Integration、Data Lakeに関するテクノロジー、製品・サービス情報、セミナー情報などをお届けします

Big Data and Data Integration - Japan

Apache KafkaのメッセージをOracle Cloud オブジェクト・ストレージへ永続化する

はじめに 今日のデータ分析基盤では大規模なデータを安価に保持できるデータストアが必要です。ビッグデータ時代黎明期においてはHDFSがその一翼を担い、データストアの定石アーキテクチャとして定着しました。 しかし、Amazon S3に代表される、いわゆるクラウド・ストレージの台頭により、HDFSは唯一の選択肢ではなくなりつつ...

はじめに 今日のデータ分析基盤では大規模なデータを安価に保持できるデータストアが必要です。ビッグデータ時代黎明期においてはHDFSがその一翼を担い、データストアの定石アーキテクチャとして定着しました。 しかし、Amazon S3に代表される、いわゆるクラウド・ストレージの台頭により、HDFSは唯一の選択肢ではなくなりつつあることもまた事実です。 かつて、データマネージメント市場において、HDFSを中心にあらゆるエコシステムが急速に形成されたように、今やクラウド・ストレージとのインターフェースを持たないデータ処理エンジンは皆無と言える状況です。 一昔前まで、この技術分野ではリレーショナル・データベースを中心にシステムを構成するアーキテクチャが一般的でした。オンライントランザクション処理のオペレーショナルデータベースからオンライン分析処理のデータウェアハウスへ、バッチによるETL処理を経由しデータを渡しつつ、他システムとはメッセージキューやEAIで連携、という具合です。 残念ながらこの旧式の仕組みでは、あらゆるタイプの大容量データをリアルタイムに処理で...

【Oracle Cloud Advent Calendar 2018連動企画】Oracle Analytics Cloudで機械学習コンペしてみた

早いもので今年も12月になってしまいました。 今回は、いつものブログと少し趣を変えまして、Oracle Cloud Advent Calendar 2018との連動企画として少し砕けた感じで執筆します。...

早いもので今年も12月になってしまいました。 今回は、いつものブログと少し趣を変えまして、Oracle Cloud Advent Calendar 2018との連動企画として少し砕けた感じで執筆します。 さて、テーマですが、前回紹介したOracle Analytics Cloud(OAC)を使った機械学習にしようと思い、オラクルお馴染みのInsuranceデモを準備していたのですが、Cloudii様のブログでOACによるタイタニック生存予測の記事を見つけまして、勝手にコンペしてみよう企画にします。 題材は、同じkaggleのTitanic。目標精度は73%以上を目指します。 【Cloudii様の記事一部抜粋】   1.データの理解 さて、何はともあれまずは「データの理解」から始めたいと思います。 今回のデータセットは、タイタニック号に搭乗された方がどのような属性であったかを表しているデータになります。 PassengerId – 乗客識別ユニークID Survived – 生存フラグ(0=死亡、1=生存) Pclass – チケットクラス...