X

Big Data、Data Integration、Data Lakeに関するテクノロジー、製品・サービス情報、セミナー情報などをお届けします

Big Data Management

Apache KafkaのメッセージをOracle Cloud オブジェクト・ストレージへ永続化する

はじめに 今日のデータ分析基盤では大規模なデータを安価に保持できるデータストアが必要です。ビッグデータ時代黎明期においてはHDFSがその一翼を担い、データストアの定石アーキテクチャとして定着しました。 しかし、Amazon S3に代表される、いわゆるクラウド・ストレージの台頭により、HDFSは唯一の選択肢ではなくなりつつ...

はじめに 今日のデータ分析基盤では大規模なデータを安価に保持できるデータストアが必要です。ビッグデータ時代黎明期においてはHDFSがその一翼を担い、データストアの定石アーキテクチャとして定着しました。 しかし、Amazon S3に代表される、いわゆるクラウド・ストレージの台頭により、HDFSは唯一の選択肢ではなくなりつつあることもまた事実です。 かつて、データマネージメント市場において、HDFSを中心にあらゆるエコシステムが急速に形成されたように、今やクラウド・ストレージとのインターフェースを持たないデータ処理エンジンは皆無と言える状況です。 一昔前まで、この技術分野ではリレーショナル・データベースを中心にシステムを構成するアーキテクチャが一般的でした。オンライントランザクション処理のオペレーショナルデータベースからオンライン分析処理のデータウェアハウスへ、バッチによるETL処理を経由しデータを渡しつつ、他システムとはメッセージキューやEAIで連携、という具合です。 残念ながらこの旧式の仕組みでは、あらゆるタイプの大容量データをリアルタイムに処理で...

【Oracle Cloud Advent Calendar 2018連動企画】Oracle Analytics Cloudで機械学習コンペしてみた

早いもので今年も12月になってしまいました。 今回は、いつものブログと少し趣を変えまして、Oracle Cloud Advent Calendar 2018との連動企画として少し砕けた感じで執筆します。...

早いもので今年も12月になってしまいました。 今回は、いつものブログと少し趣を変えまして、Oracle Cloud Advent Calendar 2018との連動企画として少し砕けた感じで執筆します。 さて、テーマですが、前回紹介したOracle Analytics Cloud(OAC)を使った機械学習にしようと思い、オラクルお馴染みのInsuranceデモを準備していたのですが、Cloudii様のブログでOACによるタイタニック生存予測の記事を見つけまして、勝手にコンペしてみよう企画にします。 題材は、同じkaggleのTitanic。目標精度は73%以上を目指します。 【Cloudii様の記事一部抜粋】   1.データの理解 さて、何はともあれまずは「データの理解」から始めたいと思います。 今回のデータセットは、タイタニック号に搭乗された方がどのような属性であったかを表しているデータになります。 PassengerId – 乗客識別ユニークID Survived – 生存フラグ(0=死亡、1=生存) Pclass – チケットクラス...

Oracle Data Minerを使って機械学習をはじめよう

Oracle Data MinerはOracle Databaseに内包されたIn-Database Analyticsのためのエンジンで、GUI操作でデータの分析・機械学習を行うことができます。 今日は、Oracle Data Minerの一連の操作を実行できる、ハンズオン資料をご紹介します。   Oracle...

Oracle Data MinerはOracle Databaseに内包されたIn-Database Analyticsのためのエンジンで、GUI操作でデータの分析・機械学習を行うことができます。 今日は、Oracle Data Minerの一連の操作を実行できる、ハンズオン資料をご紹介します。   Oracle Data Minerが利用できる環境 Oracle Data Minerは、Oracle Cloud環境のPaaSデータベース(DBaaSインスタンス)では、High PerformanceまたはExtreme Performanceに含まれています。 オンプレミス環境のデータベースではEnterprise EditionのAdvanced Analytics Optionに含まれています。 Oracle Data Minerをはじめよう データベースの準備 ここでは、Oracle Cloud環境のPaaSデータベース(DBaaSインスタンス)を例として挙げています。...

データレイクにおける対話式クエリ

Data lakes(データレイク)は、今まで長年にわたり、ビッグデータ領域の重要な一員でした。 それは、あらゆる種類の新しいデータを取得・管理し、そのデータで新しいエキサイティングな潜在的なユースケースを提供します。詳細情報についてabout what a data lake...

Data lakes(データレイク)は、今まで長年にわたり、ビッグデータ領域の重要な一員でした。 それは、あらゆる種類の新しいデータを取得・管理し、そのデータで新しいエキサイティングな潜在的なユースケースを提供します。詳細情報についてabout what a data lake is(データレイクは何か)とwebcast about building a data lake in the cloud(クラウドでデータレイクを構築するウェブキャスト)をご覧ください。 しかし、その最初の段落の重要なキーワードはおそらく「潜在的」かもしれません。 なぜならデータの価値を実現するために、あなたがまず新しいデータを理解し、対話的に探索する必要があります。その上に仮説を形成し、検証することも必要です。 データレイクに対する対話式クエリとは 大規模の対話式のデータレイククエリは簡単ではありません。 この記事では、すべてのデータを完全に活用するために克服する必要があるいくつかの問題を見ていきます。そのため、Oracle acquired...

Big Data SQL - Semi-structured data

以前の投稿で、Schema on ReadとSchema...

以前の投稿で、Schema on ReadとSchema on Writeの長所短所について触れました。結論として、HDFSはデータをオリジナルフォーマットで置いておくのに適していることが分かりました。時折、ユーザはXMLやJSONのような半構造化データ(semi-structured data)を持ちます。今回は、それをどのように扱うかを紹介します。 半構造化データのユースケース HDFS上に半構造化データを格納する一般的なユースケースのひとつは、全てのオリジナルデータを格納し、そのうち部分的にリレーショナルデータベースに移動することです。これは日常的にはデータの一部が必要だが、その他の部分は極めて稀にアクセスされる(深い分析に必要になるかも知れない)ということかもしれません。例えば、以下のようなXMLフォーマットがあります。 ... ... ... ... ... 日常的には、リレーショナルデータベースで名前と年齢のみ必要: Name Age ---- ---- .......