X

Big Data、Data Integration、Data Lakeに関するテクノロジー、製品・サービス情報、セミナー情報などをお届けします

Big Data Management

Architecture

Apache KafkaのメッセージをOracle Cloud オブジェクト・ストレージへ永続化する

はじめに 今日のデータ分析基盤では大規模なデータを安価に保持できるデータストアが必要です。ビッグデータ時代黎明期においてはHDFSがその一旦を担い、データストアの定石アーキテクチャとして定着しました。 しかし、Amazon S3に代表される、いわゆるクラウド・ストレージの台頭...

はじめに 今日のデータ分析基盤では大規模なデータを安価に保持できるデータストアが必要です。ビッグデータ時代黎明期においてはHDFSがその一旦を担い、データストアの定石アーキテクチャとして定着しました。 しかし、Amazon S3に代表される、いわゆるクラウド・ストレージの台頭により、HDFSは唯一の選択肢ではなくなりつつあることもまた事実です。 かつて、データマネージメント市場において、HDFSを中心にあらゆるエコシステムが急速に形成されたように、今やクラウド・ストレージとのインターフェースを持たないデータ処理エンジンは皆無と言える状況です。 また、一昔前まで、この技術分野ではリレーショナル・データベースを中心にシステムを構成するアーキテクチャが一般的でした。オンライントランザクション処理のオペレーショナルデータベースからオンライン分析処理のデータウェアハウスへ、バッチによるETL処理を経由しデータを渡しつつ、他システム...

Big Data and Data Integration - Japan

【Oracle Cloud Advent Calendar 2018連動企画】Oracle Analytics Cloudで機械学習コンペしてみた

早いもので今年も12月になってしまいました。 今回は、いつものブログと少し趣を変えまして、Oracle Cloud Advent Calendar 2018との連動企画として少し砕けた感じで執筆します。...

早いもので今年も12月になってしまいました。 今回は、いつものブログと少し趣を変えまして、Oracle Cloud Advent Calendar 2018との連動企画として少し砕けた感じで執筆します。 さて、テーマですが、前回紹介したOracle Analytics Cloud(OAC)を使った機械学習にしようと思い、オラクルお馴染みのInsuranceデモを準備していたのですが、Cloudii様のブログでOACによるタイタニック生存予測の記事を見つけまして、勝手にコンペしてみよう企画にします。 題材は、同じkaggleのTitanic。目標精度は73%以上を目指します。 【Cloudii様の記事一部抜粋】   1.データの理解 さて、何はともあれまずは「データの理解」から始めたいと思います。 今回のデータセットは、タイタニック号に搭乗された方がどのような属性であったかを表しているデータになります。 PassengerId – 乗客識別ユニークID Survived – 生存フラグ(0=死亡、1=生存) Pclass – チケットクラス...

Big Data Management

Oracle Data Minerを使って機械学習をはじめよう

Oracle Data MinerはOracle Databaseに内包されたIn-Database Analyticsのためのエンジンで、GUI操作でデータの分析・機械学習を行うことができます。 今日は、Oracle Data Minerの一連の操作を実行できる、ハンズオン資料をご紹介します。   Oracle...

Oracle Data MinerはOracle Databaseに内包されたIn-Database Analyticsのためのエンジンで、GUI操作でデータの分析・機械学習を行うことができます。 今日は、Oracle Data Minerの一連の操作を実行できる、ハンズオン資料をご紹介します。   Oracle Data Minerが利用できる環境 Oracle Data Minerは、Oracle Cloud環境のPaaSデータベース(DBaaSインスタンス)では、High PerformanceまたはExtreme Performanceに含まれています。 オンプレミス環境のデータベースではEnterprise EditionのAdvanced Analytics Optionに含まれています。 Oracle Data Minerをはじめよう データベースの準備 ここでは、Oracle Cloud環境のPaaSデータベース(DBaaSインスタンス)を例として挙げています。...

Big Data Management

データレイクにおける対話式クエリ

Data lakes(データレイク)は、今まで長年にわたり、ビッグデータ領域の重要な一員でした。 それは、あらゆる種類の新しいデータを取得・管理し、そのデータで新しいエキサイティングな潜在的なユースケースを提供します。詳細情報についてabout what a data lake...

Data lakes(データレイク)は、今まで長年にわたり、ビッグデータ領域の重要な一員でした。 それは、あらゆる種類の新しいデータを取得・管理し、そのデータで新しいエキサイティングな潜在的なユースケースを提供します。詳細情報についてabout what a data lake is(データレイクは何か)とwebcast about building a data lake in the cloud(クラウドでデータレイクを構築するウェブキャスト)をご覧ください。 しかし、その最初の段落の重要なキーワードはおそらく「潜在的」かもしれません。 なぜならデータの価値を実現するために、あなたがまず新しいデータを理解し、対話的に探索する必要があります。その上に仮説を形成し、検証することも必要です。 データレイクに対する対話式クエリとは 大規模の対話式のデータレイククエリは簡単ではありません。 この記事では、すべてのデータを完全に活用するために克服する必要があるいくつかの問題を見ていきます。そのため、Oracle acquired ...

Big Data Management

最近、オラクルアナリティクスが話題らしいけど、今更聞けない人のための説明書き

エンタープライズBIとセルフサービスBI Business Intelligenceの概念が誕生してから、早いもので20年の月日が経とうとしています。 当初は、Business ObjectsやBrio、Cognosなどのツールが台頭し、デスクトップ版から始まり利用者の増加...

エンタープライズBIとセルフサービスBI Business Intelligenceの概念が誕生してから、早いもので20年の月日が経とうとしています。 当初は、Business ObjectsやBrio、Cognosなどのツールが台頭し、デスクトップ版から始まり利用者の増加に対応するためWeb版へと進化してきました。 同時に性能やセキュリティなど様々な機能が拡充され、エンタープライズな領域でも利用できるツールとして発展してきました。 オラクルでもOracle Business Intelligence Enterprise Edition(BIEE)を提供し続けており、世界中で多くのお客様にご利用いただいています。 IT部門が、しっかりと管理をする「エンタープライズBI」の世界は、一定の成果を上げているものの、予め作成されたダッシュボードを確認し、ドリルダウンするといった 比較的、硬直的な利用が定着しました。それ以上の細かい作業を行う場合は、ダッシュボードからExcelにダウンロードして加...

Big Data Management

Big Data SQL - Semi-structured data

以前の投稿で、Schema on ReadとSchema on Writeの長所短所について触れました。結論として、HDFSはデータをオリジナルフォーマットで置いておくのに適していることが分かりました。時折、ユーザはXMLやJSONのような半構造...

以前の投稿で、Schema on ReadとSchema on Writeの長所短所について触れました。結論として、HDFSはデータをオリジナルフォーマットで置いておくのに適していることが分かりました。時折、ユーザはXMLやJSONのような半構造化データ(semi-structured data)を持ちます。今回は、それをどのように扱うかを紹介します。 半構造化データのユースケース HDFS上に半構造化データを格納する一般的なユースケースのひとつは、全てのオリジナルデータを格納し、そのうち部分的にリレーショナルデータベースに移動することです。これは日常的にはデータの一部が必要だが、その他の部分は極めて稀にアクセスされる(深い分析に必要になるかも知れない)ということかもしれません。例えば、以下のようなXMLフォーマットがあります。 ... ... ... ... ... 日常的には、リレーショナルデータベースで名前と年齢のみ必要: Name Age ---- ---- .......

Big Data Management

Big Data SQL - Schema on Read と Schema on Write

Schema on Read か Schema on Writeか データロードについて。データロード先となるシステムは、通常2種類のうちどちらかです。2つのうち片方はSchema on Writeです。Schema...

Schema on Read か Schema on Writeか データロードについて。データロード先となるシステムは、通常2種類のうちどちらかです。2つのうち片方はSchema on Writeです。Schema on Writeでは、データロード時に列やデータフォーマットなどを定義する必要があります。ETL(データを幾つかの特定のシステム向けに使いやすいように変換する)が終わると、とても高速にREADでき、システムのパフォーマンスも良好です。しかし、留意すべき点は、データローディング時に既にペナルティを払っているということです。Schema on Writeのシステムとしては、Oracle DatabaseやMySQLのようなリレーショナル・データベースが挙げられます。 もう一つのアプローチはSchema on Readです。この場合、データに変更や変換を何も加えずにロードします。ETL処理をスキップするので(データを変換しない)、データフォーマットや構造に頭をかかえることもありません。ファイルを、ただ、ファイルシステム上にロードするだ...

Big Data Management

Big Data SQL - Kerberos

Hadoopの世界では、Kerberosがクラスタを保護するデファクトスタンダードであり、Big Data SQLもKerberosをサポートします。 オラクル社では、Big...

Hadoopの世界では、Kerberosがクラスタを保護するデファクトスタンダードであり、Big Data SQLもKerberosをサポートします。 オラクル社では、Big Data SQLをKerberizedクラスタにインストールする方法をドキュメントで提示しています。今日はKerberosインストールのテストとデバッグの代表的な手順を示します。 まず、テスト環境について説明します。4つのノードがあります。中には、3つがHadoopクラスタのノード(vm0 [1-3])で、1つがデータベースのノード(vm04)です。 Kerberosチケットはkeytabファイルから起動されます。KeytabはHadoopの各ノートとデータベースのノード(RACの場合、各データベースノード)に存在する必要があります。 データベースノードに有効なKerberosチケットがあることを確認します。   [oracle@vm04 ~]$ id uid=500(oracle) gid=500(oinstall)...