X

Big Data、Data Integration、Data Lakeに関するテクノロジー、製品・サービス情報、セミナー情報などをお届けします

Big Data SQL

Big Data Management

Big Data SQL - Semi-structured data

以前の投稿で、Schema on ReadとSchema on Writeの長所短所について触れました。結論として、HDFSはデータをオリジナルフォーマットで置いておくのに適していることが分かりました。時折、ユーザはXMLやJSONのような半構造...

以前の投稿で、Schema on ReadとSchema on Writeの長所短所について触れました。結論として、HDFSはデータをオリジナルフォーマットで置いておくのに適していることが分かりました。時折、ユーザはXMLやJSONのような半構造化データ(semi-structured data)を持ちます。今回は、それをどのように扱うかを紹介します。 半構造化データのユースケース HDFS上に半構造化データを格納する一般的なユースケースのひとつは、全てのオリジナルデータを格納し、そのうち部分的にリレーショナルデータベースに移動することです。これは日常的にはデータの一部が必要だが、その他の部分は極めて稀にアクセスされる(深い分析に必要になるかも知れない)ということかもしれません。例えば、以下のようなXMLフォーマットがあります。 ... ... ... ... ... 日常的には、リレーショナルデータベースで名前と年齢のみ必要: Name Age ---- ---- .......

Big Data Management

Big Data SQL - Schema on Read と Schema on Write

Schema on Read か Schema on Writeか データロードについて。データロード先となるシステムは、通常2種類のうちどちらかです。2つのうち片方はSchema on Writeです。Schema...

Schema on Read か Schema on Writeか データロードについて。データロード先となるシステムは、通常2種類のうちどちらかです。2つのうち片方はSchema on Writeです。Schema on Writeでは、データロード時に列やデータフォーマットなどを定義する必要があります。ETL(データを幾つかの特定のシステム向けに使いやすいように変換する)が終わると、とても高速にREADでき、システムのパフォーマンスも良好です。しかし、留意すべき点は、データローディング時に既にペナルティを払っているということです。Schema on Writeのシステムとしては、Oracle DatabaseやMySQLのようなリレーショナル・データベースが挙げられます。 もう一つのアプローチはSchema on Readです。この場合、データに変更や変換を何も加えずにロードします。ETL処理をスキップするので(データを変換しない)、データフォーマットや構造に頭をかかえることもありません。ファイルを、ただ、ファイルシステム上にロードするだ...

Big Data Management

Big Data SQL - Kerberos

Hadoopの世界では、Kerberosがクラスタを保護するデファクトスタンダードであり、Big Data SQLもKerberosをサポートします。 オラクル社では、Big...

Hadoopの世界では、Kerberosがクラスタを保護するデファクトスタンダードであり、Big Data SQLもKerberosをサポートします。 オラクル社では、Big Data SQLをKerberizedクラスタにインストールする方法をドキュメントで提示しています。今日はKerberosインストールのテストとデバッグの代表的な手順を示します。 まず、テスト環境について説明します。4つのノードがあります。中には、3つがHadoopクラスタのノード(vm0 [1-3])で、1つがデータベースのノード(vm04)です。 Kerberosチケットはkeytabファイルから起動されます。KeytabはHadoopの各ノートとデータベースのノード(RACの場合、各データベースノード)に存在する必要があります。 データベースノードに有効なKerberosチケットがあることを確認します。   [oracle@vm04 ~]$ id uid=500(oracle) gid=500(oinstall)...

Big Data Management

Big Data SQL - マルチユーザー認証

Big Data SQLのメリットの1つは、セキュリティです。Oracle Databaseを利用して、HDFSやその他のソースに格...

Big Data SQLのメリットの1つは、セキュリティです。Oracle Databaseを利用して、HDFSやその他のソースに格納されたデータを処理します。そのため、Data Redaction、VPD、Database Vaultなどの多くのデータベース機能を適用できます。これらの機能は、データベース・スキーマと権限を組み合わせて、侵入者がデータベース側からデータにアクセスしようとする場合、データを保護します。 しかし、HDFSに格納されたデータは、他の目的(Spark、Solr、Impala…)で使用される場合もあり、他のメカニズムで保護する必要もあります。Hadoopの世界では、Kerberosがデータ保護の最も一般的な認証方法です。KerberosとHDFS ACLを組み合わせて、ファイルシステムレベルでデータを保護できます。ファイルシステムとしてのHDFSは、ユーザーとグループの概念を持ち、所有者、グループ、その他のユーザーにそれぞれの権限を付与できます。   結論:Kerberizedクラスタを使用する場合、Big...

Big Data Management

Big Data SQL - Partition Pruning

パーティションはデータウェアハウスやあらゆる種類のデータベースで共通のテクニックです。読者の皆さんはパーティションとは何か?ということはよくご存知だと思うので割愛します。必要に応じてOracle RDBMSの例を参照下さい。...

パーティションはデータウェアハウスやあらゆる種類のデータベースで共通のテクニックです。読者の皆さんはパーティションとは何か?ということはよくご存知だと思うので割愛します。必要に応じてOracle RDBMSの例を参照下さい。 Hiveパーティション Hiveは元々HDFS上にMapReduceでWriteするための簡単な方法として開発されました。HDFSはファイルシステムで、Linuxライクな構造を持ちます。従って、パーティションと見なすのはとても簡単で、サブディレクトリにするだけです。ここで2つの表を挙げます。大きなファクト表:STORE_SALESと、小さなディメンジョン表:DATE_DIMです。それらは以下の関係を持ちます。   ファクト表(STORE_SALES)は明確な時刻識別子は持たないが、ディメンジョン(dictionary)との関係性がありDATA_DIM表で明確にデータ定義されています (d_domは日、d_moyは月、d_yearは年)。ではパーティション化されたSTORE_SALES表を作成しましょう。 SQL>...

Big Data Management

Big Data SQL 3.2.1 が公開されました

お知らせです。Oracle Big Data SQL 3.2.1が公開されました。このリリースでは、Oracle Database 12.2.0.1をサポートしています。主要な点は: 現在Big Data SQL 3.2 をご利用中のお客様はこのUpdateを適用する必要はありません。このUpdateはOracle...

お知らせです。Oracle Big Data SQL 3.2.1が公開されました。このリリースでは、Oracle Database 12.2.0.1をサポートしています。主要な点は: 現在Big Data SQL 3.2 をご利用中のお客様はこのUpdateを適用する必要はありません。このUpdateはOracle Database 12.2.0.1をサポートするためのものです。 Big Data SQL 3.2.1はOracle Database 12.1.0.2とOracle Database 12.2.0.1の両方で使用可能です。 Oracle Database 12.2.0.1での使用には、April Release Update と、BDS3.2.1のためのone-off patchが必要です。 ソフトウェアはARUから入手できます。Big Data SQL 3.2.1のインストーラーはまもなくOracle Software Delivery Cloud(旧称 eDelivery)から入手できます。 Big Data SQL 3.2.1...