X

Big Data、Data Integration、Data Lakeに関するテクノロジー、製品・サービス情報、セミナー情報などをお届けします

Big Data SQL

Big Data SQL - Semi-structured data

以前の投稿で、Schema on ReadとSchema...

以前の投稿で、Schema on ReadとSchema on Writeの長所短所について触れました。結論として、HDFSはデータをオリジナルフォーマットで置いておくのに適していることが分かりました。時折、ユーザはXMLやJSONのような半構造化データ(semi-structured data)を持ちます。今回は、それをどのように扱うかを紹介します。 半構造化データのユースケース HDFS上に半構造化データを格納する一般的なユースケースのひとつは、全てのオリジナルデータを格納し、そのうち部分的にリレーショナルデータベースに移動することです。これは日常的にはデータの一部が必要だが、その他の部分は極めて稀にアクセスされる(深い分析に必要になるかも知れない)ということかもしれません。例えば、以下のようなXMLフォーマットがあります。 ... ... ... ... ... 日常的には、リレーショナルデータベースで名前と年齢のみ必要: Name Age ---- ---- .......

Big Data SQL - Partition Pruning

パーティションはデータウェアハウスやあらゆる種類のデータベースで共通のテクニックです。読者の皆さんはパーティションとは何か?ということはよくご存知だと思うので割愛します。必要に応じてOracle RDBMSの例を参照下さい。...

パーティションはデータウェアハウスやあらゆる種類のデータベースで共通のテクニックです。読者の皆さんはパーティションとは何か?ということはよくご存知だと思うので割愛します。必要に応じてOracle RDBMSの例を参照下さい。 Hiveパーティション Hiveは元々HDFS上にMapReduceでWriteするための簡単な方法として開発されました。HDFSはファイルシステムで、Linuxライクな構造を持ちます。従って、パーティションと見なすのはとても簡単で、サブディレクトリにするだけです。ここで2つの表を挙げます。大きなファクト表:STORE_SALESと、小さなディメンジョン表:DATE_DIMです。それらは以下の関係を持ちます。   ファクト表(STORE_SALES)は明確な時刻識別子は持たないが、ディメンジョン(dictionary)との関係性がありDATA_DIM表で明確にデータ定義されています (d_domは日、d_moyは月、d_yearは年)。ではパーティション化されたSTORE_SALES表を作成しましょう。 SQL>...

Big Data SQL 3.2.1 が公開されました

お知らせです。Oracle Big Data SQL 3.2.1が公開されました。このリリースでは、Oracle Database 12.2.0.1をサポートしています。主要な点は: 現在Big Data SQL 3.2 をご利用中のお客様はこのUpdateを適用する必要はありません。このUpdateはOracle...

お知らせです。Oracle Big Data SQL 3.2.1が公開されました。このリリースでは、Oracle Database 12.2.0.1をサポートしています。主要な点は: 現在Big Data SQL 3.2 をご利用中のお客様はこのUpdateを適用する必要はありません。このUpdateはOracle Database 12.2.0.1をサポートするためのものです。 Big Data SQL 3.2.1はOracle Database 12.1.0.2とOracle Database 12.2.0.1の両方で使用可能です。 Oracle Database 12.2.0.1での使用には、April Release Update と、BDS3.2.1のためのone-off patchが必要です。 ソフトウェアはARUから入手できます。Big Data SQL 3.2.1のインストーラーはまもなくOracle Software Delivery Cloud(旧称 eDelivery)から入手できます。 Big Data SQL 3.2.1...