X

Author Profile

Shigeyuki Tateyama

Recent Posts by Shigeyuki Tateyama

ADWからObject StoreのParquetファイルにアクセスしてみる

突然ですが、みなさんパルケってますか? Big Data界隈では、すっかりお馴染みのApache Parquetですが、実は最近OracleDBとも仲良しになってきました。今日は、Autonomous Data Warehouse (以下 ADW)の外部表としてObject Storeに置いてあるParquetファイルを参照する方法をご紹介したいと思います。 そもそも、Parquetとは何かという方向けに簡単に説明をしておきます。列志向で圧縮され、かつIndexも保持できるファイルフォーマットで、まるでデータベースのようなファイルです。列方向にデータを取り出すことができるため、大きなデータから少数の項目を取り出すBI的な用途に向いているため、データレイクに格納されたデータを加工し、分析用に渡す時のフォーマットとして非常に人気があります。 ところで余談ですが、これ日本語だと何て読むのでしょうか。(Apacheあるある) 日本のお客様やSIerの方は「パーケ」と呼んでいる方が多い気がします。弊社USのメンバーは「パーケッ」とか「パークィ」発音してい...

【Oracle Cloud Advent Calendar 2018連動企画】Oracle Analytics Cloudで機械学習コンペしてみた

早いもので今年も12月になってしまいました。 今回は、いつものブログと少し趣を変えまして、Oracle Cloud Advent Calendar 2018との連動企画として少し砕けた感じで執筆します。 さて、テーマですが、前回紹介したOracle Analytics Cloud(OAC)を使った機械学習にしようと思い、オラクルお馴染みのInsuranceデモを準備していたのですが、Cloudii様のブログでOACによるタイタニック生存予測の記事を見つけまして、勝手にコンペしてみよう企画にします。 題材は、同じkaggleのTitanic。目標精度は73%以上を目指します。 【Cloudii様の記事一部抜粋】   1.データの理解 さて、何はともあれまずは「データの理解」から始めたいと思います。 今回のデータセットは、タイタニック号に搭乗された方がどのような属性であったかを表しているデータになります。 PassengerId – 乗客識別ユニークID Survived – 生存フラグ(0=死亡、1=生存) Pclass – チケットクラス Name...

最近、オラクルアナリティクスが話題らしいけど、今更聞けない人のための説明書き

エンタープライズBIとセルフサービスBI Business Intelligenceの概念が誕生してから、早いもので20年の月日が経とうとしています。 当初は、Business ObjectsやBrio、Cognosなどのツールが台頭し、デスクトップ版から始まり利用者の増加に対応するためWeb版へと進化してきました。 同時に性能やセキュリティなど様々な機能が拡充され、エンタープライズな領域でも利用できるツールとして発展してきました。 オラクルでもOracle Business Intelligence Enterprise Edition(BIEE)を提供し続けており、世界中で多くのお客様にご利用いただいています。 IT部門が、しっかりと管理をする「エンタープライズBI」の世界は、一定の成果を上げているものの、予め作成されたダッシュボードを確認し、ドリルダウンするといった 比較的、硬直的な利用が定着しました。それ以上の細かい作業を行う場合は、ダッシュボードからExcelにダウンロードして加工することがほとんどです。しかしながら、データ分析の民主化...

データエクスチェンジのビジネス価値

“様々な種類のデータが活用可能な状態になると、その効果は想像を超える" Tim Berners-Lee in 2007.   10年前には、企業はこれほどまで多くのデータとそこから生まれる力を持っていませんでした。今後、さらに産業間におけるデータエクスチェンジ(共有)により、この流れは加速していくと考えられています。このインテリジェンスの共有は、一部の企業が顧客の理解を深め、顧客体験を改善し、新しい収益源の確保する機会をもたらします。 データエクスチェンジの事例 Telefonica(テレフォニカ) テレビの視聴者の属性とその行動を理解するためにビッグデータを活用しています。これにより、状況・時間帯・またはデバイス単位に最適化されたリコメンドを作成できます。テレフォニカの顧客に対する深い理解は、コンテンツ制作者にとって視聴者の好みを知る価値あるデータです。 これはテレフォニカが匿名化されたテレビ視聴に関するインテリジェンスを持ち、広告代理店やメディアプロデューサーとデータ共有できることを意味します。それは、よりよいコンテンツを提供することで、市場...

データから価値を創出する鍵:それはData Preparation(データの前処理)

アナリティクスプロジェクトの成功は、分析データの品質に依存します。一方で、データの価値が認められた現在のビジネス環境において、企業は膨大で多様なデータを収集しているが、種類も量も指数関数的に増加しており、それらを分析のために使いやすい形式に変換するコストは大きな課題のひとつです。 Data Preparation(前処理)の難しさ たとえば、分析の前には異なるデータセットを結合したり、粒度を整えるために集計したり、null値を補填したり、データの重複を排除したり、データの型を合わせたりと分析の8割は前処理と言われるようにプログラミング工数と処理のリソース両面で負荷がかかります。 これらのタスクは、通常IT部門のナレッジで対応できますが、昨今、分析プロジェクトのオーナーシップが業務部門にシフトしているため、より問題が顕著になっています。業務部門の中にもPythonやRなどを用いてデータの前処理を行える人材がいるケースがあるが、それをビッグデータに対してスケールさせる術に長けているとは限りません。その結果、処理依頼...

データレイクのソリューションパターン

 ビッグデータソリューション は、様々なレイヤーのテクノロジーで構成されており、今日ではより複雑な構成になってきています。 我々は、正しいアーキテクチャを選択するために、目的別にアーキテクチャを整理する必要があります。 ソリューションパターン (または、デザインパターンと呼ばれる) は、私たちがシステムの全体構成を理解する事に役立ちます。細かい木々には言及しませんが、システム全体を大きな森として俯瞰することができます。 この記事では、データレイクのいくつのかのソリューションパターンを紹介します。データレイクは、多くの用途を持ち、様々なビジネス上の課題に対するソリューションを提供する重要な役割を果たします。 ここで説明するソリューションパターンは、最も一般的なビッグデータのユースケースに対処するために、データレイクを他のテクノロジと組み合わせた例を示します。オラクルのPaaSクラウドサービスを使用して、クラウドベースのソリューションに焦点を当てます。 データレイク 4つのソリューションパターン: データサイエンスラボ データウェアハウスのETLオフロード ビッ...

オブジェクトストレージを使用したAutonomous Data Warehouse Cloudとビッグデータの統合

Oracle Autonomous Data Warehouseに格納されているデータを使用してビジネスを実行することは可能ですが、そこには他にも価値のあるデータが多数あります。 Oracle Big Data Cloudを使用すると、そのデータを格納および処理し、 Autonomous Data Warehouse Cloudにロードする前準備ができます。 これら2つのサービスの統合ポイントは、 オブジェクト・ストレージです。   データレイクとDWHの使用例 ほとんどすべてのビッグデータの使用事例には、 データレイクとDWHの両方をうまく使い分けています。 たとえば、 予測メンテナンスでは、データレイクに格納されているセンサーデータとDWHに格納されている保守および購入記録を組み合わせることが必要です。 また、Customer360として特定の顧客のためにソリューションを決定しようとするときは、顧客の購入記録(データウェアハウス内)と顧客のWebブラウジングまたはソーシャルメディアの行動履歴を組み合わせることでより良い洞察を得られます。 予測メンテナンスのた...

オブジェクトストレージ それはデータレイクの新しい選択肢

オンプレミスが第一の選択肢であった時代においてデータレイクにとってHadoopが支配的なポジションを占めていました。しかし、今日の急速に変化する技術の世界では、新しいアプローチが普及しつつあります。それはApache Spark クラスタとオブジェクトストレージの組み合わせによるものです。 この記事では、このアプローチの背景を掘り下げ、なぜクラウド時代における最適な選択肢であるのか解説していきます。 クラウド時代に求められるデータレイク 2000年代初頭に誕生したApache Hadoopは、ビッグデータ用の基盤として着実な成果を上げてきました。 特に、ここ5年は、機械学習ブームも相まり確固たるデファクトの地位を築いてきました。 様々なエコシステムが特徴のHadoopですが、主たる機能としては2つあります。 データ蓄積層である分散ファイルシステムのHDFSとデータ処理層である分散処理フレームワークのMapReduceです。データドリブンで成功を収める企業が増えてくるにつれ、一般企業でもデータ蓄積の機運が高まり、システムログ、クリックストリーム...

今注目のデータレイクとは何か?DWHと何が違うのか?

近年、データマネジメントに関して様々なキーワードが聞かれます。 データレイク, データウェアハウス(以下、DWH) – 本記事では、それらの位置づけを定義し、特徴や将来展望を整理します。 データレイクの定義 データレイクとは、構造化データや非構造化データを格納する場所であり、様々なデータソースから集められたデータを管理し、活用のための前処理を行える環境。 Hadoopやオブジェクトストレージ+Sparkで構成されることが多い。 詳しくはこちらの動画を参照 DWHの定義 データウェアハウスは、予め定義されたKPIなどの指標をモニタリング/分析するために、社内外の様々なデータソースからデータを収集し、検索のための最適化が行われた環境。 主にDWHのための機能を有したデータベースで構成される。   その他、関連キーワード エンタープライズデータウェアハウス (EDW): 企業全体向けサービスを提供するデータウェアハウス。 データマート: 個々の部門によって利用されユーザが現在必要としているデータをより最適化された形で利用。 データスワンプ: 失敗したデータレイ...