無敵のHadoopマシン「Oracle Big Data Appliance」は何がどう凄いのか?

企業各社でビッグデータ活用への取り組みが進もうとする中、いわゆる非構造化データの大量処理を行う分散処理基盤としてHadoopの導入を検討する企業が増えている。ただし、Hadoopによるクラスタを構築するのは容易なことではなく、相応の手間とコストがかかる。そこで、「最も高性能なHadoop実行基盤を、最も安く」というコンセプトの下、オラクルが提供を開始したのが「Oracle Big Data Appliance」だ。2012年10月に都内で開催された「Oracle Days Tokyo 2012」における日本オラクル 下道高志氏(製品戦略統括本部 戦略製品ソリューション本部マスタープリンシパルエンジニア)の講演から、オラクルが提唱するビッグデータ導入ステップと、それを支えるOracle Big Data Applianceの位置づけ、そして同製品が企業にもたらす価値を紹介する。(沙倉芽生)

3つのV(Volume、Velocity、Variety)からビジネス価値(Value)を得る

日本オラクル 製品戦略統括本部 戦略製品ソリューション本部マスタープリンシパルエンジニアの下道高志氏
 コンピュータの処理能力の向上や処理コストの低下、社会インフラとしてのインターネットや各種コンピュータ端末の浸透に伴い、自社や消費者、あるいは各種コンピュータ機器が活動/動作する中で生じるデータをビジネスに有効活用しようという、いわゆるビッグデータへの取り組みの機運が高まっている。このビッグデータの特性としてよく語られるのが、次の“3つのV”だ。

  • Volume:膨大なデータ量
  • Velocity:データ活用の速度
  • Variety:データ構造の多様性

 もちろん、これら3つの観点も重要だが、「これらだけでビッグデータを語るのは早計だ」と下道氏は注意を喚起する。

 「確かにIT部門にとっては、3つのVといかに向き合うかが重要な課題になるが、オラクルが企業の皆様に何よりも訴えたいのは、3つのVからビジネス上の価値(Value)を得ること。価値が得られるからこそ、企業がビッグデータに取り組む意義があるのだ」(下道氏)

 すでに先進的な企業や組織はこの取り組みでこれまでにない成果を挙げており、今後、ビッグデータの利活用の成否がビジネスの明暗を分ける要因の1つになることは間違いなさそうだ。

Oracle Databaseをクラウドで使えるStorage Cloudも登場

 ともあれ、多くのIT部門にとっては今後、Volume、Velocity、Varietyという3つのVへの取り組みが大きなチャレンジとなるだろう。このチェレンジにおいて何よりも重要なのは、ビッグデータを効果的に扱うためのアーキテクチャを獲得することである。

 「ビッグデータを活用するためのIT基盤は、何らかの単体ハードウェアやパッケージ製品を買ってきて設置すれば整うといったものではない。自社の既存のシステム・アーキテクチャを拡張しながら、最適なデータ・アーキテクチャやエンタープライズ・アーキテクチャを継続的に作り上げていく取り組みが不可欠となる。まずは足下から着実にやっていくことが肝要だ」(下道氏)

 下道氏によれば、そのステップは次のようになる。

  • ステップ1:現時点のデータをより深く分析する
  • ステップ2:データの種類と量に応じたアーキテクチャを構築する
  • ステップ3:速いデータに応じたアーキテクチャを構築する
  • ステップ4:新しいパターンの情報を発見する

 この順序でアーキテクチャを拡張していくことがビジネス価値の増大につながると下道氏は力説する。

 オラクルは現在、これらのステップを前提に、ビッグデータを扱うための各種製品を拡充している。それらの製品をフルに活用し、「データを取得して体系化したうえで、そのデータを分析/可視化し、意思決定する」というサイクルを回すことにより、ビジネス上の価値を継続的に生み出していくことができる。


 オラクルの無二の強みは、このサイクルを回すうえで不可欠となる各種のツールをすべて取りそろえていることだ。それらのツールを使って各ステップで行う作業は、おおよそ次のようになる。

ステップ0:データ・ウェアハウス基盤の整備

 まず4つのステップの前段として、データ・ウェアハウス基盤を整備する。核となるのは、企業にとって最も重要な構造化データが格納された「Oracle Database」と、分析/可視化、意思決定を行うためのツールである「Oracle Business Intelligence Enterprise Edition」である。

ステップ1:現時点のデータをより深く分析する

 次に、自社が現在、保有しているデータを、より深く分析するための手立てを整える。

 「既存の構造化データを十分に活用する手段も持たないまま、いきなりビッグデータに取り組んでも大した成果は得られないし、むしろ無駄な投資に終わる恐れもある。データ活用の取り組みを、まずは構造化データから始めて経験とノウハウを蓄積することが成功のポイントだ」(下道氏)

 このステップで活用するのは、「Oracle Spatial and Graph」や「Oracle Advanced Analytics」など、高度なデータ分析を行うためのツール群である。

ステップ2:データの種類と量に応じたアーキテクチャを構築する

 続いて、自社が扱うデータの種類(Variety)や量(Volume)に応じたアーキテクチャを構築する。この段階で、Oracle Databaseに格納された高密度なデータに加えて、非構造化データなどの低密度なデータも扱う。そのために、Hadoopのような分散データ処理基盤を活用し、またHadoop上のデータをOracle Databaseに格納するための下ごしらえを行うツールも必要となる。

ステップ3:速いデータに応じたアーキテクチャを構築する

 このステップでは、高速に流れるデータ(ストリーミング・データ)を監視し、その内容に応じてリアルタイムに処理を実行するためのアーキテクチャを整備する。このステップでは、複合イベント処理(Complex Event Processing)と呼ばれるイベント駆動型処理を超高速に行うためのツールなどを活用する。

ステップ4:新しいパターンの情報を発見する

 最後のステップでは、ビジネス価値に直結する新たなパターンの情報を見つけ、それに基づいて意思決定を行う。ここで活用するのは、「Endeca Information Discovery」など新世代のBusiness Intelligence(BI)ツールだ。

 以上のステップを支えるシステム・プラットフォームとしてオラクルが提供しているのが、Hadoopを搭載し、非構造化データを収集する役割を担うOracle Big Data Applianceと、Oracle Big Data Applianceで収集したデータを構造化データとともに格納する「Oracle Exadata」、そしてデータの可視化/分析、意思決定を行う「Oracle Exalytics」である。

 一方、これらのシステム・プラットフォーム上で利用するソフトウェア群は下図のようになる。

 また、次に示すのは、オラクルのEnterprise Architecture(EA)本部が中心となって策定した、ビッグデータ処理のためのリファレンス・アーキテクチャだ。

 この図からもわかるように、オラクルが提唱するビッグデータ・アーキテクチャがほかと大きく異なる点は、「運用、管理、セキュリティやガバナンスなど、エンタープライズ・システムに不可欠なすべての要素を網羅し、ビッグデータを扱うためのアーキテクチャを広い視野で考え、さらにそれを具現化する製品群まで取りそろえていること」(下道氏)である。

企業がHadoopを活用するうえで直面する課題とは?

 ところで今日、ビッグデータはHadoopの利用と結び付けて語られるケースが多いが、下道氏は、「企業が自力でHadoopを活用しようとすれば、さまざまな課題に直面するはずだ」と指摘する。その1つは、Hadoopがオープンソースであることだ。

 「他のオープンソース・プロダクトと同様、すぐに安定性の問題やバッチ適用の問題に突き当たるだろう」(下道氏)

 Hadoopを稼働させるための多数のサーバ環境を自力で構築/運用したり、Hadoopを扱うために従来とは異なるシステム設計を行ったりといったことも高いハードルになる。自身も100ノード以上のHadoopクラスタ構築で苦労した経験を持つ下道氏は、次のように語る。

 「もし、旧来と同様のアプローチでHadoopによるシステムを構築したらどうなるか? まず、施設管理としてデータセンターで必要になる電源や空調を確保し、数百ノードのサーバを手配してラックに載せる。次に、すべてを接続して通電させ、ネットワークをつなぎ合わせる。ここで相性が合わずにつながらないといった事態も起きるだろう。さらに、ソフトウェアも最適に構成しなくてはならない。また、多くの企業では、さまざまな部署との間で導入に関する調整が何回も必要となる。こうした労力と時間をコストに換算したら、恐らく大変な額になるはずだ」

Oracle Big Data Applianceは最初から組み上がった状態で届くHadoopマシン

 こうした問題点を解消し、大規模なHadoopクラスタ環境の効率的な導入を可能にするのが、ソフトウェアとハードウェアを高いレベルで融合させたオラクルのEngineered Systemsの1つ、Oracle Big Data Applianceである。

 Oracle Big Data Applianceは、18ノードの「Sun Fire X4270 M2」サーバをベースにしている。同サーバは、プロセッサとして6コアのインテルXeon X5675(3.06 GHz)を2基搭載し、ディスクにはSASを採用。ノード間は40Gb/秒のInfiniBandで接続されている。

 「エンタープライズ・クラスの高性能サーバを使い、ノード間を高速なネットワークでつないだシステムが初めから組み上がっている。これは今までにないHPCのような世界だ」(下道氏)

※Oracle Days 2012開催後、Oracle Big Data Applianceのハードウェア仕様は更改されました。
上図にあるものが現在の最新仕様となります。


 一方、ソフトウェアとしては、OSに「Oracle Linux 5.6」、Java実行環境として「Java HotSpot VM」、企業向けのHadoopディストリビューションとして定評のある「Cloudera Distribution Including Apache Hadoop(CDH)」、Clouderaの管理ツールである「Cloudera Manager」、オープンソースのR言語「Open Source R Distribution」、NoSQLデータベース「Oracle NoSQL Database」、Oracle Big Data ApplianceとOracle Exadataの接続を担う「Oracle Big Data Connectors」を搭載している。これらは上述したハードウェア上で最高の性能が出るよう、事前に綿密なチューニングが施されている。


 なお、HadoopディストリビューションとしてCDHを採用したことについて下道氏は、重要な機能をスピーディに進化させていることや、大規模環境で実証済みであることを挙げる。クラウデラ社が管理およびテストを行っており、定期的にパッチが公開され、それが確実に動くことから、「CDHはエンタープライズでの利用を強く意識したディストリビューションだ」とも評価する。

 一方、データベースとして採用しているOracle NoSQL Databaseについては、「Berkeley DBを基に開発したキュー/バリュー型のデータベースで、データ・モデルの変更が容易な点が特徴。高い拡張性と可用性を備え、透過的な負荷分散が行える」と説明。ノード数に応じて大量の処理が可能であり、処理の規模を柔軟にスケールできるという。管理ツールやログ・ファイルが提供されていることも重要なポイントだ。

 続いて下道氏は、Oracle Big Data ApplianceとOracle Databaseの接続を担うOracle Big Data Connectorsを紹介。HadoopとRDBMSを連携させる際の懸念点の1つに、両者間でのデータの受け渡しに要する時間がある。

 「確かにHadoopによる分散バッチ処理スピードは速いが、そもそも一般に処理対象のデータはRDBMSに格納されており、それをいったんHadoopファイルシステムに読み込んで処理し、その結果を再びRDBMSに戻すという作業が発生する。このインポートとエクスポートの処理に多くの時間がかかるのだ」(下道氏)

 この問題を解消すべく、さまざまな接続ツールによってインポート/エクスポート処理を高速化するのがOracle Big Data Connectorsなのである。

自力で作るよりも早く、安く、最速のHadoop環境が手に入る

 このように、ビッグデータの処理に必要な機能をすべて備えたOracle Big Data Applianceは、高機能なゆえに高価だというイメージを持たれがちだ。しかし、下道氏は他社製の同等クラスのサーバ・マシンとCDHを使って自らシステムを構築した場合との試算価格を比較して見せ、「決して高価ではない」と説明する。

 「ハードウェアだけで比較すれば高価に見えるかもしれないが、そもそもHadoop(CDH)をはじめとするソフトウェアのインストールや設定、チューニングなどの価格が、Oracle Big Data Applianceの場合はすべて含まれている。これと同じ環境を自力で構築しようとすれば、それに要する手間はすべてコストとして跳ね返ってくる。この“見えないコスト”も含めて比較したら、Oracle Big Data Applianceほど安いシステムはない」(下道氏)

 「最も高性能な仕組みを、最も安く提供する」という信念の下に開発されたEngineered Systemsだからこそ、価格の面でも高い優位性を持つわけだ。

 性能に関しても、「例えば、自力で構築した20ノードのシステムと比較した場合、Oracle Big Data Applianceは6倍の性能を発揮する。Amazon Elastic Compute Cloudと比較しても2.5倍高速だ」(下道氏)という。最高の性能が出るようハードウェアとソフトウェアをチューニングし、内部コンポーネント間の接続にInfiniBandを利用しているからである。最後に下道氏は、「客観的に見て、ソフトウェアとハードウェアを絶妙なレベルで調整して組み上げたOracle Big Data Applianceは、現時点で無敵のHadoopマシンだ」と断言して講演を締めくくった。

Comments:

Post a Comment:
Comments are closed for this entry.
About

Twitter
Facebook

Search

Recent Posts
Archives
« 4月 2014
  
1
2
3
4
5
6
7
9
10
11
12
13
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
   
       
Today