水曜日 4 15, 2009

Sun Cloud - Open Cloud Platfrom for Enterprise

 Sun Cloud とOpen Cloud Platform - ディベロッパ、そして企業のためのクラウド・コンピューティング

[summary] Sun's cloud strategy is for both developers and entperprise. To support them, Sun WILL provide products, technology, services and  experience. 

(Translate to English)

2月以降、私はSunの中での横断的なクラウド・アーキテクチャ・グループの一員として、様々な社内のエンジニアや、時にはお客様とディスカッションし、時には徹夜でマシンの中に埋もれながらテストと評価を繰り返してきました。

クラウドに対する世の中の期待と注目は、私の当初の想像をはるかに超えたものであり、毎日毎日が刺激的な日々となっています。

 報告が遅れましたが、3月18日には満を期して、"Sun Cloud"の発表をし、Sunが正式にpublic cloud を始める、との宣言をCommunity One Eastにて行いました。日本語ではプレスリリースがでていますので、是非、こちらをご覧下さい。

 さて、本日はNehalemことXeon 5500を搭載した新サーバを発表しました

インテル(R) Xeon(R) プロセッサー5500番台を搭載する新製品群を発表

このマシン、ただもんじゃないです。Hadoopのsample をいくつか動かしてみましたが、非常にいい値を出しました。詳細はこちらのページからご覧下さい。クラウドにも最適な一台ともいえるでしょう。

今後のクラウド・アーキテクチャでは、コア数、H/Wスレッド数、仮想ノード/物理ノード数、遅延、電力消費量、SSD、iSCSI・・・・技術を含む様々な要素の組み合わせの異なる特徴を持つクラウドが作られていくような気がします。決して”コモディティ・サーバ”で構築するのがクラウドではありません。

Project KenaiのAPIとか、Virtual Datacenter とか、 今後のロードマップとか、これから順にご紹介していくことにします。



月曜日 11 24, 2008

Hadoop with 38 nodes

38ノードでHadoop を評価

[summary] Prior to my hard work for CEC2008, I worked for Hadoop with bunch of nodes. This time, I configured 36 DataNodes + 2 NameNodes and succeeded benchmarking testing.

(Translate to English)

11月上旬に開催されたCEC2008の準備のために9・10月は非常に忙しかったのですが、そうした中、複数の顧客の要望で、HadoopをSunのサーバを使って評価することとなりました。

  • 最新の0.18.1を使用
  • 36 DataNode + 2 NameNode の計38台を最大として構成(仮想環境上のノードも含む)
  • テキスト・データを500MB 〜 数十GBまで順次に利用
  • LocalファイルがHDFSに分散される経過を6 〜36 DataNodeで検証
  • replication の数による動作の変化を検証
  • 耐障害性検証を目的とした、DataNode ならびにNameNodeを止めて処理継続性をテスト
  • Map/Reduce のスケーラビリティ検証

上記の中でも、多くの方が興味を持つのは、「Map/Reduce のスケーラビリティ」でしょう。これは6 〜36 DataNodeで順次検証しました。いろいろなDemoプログラムや自作のものを試してみましたが、結局、wordcountでスケーラビリティを検証することとなりました。「Solaris でMap/Reduceを38台で稼働させている」証拠のスクリーンショットが下図です。


このタイミングでは、Map が18%まで進行していますが、各ノード共処理が正常に行われていることがおわかりいただけると思います。ここではSolaris上での稼働状況を可視するためにperfbar(日本語紹介はこちら)を使っています。上の3列のグラフがDataNodeで、下2つがNameNodeです。DataNode上ではperfbar の緑色が示す通り、アプリケーションが「よくまわっている」状態です。もし赤が多いと、I/O等のシステム側のオーバヘッドが多いことになりますがそれもなく、非常に上手くいっているようです。

さて、DataNodeを6〜36と増やしていった時のパフォーマンスの変化をグラフにしたのが下図です。


上図を見るとほぼ 6 nodeから21 node まではリニアに伸びていっているのがわかります。しかしながら、それ以降は横ばいもしくは伸びが鈍化しています。これは以下の理由によると思われます。

  • 一部仮想環境があるために、ボトルネックが発生した
  • DataNodeの数に比べてデータの大きさが十分でないために、データをHDFS空間へコピーする際に的確な分散がされてなく、Mapプロセスによる処理が均質化されていない
前述したエントリでも書きましたように、Hadoop は小規模で動かすことはそれほど難しくありません。しかしながら、ある程度の規模を超えると、構成やチューニングポイント等、考えなければならない箇所が数多く出てきて、大規模な構成で構築するには、中規模構成での検証の経験等ある程度のknow-howは必須だと感じました。

火曜日 9 09, 2008

The Easiest Way : Experience of Hadoop

Hadoop を最も簡単に体験する方法

[summary] If you want to try Hadoop, one of the easiest way must be to use "Hadoop Live CD" which is a OpenSolaris Project. 

(Translate to English)


vaio

ここに、ごくふつーのSONY VAIO PCG-5D1N(法人向けモデル)があります。
OSはWindows XP。外出先でメール読んだり、Web見たり、軽いのでそれなりに使えます。でも、使い方はそれだけ??


他に有用な使い方は??


そうですね、OpenSolarisをインストールすることでしょう。でも、会社で使うPCに入れるには、勇気のいる必要も多いかもしれませんね。それに、何故??OpenSolaris???という疑問を持つ人もいるでしょう。



そうした中、謎のCDが!!このCDを使ってbootしてみることにします。



をををを!!OpenSolarisのCDでした!!このまま、bootを続けてみます。

キーボードの種類を選択するとしばらくして、Gnomeが立ち上がり、OpenSolarisライセンスのwindow があがります。これをcloseすると次に現れるのが・・

Hadoopのライセンス!!

Desktop上の左には、Hadoop Start なるアイコンが!!!これをクリックしてみます。




VAIOのファンがうなりをあげています。なんかいい予感が。7つ道具(?)が入ったUSBメモリを差し込んで、jpsコマンドで調べてみます。(注:default では最小限のツールしか入っていないので、jpsをはじめ幾つかのツールを予め準備しました)


 Hadoopが動いています!!zoneadm で調べてみると


つまり、Solaris 上で、3つのzoneでHadoopが動かそう、、というわけです。それでは実際にやってみることとします。

まず、Hadoopのファイルシステムがどうなっているかを見てみます。


ちゃんと動いていることが確認できました。次にローカルファイルを確認します。


このLICENSE.txtを、Hadoop ファイルシステムへコピーしてみます。


1行目:Hadoopファイルシステム上に /in_dir という名称���directoryを作成します。
2行目:ローカルファイルであるLICENSE.txt をHadoopファイルシステム上の /in_dir 下へコピーします。
3行目:コピーされたかどうかを確認します。ファイルは存在しています。

 次に、完全にコピーされたかどうか、ファイルを比較してみます。


diff で確認しても差分はありませんでした。

それでは、いよいよ、Hadoop MapReduce のサンプルプログラムを試してみます。ファイルのword数をカウントする、wordcount を動かしてみます。


/in_dir 下のファイルに含まれるwordの出現回数をカウントし、その結果を/out_dir下のファイルに書き出します。うまくいったようです。複数のタスクが稼働しているのが確認できますね。

注)実行するためにはある程度、メモリが必要です。Gnomeが重いこともあり、メモリが1GBのPCでは、動くかどうか微妙なところです。メモリ不足の場合、上記の処理の途中でフリーズしてしまうこともあります。その場合、OpenSolarisブート時にテキストモードで立ち上げれば大丈夫です。また、ここに到達する前に、Gnomeが立ち上がらずクラッシュする場合も、テキストモードならば、立ち上がる可能性もありますので、やってみてください。

それでは、どんな結果がでているかを確認してみます。


/out_dir ディレクトリ下にpart-00000 が作成されています。この中を調べてみます。word毎に出現回数がちゃんと記録されています。

いかがでしょうか。手元の1GB程度のPCでもちゃんとHadoopを体験することができました。Solarisのzoneならではです。 今回、使った謎のCDの作り方は、Open Solaris Projectのここのサイトを参考に作成してみてください。


About

Takashi Shitamichi(下道高志)

Chief Technologist
GSE Japan, Sun Microsystems

Spokes Person/Secretary@SIG-Japan,Liberty Alliance
Chair of Edu-committee, ISACA Tokyo
CISA,CISM
中小企業診断士

Search

Archives
« 4月 2014
  
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
   
       
今日