先週私は、カリフォルニア州オークランドで開催されたオープンソースグリッドクラスタカンファレンス (Open Source Grid Cluster Conference) で、Open HA Cluster に関するプレゼンテーションを行ってきました。このカンファレンスでは、Globus (GlobusWorld)、Grid Engine (Grid Engine ワークショップ)、Rocks (Rocks Cluster ワークショップ) のそれぞれに特化した 3 種類のコースが設けられました。
Open HA Cluster (OHAC) を使用した Sun Grid Engine の高可用化に関する私のプレゼンテーションは、Grid Engine ワークショップの一部として行いました。
私は、このカンファレンスでは、やや異なる方法でクラスタを使用する各種の製品および技術に対してクラスタという用語がいくらか乱用されていることに気付きました。そこで、OHAC によって高可用性という分野にもたらされる、障害をものともしない技術について言及するために、「HA クラスタ」という用語を明確にすることから始めました。その場で挙手を求めたところ、参加者のおよそ 25% は「HA クラスタ」の一般的な概念を知っていて、およそ 15% は実際に OHAC 自体を知っていることがわかりました。このことから、プレゼンテーションの大部分を、単一障害点、冗長性、フェイルオーバーの概念、および OHAC がシステム障害から回復する仕組みの説明に費やしました。さらに、プレゼンテーション終盤には、OHAC を使用した Sun Grid Engine の高可用化や、OHAC に基づく HA ソリューションの主な利点についても説明しました。これらのポイントおよびスライドの提供は、Thorsten Frueauf 氏の好意によるものです。OHAC による Sun Grid Engine の高可用化に関する要点は、このブログエントリに書かれています。
プレゼンテーションでは参加者からいくつかの質問を受けましたが、その中に、OHAC がノード間で HA IP アドレスをフェイルオーバーするときに MAC アドレスの変更がどのように処理されるのか、という質問がありました。これに対し、OHAC では Gratuitous ARP を使用してネットワーク上のルーターの ARP キャッシュを更新すること、その仕組みはごくまれな例外を除いて正常に機能することを説明しました。また、ディスク障害やミラー障害が発生したときのデータ回復、およびそれについてエンドアプリケーションで対処する必要はあるかという別の質問に対しては、そうした回復は通常ボリュームマネージャーによって実行され、エンドアプリケーションでの処理は不要であることを説明しました。OHAC フレームワークでは、エンドアプリケーションが起動される時間や場所 (エンドアプリケーションが存在するノード上の場所) に関係なく、必ずそのアプリケーションでデータが利用できるようになっています。もう 1 つの質問は、フェイルオーバーの速度、つまりさまざまな障害から回復する速さについてでした。私はこの質問を利用して、OHAC がいかに緊密に Solaris と統合されているか、またそれによって迅速な障害検出と障害回復が可能であることを説明しました。その後、参加者に対して、翌日のカンファレンスの「Grill the Gurus」コーナーで私のノートパソコンを使って行うフェイルオーバーのデモを見るよう呼びかけました。
私は聴衆の構成に少なからぬ関心があり、さらに、その大部分を占めるのが学界関係者なのかあるいは産業界からの参加者なのかを知りたいと思いました。ここでも挙手をお願いした結果、相当数の商用ユーザーがいることがわかりましたが、学術関係のユーザーも大体同じくらいの人数でした。プレゼンテーションのあとは、休憩時間や昼休みの間に数人に声をかけ、またさまざまな人に会いました。たとえば、次のような人たちがいたことを覚えています。ヨーロッパの石油会社に勤めるあるシステム管理者は、地質データ分析用に使用している商用ソフトウェアのアプリケーションライセンスを最適化/最小化するために、Grid Engine を使用することに興味を持っていました。サンフランシスコを拠点とした医療用ソフトウェアの立ち上げに携わる IT マネージャーは、コスト削減の手段としてオープンソースのソフトウェアに関心があると言い、ある IT コンサルタント会社の配備設計者は、地理データの複製や、依頼される仕事の内容別ルーティングに興味を示していました。アイビーリーグの大学からやって来た研究室長は、コンピュータ研究室の環境管理を効果的に行うため、学生たちにとって簡単な方法を探していました。また、ワークロードを効率的に監視する技術について知りたいという、ストレージメーカーの IT 管理者もいました。
翌日のデモのために、私は 2 つのゾーンにまたがる 1 つの HA サーバーとして Sun Grid Engine をノートパソコン上で構成しました。デモでは、Grid Engine qmaster およびスケジューラデーモンを非常に高速に再起動してみせることができました。参加者は、それがどのようにして起こるのか多少の興味を感じたようでした。そこで、アプリケーション障害を瞬時に検出および回復できる、OHAC のプロセス監視の実装によって、どのように Solaris Contracts が使用されるのかについて説明することにしました。大部分の人は、クラスタ自体の一般的概念についての会話や、各自のグリッドおよびクラスタに関するシナリオについての議論を純粋に楽しんでいました。
プレゼンテーションで私が実際に使用したスライドに興味をお持ちの場合は、ここで見ることができます。このカンファレンスに出席できなかった方は、2008 年 5 月 28 日から 31 日にかけてドイツのベルリンで開催され LinuxTag カンファレンスで、Open HA Cluster および OpenSolaris についてさらに詳しい説明を聞くチャンスがあります。
冒頭の写真は、カンファレンスの休憩時間に撮ったものです。カンファレンスで私が撮影したその他の写真は、このリンクに載せておきます。また、 Deirdré Straughan 氏がプレゼンテーションのビデオを作成してくれました。プレゼンテーションで使ったスライドがフェードインしたりフェードアウトしたりする、よくできた作品です。下に埋め込まれたウィンドウをクリックすると、プレゼンテーションを Flash で見ることができます。
Ashutosh Tripathi
Solaris Cluster エンジニアリング