この記事はPhilippe FierensによるMore than Just Redundant Hardware: Exadata MAA and HA Explained Part III, RoCE Fabric / Human Errorを日本語に翻訳したものです。

2025年02月12日


このシリーズのこれまでの記事では、Oracle Exadataのコンピュート・ノードとストレージ・サーバーにおける高可用性により、コンポーネント・レベルでの冗長性だけでなく、より高い耐障害性も実現できることを説明しました。


この記事では、Exadataが内部のRemote Direct Memory Access (RDMA) over Converged EthernetスイッチとHost Channel Adapters(HCA)にもたらす機能と人的エラーの回避にどのように役立つかについて説明します。


はじめに、RDMA over Converged Ethernet(RoCE)について簡単に説明しましたが、ここで簡単におさらいしておきましょう。
RoCEは、ExadataのRDMAネットワーク・ファブリックの最新世代です。RoCEは、イーサネット上でRDMAプロトコルを実行します。 Exadata X8Mより前のバージョンでは、内部ファブリックはInfiniBand(IB)上でRDMAプロトコルを実行していました。 RoCEのAPIインフラストラクチャは InfiniBandのものと同一であるため、既存のExadataパフォーマンス機能はすべてRoCEのメリットを引き続き享受できます。 さらに、RoCEはイーサネットの拡張性と帯域幅にRDMAの速度でさらに最適化された素晴らしい組み合わせを実現します。 RoCEプロトコルは、オープンな企業コンソーシアムであるInfiniBand Trade Association(IBTA)によって定義および保守されています。 これは、ほとんどの主要なネットワーク・カードおよびスイッチ・ベンダーでサポートするアップストリームLinuxで保守されているオープンソース標準です。


RDMAは、オペレーティング・システムやCPUを介さずに、1台のコンピュータから別のコンピュータのデータを直接アクセスできるようにし、高帯域幅と低レイテンシを実現します。ネットワーク・カードは、追加のコピーやバッファリングを必要とせず、メモリから直接読み書きし、低レイテンシを実現します。 RDMAはExadataの高性能アーキテクチャの重要な構成要素です。過去10年間にわたってチューニングと強化が施され、Exafusion Direct-to-Wire Protocolなど、複数のExadata独自のテクノロジーの基盤となっています。


各Exadataラックには少なくとも2つのRoCEスイッチが搭載されています。複数のExadataラックが相互接続されている場合、各ラックにスパインスイッチが1台ずつ追加されます。各コンピュート・ノードとストレージ・セルは、最大級の耐障害性を確保するため、RoCEスイッチに冗長接続されています。 以下に、障害発生時にExadataの耐障害性がビジネス継続性を確保するいくつかの例を説明します。


ポートが壊れたらどうなりますか?


コンピュート・ノードとストレージ・サーバーは冗長接続されており、アクティブ-アクティブ通信が可能となっています。RoCEスイッチに接続されたHCAは、フェイルオーバー機能を備えたアクティブ-アクティブ構成で接続されています。一方のポートで障害が発生した場合でも、もう一方のポートが自動的に処理を引き継ぎます。


すべて問題ないが、故障したコンポーネントの診断は容易です。問題のあるコンポーネントはどうだろうか?


Oracle Exadataは、シンボルエラーやポートのフラッピング検出を含む、あるネットワーク処理の不具合診断に豊富な機能を備えています。 Exadata System Software 24ai以降、Exadata Port Monitor(ExaPortMon)の導入によりこれらの機能はさらに強化されました。 この新しいプロセスは、すべてのExadataコンピュート・サーバーとストレージ・サーバー上で実行され、システムの正常な動作に不可欠なExadataのプライベートネットワークを継続的に監視します。


RoCEのリーフ・スイッチの設定ミスや障害により、ポートが停止状態になる可能性があります。つまり、ポートはオンライン状態に見えるものの、ネットワーク・トラフィックが流れていない状態です。ExaPortMonは停止したスイッチポートを自動的に検出し、データベースまたはストレージ・サーバー上の他のアクティブなRoCEポートに停止したポートのIPアドレスを移動させ、ネットワーク・トラフィックが流れるようにします。スイッチポートの問題が解決されると、IPアドレスは元のポートに戻されます。

 

ExaPortMon


ExaPortMonは、ネットワークトラフィックが流れているオンラインのRoCEスイッチポートを監視し、破損したネットワークパケットを送信する可能性のあるポート(または他の異常な動作を示すポート)を検出します。 この場合、ExaPortMonは問題のあるスイッチを特定し、データベースまたはストレージ・サーバー上でそのスイッチに関連するポートを無効化します。この継続的な監視と、障害シナリオの検出・回避の強化により、Exadataの全体的な可用性が向上します。


スイッチのメンテナンスについてはどうでしょうか?


スイッチは冗長化されており、ローリング・アップデートをサポートしているため、計画メンテナンス期間中のダウンタイムを回避できます。
Exadataはソフトウェアおよびハードウェアのあらゆる種類の障害から効果的に保護しますが、人的ミスについてはどうでしょうか?
Oracle Automatic Storage Management(ASM)の高冗長性は、プライマリと2つのミラーコピーが維持され、高可用性を実現します。

ASMメンテナンスイベント中、Exadataはストレージサーバーをオフラインになった場合に冗長性が損なわれる可能性があることをLEDインジケーターを使用して管理者にアラートを送信し、さらに耐障害性を強化します。この機能はASMのパートナーリングを認識しており、データセンターのサポート担当者が他のストレージ・サーバーをシャットダウンする際の潜在的な影響を容易に把握できるようにします。


これらのExadata固有のMAA機能に加え、CRSとRDBMSには、データベース、テーブル、またはトランザクションレベルでの変更を巻き戻す機能を提供するFlashbackなど、人的ミスに対する保護を強化する豊富な機能セットが用意されています。


結論


このブログ記事では、このシリーズのExadata MAAブログ記事(以前の投稿へのリンクは下記)のコンピュートとストレージの冗長性に関して補足し、この耐障害性がExadataを構成する統合ネットワーク・コンポーネントの中核部分でもあることを説明することを目的としています。 Oracle ExadataとMAAチームは、耐障害性をさらに向上させるために、Exadataソフトウェアとハードウェア・スタックの革新と改善を続けています。Exadataの耐障害性に関する章や、もちろん新しくリリースされたExadata X11Mについても、このシリーズの今後のブログ投稿にご期待ください。 このブログシリーズでは、Exadata MAAが単なる冗長コンポーネント以上のものであることを明らかにしました。MAAチームは、耐障害性をさらに向上させるために、Exadataのソフトウェアとハードウェア・スタックの革新と改善を続けています。

 

参考文献および詳細

 

Oracle Maximum Availability Architecture

RoCEの詳細情報

What’s new in Oracle Exadata Database Machine

 

このシリーズのブログ投稿

 

冗長ハードウェアだけではない : Exadata MAA および HA の説明 – はじめに

冗長ハードウェアだけではない Exadata MAAおよびHAの説明 パート1 : コンピュート・ノード

冗長ハードウェアだけではない Exadata MAAおよびHAの説明 パート2 : Exadata Storage cell

冗長ハードウェアだけではない Exadata MAAおよびHAの説明 パート3 : RoCE Fabric / Human Error