X

News, tips, partners, and perspectives for the Oracle Solaris operating system

osgc2008 上的针对 Grid Engine 的 HA

Guest Author

上周,我在加利福尼亚州奥克兰举行的href="http://www.opensourcegridcluster.org/">开放源代码网格群集大会上介绍了 Open HA
Cluster
。此次大会有三个不同的专题,专门介绍了 Globus (GlobusWorld)、Grid Engine(Grid Engine 研讨会)和 Rocks(Rocks Cluster 研讨会)。我在 Grid Engine
研讨会上介绍了如何使用 Open HA Cluster (OHAC) 使 Sun Grid Engine 具备高可用性。

我注意到,本次大会上对群集 (Cluster) 这个术语的使用有些过度,很多不同的产品和技术都在以略微不同的方式使用它。因此,我首先阐明了术语
“高可用性群集”(HA Cluster) 是指 OHAC 向群集领域提供的一项技术,即使在出现故障的情况下该技术也可提供高可用性。通过快速举手表决发现,大约 25% 的参
与者对“高可用性群集”的概念有一个大致的了解,大约 15% 的参与者实际上对 OHAC 本身有一定的了解。鉴于此,我的讲座着重介绍了单点故障、冗余、故障转移以
及 OHAC 如何从系统故障中恢复等概念。在讲座接近尾声时,我还介绍了如何使用 OHAC 使 Sun Grid Engine 具备高可用性,以及基于 OHAC 的高可用性解决方案的主要优点。这
些要点和幻灯片由 Thorsten Frueauf 提供。此博客文章中指出了有关 OHAC 如何有助于提高 Sun
Grid Engine 可用性的要点。

听众针对我的讲座提出了一些问题,我记得其中的一个问题是有关 OHAC 在将 HA ipaddress 从一个节点故障转移到另一个节点时如何处理 MAC 地址的问题
。我解释说,OHAC 使用无故 ARP (Gratuitous ARP) 更新网络上任何路由器的 ARP 高速缓存,而
且除了极少数例外情况以外,该方法均适用。另一个问题是关于磁盘/镜像故障期间的数据恢复,以及最终应用程序是否需要考虑数据恢复的问题,我解释说,此类恢复操作通常由
卷管理器执行,而最终应用程序实际上对它一无所知。OHAC 框架确保在最终应用程序启动的时间和位置(在应用程序所在的节点上),该应用程序具有可用数据。另一个问题是关
于故障转移的速度(各种故障的恢复速度)。我将该问题转化为该技术所具有的一项优势来加以解答,借以介绍了 OHAC 如何与 Solaris 紧密集成在一起,从而可以很快检测到故
障并快速从故障恢复。接着,第二天在此次大会的 "Grill the Gurus"(考问专家)环节,我邀请观众在我的膝上型电脑上观看故障转移演示。

我对观众群也有一些好奇,不知道他们多数是来自学术群体还是来自商业群体。通过快速举手表决发现,商业用户占有相当比例,人数与学术/研究方面的用
户几乎相同。讲座结束后,我在咖啡/午餐时间与几个用户交谈,并遇到了很多不同的用户。以下是我记得的一些用户:一位欧洲石油公司的系统管理员(想要使用 Grid Engine
来优化/最小化他用来进行地质数据分析的商业软件的应用程序许可)、总部设在旧金山的一家刚刚起步的医学软件公司的 IT 经理(要将开放源代码软件作为一种方式来最大限度
地降低成本)、一家 IT 咨询公司的部署设计师(对地理数据复制以及对传入作业进行基于内容的路由比较感兴趣)、常春藤大学的一位实验室管理员(想要为他的学生找出一种
简单的方法以便有效地管理其计算实验室环境)、来自一家存储制造商的 IT 管理员(想要了解能够有效监视工作负荷的技术)。

对于第二天的演示,我在膝上型电脑上将 Sun Grid Engine 配置为一个跨两个区域 (zone) 的 HA 服务器。我成功演示了 Grid Engine qmaster 和调度程序
守护进程的快速重新启动。人们似乎很有兴趣了解它是如何发生的,于是我介绍了进程如何使用 Solaris Contracts 监视 OHAC 中的实现,从而快速检测应用程序故障并从故障恢
复。大多数人只希望谈论一下群集本身的一般概念并讨论他们自己的“网格与群集”方案。

如果您对我在讲座中使用的实际幻灯片感兴趣,单击此处可查看它们。如果您错过了本次大会,则还有机会在即将召开的 LinuxTag 大会(地点
:德国柏林,时间:2008 年 5 月 28 日至 31 日)上了解有关 Open HA Cluster 和 OpenSolaris 的更多信息。

顶部图形是在此次大会的咖啡时间拍摄的。单击此链接可查看我在此次大会上拍摄的其他照
片。此外,Deirdré Straughan 为我的讲座制作了视频,并为演示幻灯片添加了很棒的淡进和淡出效果。请单击下面的嵌入窗口观看演示 Flash。

如果愿意的话,可以观看 iPod 格式的视频,在您的视频 iPod 上观看它
。但请注意,该文件非常大。

本次大会对我而言是一个很好的机会,因为我可以向大量用户介绍并使他们了解 Open HA Cluster,此外还可以了解其他开放源代码社区(如网格社区)的进展。希望您在本篇博客中能找到一些有用并且感兴趣的知识。





此致,Ashutosh Tripathi Solaris Cluster 工程部

Be the first to comment

Comments ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.Captcha