X

News, tips, partners, and perspectives for the Oracle Solaris operating system

Alta disponibilidad (HA) para Grid Engine en osgc2008

Guest Author
La semana pasada presenté Open HA Cluster en la Conferencia Open Source Grid Cluster que tuvo lugar en Oakland, California. En la conferencia, se abordaron tres campos distintos dedicados a Globus (GlobusWorld), Grid Engine (Taller sobre Grid Engine) y Rocks (Taller sobre Rocks Cluster). Mi presentación acerca de la alta disponibilidad de Sun Grid Engine mediante el uso de Open HA Cluster (OHAC) formó parte del Taller sobre Grid Engine.
Observé que en esta conferencia se había realizado un uso excesivo del término Clúster con distintos productos y tecnologías y de distintos modos. De modo que comencé aclarando el término "Clúster de alta disponibilidad" para hacer referencia a la tecnología que OHAC aporta en este campo y que tiene que ver con la alta disponibilidad, a pesar de los posibles errores. Una rápida votación a mano alzada reveló que alrededor del 25% de los participantes conocían de forma general el concepto de "Clústeres de alta disponibilidad", y que un 15% conocía OHAC. De modo que dediqué gran parte de mi charla a hablar del concepto de puntos únicos de error, redundancia, conmutación por error y cómo OHAC se recupera frente a los errores del sistema. Al término de mi charla, hablé también sobre la utilización de OHAC para convertir a Sun Grid Engine en una opción de alta disponibilidad y cuáles son las ventajas principales de la solución HA basada en OHAC. Estos aspectos y diapositivas son cortesía de Thorsten Frueauf . Los aspectos principales sobre cómo OHAC ayuda a mejorar la disponibilidad de Sun Grid Engine se muestran en la entrada de este blog .
La presentación suscitó varias dudas entre el público; recuerdo una pregunta sobre cómo OHAC se encarga del cambio de direcciones MAC cuando se produce una conmutación por error en una dirección IP HA desde un nodo a otro. Expliqué que OHAC utiliza ARP gratuitos para actualizar la caché de ARP de los enrutadores de la red y que funciona con todos, excepto en algunos casos. Otra pregunta hacía referencia a la recuperación de datos durante errores de disco/duplicación y si la aplicación final necesita preocuparse por ello; expliqué que normalmente esta recuperación se realiza mediante un administrador de volúmenes y la aplicación final lo omite completamente. La estructura OHAC garantiza que la aplicación final cuente con los datos en el momento y en el lugar (en el nodo donde se encuentra la aplicación) en que se inicie la aplicación. Otra pregunta tenía que ver con la velocidad de conmutación por error (lo rápido que es la recuperación cuando se producen varios errores). Di la vuelta a la pregunta y la convertí en una ventaja, ya que expliqué cómo OHAC se integra perfectamente en Solaris y puede detectar errores y recuperarse rápidamente. Invité a los asistentes a visualizar la demostración de conmutación por error en mi portátil al día siguiente, en la parte "Grill the Gurus" (Pregunta al gurú) de la conferencia.
Tenía cierta curiosidad por la mezcla de público asistente y también si el porcentaje mayor procedía de la comunidad académica o comercial. Una rápida votación a mano alzada mostró que había una amplia representación de usuarios comerciales, aproximadamente el mismo número que los usuarios académicos o procedentes del ámbito de la investigación. Tras la charla, conversé con unos cuantos asistentes durante los descansos del café y almuerzo y conocí a diversas personas. A continuación, nombraré a algunas de las personas que recuerdo: Un administrador del sistema de una compañía petrolera europea interesado en utilizar Grid Engine para optimizar/minimizar licencias de la aplicación para un software comercial que utiliza para el análisis de datos geológicos, un administrador de TI para un inicio de software médico con base en San Francisco que estaba interesado en software de código abierto con el fin de minimizar costes, una arquitecto de implementaciones de una asesoría de TI que estaba interesado en la repetición de datos geográficos y enrutamiento basado en contenido de trabajos entrantes, un director de laboratorio de una universidad prestigiosa que deseaba descubrir un modo sencillo para que sus estudiantes fueran eficaces a la hora de administrar su entorno de laboratorio informático, y un administrador de TI para un fabricante de almacenamiento que estaba interesado en aprender técnicas para supervisar de forma eficaz cargas de trabajo.
Para la demostración del día siguiente, contaba con una aplicación Sun Grid Engine configurada como un servidor HA en dos zonas de mi portátil. Pude demostrar el reinicio rápido de qmaster Grid Engine y daemons del programador. Los asistentes parecían estar interesados en aprender cómo se desarrollaba el proceso, lo que me llevó a explicar cómo la implementación de supervisión de procesos en OHAC utilizan los Contratos de Solaris, lo que permite una detección y recuperación rápidas frente a errores en la aplicación. La mayoría de los asistentes estaban interesados en charlar sobre el concepto general de clústeres y debatir sobre sus propios casos de "Grid y Cluster".
Si está interesado en las diapositivas reales que utilicé en la charla, puede verlas aquí . Si se perdió esta conferencia, tendrá la oportunidad de obtener más información sobre Open HA Cluster y OpenSolaris en la próxima conferencia LinuxTag de Berlín, Alemania que tendrá lugar del 28 al 31 de mayo de 2008.
La imagen de la parte superior se tomó durante un descanso para tomar café en la conferencia. Compruebe este enlace para ver otras fotografías que realicé en la conferencia. Además, Deirdré Straughan grabó un vídeo de mi charla con entradas y salidas nítidas de las diapositivas de la presentación. Haga clic en la ventana incorporada que aparece a continuación para visualizar la presentación en flash.

Si lo desea, puede visualizar el vídeo en formato iPod y verlo en su iPod con vídeo . Recuerde que el archivo es bastante grande.
Esta conferencia me resultó una grata experiencia, ya que tuve la oportunidad de charlar con muchas personas e informarles sobre Open HA Cluster , y también descubrí lo que está sucediendo en otras comunidades Open Source como, por ejemplo, Grid. Espero que este blog le haya resultado útil e interesante.
Saludos, Ashutosh Tripathi, Departamento de ingeniería de Solaris Cluster

Be the first to comment

Comments ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.