lunes dic 28, 2009

La tecnología importa: la autocuración en Solaris10

<script type="text/freezescript"> </script> <script type="text/freezescript"> try { var pageTracker = _gat._getTracker("UA-4618459-4"); pageTracker._trackPageview(); } catch(err) {}</script>

El período de fiestas permite leer documentos que estaban en espera de ser leídos. Uno de ellos, titulado "DRAM Errors in the Wild: A Large-Scale Field Study " (libremente podría ser algo así como Estudio de Campo en Gran Escala sobre los Errores de las Memorias DRAM) arroja conclusiones sorprendentes. 

Realizado el trabajo de campo en la granja de decenas de miles de servidores de Google durante unos dos años y medio por Bianca Schroeder, de la universidad de Toronto, y por Eduardo Pinheiro y Wolf-Dietrich Weber, de la propia Google, concluye que:

  • El nivel de incidencia de errores es mucho mayor que el esperado en base a estudios previos no tan exhaustivos. Un tercio de los equipos y un 8% de las DIMMs sufrieron al menos un error corregible por año. Los errores incorregibles fueron 1,3% por máquina, 0,22% por DIMM. La distribución por DIMM es muy variable.
  • Los errores están muy correlacionados.  Una DIMM que padece un error corregible tiene de 13 a 228 veces más probabilidades de sufrir otro en el mismo mes que otra que no lo haya tenido. En un 70-80% de los casos un error insalvable está precedido por un error corregible en los dos meses anteriores. Y la presencia de un error corregible incrementa la probabilidad de un error incorregible en un factor de 9-400.
  • La incidencia de errores corregibles se incrementa con la edad de la memoria, mientras que la incidencia de los incorregibles decrece, debido al reemplazamiento.
  • No hay evidencia de que las nuevas memorias empeoren el comportamiento, a pesar de la mayor densidad
  • Las variaciones de temperaturas de hasta 20ºC registradas en el estudio sorprendentemente han mostrado un bajo impacto en los resultados, en contra de lo estudiado en laboratorio.
  • Los errores están fuertemente correlacionados con la utilización.
  • Los errores soft por corrupciones aleatorias de bits no son los predominantes, sino los hard, debidos a defectos físicos.

Sun Microsystems ha desarrollado una nueva arquitectura para construir y desplegar sistemas y servicios diseñada para la auto-curación. Esta tecnología permite a los sistemas de Sun maximizar la disponibilidad ante fallos hardware y software, facilitando la labor de los administradores y reduciendo el coste de propiedad de los sistemas. La primera implantación real está disponible en Solaris 10.

El primer grupo de tecnologías involucrado comprende componentes predictivos para la CPU, memoria y E/S. Ante una situación de error en vez de los tradicionales mensajes a los humanos para que actúen, se genera una telemetría gobernada por componentes software que analizan y diagnostican automáticamente el problema e inician las actuaciones pertinentes como pueden ser mensajes al administrador, aislamiento o desactivación del componente conflictivo y reparación guiada.

Por otro lado están las tecnologías implicadas en el Solaris Service Manager que consiguen que los servicios software participen de la arquitectura de auto-curación. El Solaris Service Manager ofrece un modelo consistente para servicios de operación continuada, de forma que los fallos hardware y software que les afecten los reinician automáticamente, junto con aquellos servicios colaterales que también deben de ser reiniciados para la restauración global del servicio.

Explicar en este blog el tema en detalle se escapa de mis objetivos y capacidades, pero creo que informes independientes como el citado al principio realzan el valor de tecnologías como la de auto-curación incluidas en Solaris 10. Por eso, la tecnología sí importa, como titulo la entrada. Los interesados pueden consultar el tema en esta dirección. Y un detallado documento técnico en este enlace.

Aprovecho para recomendar a la abundante base instalada de Solaris en sanidad, administración pública y educación la consideración de la actualización a Solaris 10, siendo el tema de la auto-curación una de las muchas ventajas que la justifican.

About

Mi punto de vista desde mi posición en Oracle.

Los puntos de vista de este blog son míos y no necesariamente reflejan los de Oracle.

Search

Categories
Archives
« abril 2014
lunmarmiéjueviesábdom
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
    
       
Hoy