Artículo escrito por Garcerán Rojas, socio y fundador de PQC.
Llevamos muchos años trabajando duro en este sector de los centros de procesos de datos, participando en proyectos de mayor o menor envergadura y adoptando distintos roles en función de las necesidades de cada cliente, lo que nos ha dado una perspectiva del estado del arte de los CPDs; pero, quizá, la actividad que mejor nos está ofreciendo una exacta visión de la realidad existente sea el análisis de los problemas de toda índole que están afectando a estos entornos de misión crítica.
De los casi 300 asessment, 24 estudios directos (y otros 15 indirectos) de siniestros y más de 50 estudios específicos realizados en los últimos años, se desprende una primera y categórica conclusión: una gran mayoría de los problemas analizados tiene como origen las actividades de operación y mantenimiento del centro, es decir, existe una relación directa entre la correcta operación y la disponibilidad de lo que constituye el corazón del negocio.
Al plantear esta consideración, no debemos restar importancia a los procesos de diseño, construcción y puesta en marcha, sobre todo cuando disponemos de un amplísimo historial de casos donde las bondades en esa parte del proceso brillan por su ausencia, y cuyos detalles desarrollaremos en otra ocasión. Pero los hechos son los constatados y como tales tenemos que reflejarlos.
Dada la necesidad de disponibilidad continua en el funcionamiento de un data center, para indicarlo de una forma intuitiva se han empleado habitualmente los términos “365 x 7” y, en mayor medida, “24 x 7”, aunque el que mejor define la realidad del sector sea el utilizado actualmente de “24 forever”. Por tanto, el planteamiento de la operación debe tener ese objetivo como estrategia general de la propiedad, abordándolo, además, como una inversión, dimensionándolo como tal y dándole una proporción en función de su influencia en el negocio, tanto a corto como a medio y largo plazo.
A la hora de afrontar la operación y el mantenimiento, tres son los papeles protagonistas de la película. El del usuario, relacionado directamente con la propiedad del negocio y con los recursos TI, el del mantenedor, a cargo habitualmente de empresas externas, aunque también desempeñado en ocasiones con recursos propios del usuario, y, por último, el de los elementos principales de la infraestructura a cargo de los fabricantes o sus representantes (Grupos, UPSs, Chillers, etcétera).
La integración del equipo humano
Para obtener un buen resultado hay que repartir correctamente los diferentes roles, pero, en cualquier caso, la premisa inicial que debe presidir cualquier actividad en este campo es la de la completa integración de los equipos humanos que componen el reparto ya citado. Del sincronismo existente entre ellos dependerá notablemente el éxito de todos. De hecho, uno de los males que han afectado durante muchos años al sector de los data centers ha sido el total desencuentro entre los responsables de área TI y los encargados de la parte de infraestructuras electromecánicas que les dan soporte. Parecía como si fuesen de empresas distintas y, lo que es peor, de la más encarnizada competencia. Por ello, desde hace ya unos años, en todos los foros de nivel se está efectuando una recomendación muy clara en el sentido de disponer una cabeza única sobre ambas disciplinas que permita una unificación de criterios y una correcta ponderación de los recursos y de la importancia da cada parte.
Volviendo a los actores principales, por la parte de la propiedad, es decir, del usuario final, las funciones son diversas y de capital importancia. La planificación de recursos propios, incluso financieros, y necesidades a medio largo plazo, la correcta estimación sobre la evolución del negocio y su repercusión sobre las necesidades de infraestructura, el lanzamiento en tiempo de las órdenes de incorporación de nuevos equipos y elementos complementarios, el control general y visión permanente sobre todo el proceso, que permita, entre otras cosas, valorar las actividades del resto de participantes y, como compendio de todo lo anterior, la toma de decisiones, atinada y en tiempo, al final de la cadena de comunicación.
Por lo que respecta al mantenedor, su primera garantía de éxito debe basarse en una dotación de recursos humanos que permita afrontar bien los objetivos de continuidad. Si bien es cierto que existen data centers que no se encuentran atendidos las 24 horas, no es a ellos a los que nos referimos en estas líneas.
Para llevar a cabo las tareas de mantenimiento, bien sea con recursos propios o con la contratación de un especialista externo, deben desarrollarse también funciones de alta incidencia sobre la continuidad del negocio. Entre ellas, destacar la realización de las tareas habituales de correctivo, los procedimientos de preventivo y los correspondientes a las situaciones que requieren una actuación en emergencia, el análisis de cargas, su evolución y límites de las redundancias, la definición y buen uso de la cadena de reportes y a quién corresponde la toma de decisiones y cuáles son sus límites de actuación, los registros de incidencias, el análisis de fallos, las tendencias observadas y las lecciones aprendidas.
Ciclo del fallo
De la ausencia de estos últimos conceptos se deriva siempre una de las mayores amenazas que estamos observando en los centros de datos, y que hemos dado en llamar el “ciclo del fallo”. Estimada su incidencia en unos plazos que oscilan entre los 8 y los 12 años, este ciclo muestra bien a las claras que lo sucedido en el pasado, muchas veces no sirve de escarmiento y, en caso contrario, lo hace por un periodo relativamente corto, normalmente hasta que se olvida la gravedad de lo acontecido o desaparecen de la escena los que tomaron buena nota de las enseñanzas derivadas y que estuvieron involucrados en el mismo, cuyos sucesores en la organización o no han sabido o no han querido aprender.
El tercer actor (el fabricante), pero no por ello menos importante, tiene la función de mantener los equipos que, por su complejidad o especificidad de su nivel técnico, no son atendidos por el equipo habitual que abarca la totalidad de la instalación. Los proveedores de equipamiento tienen una notable influencia, tanto en el día a día como en el devenir de la instalación. Su conocimiento del centro debe ir más allá del propio de su producto, para situarse en un plano donde conozca perfectamente las características del centro en cuestión, probablemente únicas, y donde las medidas de seguridad a emplear pueden no tener que ver en absoluto con las correspondientes a otro centro donde exista el mismo modelo de componente individual a mantener.
El fabricante deberá ofrecer una respuesta profesional que cumpla los plazos planificados y que sea capaz de responder de forma inmediata ante sucesos cuya importancia así lo requiera. Por su parte, y a mayor plazo del que habitualmente nos manejamos, su papel en la determinación de la vida útil de cada componente es de alto valor para realizar las planificaciones a largo plazo.
Además de todo lo anterior, existe una serie de conceptos que son genéricos y que, por tanto, son de aplicación a cada uno de los participantes del proceso.
Por un lado la formación e información, entendiendo la primera como un proceso continuo al que hay que prestar la mayor atención y medios, y la segunda como algo que trasciende del alcance propio de cada disciplina y toma auténtico valor en cuanto se erige en un puente entre ellas.
También la eficiencia energética hemos de considerarla como parte importante de cada fase de actuación. Desde el usuario en su elección de equipamiento y uso de los recursos TI, hasta el fabricante que puede incorporar equipos en modos de máximo rendimiento, pasando por un mantenedor que tiene la llave maestra de este asunto al disponer de los datos en tiempo real y de la posibilidad de actuar sobre ajustes y modos de funcionamiento optimizados.
Y, por último, otro aspecto transversal para todos los implicados en la operación del data center es el correspondiente a los ensayos que pueden realizarse sobre la instalación. Existen muchos entornos de estas características donde nunca se han probado, ni siquiera en origen, las diferentes combinaciones posibles de los elementos de infraestructura y, en buena parte de los que sí se probaron en origen, nunca más se autorizó.
Una instalación permanece en el mismo modo de funcionamiento durante la mayor parte de su vida, manteniendo su topología de diseño en las condiciones de funcionamiento preseleccionadas como modo habitual. Los ensayos tienen por objeto llevar a la instalación a situaciones que no se dan habitualmente y que, por tanto, representan una alteración en el sistema que no siempre ofrece los resultados esperados. En ciertos casos, el miedo escénico está relacionado con órdenes estrictas de no efectuar ese tipo de actuaciones.
Sin embargo, si esperamos a verificar el comportamiento de los sistemas de seguridad al momento en el que resultan verdaderamente necesarios, sin disponer del recurso original, estaremos poniéndonos a los pies de los caballos. Un ejemplo típico, y muy claro, de ello lo tenemos en los grupos electrógenos, último colchón de seguridad del sistema de alimentación y responsable de un alto porcentaje de caídas completas de data centers. Esperar a probar si funciona en condiciones reales de carga al momento donde se ha perdido suministro exterior, no deja de ser una cierta forma de suicidio.
En próximas oportunidades iremos desgranando cada una de las disciplinas intervinientes en la completa operación de un centro de datos, pero lo que es necesario resaltar desde ya es el hecho de que se trata de coordinar un montón de distintas actividades realizadas por diferentes actores, todas ellas encaminadas a un objetivo común como es el de conseguir el mejor nivel de resiliencia posible, entendiendo por tal la capacidad de la instalación para mantener durante toda su vida útil las mismas condiciones de funcionamiento que se diseñaron y construyeron para ella.
Y si, una vez desarrollado todo el proceso, además se desea obtener un testimonio de terceros sobre la excelencia del mismo, también en el asunto de la operación existen certificaciones de prestigio que avalan los buenos procedimientos. Haber participado directamente en la obtención de la primera certificación Tier IV Gold fuera de Norteamérica nos permite disponer de una visión muy clara sobre lo que estamos hablando y la posibilidad de aplicar esos conocimientos a todo tipo de entornos críticos.
En definitiva, y como todo el mundo sabe, si Fernando Alonso no dispone de coche competitivo, es muy difícil que gane una carrera, pero no andará lejos. Sin embargo, dale una buena máquina y verás rápidamente unos resultados que demostrarán lo importante que resulta la operación un entorno de misión crítica.