Artículo escrito por Isidro Ramos, socio director AEON Ingeniería.
Actualmente, entendemos por Operación y Mantenimiento de Centros de Datos los procesos asociados a las llamadas facilities, no a la operación y mantenimiento de la infraestructura de las TIC; de hecho, no empezaremos a hablar de verdadera madurez del sector hasta que esta diferenciación deje de producirse. Esta línea se difuminará completamente en los próximos años porque no será posible obtener dichas disponibilidades ni, sobre todo, las eficiencias deseadas sin que ambos mundos se entiendan y se conviertan en uno solo.
Una operación y un mantenimiento (O&M) bien hechos no debe valorarse por no haber tenido un cero –o parada– en los últimos años. En todo caso, el no haber entrado en parada, sería la consecuencia de una buena operación y mantenimiento.
El binomio O&M debe basarse en una metodología y comportamiento adecuados. La primera se refiere a la gestión y al procedimiento de los recursos y procesos implicados, y debería componerse de los siguientes elementos:
a) Recursos humanos específicos. La gestión de los recursos humanos es fundamental para un correcto O&M. Hablamos de procesos de selección, formación, promoción, retención y sustitución. Así mismo, tienen que ser definidos los procesos de asignación de responsabilidades y los procesos de comunicación.
b) Infraestructura y sus riesgos. Es importante la gestión de la adquisición de la infraestructura y el mantenimiento de la misma, lo que implica la gestión de los activos, la gestión de los proveedores. Pero en el caso concreto de las infraestructuras de misión crítica, debemos también gestionar de manera especial los puntos únicos de fallo. En este sentido, solo hay unos pocos centros de datos Tier IV, los demás (casi todos), deben de convivir con estos elementos sin redundancia que exigen una gestión específica. En este punto, conviene hacer una referencia al diseño, dado que lo que vamos a diseñar va a tener puntos únicos de fallo, al menos que los mismos tengan un periodo de recuperación corto, o lo que es lo mismo: gestionemos los riesgos.
c) Gestión de cambios. Si hay algo que caracteriza al CPD es el cambio. Ya contamos con el dinamismo del mundo de las TI, pero es que las infraestructuras asociadas han tenido que evolucionar a ritmos parecidos o lo que es peor, de manera brusca y acelerada. Cada cambio en el data center implica una modificación en la operación y por lo tanto, una variación en la documentación y en los procesos.
d) Gestión de incidencias. Su caso es similar al anterior, es harto difícil encontrar la documentación sistematizada de las mismas.
e) Gestión del conocimiento. En línea con lo anterior, hablar de “lecciones aprendidas” cuando no hay documentación sobre la que reflexionar, es difícil.
Deseo o realidad
El panorama expuesto anteriormente dista mucho de ser el que nos encontramos en el día a día de los centros de datos. Además, de cumplirse o no, la metodología anterior, habría que añadir el condicionante del tiempo.
Si pasamos a analizar el procedimiento tradicional para abordar la ejecución del binomio O&M, observamos que los contratos anuales que se firman no nos permiten aplicar la metodología por escasez de tiempo, lo que obliga –la mayoría de las veces– a renovar el acuerdo con el mantenedor del centro de datos, por ser el único que conoce la instalación.
Una definición, planificación y documentación como la que hemos descrito solo es posible de dos maneras:
Opción 1: Mediante un contrato a largo plazo, bien con el proveedor de servicios o bien con personal propio, que garantice un proyecto de trabajo a largo plazo, permitiendo así amortizar y rentabilizar el tiempo necesario para elaborar todos estos procedimientos y protocolos.
Opción 2: Contratar a una empresa especializada –una ingeniería especializada en data centers y con experiencia en operación– para la elaboración y definición de la operación y los procesos. Y, posteriormente, realizar la contratación de la ejecución de este plan al proveedor de servicios (o bien realizarla con personal propio, según los casos).
Esta última fórmula presenta grandes ventajas respecto a los modelos anteriores. En primer lugar, nos obliga a realizar un plan específico para la infraestructura concreta; por otro lado, nos permite delimitar el alcance de los servicios necesarios; en tercer término, permite la comparación de realizar los servicios con personal propio o subcontratado; finalmente, facilita la justa concurrencia de los proveedores de servicios.
Realmente el procedimiento no cambia en cuanto a lo que hemos hecho en las fases de diseño y construcción de un centro de datos. Hoy nadie se plantea la realización de un proyecto de CPD sin el asesoramiento de una ingeniería especializada, con más razón, debemos pensar en ello cuando se trata de la operación, que se prolonga durante todo el ciclo de vida de la infraestructura y es clave para la obtención de los objetivos de disponibilidad y eficiencia diseñados.
Aquí no vale un software
En los últimos años se habla del DCIM como la panacea para resolver los problemas de operación. Pero no nos equivoquemos: el DCIM es una herramienta que complementa y facilita muchos de estos procesos (ya adelantamos que no todos), pero la implantación de una herramienta de software no nos va a resolver la problemática que aquí exponemos.
Esto ha provocado grandes fracasos en muchos proyectos de implantación de DCIM y es que primero hay que definir lo que queremos hacer y luego buscar las herramientas que nos facilitan el trabajo. En nuestra opinión, habría muchos más casos exitosos si el procedimiento se hiciera al revés.
Certificación y formación
La certificación de la operación en sus distintas versiones se realiza habitualmente en centros de datos que han pasado por todos los procesos previos de certificación (diseño y construcción). Es por ello que, normalmente, el propietario de un CPD que no tenga interés en la certificación Tier (si es que hablamos del Uptime Institute), no se esté planteando certificar la operación.
En nuestra opinión esto es un error. Certificar la operación es una de las mejores prácticas que podemos abordar. Diría incluso que, aunque nos muestre y demuestre el mal estado del CPD, sería una buena práctica y nos permitiría tener una foto real del data center en el momento presente.
Lo dicho sobre la certificación de Operación (UTI) enfocada a la disponibilidad es aplicable a la certificación de eficiencia energética (CEEDA): en definitiva, buscamos un tercero que nos haga el commissioning sobre los requerimientos del proyecto, pero en este caso enfocado a la operación durante la vida útil de dicho proyecto.
Respecto a la Formación debemos señalar que, como no puede ser de otra manera, cualquiera de las certificaciones citadas hará especial hincapié en la formación del personal tanto formación reglada como inhouse.
Gestión del personal
La formación nos lleva a uno de los puntos más controvertidos de la operación que son los recursos humanos y su gestión. En las licitaciones y concursos de Operación es normal en las ofertas de los proveedores de servicios terminar valorando mínimamente a la fuerza de trabajo, lo cual es un grave error y entraña riesgos graves a largo plazo.
Puesto que “pedimos” contratos a más largo plazo, tenemos que pensar en la gestión de los recursos humanos también a largo plazo y ello implica no solo la formación, sino un verdadero plan de carrera que nos permita mantener y retener a este personal bien formado y prever que necesitarán nuevos retos y promoción con otros objetivos. La rotación, selección y formación son procesos que tenemos que garantizar para que no se interrumpa el servicio.
Indicadores de operación
En la operación que nos gustaría tener, los indicadores clásicos se sustituyen por indicadores que los explican: no hablamos de KPI (indicadores de rendimiento o desempeño), sino que hablamos de KBI (key behaviour indicator o indicadores de comportamiento).
Esto es así porque en la actualidad tenemos datos objetivos de los comportamientos que explican e impulsan el rendimiento y lo que es más importante, podemos medir las acciones que impulsan el desempeño actual (dirigido a hacer las cosas bien, organizar, estandarizar y mantener la calidad), las acciones necesarias para mejorarlo (cuando el objetivo es mejorar la eficacia, impulsar cambios o mejoras, creando visión y entusiasmo) y las acciones que obstaculizan el rendimiento (relacionado con situaciones de estrés, conductas negativas y bloqueos).
Por lo tanto, el tipo de comportamiento que necesitamos no siempre debe de ser el mismo y dependerá de la fase del data center, por lo que el KBI puede cambiar y hay que revisarlo.
En este sentido, debe de existir una transparencia de costes ante acciones correctivas que permitan tomar decisiones y es importante protocolizar cuando hay que escalar estas decisiones a otros niveles de la organización, para lo cual hay que conocer el impacto en la organización de una parada.
Conclusiones
Todas estas tendencias que hemos apuntado, no han sido implementadas y mucho menos de manera generalizada, pero las veremos en los próximos años.
Los principales motivos de no ser implementadas son los modelos de contratación, pero es verdad que la industria no se lo ha puesto fácil a los decisores dado que hay muy pocas empresas con capacidad para desarrollar la metodología que hemos explicado; y de esas pocas empresas que lo saben hacer, solo han empezado a hacerlo en contratos a largo plazo donde han podido rentabilizar esta metodología.
Por eso las ingenierías especializadas en centros de datos con experiencia en operación, que no sólo conocemos el equipamiento, sino que sabemos cómo hacerlo, conseguiremos que se generalicen estos modelos.