Incluso los sistemas de almacenamiento más estables y fiables requieren de cierto grado de mantenimiento. Muchos podrían creer que las actualizaciones de firmware y software, y el reemplazo de componentes de almacenamiento defectuosos no pueden evitarse. ¿En serio? La realidad muestra que no tiene por qué ser así y aquí compartimos un ejemplo de sistema de almacenamiento que ha estado funcionando durante cuatro años sin necesidad de mantenimiento o tiempo de inactividad imprevisto.
Toshiba instaló en 2017 un sistema de almacenamiento ZFS que respalda las necesidades de infraestructura de almacenamiento del “Laboratorio de Experiencia Tecnológica” para los centros de datos globales de NTT. Desde entonces, el sistema de almacenamiento ha demostrado una excelente fiabilidad: con la excepción de 10 minutos de tiempo de inactividad programado para instalar algunas funciones ZFS adicionales, el sistema ha funcionado de manera constante y sin fallos en ninguno de los 60 HDD, SSD, controladores, fuentes de alimentación, ventiladores, etc. cables u otros componentes.
El sistema de almacenamiento ha demostrado una excelente fiabilidad: con la excepción de 10 minutos de tiempo de inactividad programado
El Technology Experience Lab proporciona a los administradores de centros de datos y sus equipos el espacio y la infraestructura para explorar enfoques innovadores en el diseño de sus servidores y almacenamiento. Permite a las empresas evaluar en un entorno de bajo riesgo la eficacia de las nubes privadas o híbridas, las arquitecturas distribuidas y enfoques alternativos para brindar servicios TI. Su comunidad de usuarios brinda además apoyo e ideas a través de reuniones, campamentos de entrenamiento, seminarios web y hackatones.
En total se requerían 102 TB de almacenamiento neto, lo que significaba 240 TB de almacenamiento bruto, utilizando el software JovianDSS basado en ZFS del partner de Toshiba, Open-E. Este software ha demostrado ofrecer alta disponibilidad, sin un solo punto de fallo y alta flexibilidad, proporcionando snapshots consistentes y una restauración instantánea cuando es necesario. El hardware para soportarlo debía también ser fiable y de alto rendimiento para aprovechar todas las ventajas del software, admitiendo varios destinos de almacenamiento iSCSI en bloque, con tamaños que van de 10 TB a 40 TB, además de algunas carpetas de archivos compartidas.
La fase de planificación fue clave en el éxito a largo plazo de la implementación final. Toshiba a menudo realiza investigaciones sobre la implementación de servidores en sus laboratorios y, como resultado, mantiene una relación estrecha con una amplia gama de proveedores de componentes y software, junto a un profundo conocimiento de lo que funciona bien. Aprovechando este conocimiento, el equipo recomendó una arquitectura de hardware que funcionaba con Open-E JovianDSS y que había demostrado su eficacia en otros proyectos.
La fase de planificación fue clave en el éxito a largo plazo de la implementación final
Para formar los 102 TB de almacenamiento neto, el equipo seleccionó las unidades de disco duro de capacidad empresarial SAS de 3,5” y 4 TB de Toshiba (MG04SCA40EA). Con un MTTF (tiempo medio hasta el fallo) de 1,400,000 horas y una tasa de error no recuperable de solo 10 errores por cada 1016 bits leídos, estas unidades eran ideales para lograr la fiabilidad requerida. El rendimiento tampoco se ignoró. Las unidades de 7.200 rpm lograron una calificación de rendimiento de lectura de Zpool de 12,9 x disco único y 8,5 x disco único para escritura. Para los registros de escritura de ZFS y las cachés de alcance se seleccionaron 10 SSD empresariales DWPD SAS con 1,6 TB de capacidad de almacenamiento de KIOXIA (antes Toshiba Memory).
Un factor importante en los fallos de las unidades de disco duro es el calor, por lo que el chasis de la caja de la unidad de disco duro fue revisado al detalle antes de la elección. El equipo seleccionó el expansor dual J4060-01 de AIC, con 12 GB/s y 60 bahías de carga superior del JBOD. Una fuente de alimentación de 1400 W 1+1 redundante de intercambio en caliente 80+ Platinum garantizó la eficiencia eléctrica al tiempo que cumplía los requisitos de fiabilidad. El JBOD también cuenta con cuatro ventiladores de 80 x 38 mm intercambiables en caliente. Las pruebas del sistema mostraron que la diferencia de temperatura de transmisión más fría y cálida era de solo 4°C, lo que confirma la selección del JBOD correcto. La conectividad al JBOD la proporcionaba el adaptador RAID ASR-8885 Adaptec® de Microchip con 8 puertos internos y 8 externos, que se ejecutan en modo HBA. Este modelo destacó como una de las mejores opciones en 2017.
Finalmente, el servidor de almacenamiento y la ubicación del JBOD en el Technology Experience Lab, localizado en el Campus Frankfurt 1 de NTT Global Data Centers, fue la última pieza de la estrategia de fiabilidad. Sus 60.000 m2 de espacio ofrecen una conectividad de red excepcional y su potencia se deriva de dos redes de suministro de energía europeas independientes que llegan directamente al servidor y al alojamiento del disco. La seguridad física está garantizada, mientras que la fiabilidad del almacenamiento la respalda su sistema de enfriamiento altamente eficiente.
Hasta ahora el sistema ha funcionado sin fallos durante cuatro años y el plan es continuar ejecutándolo para explorar más su fiabilidad
Hasta ahora el sistema ha funcionado sin fallos durante cuatro años y el plan es continuar ejecutándolo para explorar más su fiabilidad, incluso cuando la garantía del proveedor para la mayoría de los componentes de hardware de nivel empresarial finaliza en un año. En base a la experiencia de campo con los discos duros empresariales de Toshiba, el equipo confía en que el almacenamiento ofrezca muchos más años de funcionalidad sin fallos.
Durante el curso de su operación y para satisfacción de todos los involucrados, la solución de almacenamiento ha manejado una multitud de actividades de prueba de concepto en el Technology Experience Lab. Así y de acuerdo con el responsable de desarrollo de negocio de NTT Global Data Centers, Dominik Friedel, “el Laboratorio se beneficia enormemente de esta solución de almacenamiento y estamos realmente impresionados por su continua estabilidad. Instalado en nuestros centros de datos de alta disponibilidad, no puedo imaginar una forma más fiable de ejecutar el almacenamiento empresarial. Esperamos muchos años más de funcionamiento sin fallos”.
Tras revisar cómo se utiliza el almacenamiento, con incontables instantáneas y depuración, y los objetivos de bloque iSCSI conectados y desconectados, semana tras semana, el software también ha demostrado ser la opción óptima. Así lo celebra el CEO de Open-E GmbH, Krzysztof Franek. “estoy admirado de ver lo bien que funciona la instalación después de todos estos años, pero también estoy seguro de que esto no es todo lo que esta configuración puede hacer. El sistema basado en ZFS y Linux en combinación con hardware de primera clase garantiza un rendimiento y una fiabilidad excelentes, por lo que puede durar décadas. Y eso no es solo una suposición; Open-E ha estado desarrollando sistemas de almacenamiento de datos ZFS durante más de 20 años y tenemos instalaciones similares y tan duraderas como esta en uso en clientes de todo el mundo”.
La colaboración ha sido quizás lo más crítico para el éxito de este proyecto. La experiencia profunda en cada campo es esencial, pero no es suficiente de forma aislada. Únicamente reuniendo lo mejor que la tecnología tiene para ofrecer y explorando sus capacidades y opciones es posible cumplir satisfactoriamente con requisitos tan exigentes. Estamos muy orgullosos de contar con la red de partners de Open-E, KIOXIA, AIC, NTT y Microchip. Incluso si las unidades de disco duro Toshiba son increíblemente fiables, necesitan un sistema igualmente fiable construido con muchos componentes para brindar un valor real al usuario final.