OPINIÓN

La IA generativa pone en evidencia las limitaciones de la infraestructura de centros de datos



Dirección copiada

Con su intensivo consumo energético, las GPU que impulsan las plataformas de IA requieren 5 a 10 veces más electricidad que las Unidades Centrales de Procesamiento (Central Processing Units o CPU), debido al mayor número de transistores que contienen. Este hecho ya está afectando a los centros de datos

Publicado el 4 feb 2025



La IA generativa pone en evidencia las limitaciones de la infraestructura de centros de datos
La IA generativa pone en evidencia las limitaciones de la infraestructura de centros de datos

Según la Agencia Internacional de la Energía, los centros de datos consumen actualmente casi un 2% de la electricidad mundial y esta cifra va a continuar creciendo debido al uso de la IA generativa, que requiere un hardware con mayor consumo. Según un estudio reciente, el aumento de los niveles de energía necesarios para alimentarla se está duplicando cada 100 días y también se está produciendo un aumento de la densidad informática necesaria.

En vista de esta situación, también existe una demanda creciente de nuevas maneras de lidiar con el calor que producen las Unidades de Procesamiento Gráfico (Graphics Processing Units o GPU) en las que se basa la revolución de la IA generativa.

Según estimaciones de Goldman Sachs, cada consulta de ChatGPT requiere casi 10 veces más energía que una búsqueda en Google. Esto está aumentando las demandas energéticas de todos los centros de datos y requiriendo nuevas ideas en torno al empleo de la energía, específicamente en la manera de refrigerar los centros de datos. La refrigeración tradicional por aire ya no resulta suficiente y, en una era en la que todos los líderes empresariales tienen en mente la sostenibilidad, el hecho de que la refrigeración líquida sea capaz de reducir el consumo energético hasta un 40% hace que esta sea una manera sencilla de reducir las emisiones de carbono.

Hambre de energía

Con su intensivo consumo energético, las GPU que impulsan las plataformas de IA requieren 5 a 10 veces más electricidad que las Unidades Centrales de Procesamiento (Central Processing Units o CPU), debido al mayor número de transistores que contienen. Este hecho ya está afectando a los centros de datos. También existen nuevas y asequibles metodologías de diseño que incorporan características como el apilamiento de silicio en 3D, que permiten a los fabricantes de GPU acumular más componentes en un espacio menor. Una vez más, esto aumenta la densidad energética, lo cual conlleva que los centros de datos requieran más energía y generen más calor.

Otra tendencia que está teniendo lugar es un declive constante en la TCase (Case Temperature o temperatura de carcasa o encapsulado) de los últimos microchips. La TCase es la temperatura máxima segura para la superficie de un chip, como los de las GPU. Este parámetro representa el límite establecido por el fabricante para garantizar que el chip pueda funcionar de manera correcta y sin recalentarse ni requerir throttling (escalado o limitación), lo cual impactaría en su rendimiento. En los chips más nuevos, la TCase ha descendido desde 90-100 grados centígrados hasta 70-80 grados, e incluso menos en algunos casos. Este factor también está impulsando la demanda de nuevas formas de refrigerar las GPU.

Como resultado de ambas dinámicas, la refrigeración por aire ya no resulta adecuada para las aplicaciones de IA. Ya no se trata únicamente de la energía de los componentes, sino también de la densidad de esos componentes en los centros de datos. A menos que se multiplique por tres el tamaño de los servidores, se requerirá un sistema eficiente de eliminación de calor. Esto implica un manejo especial y la refrigeración líquida será un elemento esencial a la hora de facilitar el despliegue de IA a gran escala.

Popularidad creciente

La refrigeración líquida está creciendo en popularidad. Las instituciones de investigación públicas fueron algunos de sus primeros usuarios, puesto que habitualmente solicitan lo mejor y más nuevo en cuanto a tecnología de centros de datos para impulsar aplicaciones de IA e informática de alto rendimiento (high performance computing o HPC). Al mismo tiempo, esas mismas instituciones tienden a albergar menos temores en torno al riesgo de adoptar nuevas tecnologías que los clientes empresariales, que tienen que asegurarse de que cualquier tecnología que desplieguen proporcionará un retorno inmediato de la inversión. Por eso estamos viendo cada vez más instituciones financieras, habitualmente conservadoras debido a los requisitos regulatorios, adoptar esta tecnología, junto al sector de la automoción.

Este último es un gran usuario de sistemas HPC para el desarrollo de nuevos vehículos, y los proveedores de servicios en centros de datos de co-ubicación. La IA generativa tiene unos ingentes requisitos energéticos que la mayoría de empresas no pueden mantener en sus propias instalaciones, por lo que deben recurrir a centros de datos de co-ubicación. Al desplegar la tecnología de refrigeración líquida sus operaciones resultan mucho más eficientes.

La diferencia de la refrigeración líquida

En Lenovo tenemos más de una década de experiencia en refrigeración líquida y nuestro sistema Neptune emplea agua pura mediante tomas a temperatura ambiente, para que los clientes no tengan que invertir en enfriadores. La refrigeración líquida ofrece resultados tanto en los servidores individuales como a escala de centros de datos. Al pasar de servidores con ventiladores a servidores con refrigeración líquida, las empresas pueden beneficiarse de reducciones significativas en su consumo eléctrico. Pero esto tan solo contempla el nivel de los dispositivos, mientras que la refrigeración de perímetro, es decir eliminar el calor de los centros de datos en su conjunto, requiere más energía para poder refrigerarlos y eliminar el calor. Esto puede significar que tan solo dos tercios de la energía consumida por un centro de datos se emplee en tareas informáticas; la función para la que han sido diseñados. El resto se emplea para mantenerlos a la temperatura óptima de funcionamiento.

En el caso de centros de datos optimizados por líquido, algunos alcanzan valores PUE de 1,1 y hasta 1,04, lo cual quiere decir que consumen una cantidad muy pequeña de electricidad marginal. Y este cálculo ni siquiera tiene en cuenta la oportunidad de emplear el líquido o agua caliente que sale de los racks y reutilizar ese calor para algún propósito práctico, como calentar el edificio en invierno.

La densidad también resulta muy importante. La refrigeración líquida nos permite acumular gran cantidad de equipamiento informático en el espacio de un rack. Gracias a la refrigeración líquida, podemos poblar estos racks y utilizar menos espacio en los centros de datos, ocupando menos espacio en las instalaciones, lo cual va a ser cada vez más importante para la IA.

Artículos relacionados

Artículo 1 de 5