Cómo el agua está sustituyendo al aire en los superordenadores de Lenovo

Por Andrey Sysoev, director de productos para HPC e IA para Lenovo Rusia

Hoy en día vemos una tendencia cada vez más marcada, que busca extraer el máximo rendimiento de cada una de las unidades de procesamiento que componen un centro de datos. Los usuarios quieren contar con más y más capacidad de almacenamiento local dentro de los nodos de sus centros de datos, y ver sistemas de transferencia de datos que combinan complejos enteros en clústeres a velocidades de hasta 200 Gbit/s ya no resulta sorprendente.

Las unidades centrales de procesamiento y aceleradoras gráficas emiten más y más calor con cada año que pasa. Al mismo tiempo, resulta demasiado arriesgado instalar productos diseñados con una disipación térmica de 240 W en servidores en formatos muy densos por las altas temperaturas que pueden llegar a alcanzar. Hoy día, dada la ineficiencia de la disipación térmica, la mayoría de los centros de datos utilizan menos de la mitad de su capacidad.

Hace un par de años, era habitual considerar que el límite máximo que podría refrigerarse mediante aire eran unos 600 W de disipación térmica por unidad rack. Sin embargo, hoy en día y utilizando las más modernas tecnologías, resulta posible crear sistemas compactos en formato 1U capaces de consumir hasta 1 kW. Teóricamente, mediante refrigeración por aire, sería posible disipar hasta 1,2 kW por unidad rack. No obstante, si la potencia y disipación térmica de las unidades de procesamiento continúa aumentando, pronto será necesario contar con sistemas de refrigeración capaces de disipar al menos 2 kW.

Dada la cada vez mayor densidad de los recursos informáticos, los centros de datos de gran escala de nueva generación se verán considerablemente limitados en términos de suministro eléctrico, refrigeración, espacio y costes de mantenimiento. Además, las normativas vigentes y futuras en materia de eficiencia energética y emisiones de CO2 traerán consigo unas repercusiones muy significativas en el sector.

Este año asistiremos al lanzamiento de procesadores con una capacidad de disipación térmica de hasta 300 o incluso 350 W, que requerirán ventiladores y radiadores enormes para su refrigeración. Para el año 2022, esperamos ver procesadores capaces de disipar hasta 500 W por zócalo. Estos nuevos procesadores requerirán el doble de capacidad de refrigeración que los componentes que usamos hoy en día. Técnicamente, esto se traduce en una velocidad cuatro veces superior en los ventiladores y ocho veces superior en volumen.

Y si uno de estos sistemas de refrigeración por aire fallase, el equipo podría verse sometido a unas temperaturas estratosféricas. Así, por ejemplo, en un sistema con cinco ventiladores, si uno falla, los otros cuatro deberán generar un 25% más de caudal para ofrecer la misma refrigeración. Esto se traduce en incrementar la velocidad de giro un 50%, lo que doblaría el volumen de aire.

Neptune reemplazará al aire

La refrigeración líquida funciona partiendo de un principio básico: conducir temperaturas altas de un objeto caliente a uno más frío. Mientras la temperatura del líquido refrigerante se mantenga por debajo de la temperatura de funcionamiento del servidor, el calor generado se disipará transmitiéndose al líquido. En comparación con el aire, el agua es capaz de transportar 4.000 veces más calor, lo que hace mucho más sencillo extraer el exceso térmico de los componentes de un servidor empleando agua. En un futuro, hasta podríamos utilizar esa agua para calefactar un edificio.

Todos los chips y módulos de los ordenadores actuales están diseñados para funcionar a temperaturas de hasta 80 ºC o incluso más. Debido a la amplitud del espectro de temperaturas de funcionamiento de estos componentes, de más de 50 ºC, un sistema de refrigeración líquida podría incluso establecer parámetros muy precisos que tuviesen en consideración las características específicas de cada nodo de procesamiento. Los radiadores de microcanales son capaces de absorber los excedentes térmicos directamente del procesador, módulos de memoria, discos duros o adaptadores de red.

Lenovo Neptune utiliza agua caliente a presiones relativamente bajas, lo que se traduce en un menor volumen de líquido circulando por el circuito de refrigeración. Estas innovaciones reducen la resistencia térmica y el consumo eléctrico totales del centro de datos. Al funcionar óptimamente a una mayor temperatura, no resulta necesario enfriar el líquido refrigerante empleando unidades especiales de enfriamiento, de gran consumo energético.

Mientras la temperatura exterior esté por debajo de la temperatura del agua, la refrigeración por aire del refrigerante sería más que suficiente. Además, este sistema permite reutilizar el calor generado para calefactar hogares, edificios de oficinas o piscinas próximos al centro de datos.

SuperMUC-NG: gran rendimiento y eficiencia energética para los descubrimientos científicos más importantes

El Centro Leibniz de Supercomputación (Leibniz-Rechenzentrum o LRZ) cuenta con uno de los centros de datos más importantes del mundo dentro del ámbito académico. El LRZ ofrece a la comunidad científica servicios y recursos de computación de alto rendimiento (HPC) líderes en su sector, haciendo posible con ello iniciativas de investigación de todo tipo, en campos que van desde la cosmología hasta la medicina.

La computación de alto rendimiento es la piedra angular de la ciencia moderna. Cada vez más investigadores recurren a simulaciones para sus labores de investigación.

Con el tiempo, la capacidad del clúster actual del LRZ empezó a resultar insuficiente, por lo que el centro firmó un contrato con Lenovo con el fin de diseñar y construir un nuevo sistema destinado a procesar y visualizar Big Data. El proyecto fue bautizado como SuperMUC-NG, (NG como acrónimo de Nueva Generación), y representa la tercera fase de la serie de superordenadores SuperMUC del centro.

Este clúster de innovación es cuatro veces más potente que su predecesor. SuperMUC-NG se compone de 6.480 procesadores de la familia Intel Xeon Scalable, con un total de 311.000 núcleos y un rendimiento máximo de 26,7 petaFLOPS. Este clúster cuenta con 700 TB de memoria RAM, 70 PB de capacidad de almacenamiento y más de 60 kilómetros de cables.

Como sus predecesores, SuperMUC-NG es un sistema extremadamente eficiente en términos de consumo eléctrico. La clave es la tecnología de alta densidad de los Lenovo ThinkSystem SD650, que son los nodos en los que se basa este clúster. Así, los nodos de procesamiento están equipados con un sistema de refrigeración líquida directa del nodo (Direct to Node), que emplea agua de entrada a temperaturas de hasta 50 ºC.

Gracias a la tecnología de refrigeración líquida Lenovo Neptune ™, SuperMUC-NG consume entre un 30 y un 40% menos energía que sistemas similares, y además utiliza el calor disipado del centro de datos para calefactar todos los edificios que componen el LRZ. Entre otras ventajas, el sistema de Lenovo ha permitido al LRZ reducir sus emisiones de CO2 en hasta un 85% lo que, en términos absolutos, equivale a eliminar 30 toneladas de emisiones anuales.

MareNostrum 4: cálculos óptimos en tiempo real

Cada año, más de 10.000 personas visitan la capilla de Torre Girona a las afueras de Barcelona para ver el MareNostrum 4, uno de los superordenadores más grandes y potentes del mundo. El clúster se compone de 3.456 nodos Lenovo ThinkSystem SD530 con procesadores Intel Xeon Platinum y cuenta con una capacidad de procesamiento de 11 petaFLOPS.

A pesar de ser diez veces más potente que su predecesor, MareNostrum 4 solo utiliza un 30% más de energía, con un consumo total de 1,3 MW anuales. Este clúster está reconocido como uno de los diez sistemas más potentes de Europa, según recoge el índice GREEN500 de los sistemas informáticos más eficientes del mundo.

La potencia y el consumo energético se han convertido en limitaciones fundamentales a la hora de desarrollar sistemas HPC.

El rendimiento y consumo energético de las aplicaciones paralelizadas depende de una serie de factores, entre los que se cuentan:

• Los parámetros de la arquitectura del ordenador;

• La configuración del nodo de procesamiento durante la ejecución del código;

• Las características del software empleado;

• Los datos introducidos.

La selección de los parámetros óptimos es una tarea muy compleja que, generalmente, se realiza de forma manual. Este es un proceso laborioso de selección de recursos y de asignación de capacidades, que se realiza al poner en marcha el superordenador. Con el tiempo, los parámetros óptimos de funcionamiento pueden cambiar, y del mismo modo pueden variar de un nodo del clúster a otro.

Energy Aware Runtime (EAR) es una solución desarrollada conjuntamente entre Lenovo y el Barcelona Supercomputer Center. Esta solución permite al equipo seleccionar el modo de funcionamiento óptimo de forma automática, partiendo del análisis de la experiencia obtenida con un conjunto concreto de datos.

EAR, que forma parte de las tecnologías de Lenovo Neptune, permite escoger modos automatizados de selección de frecuencias dinámicas para los procesadores en función de diversos factores. A continuación, la solución realiza una proyección del rendimiento y consumo eléctrico del superordenador partiendo de estos parámetros. El último paso es configurar los umbrales necesarios para las frecuencias de los procesadores en función de políticas de usuario o del sistema. Por ejemplo, el sistema cuenta con un modo de ahorro energético mediante la reducción de su frecuencia y, del mismo modo, puede aumentar las frecuencias para copar con caídas en el rendimiento.

Cómo el agua está sustituyendo al aire en los superordenadores de Lenovo

Andrey Sysoev

Artículos relacionados

Código Rss

Código Rss