Google Cloud presenta el mayor centro de Machine Learning del mundo

Cloud TPU v4 es uno de los centros de infraestructura de ML más rápidos, eficientes y sostenibles del mundo, que ayudará a desarrollar la próxima hornada de avances fundamentales en inteligencia artificial (IA).

Publicado el 13 May 2022

Google Cloud presenta el mayor centro de Machine Learning del mundo

Las avanzadas capacidades que tienen los productos de Google como el Buscador o YouTube son posibles gracias a las unidades de procesamiento de tensor (TPU), sus aceleradores del aprendizaje automático (ML). Estos aceleradores están a disposición de los clientes de Google Cloud en forma de TPU de Cloud. La demanda de capacidad, rendimiento y escala del aprendizaje automático está creciendo a un ritmo extraordinario. Google Cloud ha anunciado durante Google I/O 2022 la vista preliminar del clúster de aprendizaje automático de Google Cloud con pods de Cloud TPU v4: uno de los centros de infraestructura de ML más rápidos, eficientes y sostenibles del mundo, que ayudará a desarrollar la próxima hornada de avances fundamentales en inteligencia artificial (IA).

Este clúster de pods de Cloud TPU v4, dedicado al aprendizaje automático, hará posible que los investigadores y desarrolladores hagan avances revolucionarios en IA, ya que les permitirá entrenar modelos con un grado creciente de sofisticación y gestionar cargas de trabajo como las que exige el procesamiento del lenguaje natural (NLP) a gran escala, los sistemas de recomendación o los algoritmos de visión artificial. Con una capacidad punta agregada de 9 exaflops, la compañía considera que su clúster de pods de Cloud TPU v4 es el mayor centro de ML de acceso público del mundo en términos de potencia de cálculo acumulada. El 90% de su consumo se cubre con energías sin huella de carbono.

“Desde que anunciamos Cloud TPU v4 en el Google I/O 2021, hemos dado acceso a los pods de Cloud TPU v4 a varios equipos de primera línea en investigación sobre IA, como son los de Cohere, LG AI Research, Meta AI y Salesforce Research”, apunta Google en un comunicado. De acuerdo con la compañía, los investigadores se han mostrado satisfechos con las prestaciones y la escalabilidad que les ofrece TPU v4, con su rápida interconexión y su pila de software optimizada. También les ha gustado la posibilidad de configurar su propio entorno de desarrollo interactivo con nuestra nueva arquitectura de máquinas virtuales TPU y la flexibilidad para utilizar marcos de su elección, como JAX, PyTorch o TensorFlow.

Adicionalmente, TPU v4 ha propiciado avances en las actividades de investigación de Google en campos como la comprensión del lenguaje, la visión artificial, el reconocimiento del habla y muchos otros.

Avances en aprendizaje automático y sostenibilidad

El clúster de ML de Google Cloud es todavía más notable si pensamos que toda esta actividad investigadora se alimenta con energía esencialmente libre de carbono. Desde 2017 y dentro del compromiso con la sostenibilidad de Google, la compañía ha compensado el 100% del consumo anual de energía de sus centros de datos y regiones de la nube con compras de energías renovables. Su objetivo es que, para 2030, todas sus actividades consuman exclusivamente energía libre de carbono durante todas las horas del día y de la noche. El centro de datos de Google en Oklahoma, en donde se encuentra el clúster de ML, está a punto de alcanzar este objetivo, ya que actualmente opera con un 90% de energía libre de carbono cada hora, dentro de la misma red.

Además del suministro directo de energía limpia, el centro de datos tiene una calificación de eficiencia energética (PUE) de 1,10, lo que lo convierte en uno de los centros de datos con mejor calificación en esta categoría en todo el mundo. El propio chip TPU v4 tiene también una alta eficiencia energética, con una potencia en torno al triple de FLOPS por vatio de consumo máximo, en comparación con el TPU v3. En definitiva, Cloud TPU v4 aporta tres buenas prácticas esenciales que pueden ayudar a reducir significativamente el consumo de energía y las emisiones de carbono: equipos específicos de ML con alta eficiencia energética, un centro de datos altamente eficiente de por sí y un suministro de energía excepcionalmente limpia.

Extraordinario por su escala y por su relación precio-prestaciones

Aparte de la sostenibilidad, la compañía destaca otros dos aspectos muy interesantes: la escala y la relación precio-prestaciones. “Nuestro clúster de ML de Oklahoma ofrece la capacidad que los investigadores necesitan para entrenar sus modelos, con una relación precio-prestaciones muy atractiva, utilizando la nube más limpia del sector”, aseguran. Cloud TPU v4 ha sido fundamental en todo ello.

  • Escala: Cada pod de Cloud TPU v4 consta de 4096 chips conectados entre sí a través de una red de interconexión ultrarrápida, con el equivalente a un ancho de banda por host de 6 terabits por segundo (Tbps). Imprescindible para entrenar los modelos más grandes.
  • Precio-prestaciones: Cada chip de Cloud TPU v4 puede alcanzar picos de FLOPS en torno a 2,2 veces más altos que Cloud TPU v3, lo que supone cerca de 1,4 veces más FLOPS pico por dólar. Cloud TPU v4 también consigue una utilización excepcionalmente alta de esos FLOPS durante el entrenamiento de modelos ML a gran escala empleando miles de chips. Aunque se suelen utilizar las FLOPS máximas como base para comparar sistemas entre sí, en realidad lo que determina la eficiencia a efectos de entrenamiento de modelos son las FLOPS sostenidas a gran escala. En ese sentido, la alta utilización de FLOPS de Cloud TPU v4 (significativamente superior a la de otros sistemas debido al elevado ancho de banda de la red y a las optimizaciones del compilador) ayuda a reducir los tiempos de entrenamiento y mejora la eficacia de costes.

¿Qué te ha parecido este artículo?

Tu opinión es importante para nosotros.

D
Redacción Data Center Market

Artículos relacionados