Nvidia potencia su ‘superchip’ Grace-Hopper con memoria más rápida para la inteligencia artificial

Nvidia mejora su chip Grace-Hopper con memoria más rápida para IA

El CEO de Nvidia, Jensen Huang, mostró el martes la próxima iteración de la combinación de CPU y GPU de su compañía, el “superchip” “GH200” Grace Hopper. La parte aumenta la capacidad de memoria a 5 terabytes por segundo para manejar el creciente tamaño de los modelos de IA.

Nvidia planea enviar el próximo año una versión mejorada de lo que llama un “superchip” que combina CPU y GPU, con una memoria más rápida, para mover más datos dentro y fuera de la circuitería del chip. El CEO de Nvidia, Jensen Huang, hizo el anuncio el martes durante su discurso de apertura en la feria de gráficos por computadora SIGGRAPH en Los Ángeles.

El chip GH200 es la próxima versión del combo chip Grace Hopper, anunciado a principios de este año, que ya se está enviando en su versión inicial en computadoras de Dell y otros.

También: Nvidia presenta un nuevo tipo de Ethernet para IA, Grace Hopper ‘Superchip’ en plena producción

Mientras que Grace Hopper inicial contiene 96 gigabytes de memoria HBM para alimentar la GPU Hopper, la nueva versión contiene 140 gigabytes de HBM3e, la siguiente versión del estándar de memoria de alto ancho de banda. HBM3e aumenta la velocidad de transferencia de datos que alimentan la GPU a 5 terabytes (billones de bytes) por segundo, en comparación con los 4 terabytes del Grace Hopper original.

El GH200 seguirá al Grace Hopper original en un año, que Huang dijo en mayo que estaba en plena producción.

“Los chips están en producción, los probaremos a finales de año, más o menos, y estaremos en producción para finales del segundo trimestre [2024]”, dijo el martes.

El GH200, al igual que el original, cuenta con 72 núcleos de CPU basados en ARM en el chip Grace, y 144 núcleos de GPU en la GPU Hopper. Los dos chips están conectados a través de una interfaz de memoria de alta velocidad y coherente de caché, NVLink, que permite a la GPU Hopper acceder a la memoria DRAM de la CPU.

Huang describió cómo el GH200 puede conectarse a un segundo GH200 en un servidor de configuración dual, obteniendo un ancho de banda total de memoria HBM3e de 10 terabytes.

El GH200 es la próxima versión del superchip Grace Hopper, que está diseñado para compartir el trabajo de los programas de IA mediante una estrecha conexión de CPU y GPU.

La mejora de la velocidad de memoria de las partes de GPU es bastante estándar para Nvidia. Por ejemplo, la generación anterior de GPU, A100 “Ampere”, pasó de HBM2 a HBM2e.

El HBM comenzó a reemplazar el estándar de memoria de GPU anterior, GDDR, en 2015, impulsado por las mayores demandas de memoria de las pantallas 4K para gráficos de videojuegos. El HBM es una configuración de memoria “apilada”, con cada matriz de memoria individual apilada verticalmente una encima de la otra y conectada entre sí mediante un “a través de silicio” que atraviesa cada chip hasta una “microbola” soldada en la superficie entre cada chip.

Los programas de IA, especialmente los de tipo generativo, como ChatGPT, requieren mucha memoria. Deben almacenar un número enorme de pesos neuronales, o parámetros, que son las principales unidades funcionales de una red neuronal. Esos pesos aumentan con cada nueva versión de un programa de IA generativo, como un modelo de lenguaje grande, y tienden a alcanzar billones de parámetros.

También: Nvidia arrasa en las pruebas de IA, pero Intel ofrece una competencia significativa

También durante el espectáculo, Nvidia anunció varios otros productos y asociaciones.

AI Workbench es un programa que se ejecuta en una estación de trabajo local y que facilita la carga de modelos de redes neuronales en la nube de forma contenerizada. AI Workbench actualmente está registrando usuarios para acceso temprano.

Nuevas configuraciones de estaciones de trabajo para IA generativa, de Dell, HP, Lenovo y otros, bajo la marca “RTX”, combinarán hasta cuatro de las “GPU Ada RTX 6000” de la compañía, cada una con 48 gigabytes de memoria. Cada estación de trabajo de escritorio puede proporcionar hasta 5,828 billones de operaciones de punto flotante por segundo (TFLOPs) de rendimiento de IA y 192 gigabytes de memoria de GPU, según Nvidia.

 Puedes ver la repetición de la presentación completa de Huang en el sitio web de Nvidia.