Nvidia ha anunciado finalmente su nueva arquitectura gráfica, tras pasar dos años desde que presentara la Turing con trazado de rayos y núcleos tensoriales. Esta arquitectura se llama Ampère, y Nvidia ha confirmado que será la misma para las tarjetas gráficas generalistas GeForce, si bien inicialmente la ha presentado para el chip gráfico de la nueva tarjeta de cómputo A100.

El proceso litográfico de fabricación elegido para el chip A100 que utiliza es el de 7 nm de TSMC, y eso significa que en comparación con el GV100 de la Tesla V100 predecesora permite casi triplicar el número de transistores en un tamaño ligeramente superior. Eso son 826 mm2 frente a 815 mm2 y 54 000 millones de transistores frente a 21 100 M.

Esta nueva A100 cuenta con 6912 núcleos CUDA frente a los 5120 de la Tesla V100, funcionando a un turbo de unos 1.41 GHz, y aumenta significativamente la potencia de la tarjeta, aunque no tanto en procesamiento general sino en el cálculo de tensores. Un tensor es una estructura algebraica usada en inteligencia artificial, y por tanto una tarjeta gráfica para cómputo tiene que destacar en este terreno.

Comparativa de aceleradoras de cómputo de Nvidia
A100Tesla V100Tesla P100
Núcleos CUDA FP32691251203584
Frec. turbo≈1410 MHz1530 MHz1480 MHz
Reloj memoriaHBM2 2.4 Gb/sHBM2 1.75 Gb/sHBM2 1.4 Gb/s
Bus memoria5120 bits4096 bits4096 bits
Ancho de banda memoria1.6 TB/s900 GB/s720 GB/s
VRAM40 GB16/32 GB16 GB
Precisión simple19.5 TFLOPs15.7 TFLOPs10.6 TFLOPs
Doble precisión9.7 TFLOPs7.8 TFLOPs5.3 TFLOPs
Tensor INT8624 TOPsN/AN/A
Tensor FP16312 TFLOPs125 TFLOPsN/A
Tensor TF32156 TFLOPsN/AN/A
InterconexiónNVLink 3

12 enlaces a 600 GB/s

NVLink 2

6 enlace a 300 GB/s

NVLink 1

4 enlaces a 160 GB/s

GPUA100 (826 mm2)GV100 (815 mm2)GP100 (610 mm2)
Transistores54 200 M21 100 M15 300 M
Consumo400 W300/350 W300 W
LitografíaTSMC 7 nmTSMC 12 nm FFNTSMC 16 nm FinFET
InterfazSXM4SXM2/SXM3SXM
ArquitecturaAmpèreVoltaPascal

Por ello, la mejora de la arquitectura y de los núcleos tensoriales de la arquitectura Ampère hace que el cálculo de tensores en FP16 pase de 125 TFLOPS a los 312 TFLOPS, y se permite el cálculo de tensores en TF32 e INT8. Ambos son cálculos normales en inteligencia artificial pero que no todas las arquitecturas los implementan por hardware. En INT8 la potencia de cómputo pasa a los 624 TOPS, y en TF32 se obtiene 156 TOPS.

También destaca que a pesar de casi triplicar el número de transistores —bueno, las multiplica por 2.6 para ser más correcto, si bien este chip no está totalmente desbloqueado por lo que parte de esos transistores no se usan; lo explico más abajo— el consumo apenas sube 50 W, lo que hace que esta tarjeta pase de un consumo de 350 W hasta los 400 W, teniendo en cuenta que el chip GV100 estaba producido con el proceso de 12 nm de TSMC. En todos los parámetros básicos esta tarjeta gráfica es muy superior a su predecesora.

pasted_image_0.png

El tema está en que las distintas optimizaciones de la arquitectura, la potencia en entrenamiento de redes neuronales se multiplica por seis respecto a la Tesla V100, y en inferencias se multiplica por siete. En potencia de cómputo más generalista se queda más bien en el doble de rendimiento, por esas optimizaciones para programas, aunque en potencia de cómputo en bruto apenas arroje un 33 % más. Pero no es una tarjeta gráfica para tareas de cómputo generalistas, sino para inteligencia artificial.

Destaca en ello el uso de memoria HBM2 a 2.43 GHz, con un total de 40 GB de VRAM, con un bus de 5192 bits —cinco chips HBM2 a 1024 bits cada uno— lo que arroja un impresionante ancho de banda de 1.6 TB/s. La compañía ha indicado que incluye 432 núcleos tensoriales de tercera generación, a razón de cuatro por multiprocesador de flujos de datos (SM).

ga100_blockdiagramsr6-185x185.png

La tarjeta usa una interfaz PCIe 4.0, y usa un conector especial de comunicación NVLink 3 de doce enlaces lo que aporta una comunicación intertarjetas de 600 GB/s, que es muy superior a los 31.5 GB/s de la comunicación PCIe 4.0 estándar, y es necesaria para las máquinas en las que se pueden poner en paralelo hasta ocho tarjetas A100 como las de la imagen de cabecera.

Hay un dato de interés sobre este chip y es que parte de él está desactivado. El chip GA100 completo, según indica Nvidia, incluye 8192 núcleos CUDA con seis controladores de memoria HBM2 (bus máximos de 6144 bits para unos 1.92 TB/s), lo que abre la puerta a que Nvidia anuncie en un futuro, a medida que el rendimiento de producción lo permita, modelos de las Tesla y otras tarjetas mucho más potentes.

Como curiosidad, a continuación tenéis cuál sería una aproximación a su rendimiento en juegos si usara unos controladores GeForce —que no los usa—, sin tener en cuenta cambios respecto a Turing —que las GeForce de tipo Ampère las tendrá—. Imaginaos cómo quedaría una tarjeta con un chip A100 totalmente desbloqueado de 8192 núcleos CUDA.

Rendimiento tarjetas gráficas

Vía: AnandTech.