Nvidia ha presentado finalmente su nueva arquitectura Volta, de la que lleva hablando al menos tres años, y no ha dejado a nadie indiferente. El chip más potente de la serie, llamado GV100, ha crecido sustancialmente con respecto al GP100 de arquitectura Pascal. Tanto que añade un 33 % más de superficie, y eso teniendo en cuenta que el proceso de fabricación es a 12 nm FNN en vez de a 16 nm FinFET.

FFN utiliza los habituales transistores FinFET —en tres dimensiones—, pero la N es de Nvidia, ya que se trata de un proceso de fabricación personalizado de la propia Nvidia. Este punto es algo que es más común en auténticos gigantes como Apple y Samsung, pero no tanto en otras más pequeñas comparativamente hablando como Nvidia —Apple y Samsung ingresan más de 200 000 millones de dólares al año, y Nvidia apenas movía, hasta ahora, en torno a los 4000 M$ anuales—.

/storage/geek/posts/2017/05/10/volta.png
Ampliar t
Comparativa de chips gráficos de Nvidia
GV100GP100GK110
Núc. CUDA537638402880
Núc. tensoriales672N/AN/A
SM846015
Núc. CUDA por SM6464192
Núc. tensoriales por SM8N/AN/A
Unidades de textura336240240
Tipo de memoriaHBM2HBM2GDDR5
Bus de memoria4096 bits4096 bits384 bits
Memoria compartida128 KB, configurable24 KB L1, 64 KB compartida48 KB
Caché de L26 MB4 MB1.5 MB
Media precisión2:1 (Vec2)2:1 (Vec2)1:1
Doble precisión1:21:21:3
Tamaño de pastilla815 mm2610 mm2552 mm2
Transistores21 100 M15 300 M7 100 M
TDP300 W300 W235 W
Proc. de fabricaciónTSMC 12 nm FFNTSMC 16 nm FinFETTSMC 28 nm
ArquitecturaVoltaPascalKepler

Un GV100 totalmente desbloqueado dispone de 5376 núcleos CUDA, además de 672 núcleos tensoriales destinados a hacer cálculos complejos de tensores, una estructura algebraica utiliza en la inteligencia artificial.

En cuanto a la Tesla V100, aunque está basado en el GV100, hay algunos detalles en el aire que no ha dado Nvidia. Son 5120 núcleos CUDA —es normal que inicialmente no se alcance el máximo potencial de un chip por problemas de fabricación que hay que ir resolviendo—, y cuenta con una frecuencia de 1455 MHz, con 16 GB de memoria HBM2 a 1.75 Gbps con bus de 4096 bits, lo que da 900 GB/s de ancho de banda.

El resultado es que la Tesla V100 es en torno a un 50 % más potente que la Tesla P100 en cálculos en doble precisión, precisión simple y media precisión —30 TFLOPS, 15 TFLOPS y 7.5 TFLOPS respectivamente—, con mismo consumo de 300 W. Es un chip realmente impresionanete, al que hay que añadirle los núcleos tensoriales, de los que incluye 640 por las razones anteriormente indicadas para los núcleos CUDA.

Para los que queráis saber más sobre el funcionamiento del cálculo de tensores y por qué es tan importante en el GV100, podéis consultar el artículo en perfecto inglés sobre la nueva arquitectura que ha colgado Nvidia.

Tesla ProductTesla K40Tesla M40Tesla P100Tesla V100
GPUGK110 (Kepler)GM200 (Maxwell)GP100 (Pascal)GV100 (Volta)
SM15245680
TPC15242840
Núc. FP32 / SM1921286464
Núc. FP32 / GPU2880307235845120
Núc. FP64 / SM6443232
Núc. FP64 / GPU9609617922560
Núc. tensoriales / SMNANANA8
Núc. tensoriales / GPUNANANA640
Frec. turbo810/875 MHz1114 MHz1480 MHz1455 MHz
FP32 TFLOP/s5.046.810.615
FP64 TFLOP/s1.682.15.37.5
TFLOP tensoriales por segundoNANANA120
Uds. textura240192224320
Interfaz de memoria384 bits GDDR5384 bits GDDR54096 bits HBM24096 bits HBM2
Cantidad de memoriaHasta 12 GBHasta 24 GB16 GB16 GB
Caché L21536 KB3072 KB4096 KB6144 KB
Memoria compartida / SM16 KB/32 KB/48 KB96 KB64 KBConfigurable hasta 96 KB
Tamaño de archivo de registro / SM256 KB256 KB256 KB256KB
Tamaño archivo de registro / GPU3840 KB6144 KB14336 KB20480 KB
TDP235 vatios250 vatios300 vatios300 vatios
Transistores7100 M8000 M15 300 M21 100 M
Tamaño pastilla551 mm²601 mm²610 mm²815 mm²
Proceso fabricación28 nm28 nm16 nm FinFET+12 nm FFN

Vía: AnandTech.