Características del chip GV100 y la Tesla V100 frente a sus predecesores

Nvidia ha presentado finalmente su nueva arquitectura Volta, de la que lleva hablando al menos tres años, y no ha dejado a nadie indiferente. El chip más potente de la serie, llamado GV100, ha crecido sustancialmente con respecto al GP100 de arquitectura Pascal. Tanto que añade un 33 % más de superficie, y eso teniendo en cuenta que el proceso de fabricación es a 12 nm FNN en vez de a 16 nm FinFET.

FFN utiliza los habituales transistores FinFET —en tres dimensiones—, pero la N es de Nvidia, ya que se trata de un proceso de fabricación personalizado de la propia Nvidia. Este punto es algo que es más común en auténticos gigantes como Apple y Samsung, pero no tanto en otras más pequeñas comparativamente hablando como Nvidia —Apple y Samsung ingresan más de 200 000 millones de dólares al año, y Nvidia apenas movía, hasta ahora, en torno a los 4000 M$ anuales—.

Comparativa de chips gráficos de Nvidia
	GV100	GP100	GK110
Núc. CUDA	5376	3840	2880
Núc. tensoriales	672	N/A	N/A
SM	84	60	15
Núc. CUDA por SM	64	64	192
Núc. tensoriales por SM	8	N/A	N/A
Unidades de textura	336	240	240
Tipo de memoria	HBM2	HBM2	GDDR5
Bus de memoria	4096 bits	4096 bits	384 bits
Memoria compartida	128 KB, configurable	24 KB L1, 64 KB compartida	48 KB
Caché de L2	6 MB	4 MB	1.5 MB
Media precisión	2:1 (Vec2)	2:1 (Vec2)	1:1
Doble precisión	1:2	1:2	1:3
Tamaño de pastilla	815 mm²	610 mm²	552 mm²
Transistores	21 100 M	15 300 M	7 100 M
TDP	300 W	300 W	235 W
Proc. de fabricación	TSMC 12 nm FFN	TSMC 16 nm FinFET	TSMC 28 nm
Arquitectura	Volta	Pascal	Kepler

Un GV100 totalmente desbloqueado dispone de 5376 núcleos CUDA, además de 672 núcleos tensoriales destinados a hacer cálculos complejos de tensores, una estructura algebraica utiliza en la inteligencia artificial.

En cuanto a la Tesla V100, aunque está basado en el GV100, hay algunos detalles en el aire que no ha dado Nvidia. Son 5120 núcleos CUDA —es normal que inicialmente no se alcance el máximo potencial de un chip por problemas de fabricación que hay que ir resolviendo—, y cuenta con una frecuencia de 1455 MHz, con 16 GB de memoria HBM2 a 1.75 Gbps con bus de 4096 bits, lo que da 900 GB/s de ancho de banda.

El resultado es que la Tesla V100 es en torno a un 50 % más potente que la Tesla P100 en cálculos en doble precisión, precisión simple y media precisión —30 TFLOPS, 15 TFLOPS y 7.5 TFLOPS respectivamente—, con mismo consumo de 300 W. Es un chip realmente impresionanete, al que hay que añadirle los núcleos tensoriales, de los que incluye 640 por las razones anteriormente indicadas para los núcleos CUDA.

Para los que queráis saber más sobre el funcionamiento del cálculo de tensores y por qué es tan importante en el GV100, podéis consultar el artículo en perfecto inglés sobre la nueva arquitectura que ha colgado Nvidia.

Tesla Product	Tesla K40	Tesla M40	Tesla P100	Tesla V100
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (Pascal)	GV100 (Volta)
SM	15	24	56	80
TPC	15	24	28	40
Núc. FP32 / SM	192	128	64	64
Núc. FP32 / GPU	2880	3072	3584	5120
Núc. FP64 / SM	64	4	32	32
Núc. FP64 / GPU	960	96	1792	2560
Núc. tensoriales / SM	NA	NA	NA	8
Núc. tensoriales / GPU	NA	NA	NA	640
Frec. turbo	810/875 MHz	1114 MHz	1480 MHz	1455 MHz
FP32 TFLOP/s	5.04	6.8	10.6	15
FP64 TFLOP/s	1.68	2.1	5.3	7.5
TFLOP tensoriales por segundo	NA	NA	NA	120
Uds. textura	240	192	224	320
Interfaz de memoria	384 bits GDDR5	384 bits GDDR5	4096 bits HBM2	4096 bits HBM2
Cantidad de memoria	Hasta 12 GB	Hasta 24 GB	16 GB	16 GB
Caché L2	1536 KB	3072 KB	4096 KB	6144 KB
Memoria compartida / SM	16 KB/32 KB/48 KB	96 KB	64 KB	Configurable hasta 96 KB
Tamaño de archivo de registro / SM	256 KB	256 KB	256 KB	256KB
Tamaño archivo de registro / GPU	3840 KB	6144 KB	14336 KB	20480 KB
TDP	235 vatios	250 vatios	300 vatios	300 vatios
Transistores	7100 M	8000 M	15 300 M	21 100 M
Tamaño pastilla	551 mm²	601 mm²	610 mm²	815 mm²
Proceso fabricación	28 nm	28 nm	16 nm FinFET+	12 nm FFN