Nvidia ha llegado al Congreso de Tecnologías de GPU (GTC) con varias sorpresas bajo el brazo, aunque ya avanzo que ninguna de ellas tiene que ver directamente con sus tarjetas gráficas de consumo. Indirectamente sí, puesto que con la presentación de la nueva Tesla P100 ha arrojado luz sobre la arquitectura Pascal.

El chip usado para esta tarjeta es el nuevo GP100, fabricado a 16 nm, y que utiliza 16 GB memoria de tipo HBM2. Esta memoria es la revisión de la incluida en las tarjetas gráficas con chip Fiji de AMD, que en realidad fue el gran promotor de este nuevo estándar aunque es Nvidia el que va a usar una versión que realmente mejora significativamente con respecto a la GDDR5.

fn9whvg

El chip GP100 incluye 3.584 núcleos CUDA, 512 más de lo que permitía el GM200 usado en las mejores tarjetas gráficas Maxwell2, como por ejemplo la GTX 980 Ti. A falta de que sea confirmado, sería lógico que la equivalente GTX 1080 Ti también contara con un GM200 desbloqueado, usando HBM2, y viendo el resto de características podría suponer a ojo una mejora de rendimiento del 15 al 20 %. Toca esperar a ver las mejoras reales de la propia arquitectura Pascal.

La velocidad base también mejora de 948 MHz a 1328 MHz, con un turbo de 1480 MHz, una mejor muy sustancial, y que justifica los 300 W de consumo que tiene esta tarjeta, incluso estando fabricada a 16 nm. Incluye 56 multiprocesadores de flujos de datos o SM (stream multiprocessors) frente a 24 del GM200, por lo que apuntaría a que en el frente del procesamiento paralelo hay mejoras muy sustanciales y puede haber sorpresas (desagradables para AMD y en realidad malas para los consumidores) en el terreno de los polémicos sombreadores asíncronos.

La arquitectura de un chip Pascal sigue la de Maxwell, compuesta por clústeres de procesamiento gráfico (GPC), los SM y controladores de memoria. El chip GP100 está dividido en seis GPC de hasta diez SM cada una, y ocho controladores de memoria de 512 bits para comunicarse con la memoria HBM2 que tiene 4096 bits de ancho de bus. Por comparación, la HBM de los chips Fiji tiene 1024 bits.

En esta ocasión cada SM se ve reducido a 64 núcleos CUDA, aunque como he comentado el número de SM se ha multiplicado, y cada SM está dividido en dos bloques de procesamiento. El objetivo de toda esta subdivisión, manteniendo una arquitectura similar, es aumentar la potencia de procesamiento paralelo de los núcleos CUDA, permitiendo una mayor granuralidad de las operaciones.

También se mejora el acceso de los hilos de procesamiento a los registros (que en total aumenta a 65.536 por bloque, duplicándose con respecto a Maxwell) y otras partes de la arquitectura del chip. Todo mejorado por disponer de una memoria con un bus de 4096 bits, que no hay que perderlo de vista porque es uno de los factores que pueden introducir retardos a la hora de realizar operaciones que requieren de inmediatez (como la realidad virtual). El chip PM100 permite un ancho de banda total de 720 GB/s, 208 GB/s más que el chip Fiji de AMD.

La potencia de procesamiento en coma flotante será de 10,6 TFLOPS FP32, con una conversión 1:2 para coma flotante en doble precisión (FP64) con lo que tendrá una potencia de 5,3 TFLOPS, y en media precisión será de 21,2 TFLOPS (FP16). Este último aspecto, la potencia a FP16, es importante para la computación en redes neuronales, hacia donde también está situando Nvidia esta tarjeta.

Posee también todas las características de computación de alto rendimiento (HPC), como la memoria con corrección de errores (ECC) a todos los niveles, incluida la caché. Estas tarjetas se conectan mediante Mezzanine, un tipo de conector para insertado en paralelo en vez de en perpendicular como los PCIe.

El último aspecto importante de la Tesla P100 es que cuenta con conexiones NVLink. Se usa para la computación acelerada por GPU, que llegará en todas las gráficas que usen en GP100. NVLink mejora la conexión entre las GPU y entre una GPU y la memoria principal del sistema. La conexión NVLink será una conexión especial a realizar entre las tarjetas, que permitirá hasta 40 GB/s bidireccionales, frente a 1 GB/s que permite cada pista de PCIe 3.0, y se pueden agregar cuatro enlaces para un total de 160 GB/s.

La Tesla P10 estará disponible en junio a través del sistema Nvidia DGX-1 que venderá directamente Nvidia a los interesados. Por tanto para entonces también debería estar disponible alguna otra tarjeta de Nvidia que use el GP100. A principios de 2017 otros fabricantes podrán vender sus propias soluciones que utilicen esta tarjeta gráfica.

8-gpu-hybrid-cube-mesh

Tesla K40Tesla M40Tesla P100
GPUGK110 (Kepler)GM200 (Maxwell)GP100 (Pascal)
SM152456
TPC152428
FP32 CUDA Cores / SM19212864
FP32 CUDA Cores / GPU288030723584
FP64 CUDA Cores / SM64432
FP64 CUDA Cores / GPU960961792
Frec. base745 MHz948 MHz1328 MHz
Frec. turbo810/875 MHz1114 MHz1480 MHz
FP64 GFLOPS16802135304[1]
Uds. textura240192224
Interfaz memoria384-bit GDDR5384-bit GDDR54096-bit HBM2
MemoriaHasta 12 GBHasta 24 GB16 GB
Caché L21536 KB3072 KB4096 KB
Tamaño registros / SM256 KB256 KB256 KB
Tamaño registro / GPU3840 KB6144 KB14336 KB
TDP235 Watts250 vatios300 vatios
Transistores7.100 millones8.000 millones15.300 millones
Tamaño chip551 mm²601 mm²610 mm²
Proceso fabricación28-nm28-nm16-nm

Vía: Nvidia, Nvidia (2).