Nvidia ha vuelto a subir el listón en el sector de las unidades gráficas de procesamiento (GPU) al anunciar la evolución de Volta. Con el nombre finalmente de Turing, la compañía pone a los núcleos tensoriales de Volta en un primer plano, ya que son necesarios para una de las técnicas de generación de gráficos que va a dar mucho de lo que hablar como es el trazado de rayos. Es la otra forma existente de generar imágenes frente al rasterizado actual, y en este caso se hace en tiempo real, frente al diferido usado en películas de animación por la gran potencia de cómputo que necesita.

Nvidia lleva al sistema RTX de renderizado basado en trazado de rayos a un sistema híbrido con el rasterizado. Puesto que muchas de las aplicaciones más normales de diseño, y también los juegos, solo entienden el rasterizado, no hay más remedio que poner una solución intermedia como es mezclar ambos en estos chips Turing y en los del futuro cercano.

De esta forma también se puede llevar el trazado de rayos al tiempo real y ser usado en manipulación de escenas con previsualización. Al fin y al cabo, el anuncio ha tenido lugar en el SIGGRAPH, y por tanto la compañía se ha centrado en sus capacidades profesionales.

Núcleos para trazado de rayos

turing.jpg

Además de los núcleos tensoriales, Nvidia ha incluido en el chip Turing lo que llama núcleo de trazado de rayos o núcleo RT para abreviar. Siempre he comentado que la siguiente arquitectura de Nvidia debería incluir algún tipo de componente específico para el trazado de rayos, y no necesariamente iba a ser los núcleos tensoriales, que son en realidad para cómputo y no para generación de gráficos. Está por ver qué llega a las GeForce basadas en Turing, aunque me imagino que no tendrá núcleos tensoriales sino los núcleos RT.

Estos núcleos de trazado de rayos sirven expresamente para procesar rayos en la generación de una escena, entendiendo por ello un píxel de la pantalla, que se genera en base a la suma de todos los rebotes de fuentes de iluminación sobre superficies —si bien se generan desde el píxel hacia el origen, no desde el origen hasta el píxel, por comodidad—.

En el apartado del cómputo, los núcleos tensoriales ahora admiten ejecución de enteros en precisión de 4 y 8 bits (INT4, INT8) además de coma flotante a media precisión (FP16). Este tipo de ejecución en INT8 es útil para inteligencia artificial, ya que no se necesita mucha precisión para el reconocimiento de imágenes, sino «una idea global» de lo que contiene la imagen, por decirlo así. También tiene aplicaciones prácticas el uso de INT8 en inferencias de las cámaras de un vehículo autónomo, que es un sector en el que Nvidia ha tirado toda la carne al asador.

Cambios de arquitectura

pascal_vs_turing_575px.jpg

Turing es una arquitectura que pasa a depender en los primeros chips profesionales de la memoria GDDR6 que lleva en producción desde hace algunos meses. Usa los chips más básicos en realidad, aunque funcionan a 14 Gb/s frente a los 11.4 Gb/s de la Titan Xp, por lo que es una mejora sustancial, además de la reducción de consumo y el mayor ancho de banda que proporciona, si bien el bus se mantendrá entre los 256 bits y 384 bits según tarjeta gráfica, lo que arroja entre 448 GB/s y 672 GB/s de ancho de banda. Será interesante echar un vistazo al libro blanco de Turing cuando lo publique Nvidia para ver los cambios a la gestión y compresión de memoria.

Otros cambios tienen que ver con los multiprocesadores de flujos de datos (SM), que es donde residen los núcleos CUDA, y que ahora disponen de una tasa de sombreado variable (sic), con lo que escala con el tipo de operación ejecutada. Aprovecha por tanto más los núcleos para ejecutar distintos tipos de operaciones, ya que en arquitecturas más antiguas en FP32, solo se podía ejecutar una instrucción FP16. Desde hace tiempo, se ha ido hacia desdoblarlos, y que en un FP32 se ejecuten dos FP16, etc. Esto se aplica a que en un INT32 se puedan ejecutar ahora también cuatro INT8, con las ventajas indicadas anteriormente en cuanto a cómputo. Pero como digo, hasta que no publique Nvidia el libro blanco, se va un poco a ciegas sobre la arquitectura Turing. Es un documento científico similar al de Pascal, Volta y las arquitecturas anteriores que publica la compañía en algún punto después de su presentación oficial.[1][2]

Mejora de rendimiento

car-1280x720.jpg

Nvidia habla de que la nueva Quadro RTX 8000 con un chip Turing con 4608 núcleos CUDA y 576 núcleos tensoriales tiene una potencia de cómputo de 16 TFLOPS, frente a los 14.8 TFLOPS del chip GV100. No es una gran mejora, ya que en lo que se mejora es en el tamaño del chip, que ahora es de 775 mm2 en vez de 815 mm2, y hay que tener en cuenta que una buena parte de él está ocupado por los núcleos RT. En general, Nvidia habla de que una GPU Turing es equivalente a seis Pascal en el terreno del trazado de rayos.

La potencia de generación de rayos de este chip es de 10 gigarrayos por segundo, y la potencia de los núcleos tensoriales pasa a tener 500 teraoperaciones tensoriales por segundo (TTOP) en INT4, frente a los 118 TTOP en FP16 de la GV100. Es una comparación transversal, por lo que los números aportados por Nvidia a la hora de enmarcar el rendimiento del chip no están nada claros. Además, Nvidia no ha indicado con qué litografía va a producir el chip Turing. Quedan bastantes incógnitas por resolver.

Por último, las tres primeras tarjetas gráficas Quadro RTX van a ser la 5000, 6000 y 8000, que tendrán un coste de hasta 10 000 dólares, y se pondrán a la venta en breve.

Vía: AnandTech.

Referencias

  1. GP100 Pascal Whitepaper, Nvidia.
  2. Nvidia Tesla V100 GPU arquitectura, Nvidia.