AMD habla de la arquitectura RDNA 3 de las nuevas RX 7000

AMD ha anunciado las primeras RX 7000, para ser más concreto las RX 7900 XTX y 7900 XT, y creo que no ha defraudado en el apartado del rendimiento por vatio. Al final de la arquitectura GCN partía de una gran desventaja en este terreno respecto a NVIDIA, pero con RDNA, y sobre todo con RDNA 2, consiguió darle la vuelta. Ahora es NVIDIA el que tiene las tarjetas gráficas que aportan menos rendimiento por vatio. Al menos si cuando se pongan a la venta las RX 7000 se cumple lo indicado por la compañía.

Con lo dicho previamente, el salto de RDNA 2 a RDNA 3 iba a suponer al menos un 50 % más de rendimiento por vatio. Es decir, una RX 6900 XT con RDNA 3 y el proceso litográfico de 5 nm consumiría 200 W o menos, sin cambios de arquitectura. Pero es que hay cambios de arquitectura, muchos, y es lo que NVIDIA ya no hace desde hace un par de generaciones fiándolo todo a la litografía. En este momento debo felicitar a AMD por todo lo que ha evolucionado sus GPU con RDNA y sucesores, porque me parece fundamental conseguir productos lo más energéticamente eficientes que sea posible.

El chip que potencia esas RX 7900 es el Navi 3x —no ha indicado el número específico, pero debería ser Navi 31—, que deja de ser monolítico para ser un módulo multichip. O sea, un diseño de chíplets. Incluye una pastilla de computación gráfica (GCD) fabricada a 5 nm y que ocupa 300 mm², y hasta seis pastillas de caché de memoria (MCD), cada una de 37 mm² y fabricadas a 6 nm. Cada una de estas MCD tiene 16 MB de caché Infinity y dos controladores de memoria de 32 bits.

Este diseño va a dar mucha versatilidad a las RX 7000, porque el chíplet de caché y controlador de memoria será el mismo para todas las tarjetas gráficas que tengan este u otro GCD más pequeño. Menos silicio en una GPU significa menos calor y menos costes.

Este sistema de MCD aporta un 170 % más de ancho de banda efectivo frente a RDNA 2, en una pequeña parte por el uso de memoria GDDR6 de mayor velocidad (20 Gb/s), y en su mayor parte por el diseño de la caché en sí. Eso son 5.3 TB/s de comunicación. La caché Infinity de RDNA 3 hace una mejor reutilización de los datos guardados, por lo que con menos caché que en RDNA 2 hace mucho más.

La interconexión con el GCD es de muy alta velocidad, en la línea de la interconexión Infinity, aunque la compañía le ha cambiado el nombre a «enlace Infinity». El empaquetado de los chíplets se hace con su tecnología de puente de ramificaciones elevadas (EFB), que ya usó en la Instinct MI200. Es un empaquetado de los denominados 2.5D, que simplifica el sustrato sobre el que van los chips, pero a cambio los eleva por encima del chip que hace de interconexión, abaratando costes en el proceso.

Entrando en el GCD, AMD ha rehecho gran parte de la arquitectura interna de RDNA aunque la carcasa sea parecida. Con diversas optimizaciones ha conseguido aumentar un 165 % la cantidad de transistores por milímetro cuadrado, aunque me imagino que aquí meterá las ganancias por la litografía.

Tiene hasta 96 unidades de cómputo, cada una de las cuales son de 64 sombreadores duales, o en la práctica 128 sombreadores por unidad de cómputo. El chip completo tiene 12 288 sombreadores, que es el máximo que alcanza la RX 7900 XTX. Cada unidad de cómputo tiene un núcleo de trazado de rayos de segunda generación —aporta un 50 % más de rendimiento— y dos aceleradores de inteligencia artificial, que es la principal novedad de la arquitectura. La pone en la línea de las arquitecturas de NVIDIA e Intel.

Estos aceleradores de IA aportan un nuevo conjunto de instrucciones específicos para cargas de inteligencia artificial, que se usan por ejemplo para procesamiento de imágenes como el del escalado de FSR 2 que será donde va a tener mayor utilidad. En estas operaciones aportan hasta un 170 % más de rendimiento frente a usar los sombreadores normales al ejecutar la instrucción bfloat16. FSR 2 se va a aprovechar de ellos en cuanto lleguen las RX 7900 al mercado. Aportará una mejora visual y de velocidad a la hora de aplicar FSR 2, aunque hay que esperar a ver exactamente cuánto. Tiene en preparación un FSR 2.2, y un FSR 3 que copiará a DLSS 3.

Sobre el acelerador de rayos, la siguiente transparencia compara el rendimiento de la 6950 XT y la RX 7900 XTX con el trazado de rayos y FSR activado. Es un poco decepcionante; me parecen valores bajos si se mira el rendimiento que da una RTX 4090 con DLSS 2. Mis propios datos del análisis de la RTX 4090 en Cyberpunk 2077 arrojan 91.6 f/s con TR en ultra y DLSS, mientras que aquí la RX 7900 XTX se conforma con 62 f/s con TR y FSR. Ya veremos el rendimiento real que tiene la 7900 XTX, porque no es una buena señal.

Sobre el rendimiento, ha indicado que frente a RDNA 2, la arquitectura RDNA 3 es muchísimo mejor en altas resoluciones. Por lo tanto, es posible jugar a 4K y 8K con estas tarjetas gráficas, incluso a tasas de fotogramas muy altas utilizando FSR. Es una arquitectura para «jugar a 8K y 165 Hz», al menos en ciertos títulos.

Las unidades de cómputo funcionan ahora (otra vez) con paralelismo a nivel de instrucción (ILP) que supone una supuesta mejora de rendimiento, hasta el doble, siempre que del frente de ondas —grupo de ejecución de instrucciones, por analogía con el término de la física— se pueda extraer una segunda instrucción a ejecutar. Es una vuelta atrás en la arquitectura RDNA pero a cambio la arquitectura vuelve a ser muy buena en cómputo como lo era GCN.

Hay que pensar en ILP como si fuera el multihilo de un núcleo de CPU: el hilo principal alcanza la potencia máxima del núcleo, pero el hilo secundario solo una pequeña parte del principal, del 20-50 % generalmente. El uso eficiente de ILP depende mucho de los controladores gráficos y de las cargas de trabajo que se ejecuten. La RX 7900 XTX tiene un 166 % más de potencia de cómputo que la RX 6900 XT hasta los 61.4 TFLOPS, mientras que la RX 7900 XT tiene un 124 % más. Están un poco lejos de los 82 TFLOPS de la RTX 4090, pero ya no mucho.

AMD no ha perdido la oportunidad de tocar el motor de vídeo, que ahora se llama Radiance Display. Cuenta con DisplayPort 2.1, un ancho de banda de 54 Gb/s y mueve colores a 12 bits por canal para hasta 68 000 millones de colores. Esto es más que suficiente para mover pantallas a 8K y 165 Hz, o a 4K y 480 Hz. Los primeros monitores 8K para jugones llegarán el próximo año, diciendo AMD que habrá uno 8K panorámico Odyssey Neo G) de Samsung con DisplayPort 2.1 del que hablará más adelante.

En cuanto al motor de medios, ahora son dos y son capaces de codificar y decodificar en AVC, HEVC y AV1, usando para ello una mejora mediante inteligencia artificial. Eso permitirá grabar retransmisiones a 8K y 60 f/s.