Me he centrado en un par de noticias previas en el precio de las RX 9070 y 9070 XT, así como en la llegada de FSR 4 y otras novedades que llegan a nivel de los controladores Adrenalin. Es el turno de abordar la arquitectura RDNA 4, a falta de que la compañía publique el libro blanco con la información en mayor profundidad. De momento solo se tiene lo presentado por la compañía en el vídeo de introducción de las 9070 y unas trasparencias, que no es mucho, pero toca lo importante. El resto ya es para sibaritas.

La arquitectura RDNA 4 está rehecha desde lo más bajo para darle un gran empujón de rendimiento con menos sombreadores. De hecho, la RX 9070 XT ronda el rendimiento de las 7900 XT y XTX que tenían hasta 6144 sombreadores (80 unidades de cómputo) con un 20 % menos, hasta 4096 sombreadores (64 unidades de cómputo). La subida de la frecuencia en juegos es poca, apenas 100 MHz (2400 MHz vs. 2300 MHz), por lo que la mejora de rendimiento es por lo que ha estado tocando a bajo nivel. También ha tocado sustancialmente los aceleradores de trazado de rayos e inteligencia artificial, o incluso el motor de medios.

0_53.jpg.avif

El chip Navi 48 mide 357 mm2, frente a los 522 mm2 que tiene el Navi 31 de la RX 7900 XTX, contando los chíplets de caché Infinity que en esta ocasión la caché está integrada en el chip, así que es un modelo monolítico. En el diseño del chip que ha mostrado AMD se puede ver que es alargado, y está fabricado con el derivado de 4 nm del proceso litográfico de 5 nm de TSMC. Esa litografía de 4 nm una mejora incremental, con menor tamaño de transistores, pero no afecta al tamaño de la SRAM (la caché), y con ligeras mejoras de frecuencia a mismo consumo, o menos consumo a misma frecuencia. Parece que AMD ha optado por reducir el consumo, porque la frecuencia no es tan distinta, y por compactar el chip.

El Navi 48 incluye 53 900 millones de transistores, que es apenas un 7 % menos que los 58 000 MT del Navi 31, pero la reducción de tamaño es notable, un 32 % menos. Como he dicho, la SRAM no cambia prácticamente de tamaño entre el proceso de 5 nm y el de 4 nm de TSMC, por lo que AMD ha eliminado buena parte de la caché Infinity que hace de caché de nivel tres. Pasa de 96 MB a 64 MB —cuatro controladores de 64 bits delante de 16 MB de caché Infinity—, con una reducción del bus de memoria a 256 bits, usando memoria GDDR6 de 20 Gb/s. Eso da un ancho de banda de 640 GB/s frente a 960 GB/s de la RX 7900 XTX.

Lo que ha hecho AMD es añadir una mejor compresión de memoria para que ese recortes enorme del 33 % del ancho de banda no afecte. Es un terreno en el que NVIDIA seguía teniendo ventaja, pero AMD ahora ha recortado mucho la distancia. Además, AMD promete que las RX 9000 están «listas para el renderizado neuronal», por lo que eso deja de ser una ventaja de NVIDIA y sus RTX 50. Está igualados tecnológicamente. La API de DX12 de renderizado neuronal la está desarrollando Microsoft en colaboración con Intel, NVIDIA y AMD.

Es un apartado muy positivo que AMD haya mejorado la compresión de memoria en el traspaso de información entre la GPU y la VRAM. Tiene 16 GB de VRAM, que parece suficiente para el tipo de tarjetas gráficas que son. Mejora un poco la caché de nivel dos, de 6 MB a 8 MB, pero eso es un cambio que supone poco espacio en la planta del chip. Hay también 2 MB de caché agregada para las unidades de cómputo.

La conexión con el equipo es PCIe 5.0 ×16, así que eso también supone una mejora. No se notará salvo en situaciones en las que haya falta de VRAM, pero reduce la latencia entre la VRAM y la RAM, en lo cual sale beneficiadas las tareas de cómputo puro y duro que se hagan en esta tarjeta gráfica. O sea, ejecución de redes neuronales, porque AMD no quiere perder la posibilidad de que los chinos compren estas RX 9000 para sus granjas de IA.

0_64.jpg.avif

En este terreno la compañía ha hecho mejoras a la capacidad de cómputo de los sombreadores. Por un lado, la tecera generación de los aceleradores de IA, o de matrices, que admiten nuevos tipos de datos, como formatos de coma flotante de ocho bits, y mejoras en la ejecución de las ondas (agrupamiento de hilos para ejecución simultánea). Eso incluye la tubería matemática para tensores (una estructura alegebráica usada en IA) de 4 bits, 8 bits y 16 bits, con acumuladores de 16 bits y 32 bits.

Las unidades de cómputo han visto mejorados todos sus aspectos para justificar ese gran aumento de rendimiento por cada una de ellas. Siguen siendo unidades de cómputo dobles, con capacidad de tener además el doble de potencia en FP32 específicamente para cómputo —que no en juegos—, lo cual lo mantiene de RDNA 3.

Cada motor de cómputo comprende cuatro unidades de cómputo o 256 sombreadores, con cuatro aceleradores de IA y dos aceleradores de rayos.Tienen 16 kB de caché para escalares, y 32 kB de caché para instrucciones de los sombreadores, junto a 128 kB de memoria compartida dentro de cada motor de cómputo. Aquí no ha dejado cosa sin mejorar, incluida la precarga de instrucciones por parte de los planificadores de ejecución, la carga de texturas y otros. La potencia de rasterizado es notable.

El grueso de los cambios se lo lleva los aceleradores de trazado de rayos, y con diferencia. AMD habla de que ahora tienen el doble de rendimiento, atravesando la jerarquía de delimitadores de volúmenes (BVH) el doble de rápido, con un aumento de las primitivas que puede procesar por ciclo. Son bastantes cambios, entre los que también se incluyen la ejecución fuera de orden de las solicitudes hechas a memoria, lo cual puede mejorar el rendimiento y reducir la latencia. La idea es mantener la máxima ocupación posible de los aceleradores de rayos, realizando el acceso a memoria y la ejecución lo antes posible. Tiene sus problemas, porque puede haber descartes —procesamiento de información que se vuelva obsoleta—, pero normalmente este tipo de ejecuciones proporcionan más beneficios que pegas.

Todos estos cambios también habilitan el trazado de caminos, que es la versión avanzada del trazado de rayos, pero son lo mismo. La diferencia es que se calculan bastantes más rebotes por rayo para llegar al foco de manera directa o indirecta. El trazado de caminos tiene un impacto mucho mayor en el rendimiento porque requiere mucho más procesamiento, y la mejora de rendimiento de los aceleradores de rayos permiten que ahora se pueda usar. Probablemente se verá primeramente en Cyberpunk 2077 donde ya está implementado para las RTX. Aquí también intervienen los aceleradores de IA, porque permitirá quitar ruido por IA —un supermuestreo neuronal con eliminación de ruido—. La forma que tiene AMD de hacerlo es por aproximación, que ya se verá qué resultado da en la práctica.

Los retoques al motor de medios, que ahora es un motor dual, están orientados a que se pueda codificar y decodificar más rápido. AMD habla de una mejora del rendimiento del 50 % al codificar en AV1 y VP9, pero también afecta a otros códecs. Por ejemplo, un 25 % más de rendimiento en H.264 codificado en calidad y baja latencia, o un 11 % en HEVC en calidad.

También os dejo las trasparencias de la presentación de las RX 9070 en sí, que abunda en ciertos detalles, pero no hay nada que no haya dicho en anteriores artículos.