Las continuas sanciones a la venta de chips a China que tengan relación con tecnología estadounidense ha afectado a su desarrollo de las IA. No solamente la compra de aceleradoras extranjeras, sino también a la compra de la HBM que se usa en ellas. Si pudiera comprarla, las GPU del país están suficientemente evolucionadas como para no necesitar las aceleradoras de NVIDIA y AMD. Pero lo que no puede obtener físicamente, China lo está solucionando en el plano lógico. En esta ocasión, con una herramienta llamada Gestor de Caché Unificada (GCU).
El entrenamiento de las inteligencias artificiales generativas requiere cantidades ingentes de memoria porque hay que almacenar de unos pocos miles a decenas de miles de millones de parámetros, dependiendo de lo compleja o avanzada que sea. Se guardan palabras, fragmentos, símbolos y su relación con conceptos en forma de valores numéricos. Además, son decenas de capas que almacenan información, porque cada una se dedica a una cosa —gramática, ortografía, relación semántica, la relación entre conceptos, etc.—. Así que para entrenar, cuanta más memoria haya más se puede aumentar las relaciones entre conceptos o palabras, por ejemplo, añadir nuevas capas, etc., lo cual mejora el modelo.
La idea de Huawei es que no haga falta memoria de alta velocidad para funcionar, sino que se pueda hacer con DRAM normal o incluso con SSD. La herramienta GCU establece una jerarquía de caché para el uso de los distintos tipos de memoria en función de su latencia para que la velocidad del entrenamiento o ejecución se ajuste a las características de cada uso práctico. Puede llevar más tiempo el entrenamiento o ejecución, pero si a cambio se pueden aumentar la complejidad del modelo, pues ni tan mal.
Huawei habla de hasta un 90 % de reducción en la latencia, un aumento del 2000 % en el rendimiento de inferenciación (ejecución) de los modelos de IA en sistemas con DRAM y SSD. Lo cual podría facilitar muchísimo al menos la parte de ejecución, que es para lo que realmente no se necesitan las aceleradoras de NVIDIA. Solo se necesita un equipo con suficiente memoria para tener el modelo entero en memoria.
China está acelerando el desarrollo y producción de HBM, pero actualmente produce HBM2 con el objetivo de producir HBM3 el próximo año. Eso será a través de CXMT, que es la diseñadora de chips de memoria más avanzada del país, y que actualmente produce DDR5 en creciente cantidad.
Vía: Tom's Hardware.