
Google reduce el consumo de memoria de la IA hasta seis veces con TurboQuant
Google Research ha revelado TurboQuant, un algoritmo de compresión que reduce la memoria de trabajo (KV cache) de los modelos de IA hasta seis veces sin pérdida apreciable de calidad. La técnica, basada en cuantización vectorial, permite que los centros de datos ejecuten inferencias con mucho menos RAM o HBM, lo que supone un ahorro significativo para los usuarios finales. Sin embargo, la noticia representa un golpe duro para los fabricantes de memorias como Micron, Samsung y SK Hynix, cuyas acciones han caído más del 20 % tras el anuncio. Aunque solo afecta a la fase de inferencia, el avance abre la puerta a una nueva era de eficiencia en la inteligencia artificial.
[dailymotion=x9tobnq] [twitter=2036874449354711249] [twitter=2036755007131853254] [twitter=2036697911262908912]
¿Qué es la KV cache y por qué importa?
La KV cache es la memoria de trabajo que los modelos de lenguaje utilizan para almacenar claves y valores de cada token procesado durante una conversación. Cada nuevo token se añade a esta caché, lo que hace que su tamaño crezca proporcionalmente a la longitud del diálogo. En la fase de inferencia, esta memoria se convierte en uno de los cuellos de botella más críticos, obligando a los centros de datos a equiparse con grandes cantidades de RAM o HBM para mantener la fluidez del intercambio.
Cuando la caché supera los límites de capacidad, el rendimiento se degrada y los costes operativos aumentan, ya que se requieren más chips de memoria y mayor consumo energético. Por eso, reducir el tamaño de la KV cache sin sacrificar la precisión del modelo es un objetivo prioritario para la comunidad de IA, pues permite escalar aplicaciones conversacionales sin incurrir en gastos excesivos.
Turbquant: la técnica que comprime la caché seis veces
TurboQuant emplea una forma de cuantización vectorial que transforma los valores almacenados en la KV cache en representaciones más compactas. El algoritmo mantiene la precisión del modelo al aplicar una reducción de bits cuidadosamente calibrada, de modo que la información esencial se conserva y la pérdida de calidad es prácticamente imperceptible para el usuario final. Los resultados publicados por Google Research muestran una reducción de hasta seis veces en el consumo de memoria durante inferencias largas.
El proceso se realiza exclusivamente en la fase de inferencia, por lo que el entrenamiento de los modelos sigue requiriendo grandes volúmenes de memoria. Sin embargo, al aplicar TurboQuant, los servidores pueden ejecutar más sesiones simultáneas con el mismo hardware, lo que se traduce en una mayor eficiencia y menores costes operativos para los proveedores de IA.
Repercusiones para fabricantes de memoria y el mercado
El anuncio ha provocado una caída notable en el valor de las acciones de empresas dedicadas a la producción de DRAM y HBM, como Micron, Samsung y SK Hynix, que han visto sus cotizaciones desplomarse alrededor de un 24 % en pocos días. La expectativa de una menor demanda de chips de alta capacidad genera incertidumbre sobre los ingresos futuros de estos fabricantes, que habían disfrutado de una fase de bonanza impulsada por la “crisis de la RAM”.
Aunque la compresión solo afecta a la inferencia, su adopción a gran escala podría presionar a la baja los precios de los servicios de IA, beneficiando a los usuarios finales y a las grandes plataformas que venden tokens. El verdadero impacto dependerá de la velocidad con la que los proveedores integren TurboQuant en sus infraestructuras y de la respuesta del mercado de memorias ante esta posible reducción de demanda.
