TurboQuant de Google reduce la necesidad de DRAM hasta seis veces y sacude el mercado de memoria

LunaVortex
Marzo 29, 2026
3 minutos

Google ha presentado TurboQuant, una innovadora técnica de compresión de datos diseñada para el key‑value cache de los modelos de lenguaje. Según la propia empresa, esta solución puede reducir hasta seis veces la memoria DRAM necesaria sin perder precisión y, en algunos casos, mejorar el rendimiento. La compresión llega a 3 bits por valor y no requiere re‑entrenar los modelos. El anuncio ha provocado una reacción inmediata en los mercados: las acciones de los principales fabricantes de memoria, como Samsung Electronics, SK Hynix y Micron, cayeron de forma pronunciada ante el temor de una menor demanda de DRAM y HBM.

Cómo funciona TurboQuant

TurboQuant actúa directamente sobre el key‑value cache que utilizan los modelos de lenguaje durante la inferencia. La técnica codifica cada entrada en apenas 3 bits, lo que equivale a una compresión de hasta 6 veces respecto a la representación tradicional de 16 bits. Este proceso se realiza en tiempo real y no requiere modificar el modelo ni volver a entrenarlo, lo que permite su integración inmediata en los centros de datos existentes.

Además de la reducción de espacio, la compresión mantiene la precisión en tareas complejas como traducción o razonamiento lógico. En pruebas internas, Google reportó que los modelos comprimidos con TurboQuant alcanzaron resultados equivalentes a los originales, mientras que en GPUs como la NVIDIA H100 se observó una mejora de rendimiento de hasta un 20 % gracias a la menor carga de memoria.

Reacción del mercado ante TurboQuant

El anuncio provocó una caída abrupta en las cotizaciones de los principales fabricantes de memoria. Samsung Electronics, SK Hynix y Micron vieron sus acciones perder entre un 4 % y un 7 % en las primeras horas de negociación, reflejando el temor de los inversores a una disminución sostenida de la demanda de DRAM y HBM. La noticia ha reavivado el debate sobre la dependencia del hardware en la expansión de la IA.

Sin embargo, algunos analistas advierten que la compresión también podría impulsar una mayor adopción de IA al reducir los costos operativos. Al necesitar menos memoria por servidor, los centros de datos podrían escalar más rápidamente sus infraestructuras, lo que a la larga podría compensar la caída inicial de la demanda de chips de memoria.

Futuro de la IA con menos dependencia de la memoria

A medida que técnicas como TurboQuant se generalicen, la arquitectura de los sistemas de IA podría evolucionar hacia diseños más ligeros y eficientes. Los proveedores de hardware podrían enfocarse en mejorar la velocidad y la capacidad de cómputo en lugar de ampliar la densidad de memoria, lo que abriría nuevas oportunidades para innovaciones en chips especializados y en la integración de software‑hardware.

Los analistas prevén que, a largo plazo, la presión sobre los precios de la DRAM podría estabilizarse, mientras que la eficiencia ganada impulsará la competitividad de los proveedores que adopten soluciones de compresión. Así, la carrera por la supremacía en IA podría definirse más por la optimización del software que por la capacidad bruta de la memoria.

Hardzone

Innovación

TurboQuant de Google reduce la necesidad de DRAM hasta seis veces y sacude el mercado de memoria

Cómo funciona TurboQuant

Reacción del mercado ante TurboQuant

Futuro de la IA con menos dependencia de la memoria

Buscar

About

Categorías

Links