Google reduce el consumo de memoria de la IA hasta seis veces con TurboQuant

Google réduit la consommation de mémoire IA jusqu'à six fois avec TurboQuant

  • Pouls d'ombre
  • 31 mars 2026
  • 4 minutes

Google Research a révélé Turquie, un algorithme de compression réduisant la mémoire de travail ( cache KV) du IA jusqu'à six fois sans perte de qualité significative. La technique, basée sur la quantification vectorielle, permet aux centres de données d'exécuter des inférences avec beaucoup moins de RAM ou de HBM, ce qui représente une économie significative pour les utilisateurs finaux. Cependant, les nouvelles représentent un succès pour les fabricants de mémoire tels que Micron, Samsung et SK Hynix, dont les parts ont chuté de plus de 20% après l'annonce. Bien qu'elle n'affecte que la phase d'inférence, l'avancée ouvre la porte à une nouvelle ère d'efficacité en intelligence artificielle.

[mouvement quotidien = x9tobnq] [twitter = 2036874449354711249] [twitter = 2036755007131853254] [twitter = 2036697911262908912]

Quelle est la cache KV et pourquoi est-ce important?

Les cache KV est la mémoire de travail que les modèles de langue utilisent pour stocker les clés et les valeurs de chaque jeton traité pendant une conversation. Chaque nouveau jeton est ajouté à ce cache, qui fait croître sa taille proportionnellement à la longueur du dialogue. Dans la phase d'inférence, cette mémoire devient l'un des goulets d'étranglement les plus critiques, obligeant les centres de données à se doter de grandes quantités de RAM ou de HBM pour maintenir le flux de l'échange.

Lorsque cache au-delà des limites de capacité, la performance est dégradée et les coûts opérationnels augmentent, car il faut plus de puces de mémoire et de consommation d'énergie. Par conséquent, réduire la taille du cache KV sans sacrifier la précision du modèle est un objectif prioritaire pour la communauté de IA, puisqu'il permet d'étendre les applications conversationnelles sans encourir des coûts excessifs.

Turbquant : la technique qui compresse le cache six fois

TurboQuant utilise une forme de quantification du vecteur qui transforme les valeurs stockées dans le cache KV en représentations plus compactes. L'algorithme maintient la précision du modèle en appliquant une réduction de bits soigneusement calibrée, de sorte que l'information essentielle soit conservée et que la perte de qualité soit pratiquement imperceptible pour l'utilisateur final. Les résultats publiés par Google Research montrent une réduction de la consommation de mémoire jusqu'à six fois durant les longues inférences.

Le processus est effectué exclusivement dans la phase d'inférence, de sorte que le formation Les modèles nécessitent encore de grands volumes de mémoire. Cependant, en appliquant TurboQuant, les serveurs peuvent exécuter plus de sessions simultanées avec le même matériel, ce qui entraîne une plus grande efficacité et des coûts d'exploitation moins élevés pour les fournisseurs de IA.

Impact pour les fabricants de mémoire et le marché

Les Avis a conduit à une baisse significative de la valeur des actions des entreprises dédiées à la production de DRAM et HBM, tels que Micron, Samsung et SK Hynix, qui ont vu leurs contributions s'effondrer d'environ 24% en quelques jours. L'attente d'une baisse de la demande de puces à haute capacité crée une incertitude quant aux revenus futurs de ces fabricants, qui avaient bénéficié d'une phase de bonus entraînée par la « crise RAM ».

Bien que compression Elle n'affecte que l'inférence, son adoption à grande échelle pourrait faire baisser les prix des services IA, au bénéfice des utilisateurs finaux et des grandes plateformes qui vendent des jetons. L'impact réel dépendra de la rapidité avec laquelle les fournisseurs intègrent TurboQuant dans leur infrastructure et de la réponse du marché de la mémoire à cette possible réduction de la demande.