
Google reduziert den IA-Speicherverbrauch bis zu sechs Mal mit TurboQuant
Google Research hat ergeben Türkei, ein Algorithmus von Kompression Reduzierung des Arbeitsspeichers (KV-Cache) der IA bis zu sechs Mal ohne signifikanten Qualitätsverlust. Die Technik, basierend auf der Vektorquantifizierung, ermöglicht es Datenzentren, Inferenzen mit viel weniger RAM oder HBM zu führen, was eine signifikante Einsparung für Endnutzer ist. Die Nachrichten stellen jedoch einen harten Hit für Speicherhersteller wie Micron, Samsung und SK Hynix dar, deren Aktien nach der Ankündigung mehr als 20% gefallen sind. Obwohl es nur die Inferenzphase betrifft, öffnet der Fortschritt die Tür zu einer neuen Ära der Effizienz in der künstlichen Intelligenz.
[dailymotion = x9tobnq] [twitter = 2036874449354711249] [twitter = 2036755007131853254] [twitter = 2036697911262908912]
Was ist der KV-Cache und warum spielt er eine Rolle?
Die KV-Cache ist der Arbeitsspeicher, den Sprachmodelle verwenden, um Schlüssel und Werte jedes während eines Gesprächs verarbeiteten Tokens zu speichern. Jeder neue Token wird zu diesem Cache hinzugefügt, der seine Größe proportional zur Länge des Dialogs wächst. In der Inferenzphase wird dieser Speicher zu einem der kritischsten Engpässe und zwingt Rechenzentren, sich mit großen Mengen RAM oder HBM auszustatten, um den Fluss des Austausches zu erhalten.
Wenn Cache über Kapazitätsgrenzen wird die Leistung abgebaut und die Betriebskosten steigen, da mehr Speicherchips und Energieverbrauch benötigt werden. Daher ist die Verringerung der Größe des KV-Caches, ohne die Präzision des Modells zu opfern, ein vorrangiges Ziel für die Gemeinschaft von IA, da es erlaubt, Gesprächsanwendungen zu skalieren, ohne übermäßige Kosten zu verursachen.
Turbquant: die Technik, die den Cache sechs Mal komprimiert
TurboQuant verwendet eine Form von Vektorquantifizierung die die im KV-Cache gespeicherten Werte in kompaktere Darstellungen transformiert. Der Algorithmus behält die Präzision des Modells bei, indem er eine sorgfältig kalibrierte Bitreduktion anwendet, so dass die wesentlichen Informationen gespeichert und der Qualitätsverlust für den Endverbraucher praktisch unmerkbar ist. Die von Google Research veröffentlichten Ergebnisse zeigen eine Reduzierung von bis zu sechs Mal im Speicherverbrauch während langer Inferenzen.
Das Verfahren wird ausschließlich in der Inferenzphase durchgeführt, so dass Ausbildung Modelle benötigen noch große Speichervolumen. Durch die Anwendung von TurboQuant können Server jedoch gleichzeitigere Sitzungen mit derselben Hardware ausführen, was zu einer höheren Effizienz und geringeren Betriebskosten für die Anbieter von IA.
Auswirkungen für Speicherhersteller und den Markt
Die Ankündigung hat zu einem signifikanten Rückgang des Wertes der Aktien von Unternehmen gewidmet der Produktion von DRAM und HBM, wie Micron, Samsung und SK Hynix geführt, die ihre Beiträge in einigen Tagen um etwa 24% zusammenbrachen. Die Erwartung einer geringeren Nachfrage nach Hochleistungschips führt zu Unsicherheiten über die zukünftigen Einnahmen dieser Hersteller, die eine von der "RAM-Krise" getriebene Bonusphase genossen hatten.
Obwohl Kompression Es wirkt sich nur auf die Inferenz aus, seine groß angelegte Annahme könnte die Preise von IA-Diensten senken, Endbenutzer und die großen Plattformen, die Token verkaufen. Die realen Auswirkungen hängen von der Geschwindigkeit ab, mit der Anbieter TurboQuant in ihre Infrastruktur integrieren und die Reaktion des Speichermarktes auf diese mögliche Nachfragereduktion.
