当大模型的竞争还停留在“谁更大、谁更强”时,Google 正试图改写另一条更底层的规则:
AI,不一定要消耗那么多内存。
最新发布的 TurboQuant 压缩算法,把这一点推向了现实边界——在几乎不损失精度的前提下,将大模型推理中的关键内存占用压缩至原来的 1/6,甚至更低。
资本市场的反应也很直接:
Micron Technology 等存储厂商股价应声下挫。
要理解 TurboQuant 的冲击力,必须先看一个关键结构:KV Cache(键值缓存)。
在 LLM 推理过程中:
问题在于:
上下文越长,KV Cache 增长越快,最终吞噬显存。
尤其在长上下文(如 100K tokens+)时代:
传统 LLM 中:
而 TurboQuant 直接把它压到:
👉 3-bit(极限)或 4-bit(实用)
这意味着什么?
同时在 NVIDIA H100 GPU 测试中:
一句话总结:
更小、更快,还不降精度
量化并不是新东西,但过去的方法有一个致命问题:
👉 “隐藏开销”
传统向量量化(Vector Quantization):
看似只多:
但在超长上下文下:
这些“额外bit”会指数级累加,抵消压缩收益
Google 的方案,本质是“绕开传统量化逻辑”。
👉 类似“把数据整理好再压缩”
Johnson-Lindenstrauss Lemma
👉 本质是:
在低维空间里“重建准确性”
最终效果:
TurboQuant影响的不是某个模型,而是整个 AI 基础设施结构。
如果 KV Cache 内存 ↓ 6 倍:
👉 AI服务价格可能进一步下探
过去的逻辑:
模型越大 → 显存越多 → 买更多内存
现在可能变成:
算法优化 → 内存需求下降 → 硬件扩张放缓
这直接冲击:
市场为何立刻反应?
因为存储行业的核心逻辑是:
AI = 内存需求爆炸 = 业绩增长
而 TurboQuant 提供了一个反向叙事:
AI增长 ≠ 内存线性增长
于是:
这不是基本面立刻变化,而是:
👉 未来预期被重写
大多数模型优化方法:
而 TurboQuant:
这意味着:
它更像一个“基础设施级补丁”
一旦成熟,可能被:
快速普及。
该论文将于:
这意味着:
TurboQuant 的真正意义,不只是一个压缩算法,而是一个信号:
AI 的下一阶段竞争,不是更大,而是更省。
过去两年:
接下来可能变成:
而这,恰恰是技术革命最典型的路径。
对于 Google 来说,这是一次典型的“底层反击”;
对于行业来说,这是一次对既有增长逻辑的冷水。
至于存储厂商是否真的会被“颠覆”——
现在下结论还太早。
但可以确定的是:
AI 的算力故事,开始出现变量了。