谷歌 TurboQuant 最新发布:LLM 键值缓存内存缩小 6 倍,性能加速 8 倍,且无精度牺牲、无需重新训练!
发布时间:2026-03-26 18:55:18 | 责任编辑:吴昊 | 浏览量:3 次
3月26日消息,谷歌研究团队(Google Research)近日正式推出全新向量量化压缩算法TurboQuant,通过创新的 PolarQuant 与 QJL 技术,将大语言模型(LLM)推理过程中的 ** 键值缓存(KV Cache)** 内存需求减少至少6倍,在 Nvidia H100GPU 上注意力计算速度提升最高8倍,且在多项长上下文基准测试中实现零精度损失。这一突破性进展有望大幅降低 AI 部署成本,加速长上下文应用落地。
LLM 在处理长序列时,需要维护键(Key)和值(Value)向量组成的缓存,这些高维向量用于快速计算注意力机制,避免重复计算。但随着上下文长度增加,KV Cache 内存消耗呈爆炸式增长,成为制约模型推理效率和部署规模的主要瓶颈。
传统向量量化方法虽能压缩数据,却需额外存储量化常数(如缩放因子、零点等),这些常数通常以全精度保存,每个数值额外引入1-2bit 开销,部分抵消了压缩收益。
TurboQuant 采用两阶段无训练压缩框架,巧妙解决了传统量化的开销问题:
PolarQuant(极坐标角度压缩):
先对向量进行随机旋转,然后将笛卡尔坐标(X/Y/Z 等)转换为极坐标形式(角度 + 半径)。由于角度分布在固定可预测范围内,该方法省去了传统量化中所需的边界归一化存储开销,实现更高效的压缩。
QJL(1-bit 纠错,Quantized Johnson-Lindenstrauss):
PolarQuant 压缩后仍存在残余误差。QJL 利用 Johnson-Lindenstrauss 变换进行降维,再以极简的1bit(+1/-1符号)进行量化。通过特殊的无偏估计器,在计算注意力分数时实现零额外内存开销的误差修正,确保整体过程无系统偏差。
两者结合后,TurboQuant 可将 KV Cache 压缩至约3-bit 级别,同时保持内积估计的无偏性和高精度。
谷歌团队在 Gemma、Mistral 等开源模型上进行了广泛验证:
此外,在 GloVe 等向量数据集上,TurboQuant 的召回率也优于 PQ、RabbiQ 等传统方法。
小编 点评:TurboQuant 无需模型重训或微调,可直接应用于现有 LLM,适用于任何依赖向量量化的场景,包括数据库检索、推荐系统和向量搜索引擎。这不仅能让单张消费级 GPU 支持更长的上下文(如数十万 token),还显著降低企业级 AI 服务的硬件门槛。
随着长上下文、多模态应用爆发,KV Cache 内存已成为 AI 基础设施的核心制约。TurboQuant 的“近最优、数据无关”量化框架,为高效推理开辟新路径。谷歌研究表示,该技术已在 ICLR2026等会议相关论文中详细阐述,相关代码和实现细节有望逐步开源。
未来,TurboQuant 有望被集成到 vLLM、TensorRT 等主流推理框架中,进一步推动 AI 部署的民主化与规模化。
这是一篇关于谷歌 TurboQuant 重磅发布:LLM 键值缓存内存压缩 6 倍、速度提升 8 倍,零精度损失、无需训练!的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
