首页 > 快讯 > PHD-Transformer 由字节Seed 团队发布,有效增幅了预训练模型长度并克服了 KV 缓存难题!

PHD-Transformer 由字节Seed 团队发布,有效增幅了预训练模型长度并克服了 KV 缓存难题!

发布时间:2025-04-28 16:29:43 | 责任编辑:张毅 | 浏览量:5 次

近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了预训练长度的限制,有效解决了推理过程中的 KV 缓存膨胀问题。随着大型推理模型的迅速发展,研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链,并在复杂的推理任务上取得了显著成果。受到启发,字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。
传统的长度扩展方法常常涉及在序列中插入文本或潜在向量,这些方式往往导致 KV 缓存占用过多内存,推理速度慢。而 PHD-Transformer 则采用了一种更为简便的策略 —— 直接重复输入的 tokens。尽管这种方法在训练损失和模型性能上有明显的提升,却也带来了 KV 缓存线性增长、内存压力加大和解码延迟等新问题。
为了解决这些挑战,PHD-Transformer 通过创新的 KV 缓存管理策略,保留了与原始 Transformer 相同的缓存大小。在推理时,PHD-Transformer 只保留由原始 tokens 生成的 KV 缓存,而对重复的 tokens 则在预测后立即丢弃,显著加快了推理速度。此外,研究团队还引入了滑动窗口注意力机制,称之为 PHD-SWA,以保持局部滑动窗口缓存的性能优势。为进一步优化预填充时间,研究者提出了逐块滑动窗口注意力机制 PHD-CSWA,限制了每个块内的顺序依赖,从而大幅缩短了预填充时间。
在一系列实验中,PHD-CSWA 表现出色,在多个公开基准测试集上均实现了准确率的提升。研究团队表示,PHD-CSWA 在保持原有效率的同时,为模型带来了更大的性能提升,标志着在大规模推理任务中,预训练长度扩展取得了实质性进展。

PHD-Transformer 由字节Seed 团队发布,有效增幅了预训练模型长度并克服了 KV 缓存难题!

字节跳动Seed团队最近推出了一种名为PHD-Transformer(Parallel Hidden Decoding Transformer)的模型架构,成功解决了预训练长度扩展和KV缓存问题。

PHD-Transformer的核心创新

PHD-Transformer通过一种创新的KV缓存管理策略,实现了预训练长度的有效扩展,同时保持了与原始Transformer相同的KV缓存大小。具体来说:

  • 重复输入tokens:研究者通过直接重复输入tokens(例如重复1到4次),而不是在中间层进行复杂处理,观察到训练损失和模型性能随重复倍数的扩展趋势。

  • KV缓存优化:PHD-Transformer将第一个token视为原始token,其余重复的token视为解码token。它仅保留从原始token生成的KV缓存用于长距离依赖建模,并在解码token用于下一个token预测后丢弃其KV缓存。

  • 滑动窗口注意力机制:为了进一步提升性能,研究者引入了PHD-SWA(滑动窗口注意力)和PHD-CSWA(逐块滑动窗口注意力)。PHD-SWA通过为隐藏解码token保留局部滑动窗口缓存,实现了显著的性能提升,同时仅需要少量额外的KV缓存内存。PHD-CSWA则通过限制每个块内的顺序依赖关系,显著缩短了预填充时间。

实验结果

PHD-Transformer及其变体在多个基准测试中表现出色:

  • PHD-CSWA-2-16-32:token重复两次,保留16个token的局部窗口,块大小为32。在基准测试中平均准确率提升了1.5%,训练损失降低了0.025。

  • PHD-CSWA-3-16-32:token重复三次,局部窗口和块大小与上述设置相同。平均准确率提升了2.0%,训练损失降低了0.034。

  • 扩展性能:当扩展因子设置为5时,所有基准测试的平均准确率提高了1.8%,证实了该方法在更激进的扩展方面仍然有效。

优势与意义

PHD-Transformer的主要优势在于:

  • 保持KV缓存大小不变:与简单重复tokens的方法相比,PHD-Transformer在推理过程中保持了与原始Transformer相同的KV缓存大小,避免了KV缓存规模线性增加的问题。

  • 显著提升推理效率:通过优化KV缓存管理和注意力机制,PHD-Transformer在推理速度上实现了显著提升,同时降低了内存压力。

  • 性能提升:在多个基准测试中,PHD-Transformer及其变体均实现了持续的性能提升,证明了其在预训练长度扩展方面的有效性。

PHD-Transformer的推出为Transformer架构的改进提供了新的思路,特别是在预训练长度扩展和KV缓存管理方面,为未来大模型的研究和应用提供了重要的参考。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复