首页 > 快讯 > PHD-Transformer 由字节Seed 团队发布，有效增幅了预训练模型长度并克服了 KV 缓存难题！

PHD-Transformer 由字节Seed 团队发布，有效增幅了预训练模型长度并克服了 KV 缓存难题！

发布时间：2025-04-28 16:29:43 | 责任编辑：张毅 | 浏览量：88 次

近日，字节跳动的 Seed 团队在人工智能领域再传佳音，推出了一种新型的 PHD-Transformer（Parallel Hidden Decoding Transformer），这项创新突破了预训练长度的限制，有效解决了推理过程中的 KV 缓存膨胀问题。随着大型推理模型的迅速发展，研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链，并在复杂的推理任务上取得了显著成果。受到启发，字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。
传统的长度扩展方法常常涉及在序列中插入文本或潜在向量，这些方式往往导致 KV 缓存占用过多内存，推理速度慢。而 PHD-Transformer 则采用了一种更为简便的策略 —— 直接重复输入的 tokens。尽管这种方法在训练损失和模型性能上有明显的提升，却也带来了 KV 缓存线性增长、内存压力加大和解码延迟等新问题。
为了解决这些挑战，PHD-Transformer 通过创新的 KV 缓存管理策略，保留了与原始 Transformer 相同的缓存大小。在推理时，PHD-Transformer 只保留由原始 tokens 生成的 KV 缓存，而对重复的 tokens 则在预测后立即丢弃，显著加快了推理速度。此外，研究团队还引入了滑动窗口注意力机制，称之为 PHD-SWA，以保持局部滑动窗口缓存的性能优势。为进一步优化预填充时间，研究者提出了逐块滑动窗口注意力机制 PHD-CSWA，限制了每个块内的顺序依赖，从而大幅缩短了预填充时间。
在一系列实验中，PHD-CSWA 表现出色，在多个公开基准测试集上均实现了准确率的提升。研究团队表示，PHD-CSWA 在保持原有效率的同时，为模型带来了更大的性能提升，标志着在大规模推理任务中，预训练长度扩展取得了实质性进展。

字节跳动Seed团队最近推出了一种名为PHD-Transformer（Parallel Hidden Decoding Transformer）的模型架构，成功解决了预训练长度扩展和KV缓存问题。

PHD-Transformer的核心创新

PHD-Transformer通过一种创新的KV缓存管理策略，实现了预训练长度的有效扩展，同时保持了与原始Transformer相同的KV缓存大小。具体来说：

重复输入tokens：研究者通过直接重复输入tokens（例如重复1到4次），而不是在中间层进行复杂处理，观察到训练损失和模型性能随重复倍数的扩展趋势。
KV缓存优化：PHD-Transformer将第一个token视为原始token，其余重复的token视为解码token。它仅保留从原始token生成的KV缓存用于长距离依赖建模，并在解码token用于下一个token预测后丢弃其KV缓存。
滑动窗口注意力机制：为了进一步提升性能，研究者引入了PHD-SWA（滑动窗口注意力）和PHD-CSWA（逐块滑动窗口注意力）。PHD-SWA通过为隐藏解码token保留局部滑动窗口缓存，实现了显著的性能提升，同时仅需要少量额外的KV缓存内存。PHD-CSWA则通过限制每个块内的顺序依赖关系，显著缩短了预填充时间。

实验结果

PHD-Transformer及其变体在多个基准测试中表现出色：

PHD-CSWA-2-16-32：token重复两次，保留16个token的局部窗口，块大小为32。在基准测试中平均准确率提升了1.5%，训练损失降低了0.025。
PHD-CSWA-3-16-32：token重复三次，局部窗口和块大小与上述设置相同。平均准确率提升了2.0%，训练损失降低了0.034。
扩展性能：当扩展因子设置为5时，所有基准测试的平均准确率提高了1.8%，证实了该方法在更激进的扩展方面仍然有效。

优势与意义

PHD-Transformer的主要优势在于：

保持KV缓存大小不变：与简单重复tokens的方法相比，PHD-Transformer在推理过程中保持了与原始Transformer相同的KV缓存大小，避免了KV缓存规模线性增加的问题。
显著提升推理效率：通过优化KV缓存管理和注意力机制，PHD-Transformer在推理速度上实现了显著提升，同时降低了内存压力。
性能提升：在多个基准测试中，PHD-Transformer及其变体均实现了持续的性能提升，证明了其在预训练长度扩展方面的有效性。

PHD-Transformer的推出为Transformer架构的改进提供了新的思路，特别是在预训练长度扩展和KV缓存管理方面，为未来大模型的研究和应用提供了重要的参考。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。