首页 > 快讯 > 革新循环模型：500 步训练攻克超长序列难题！

革新循环模型：500 步训练攻克超长序列难题！

发布时间：2025-07-08 14:57:40 | 责任编辑：张毅 | 浏览量：54 次

在深度学习的领域，循环神经网络（RNN）和 Transformer 模型各有千秋。近期研究发现，线性循环模型(如 Mamba)凭借其优越的序列处理能力，正在逐渐挑战 Transformer 的地位。尤其是在处理极长序列的任务上，循环模型展现出了巨大的潜力，远远超出传统 Transformer 模型的局限性。
Transformer 模型在处理长上下文时，往往受到固定上下文窗口的限制，计算复杂度也随着序列长度的增加而迅速上升，导致性能下降。而线性循环模型则能够更灵活地处理长序列，这是它们的一大优势。然而，以往循环模型在短序列上的表现往往不及 Transformer，导致其在实际应用中受到限制。
最近，来自卡内基梅隆大学和 Cartesia AI 的研究者们提出了一种创新的方法来提升循环模型在长序列上的泛化能力。他们发现，只需500步的简单训练干预，循环模型便能够处理长达256k 的序列，展现出惊人的泛化能力。这项研究表明，循环模型并非存在根本缺陷，而是其潜力尚未被充分挖掘。
研究团队提出了一个新的解释框架，称为 “未探索状态假说”。该假说指出，循环模型在训练过程中只接触到有限的状态分布，导致在面对更长序列时表现不佳。为了实现长度泛化，研究者们提出了一系列训练干预措施，包括使用随机噪声、拟合噪声和状态传递等方法。这些措施使得模型能够在长序列的训练中有效泛化，表现显著提升。
值得一提的是，这些干预方法不仅能提升模型的性能，还能保持状态的稳定性，使得循环模型在长上下文任务中表现出色。研究者们通过一系列实验，证明了这些方法在实际应用中的有效性，为循环模型的发展开辟了新的方向。

近期，循环模型在处理超长序列方面取得了重大突破。根据最新的研究，通过简单的训练干预，循环模型能够在仅经过约500步的后训练（约占预训练预算的0.1%）后，成功实现高达256k长度的序列泛化。

研究背景

循环模型（如Mamba）在处理极长序列时具有显著优势，但过去它们在超出训练长度的序列上表现不佳，主要原因是模型在训练过程中未接触到足够多样的状态分布。这一问题被称为“未探索状态假说”（Unexplored States Hypothesis），即模型仅学习了有限训练步数内的状态分布，而在处理更长序列时会遇到未被探索过的状态，从而导致性能下降。

训练干预方法

为了解决这一问题，研究者提出了几种训练干预措施，目的是让模型在训练阶段接触到更多样的状态分布。这些方法包括：

随机噪声（Random Noise）：将模型状态初始化为独立同分布（IID）高斯噪声。
拟合噪声（Fitted Noise）：使用训练过程中记录的序列最终状态的均值和标准差来初始化状态。
状态传递（State Passing，SP）：使用先前序列的最终状态作为初始状态。
TBTT（Truncated Backpropagation Through Time）：将长序列划分为多个较小片段，将每个片段的最终状态作为下一个片段的初始状态。

实验结果

实验表明，状态传递（SP）和TBTT机制能够有效实现长度泛化。例如，在370M参数规模的模型中，拟合噪声干预有效，而随机噪声干预未能实现长度泛化。此外，这些干预方法还能解决模型状态范数随时间增长的问题，使模型在所有时间步输出的状态保持相近的范数，从而提升整体稳定性。

长上下文任务表现

这些干预措施不仅提升了模型的长度鲁棒性，还增强了其在长上下文任务中的表现。例如，在BABILong基准测试中，状态传递显著增强了模型的长度泛化能力。在密码检索任务中，经过拟合噪声微调的模型能够利用超过2048个位置之间的token关系，成功解决长度为256k的序列任务。

总结

通过简单的训练干预，循环模型能够在极低的训练成本下实现超长序列的泛化，这为循环模型在长上下文任务中的应用提供了新的可能性。这一突破不仅解决了循环模型在长序列上的关键短板，还展示了其在长记忆建模方面的巨大潜力。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。