华人研究小组打破Token壁垒,扩散模型效能远超自回归模型三倍!
发布时间:2025-08-13 18:12:46 | 责任编辑:吴昊 | 浏览量:19 次
在 AI 领域,Token 的数量限制一直是一个亟待解决的问题。最近,一项由华人团队完成的研究引起了广泛关注,研究显示,扩散语言模型在 Token 数量受限的情况下,展现出比自回归模型多三倍的数据学习潜力。这一发现可能会为未来的语言模型训练开辟新局面。
这项研究的核心是一个参数规模为10亿的扩散模型,团队使用10亿个 Token 进行了480个周期的训练。在 HellaSwag 和 MMLU 基准测试中,该模型分别达到了56% 和33% 的准确率,且训练过程中未使用任何特殊技巧或数据筛选。更令人惊讶的是,即使在极度重复的数据训练中,模型的性能仍未出现饱和,表明它可以从同一数据中提取出更多有用的信息。
研究人员分析了扩散语言模型的强大数据学习能力,归结为两个主要原因。首先,扩散模型采用了双向建模和扩散目标,这使其能够更全面地挖掘数据中的信息,而传统的自回归模型在处理数据时存在因果限制。其次,扩散模型的计算密度更高,它在训练和推理过程中投入了更多计算资源,通过多次处理数据来优化预测,从而提升了模型的整体性能。
尽管扩散模型对数据的重复使用表现出一定的鲁棒性,研究团队发现,随着训练周期的增加,模型会出现过拟合现象。然而,令人惊讶的是,即使在过拟合的情况下,模型在下游任务中的性能并没有立即下降,反而有时会继续提升。这是因为验证损失的变化与下游任务的准确率之间并不总是呈正相关,模型在处理有限的训练数据时,可能会对某些文本片段表现出过于自信。
这项研究的发现为未来 AI 模型的训练方法提供了新的思路,尤其在 Token 数量受限的情况下,扩散语言模型的应用前景将更加广阔。研究团队计划在接下来的工作中使用更大的模型和更多独特的数据,以进一步验证这些发现。
华人团队破解Token限制,扩散模型潜力超越自回归三倍!
近日,新加坡国立大学等机构的华人团队研究发现,扩散语言模型(DLMs)在Token受限时展现出比自回归模型高三倍的数据学习能力。研究采用10亿参数模型,经480个周期训练后,在HellaSwag(常识推理基准)和 MMLU(综合多任务语言理解基准)测试中,扩散模型仅用10亿tokens训练,就达到了56%和33%的准确率,显著优于自回归模型。此外,重复训练次数越多,扩散模型的提升越明显,且未出现性能饱和现象。
扩散模型通过离散状态扩散技术和双向建模能力,能从有限数据中提取更多信息,打破了自回归模型因果建模的局限,为破解高质量训练数据(tokens)枯竭危机提供了新思路。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。