首页 > 快讯 > 预训练不等于更强大，研究揭示大语言模型的 “灾难性过度训练” 现象

预训练不等于更强大，研究揭示大语言模型的 “灾难性过度训练” 现象

发布时间：2025-04-14 11:42:39 | 责任编辑：字母汇 | 浏览量：104 次

近日，来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型（LLMs）训练的新发现:并不是预训练的数据越多，模型的表现就越好。相反，他们指出，过度的预训练可能会导致模型性能下降，出现一种被称为 “灾难性过度训练” 的现象。
在一项研究中，研究者们对 OLMo-1B 模型进行了比较，分别对其进行了2.3万亿和3万亿个标记的训练。出乎意料的是，虽然第二个模型接受了更多的数据训练，但其在一些基准测试（例如 AlpacaEval 和 ARC）的表现却下降了多达3%。这引发了人们对传统观点的质疑:多训练是否真的意味着更好?
研究者解释称，这种性能下降与 “渐进敏感性” 现象有关。随着模型接受的标记数量增加，模型对微小变化变得更加脆弱。比如，在微调过程中即使是一些小的调整或噪音的引入，都可能导致先前的训练效果被逆转。为了验证这一点，研究者们在模型中注入高斯噪声，结果显示，经过更长时间训练的模型性能下降得更加明显。
在研究中，作者提出了一个关键概念，即 “拐点”，即在这个点上，额外的训练开始导致性能的下降，而不是提升。对于较小的模型如 OLMo-1B 来说，这一拐点通常出现在超过2.5万亿个标记之后。研究者警告说，“灾难性过度训练” 可能是不可避免的，尤其是在预训练和微调任务不匹配的情况下。
虽然研究者并没有建议完全放弃预训练，但他们强调，开发者应该认真思考预训练的量要适度。研究的结论呼吁在模型扩展方面重新审视整个训练流程的设计。对于那些追求模型规模的 AI 开发者而言，这项研究传达的信息十分明确:有时候，少就是多。

近日，来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型（LLMs）训练的新发现：过度的预训练可能会导致模型性能下降，出现一种被称为“灾难性过度训练”的现象。

研究发现

实验结果：研究人员对OLMo-1B模型进行了比较，分别对其进行了2.3万亿和3万亿个标记的训练。结果显示，接受3万亿标记训练的模型在一些基准测试（如AlpacaEval和ARC）中的表现下降了多达3%，甚至不如仅用1.5万亿标记训练的模型。
关键机制：这种性能下降与“渐进敏感性”现象有关。随着模型接受的标记数量增加，模型对微小变化变得更加脆弱。例如，在微调过程中，即使是小的调整或噪音的引入，都可能导致先前的训练效果被逆转。

现象解释

敏感度增加：长时间的预训练会使模型对各种修改的广义敏感度系统性增加，导致模型在后续微调时更容易“遗忘”之前学到的知识。
拐点现象：研究中提出了“拐点”概念，即在这个点上，额外的训练开始导致性能下降。对于OLMo-1B模型，这一拐点通常出现在超过2.5万亿个标记之后。

影响与建议

重新审视训练策略：该研究挑战了“扩大预训练数据规模绝对有益”的普遍假设，提示开发者在追求模型规模时，应重新审视整个训练流程的设计。
优化训练管道：研究建议，重点应从单纯扩大数据和模型规模，转向优化整个训练管道，以平衡基础模型质量和训练后的适应能力。

这项研究为大语言模型的开发提供了新的视角，提醒人们在模型训练中寻找合适的平衡点，避免“灾难性过度训练”对模型性能的负面影响。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。