首页 > 快讯 > 预训练不等于更强大,研究揭示大语言模型的 “灾难性过度训练” 现象

预训练不等于更强大,研究揭示大语言模型的 “灾难性过度训练” 现象

发布时间:2025-04-14 11:42:39 | 责任编辑:字母汇 | 浏览量:14 次

近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。相反,他们指出,过度的预训练可能会导致模型性能下降,出现一种被称为 “灾难性过度训练” 的现象。
在一项研究中,研究者们对 OLMo-1B 模型进行了比较,分别对其进行了2.3万亿和3万亿个标记的训练。出乎意料的是,虽然第二个模型接受了更多的数据训练,但其在一些基准测试(例如 AlpacaEval 和 ARC)的表现却下降了多达3%。这引发了人们对传统观点的质疑:多训练是否真的意味着更好?
研究者解释称,这种性能下降与 “渐进敏感性” 现象有关。随着模型接受的标记数量增加,模型对微小变化变得更加脆弱。比如,在微调过程中即使是一些小的调整或噪音的引入,都可能导致先前的训练效果被逆转。为了验证这一点,研究者们在模型中注入高斯噪声,结果显示,经过更长时间训练的模型性能下降得更加明显。
在研究中,作者提出了一个关键概念,即 “拐点”,即在这个点上,额外的训练开始导致性能的下降,而不是提升。对于较小的模型如 OLMo-1B 来说,这一拐点通常出现在超过2.5万亿个标记之后。研究者警告说,“灾难性过度训练” 可能是不可避免的,尤其是在预训练和微调任务不匹配的情况下。
虽然研究者并没有建议完全放弃预训练,但他们强调,开发者应该认真思考预训练的量要适度。研究的结论呼吁在模型扩展方面重新审视整个训练流程的设计。对于那些追求模型规模的 AI 开发者而言,这项研究传达的信息十分明确:有时候,少就是多。

预训练不等于更强大,研究揭示大语言模型的 “灾难性过度训练” 现象

近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:过度的预训练可能会导致模型性能下降,出现一种被称为“灾难性过度训练”的现象。

研究发现

  • 实验结果:研究人员对OLMo-1B模型进行了比较,分别对其进行了2.3万亿和3万亿个标记的训练。结果显示,接受3万亿标记训练的模型在一些基准测试(如AlpacaEval和ARC)中的表现下降了多达3%,甚至不如仅用1.5万亿标记训练的模型。

  • 关键机制:这种性能下降与“渐进敏感性”现象有关。随着模型接受的标记数量增加,模型对微小变化变得更加脆弱。例如,在微调过程中,即使是小的调整或噪音的引入,都可能导致先前的训练效果被逆转。

现象解释

  • 敏感度增加:长时间的预训练会使模型对各种修改的广义敏感度系统性增加,导致模型在后续微调时更容易“遗忘”之前学到的知识。

  • 拐点现象:研究中提出了“拐点”概念,即在这个点上,额外的训练开始导致性能下降。对于OLMo-1B模型,这一拐点通常出现在超过2.5万亿个标记之后。

影响与建议

  • 重新审视训练策略:该研究挑战了“扩大预训练数据规模绝对有益”的普遍假设,提示开发者在追求模型规模时,应重新审视整个训练流程的设计。

  • 优化训练管道:研究建议,重点应从单纯扩大数据和模型规模,转向优化整个训练管道,以平衡基础模型质量和训练后的适应能力。

这项研究为大语言模型的开发提供了新的视角,提醒人们在模型训练中寻找合适的平衡点,避免“灾难性过度训练”对模型性能的负面影响。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复