首页 > 快讯 > 谷歌新研究:合成数据助力大模型,数学推理能力提升八倍

谷歌新研究:合成数据助力大模型,数学推理能力提升八倍

发布时间:2025-04-07 09:01:22 | 责任编辑:字母汇 | 浏览量:7 次

近期,谷歌、卡内基梅隆大学与 MultiOn 的研究团队联合发布了一项关于合成数据在大模型训练中应用的新研究。根据 AI 发展科研机构 Epoch AI 的报告,目前人类公开的高质量文本训练数据大约有300万亿 tokens,但随着大型模型如 ChatGPT 的快速发展,对训练数据的需求正以指数级增长,预计在2026年前这些数据将被消耗殆尽,因此合成数据逐渐成为重要的替代方案。
研究人员探索了合成数据的两种主要类型:正面数据和负面数据。正面数据是指来自高性能大模型(如 GPT-4和 Gemini1.5Pro)生成的正确问题解决方案,这些数据为模型提供了学习如何解决数学问题的示例。然而,仅依赖正面数据进行训练存在一定局限性。首先,这种方法可能无法深入揭示问题解决过程中的内在逻辑,模型可能只是通过模式匹配学习而缺乏真正的理解。其次,随着训练数据的增加,模型可能会学习到一些偶然的错误关联,导致其在处理新问题时的泛化能力下降。
因此,研究人员引入了负面数据类型。这些数据包含了被验证为错误的解题步骤,能够帮助模型识别并避免错误,增强其逻辑推理能力。尽管利用负面数据面临一定挑战,因为错误步骤可能带有误导性信息,但通过 DPO(直接偏好优化)方法进行优化,研究人员成功地使模型从错误中学习,并强调每一步解题的重要性。
DPO 方法为每个解题步骤分配一个优势值,反映该步骤相对于理想解法的价值。研究表明,高优势值步骤是正确解题的关键,而低优势值步骤则可能暗示模型推理中的问题。通过这些优势值,模型能够在强化学习的框架下动态调整其策略,以更高效地学习和改进合成数据。
为了验证合成数据的效果,研究团队在 GSM8K 和 MATH 数据集上对 DeepSeek-Math-7B、LLama2-7B 等模型进行了综合测试。结果显示,经过正面和负面合成数据预训练的大模型,其在数学推理任务上的性能提升了八倍。这一研究成果展示了合成数据在提高大模型逻辑推理能力方面的巨大潜力。
划重点:
📊 合成数据作为替代方案,有效应对日益增长的训练数据需求。
🧩 正面和负面数据结合,提升模型的数学推理和逻辑能力。
🚀 研究表明,合成数据预训练后,大模型的推理能力提升了八倍。

谷歌新研究:合成数据助力大模型,数学推理能力提升八倍

谷歌联合卡内基梅隆大学与 MultiOn 的研究团队发布了一项新研究,表明合成数据可显著提升大模型的数学推理能力。

研究背景

目前人类公开的高质量文本训练数据大约有 300 万亿 tokens,但随着大型模型如 ChatGPT 的快速发展,对训练数据的需求正以指数级增长,预计在 2026 年前这些数据将被消耗殆尽,因此合成数据逐渐成为重要的替代方案。

研究方法

研究人员探索了合成数据的两种主要类型:正面数据和负面数据。正面数据是指来自高性能大模型(如 GPT-4 和 Gemini 1.5 Pro)生成的正确问题解决方案,为模型提供了学习如何解决数学问题的示例。然而,仅依赖正面数据进行训练存在一定局限性,可能无法深入揭示问题解决过程中的内在逻辑,模型可能只是通过模式匹配学习而缺乏真正的理解,且随着训练数据量的增加,模型可能会学习到一些偶然的错误关联,导致其在处理新问题时的泛化能力下降。

因此,研究人员引入了负面数据类型,这些数据包含了被验证为错误的解题步骤,能够帮助模型识别并避免错误,增强其逻辑推理能力。尽管利用负面数据面临一定挑战,因为错误步骤可能带有误导性信息,但通过 DPO(直接偏好优化)方法进行优化,研究人员成功地使模型从错误中学习,并强调每一步解题的重要性。

DPO 方法为每个解题步骤分配一个优势值,反映该步骤相对于理想解法的价值。研究表明,高优势值步骤是正确解题的关键,而低优势值步骤则可能暗示模型推理中的问题。利用这些优势值,模型能够在强化学习的框架下动态调整其策略,以更高效地学习和改进合成数据。

实验与结果

为了验证合成数据的效果,研究团队在 GSM8K 和 MATH 数据集上对 DeepSeek-Math-7B、LLama2-7B 等模型进行了综合测试。结果显示,经过正面和负面合成数据预训练的大模型,在数学推理任务上的性能与仅使用正面数据相比,性能提升了 8 倍。

研究意义

这一研究成果展示了合成数据在提高大模型逻辑推理能力方面的巨大潜力,为未来大模型的训练提供了新的思路和方法,有助于解决高质量训练数据短缺的问题,推动大模型在数学推理等领域的进一步发展。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具