DeepSeek与清华大学携手研发自我优化 AI 模型
发布时间:2025-04-07 17:04:54 | 责任编辑:字母汇 | 浏览量:9 次
《DeepSeek与清华大学携手研发自我优化 AI 模型》相关软件

在人工智能技术日益普及的今天,DeepSeek与清华大学的合作引起了业界的广泛关注。作为一家中国初创公司,深思科技以其在低成本推理模型方面的突破而闻名,而这一次,他们希望通过与清华大学的学术合作,进一步降低 AI 模型的训练成本,从而提升运营效率。
DeepSeek近期推出了一种新的低成本推理模型,引发了市场的热烈反响。为了进一步优化这一模型,深思科技的研究团队与清华大学的学者们共同探讨了一个全新的强化学习方法。这种方法旨在使 AI 模型在进行学习时更加高效,能够在较少的训练数据和时间下达到更好的表现。
强化学习作为一种机器学习的核心技术,通常需要大量的训练数据和长时间的计算才能达到理想效果。然而,深思科技与清华大学的研究者们通过创新的方法,能够在保留模型性能的同时,显著减少训练所需的资源。这不仅降低了运营成本,也为 AI 技术的进一步发展开辟了新的可能性。
这一合作的意义不仅在于技术本身,还在于它可能带来的广泛应用。随着 AI 技术的不断进步,越来越多的行业都在探索如何将这些技术融入自己的业务中。深思科技的努力将使得更多公司能够以更低的成本获得高效的 AI 解决方案,从而加速整个行业的数字化转型。
DeepSeek与清华大学的合作标志着 AI 模型训练效率的新进展,未来我们将会看到这一创新为各行各业带来的积极变化。
DeepSeek 与清华大学携手研发了一种名为 DeepSeek-GRM 的自我优化 AI 模型,这是一种通用奖励模型(Generalist Reward Modeling),通过点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM)和自我原则点评调优(Self-Principled Critique Tuning, SPCT)等技术,显著提升了奖励模型的质量和推理时的可扩展性。
技术原理
- 点式生成式奖励建模(GRM):与传统标量评分不同,GRM 通过生成结构化的评价文本(包括评价原则和对回答的详细分析)来输出奖励分数,提高了输入的灵活性,并为推理时扩展提供了潜力。
- 自我原则点评调优(SPCT):包含拒绝式微调(Rejective Fine-Tuning, RFT)和基于规则的在线强化学习两个阶段,训练 GRM 模型自适应生成高质量的评价原则和准确的点评内容。
- 元奖励模型(Meta RM):用于评估 GRM 生成的评价原则和点评的质量,筛选出高质量的样本进行投票,进一步提升推理时的扩展性能。
性能表现
DeepSeek-GRM 在多个综合奖励模型基准测试中表现优异,显著优于现有方法和多个公开模型。推理时扩展性能尤为突出,随着采样次数增加,性能持续提升。例如,在 27B 模型上进行 32 次采样并使用 Meta RM,其性能提升幅度有时可以达到甚至超过通过数倍增加模型参数所带来的提升。
应用场景
DeepSeek-GRM 的应用场景广泛,包括但不限于:
- 智能问答与对话:能快速回答各类问题,涵盖科学知识、历史文化、生活常识、技术问题等。
- 内容生成:可以生成多种类型的内容,如新闻报道、学术论文、商业文案、小说故事等。
- 数据分析与可视化:能处理 Excel 表格、CSV 文件等数据,进行数据清洗、统计分析,并生成可视化图表。
- 推理与逻辑能力:在数学、逻辑推理等方面表现出色,能够进行多步骤的推理和思考。
意义与前景
DeepSeek-GRM 的推出标志着 AI 模型在推理阶段的可扩展性取得了重大突破。通过减少对大规模人类标注数据的依赖,降低了训练成本,同时提升了模型的性能和灵活性。这种创新方法不仅为 AI 模型的训练和优化提供了新的思路,也为未来 AI 技术的发展提供了更广阔的可能性。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。