首页 > 快讯 > 新AI模型的训练或许利用了DeepSeek对Google Gemini数据的使用

新AI模型的训练或许利用了DeepSeek对Google Gemini数据的使用

发布时间:2025-06-04 10:32:34 | 责任编辑:张毅 | 浏览量:23 次

近日, DeepSeek 发布了其最新的 R1推理 AI 模型更新版,该模型在多个数学和编程基准测试中展现出色性能。然而,DeepSeek 并未透露其模型的训练数据来源,令一些 AI 研究人员产生了疑问,并推测该模型可能部分基于 Google 的 Gemini AI 系列进行训练。
墨尔本的开发者 Sam Paeach 声称,他发现 DeepSeek 的 R1-0528模型在用词和表达方式上与 Google Gemini2.5Pro 有许多相似之处。虽然这并不能作为直接证据,但另一位开发者 —— 匿名的 SpeechMap 项目创始人 —— 也提到,DeepSeek 模型在推理过程中产生的 “思维轨迹” 与 Gemini 的表现如出一辙。这一发现再次引发了关于 DeepSeek 是否在训练中使用了竞争对手数据的讨论。
早在去年12月,DeepSeek 就曾因其 V3模型频繁将自己标识为 OpenAI 的 ChatGPT 而受到指责,这一行为暗示该模型可能是通过 ChatGPT 的聊天记录进行训练的。今年早些时候,OpenAI 向媒体透露,发现了 DeepSeek 与 “数据蒸馏” 技术相关的证据。“数据蒸馏” 是一种通过从大型模型中提取信息来训练新模型的方法。彭博社报道称,OpenAI 的合作伙伴微软在2024年底发现,很多数据是通过 OpenAI 开发者账户泄露的,这些账户可能与 DeepSeek 有关。
尽管 “提炼” 技术在 AI 界并不罕见,但 OpenAI 明确规定禁止用户使用其模型输出构建竞争产品。需要注意的是,由于开放网络中充斥着大量低质量内容,许多 AI 模型在训练中往往会错误地模仿彼此的用词和措辞。这使得深度剖析训练数据源变得更加复杂。
人工智能专家 Nathan Lambert 认为,DeepSeek 使用 Google Gemini 的数据进行训练并非不可能。他提到,DeepSeek 拥有充足的资金,能够利用市面上最佳的 API 模型生成合成数据。为了防止数据被提炼,AI 公司们也在不断加强安全措施。例如,OpenAI 已开始要求各组织完成身份验证才能访问某些高级模型,而 Google 也在努力提高其 AI Studio 平台的安全性,限制对模型生成轨迹的访问。

新AI模型的训练或许利用了DeepSeek对Google Gemini数据的使用

近期有报道称,DeepSeek发布的最新R1-0528推理AI模型可能使用了Google Gemini的数据进行训练。以下是相关情况:

证据与推测

  • 用词和表达相似:墨尔本的开发者Sam Paech指出,DeepSeek的R1-0528模型在用词和表达方式上与Google Gemini 2.5 Pro有许多相似之处。

  • 推理“思维轨迹”相似:匿名的SpeechMap项目创始人提到,DeepSeek模型在推理过程中产生的“思维轨迹”与Gemini的表现如出一辙。

  • 专家观点:人工智能专家Nathan Lambert认为,DeepSeek使用Google Gemini的数据进行训练并非不可能。他提到,DeepSeek拥有充足的资金,能够利用市面上最佳的API模型生成合成数据。

争议与背景

  • 数据来源不透明:DeepSeek并未透露其模型的训练数据来源,这引发了AI研究人员对其数据来源的质疑。

  • 数据蒸馏争议:此前,DeepSeek曾因V3模型频繁将自己标识为OpenAI的ChatGPT而受到指责,暗示其可能通过ChatGPT的聊天记录进行训练。OpenAI也发现DeepSeek涉嫌使用“数据蒸馏”技术的证据。

AI公司应对措施

  • OpenAI:为了防止数据被提炼,OpenAI已开始要求各组织完成身份验证才能访问某些高级模型。

  • Google:Google也在努力提高其AI Studio平台的安全性,限制对模型生成轨迹的访问。

总结

目前这些推测尚未得到DeepSeek或Google的官方确认,但相关证据和专家观点确实引发了行业对DeepSeek训练数据来源的关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复