首页 > 问答 > DeepSeek的训练数据是否公开?
未公开的训练数据
部分公开的数据
总结
DeepSeek的训练数据是否公开?
发布时间:2025-05-07 10:46:11 | 责任编辑:问号 | 浏览量:26 次
DeepSeek 的训练数据并没有完全公开。以下是相关信息:
未公开的训练数据
-
DeepSeek 的完整训练数据集并未开源,这意味着开源社区无法基于相同的数据复现其训练过程。
-
DeepSeek 的训练数据来源包括多种公开和专有数据源,例如 Common Crawl、Web Code、电子书、教育材料和 arXiv 文章等。
-
DeepSeek 的部分训练数据(如推理数据)仅对内部团队可见,未对其他团队开放阅读权限。
部分公开的数据
-
2025 年 2 月,Hugging Face 领衔的 Open R1 项目发布了 OpenR1-Math-220k 数据集,这是一个基于 DeepSeek R1 生成的高质量推理数据集,包含 22 万条数据。
-
这些数据可以用来支持更小的模型,达到媲美 DeepSeek R1 的效果。
总结
DeepSeek 的训练数据并未完全公开,但部分数据集(如 OpenR1-Math-220k)已被开源社区发布,用于支持复现和研究。
©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。