首页 > 快讯 > 刚刚,DeepSeek-Prover-V2-671B开源模型来了
刚刚,DeepSeek-Prover-V2-671B开源模型来了
发布时间:2025-04-30 21:59:23 | 责任编辑:字母汇 | 浏览量:11 次
一到假期,DeepSeek就要搞事!但不是DeepSeek-R2
刚刚,DeepSeek开源了新模型:DeepSeek-Prover-V2-671B。
链接:下方
不到一个小时就收获了123个 like。
根据DeepSeek-Prover-V2-671B的config.json配置文件,我们能读到有关该模型的一些信息。
首先,从名字也能看出,该模型的参数量为 671B,采用的基础模型架构为 Deepseek-V3,也因此,很多配置都与 DeepSeek-V3 一样。比如MoE 中间层大小为 2048, moe_layer_freq 设置为1,表明每层都是 MoE 层,每个MoE 层包含1 个共享专家和256 个路由专家,每个 token 会激活 8 个专家。最大可处理 163,840 长度的上下文。
刚刚,DeepSeek-Prover-V2-671B开源模型来了-项目/模型网址:
Hugging Face
Hugging Face
©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。