DeepSeek V3.2 双模型登场:高效处理长文本并加强深度思考无减分机制,引领开源技术走向顶尖地位
发布时间:2025-12-03 11:05:22 | 责任编辑:吴昊 | 浏览量:6 次
DeepSeek 发布 V3.2(标准版)与 V3.2-Speciale(深度思考版),官方评测显示:
- V3.2在128k 上下文场景下与 GPT-5互有胜负
- V3.2-Speciale 在 MMLU、HumanEval 等基准中与 Gemini3Pro 打平,IMO2025盲测获金牌分数线83.3%
转正稀疏注意力(DSA)是核心升级:通过“目录”式路由token,将长文本计算复杂度从O(n²)降至O(n),显存占用下降40%,推理速度提升2.2倍,首次在开源模型实现百万token单卡推理。
后训练环节,团队把>10%整群算力投入强化学习,采用组对强化学习(GRPO)+多数投票,让模型在代码、数学与工具调用任务上逼近闭源对手。V3.2-Speciale取消“思考长度惩罚”,鼓励更长链式推理,平均输出token较Gemini3Pro高32%,但准确率提升4.8个百分点。
模型已上线GitHub与Hugging Face,权重采用Apache2.0协议,允许商业化。DeepSeek表示,下一步将开源长文本DSA内核与RL训练框架,继续把“闭源优势”转化为社区基础设施。行业评论称,若后续版本保持迭代节奏,开源阵营有望在2026年前实现“长文本+推理”双重领先。
这是一篇关于DeepSeek V3.2 双模型发布:线性复杂度长文本 + 无惩罚深度思考,开源阵营再冲第一梯队的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
