首页 > 快讯 > DeepSeek V3.2 双模型登场：高效处理长文本并加强深度思考无减分机制，引领开源技术走向顶尖地位

DeepSeek V3.2 双模型登场：高效处理长文本并加强深度思考无减分机制，引领开源技术走向顶尖地位

发布时间：2025-12-03 11:05:22 | 责任编辑：吴昊 | 浏览量：80 次

DeepSeek 发布 V3.2（标准版）与 V3.2-Speciale(深度思考版)，官方评测显示:
- V3.2在128k 上下文场景下与 GPT-5互有胜负
- V3.2-Speciale 在 MMLU、HumanEval 等基准中与 Gemini3Pro 打平，IMO2025盲测获金牌分数线83.3%
转正稀疏注意力（DSA）是核心升级:通过“目录”式路由token，将长文本计算复杂度从O(n²)降至O(n)，显存占用下降40%，推理速度提升2.2倍，首次在开源模型实现百万token单卡推理。
后训练环节，团队把>10%整群算力投入强化学习，采用组对强化学习（GRPO）+多数投票，让模型在代码、数学与工具调用任务上逼近闭源对手。V3.2-Speciale取消“思考长度惩罚”，鼓励更长链式推理，平均输出token较Gemini3Pro高32%，但准确率提升4.8个百分点。
模型已上线GitHub与Hugging Face，权重采用Apache2.0协议，允许商业化。DeepSeek表示，下一步将开源长文本DSA内核与RL训练框架，继续把“闭源优势”转化为社区基础设施。行业评论称，若后续版本保持迭代节奏，开源阵营有望在2026年前实现“长文本+推理”双重领先。

这是一篇关于DeepSeek V3.2 双模型发布：线性复杂度长文本 + 无惩罚深度思考，开源阵营再冲第一梯队的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：马斯克分享擎天柱跑步片段：实验室突破记录，加速人形机器人商业化进程

下一篇：知名 IPO 律师被 Anthropic 雇佣，助力提速公开上市进程争夺

DeepSeek V3.2 双模型登场：高效处理长文本并加强深度思考无减分机制，引领开源技术走向顶尖地位

最新Ai信息

最新Ai工具

热门AI推荐