DeepSeek-V3.2 正式上线:采用全新稀疏注意力设计,API 开支减半,表现力媲美顶级私有模型
发布时间:2025-12-02 09:58:39 | 责任编辑:吴昊 | 浏览量:1 次
12月1日 — 中国人工智能初创公司深度求索(DeepSeek AI)发布了DeepSeek-V3.2系列模型。该模型包括DeepSeek-V3.2及其高计算增强版DeepSeek-V3.2-Speciale。新模型具有创新的稀疏注意力机制(DSA)和强化的Agent能力,旨在挑战全球顶级AI模型,包括OpenAI的GPT-5和Google的Gemini3.0Pro。
DeepSeek-V3.2系列的核心在于其独有的DeepSeek Sparse Attention (DSA)架构。该机制首次实现了细粒度的稀疏注意力,降低了长文本场景下的计算复杂度和内存占用,同时保持了与密集注意力模型相当的性能。这一技术创新带来了效率提升:
长文本任务上的推理速度提升了2至3倍。
API成本降低,官方宣布价格降低了50%以上。
DeepSeek-V3.2被定位为“Agent优先”的模型,专注于将深度推理能力与工具使用流程深度融合。该模型采用了大规模的 Agent 任务合成流水线进行训练,提高了模型在现实世界应用场景中的泛化能力。新模型引入了“思考模式”,允许模型在执行复杂任务前进行链式逻辑推理,提升了解决问题的准确性。在一系列 Agent 评估中,V3.2达到了开源模型中的最高水平。
此次发布包含两个核心版本:
深度求索已在Hugging Face上开放了V3.2模型的权重,并提供了相关的开源内核和演示代码,支持研究人员和企业进行商业部署。分析人士认为,DeepSeek V3.2的发布标志着AI行业向结合深度推理和实际工具操作的模型迈出了一步,进一步缩小了开源模型与闭源巨头之间的差距。开发者可以通过查阅DeepSeek API 文档了解更多技术细节和使用指南。
地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
这是一篇关于DeepSeek-V3.2 正式发布:引入创新稀疏注意力架构,API 成本腰斩,性能比肩顶尖闭源模型的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
