通义千问Qwen3更新:大幅提升推理性能 拥有两种思考路径
发布时间:2025-04-29 09:19:41 | 责任编辑:张毅 | 浏览量:8 次
通义千问团队宣布推出Qwen3,这是Qwen系列大型语言模型的最新成员。Qwen3系列模型在代码、数学和通用能力等基准测试中表现出色,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,展现了极具竞争力的结果。其中,小型MoE模型Qwen3-30B-A3B的激活参数数量仅为QwQ-32B的10%,但表现更胜一筹,而像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。
此次,通义千问团队开源了两个MoE模型的权重:Qwen3-235B-A22B,一个拥有2350多亿总参数和220多亿激活参数的大模型;以及Qwen3-30B-A3B,一个拥有约300亿总参数和30亿激活参数的小型MoE模型。此外,六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache2.0许可下开源。
Qwen3模型支持两种思考模式:思考模式和非思考模式。思考模式下,模型会逐步推理,经过深思熟虑后给出最终答案,适合复杂问题;非思考模式下,模型提供快速、近乎即时的响应,适用于简单问题。这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度,实现稳定且高效的“思考预算”控制能力。
Qwen3模型支持119种语言和方言,为国际应用开辟了新的可能性。在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展,使用了约36万亿个token进行预训练,涵盖了119种语言和方言。预训练过程分为三个阶段,最终确保模型能够有效处理更长的输入。
为了开发能够同时具备思考推理和快速响应能力的混合模型,Qwen3实施了一个四阶段的训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习。这一流程旨在为模型配备基本的推理能力,并进一步增强模型的通用能力。
Qwen3的发布和开源将极大地推动大型基础模型的研究与开发。通义千问团队的目标是为全球的研究人员、开发者和组织赋能,帮助他们利用这些前沿模型构建创新解决方案。
Qwen3现已在Hugging Face、ModelScope和Kaggle等平台上开放使用,用户可以轻松将其集成到研究、开发或生产环境中。
huggingface
https://huggingface.co/Qwen/Qwen3-235B-A22B
魔搭社区
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B
Qwen Chat
https://chat.qwen.ai
阿里云百炼(即将上线,并提供100万tokens免费体验)
https://www.aliyun.com/product/tongyi
通义千问Qwen3于2025年4月29日正式发布,其推理能力显著增强,并支持两种思考模式:
思考模式
在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。例如,在解决复杂的逻辑推理、数学难题或需要多步骤分析的任务时,思考模式能够帮助模型更全面、更准确地得出结论。
非思考模式
在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。例如,在简单的问答、信息检索或需要即时反馈的场景中,非思考模式能够快速给出答案,提高效率。
思考预算控制
Qwen3的两种思考模式结合大大增强了模型实现稳定且高效的“思考预算”控制能力。用户可以根据具体任务控制模型进行“思考”的程度,例如复杂问题可以通过扩展推理步骤来解决,而简单问题则可以直接快速作答,无需延迟。这种灵活性使得Qwen3能够在成本效益和推理质量之间实现更优的平衡。
此外,Qwen3还支持119种语言和方言,具备强大的多语言能力。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
上一篇: ChatGPT能否通过对话分析提升客服的响应效率?
下一篇: DeepSeek的商业化进展如何?