首页 > 快讯 > 通义千问Qwen3更新：大幅提升推理性能拥有两种思考路径

通义千问Qwen3更新：大幅提升推理性能拥有两种思考路径

发布时间：2025-04-29 09:19:41 | 责任编辑：张毅 | 浏览量：82 次

通义千问团队宣布推出Qwen3，这是Qwen系列大型语言模型的最新成员。Qwen3系列模型在代码、数学和通用能力等基准测试中表现出色，与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比，展现了极具竞争力的结果。其中，小型MoE模型Qwen3-30B-A3B的激活参数数量仅为QwQ-32B的10%，但表现更胜一筹，而像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。
此次，通义千问团队开源了两个MoE模型的权重:Qwen3-235B-A22B，一个拥有2350多亿总参数和220多亿激活参数的大模型;以及Qwen3-30B-A3B，一个拥有约300亿总参数和30亿激活参数的小型MoE模型。此外，六个Dense模型也已开源，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B，均在Apache2.0许可下开源。
Qwen3模型支持两种思考模式:思考模式和非思考模式。思考模式下，模型会逐步推理，经过深思熟虑后给出最终答案，适合复杂问题;非思考模式下，模型提供快速、近乎即时的响应，适用于简单问题。这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度，实现稳定且高效的“思考预算”控制能力。
Qwen3模型支持119种语言和方言，为国际应用开辟了新的可能性。在预训练方面，Qwen3的数据集相比Qwen2.5有了显著扩展，使用了约36万亿个token进行预训练，涵盖了119种语言和方言。预训练过程分为三个阶段，最终确保模型能够有效处理更长的输入。
为了开发能够同时具备思考推理和快速响应能力的混合模型，Qwen3实施了一个四阶段的训练流程，包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习。这一流程旨在为模型配备基本的推理能力，并进一步增强模型的通用能力。
Qwen3的发布和开源将极大地推动大型基础模型的研究与开发。通义千问团队的目标是为全球的研究人员、开发者和组织赋能，帮助他们利用这些前沿模型构建创新解决方案。
Qwen3现已在Hugging Face、ModelScope和Kaggle等平台上开放使用，用户可以轻松将其集成到研究、开发或生产环境中。
huggingface
https://huggingface.co/Qwen/Qwen3-235B-A22B
魔搭社区
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B
Qwen Chat
https://chat.qwen.ai
阿里云百炼（即将上线，并提供100万tokens免费体验）
https://www.aliyun.com/product/tongyi

通义千问Qwen3于2025年4月29日正式发布，其推理能力显著增强，并支持两种思考模式：

思考模式

在这种模式下，模型会逐步推理，经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。例如，在解决复杂的逻辑推理、数学难题或需要多步骤分析的任务时，思考模式能够帮助模型更全面、更准确地得出结论。

非思考模式

在此模式中，模型提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。例如，在简单的问答、信息检索或需要即时反馈的场景中，非思考模式能够快速给出答案，提高效率。

思考预算控制

Qwen3的两种思考模式结合大大增强了模型实现稳定且高效的“思考预算”控制能力。用户可以根据具体任务控制模型进行“思考”的程度，例如复杂问题可以通过扩展推理步骤来解决，而简单问题则可以直接快速作答，无需延迟。这种灵活性使得Qwen3能够在成本效益和推理质量之间实现更优的平衡。

此外，Qwen3还支持119种语言和方言，具备强大的多语言能力。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。