首页 > 快讯 > 阿里推出Qwen3开源项目，成本仅为DeepSeek-R1的三分之一，显著降低

阿里推出Qwen3开源项目，成本仅为DeepSeek-R1的三分之一，显著降低

发布时间：2025-04-29 09:15:53 | 责任编辑：吴昊 | 浏览量：73 次

阿里巴巴正式推出新一代通义千问模型 Qwen3（千问3），并宣布其开源。阿里云表示，千问3是国内首个 “混合推理模型”，同时集成了 “快思考” 与 “慢思考” 的能力。相比于 DeepSeek-R1，千问3的参数量仅为其三分之一，而部署成本大幅降低，使用仅需四张 H20显卡即可实现满血版的部署。
根据官方技术博客，千问3采用了混合专家（MoE）架构，拥有2350亿个参数，实际激活时仅需220亿参数。这款模型在预训练阶段使用了36TB 的数据，并通过多轮强化学习进行后训练。同时，千问3能够无缝结合非思考模式与思考模型。对于简单问题，它可以迅速 “快思考”，而对于复杂问题，则可进行多步骤的 “深度思考”，从而提高模型的效率和稳定性。
阿里云进一步表示，千问3的显存占用只有 DeepSeek-R1的三分之一，性能却大幅提升。目前，千问3已经开源了两款 MoE 模型（30B 和235B），以及六款密集模型(包括0.6B、1.7B、4B、8B、14B、32B)。其中，30B 参数的 MoE 模型性能提升超过10倍，激活仅需3B 的参数便可实现上代 Qwen2.5-32B 模型的性能表现。所有千问3模型均为混合推理模型，用户可以根据需求设置 “思考预算”，灵活调整性能和成本，以适应不同的应用场景。
开源后，用户可以在魔搭社区、HuggingFace 等平台上下载千问3模型并进行商业使用，也可以通过阿里云的 API 服务来调用千问3。个人用户还可通过通义 APP 体验千问3的功能，而夸克也即将全面接入该模型。
展望未来，阿里云计划通过优化模型架构和训练方法，进一步提升千问3的性能，旨在扩大数据规模、增加模型大小、延长上下文长度、拓宽模态范围，并利用环境反馈来推动强化学习，实现长周期推理。通义千问团队在技术博客中表示，Qwen3代表了通往通用人工智能（AGI）和超级人工智能(ASI)旅程中的一个重要里程碑，标志着行业从专注于训练模型的时代向以训练 Agent 为中心的新时代转型。
划重点:
🌟 阿里巴巴推出千问3模型，参数量仅为 DeepSeek-R1的三分之一，显著降低部署成本。
🚀 千问3采用混合专家架构，性能提升超过10倍，支持灵活的 “思考预算” 设置。
📈 开源后用户可在多个平台下载和使用千问3，未来将不断优化以扩展其功能。

4月29日，阿里巴巴开源了新一代通义千问模型Qwen3。该模型在性能和成本方面表现出色，其总参数量为235B，激活参数量为22B。与DeepSeek-R1相比，Qwen3的参数量仅为DeepSeek-R1的1/3，但性能却全面超越。在部署成本方面，Qwen3的部署门槛大幅降低。DeepSeek-R1需要至少8张英伟达H20芯片才能运行，推荐配置为16张H20，而Qwen3仅需3张H20即可运行，推荐配置为4张H20，部署成本仅为DeepSeek-R1的25%～35%。

Qwen3采用混合专家（MoE）架构，是国内首个“混合推理模型”，能够根据任务类型自动调整算力分配。它支持119种语言，并基于近36万亿个token进行训练。此外，Qwen3还提供了丰富的模型版本，包括2款MoE模型和6款密集模型，每款模型均在同尺寸开源模型中达到最佳性能。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。