腾讯发布“混元-A13B”:具有动态推理能力的大模型,强调具备思考功能
发布时间:2025-07-07 10:14:20 | 责任编辑:张毅 | 浏览量:6 次
腾讯近日宣布开源其全新语言模型“**混元-A13B**”,该模型引入了创新的**动态推理方法**,使其能够根据任务复杂性在快速和深度“思考”之间智能切换。
核心亮点:动态推理与MoE架构
“混元-A13B”的核心优势在于其**实时调整推理深度**的能力。对于简单的查询,模型会启用**快速模式**,以最少的推理步骤迅速响应;而面对更复杂的问题,它则能激活涉及**多步骤思考的深度推理过程**。用户还可以通过特定命令来手动控制这种行为,使用“**/think**”启用深度模式,或使用“**/no_think**”关闭深度模式。
该模型采用了**混合专家(MoE)架构**,总参数量高达**800亿**,但在实际推理过程中,仅有**130亿个参数**处于活跃状态,这有助于提高运行效率。此外,“混元-A13B”支持最高达**256,000个标记的上下文窗口**,处理长文本的能力显著增强。
训练数据与性能表现
根据腾讯发布的技术报告,“混元-A13B”已在**20万亿个token**上进行训练,并针对推理任务及更广泛的用例进行了优化。为了提升模型在科学任务中的可靠性,腾讯特别从**STEM(科学、技术、工程、数学)领域**收集了**2500亿个token**进行训练,数据涵盖数学教科书、考试、GitHub开源代码、逻辑谜题以及从中**学到大学的科学文本**。
腾讯声称,其“**混元-A13B-Instruct**”版本能够与OpenAI、Deepseek和阿里巴巴Qwen等领先模型相媲美。报告指出,在**2024年美国数学竞赛AIME**中,“混元-A13B”的准确率达到了**87.3%**,领先于OpenAI o1的74.3%。
然而,需要注意的是,从**2025年的结果来看**,OpenAI o1在该轮测试中领先近3%。此外,腾讯的比较数据基于Deepseek-R1的**过时1月版本**,而Deepseek在**5月发布的版本**在AIME2024和2025中的表现更优异,分别取得了91.4分和87.5分。
腾讯开源的“混元-A13B”是一款动态推理大模型,具有以下特点和优势:
动态推理能力
-
快思考模式:适合简单任务,如查询天气、生成简短文本等,能够快速给出简洁高效的输出,响应时间极短。
-
慢思考模式:适用于复杂任务,如分析财报、逻辑推理等,会进行更深入的推理,包括反思和回溯等步骤,生成更长的推理链,提高准确性和鲁棒性。
技术架构
-
混合专家(MoE)架构:总参数800亿,激活参数仅130亿,通过选择性激活相关组件,降低了推理延迟和计算开销。
-
注意力机制优化:采用分组查询注意力(GQA)策略,显著提高了KV缓存的内存效率。
预训练与后训练
-
高质量语料:预训练使用了20万亿高质量token的语料,覆盖多个领域,提升了模型的通用能力。
-
多阶段后训练:通过监督微调(SFT)和强化学习(RL)进一步提升模型性能,特别是在数学、科学和逻辑推理任务上。
应用场景
-
长文处理:支持256K原生上下文窗口,能够处理长文本任务,如文档摘要和问答。
-
Agent工具调用:能够高效生成复杂指令响应,如出行攻略、数据文件分析等。
开发者友好
-
低门槛部署:在极端条件下,仅需1张中低端GPU卡即可部署。
-
开源生态:已融入主流推理框架生态,支持多种量化格式。
性能优势
-
推理速度:整体吞吐量是前沿开源模型的2倍以上。
-
性价比:在效果比肩顶尖开源模型的同时,大幅降低了推理延迟与计算开销。
“混元-A13B”的动态推理能力和灵活的架构设计,使其在处理复杂任务时更具优势,同时也兼顾了简单任务的高效响应,是一款兼具效率和准确性的大模型。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。