首页 > 快讯 > 腾讯发布“混元-A13B”：具有动态推理能力的大模型，强调具备思考功能

腾讯发布“混元-A13B”：具有动态推理能力的大模型，强调具备思考功能

发布时间：2025-07-07 10:14:20 | 责任编辑：张毅 | 浏览量：103 次

腾讯近日宣布开源其全新语言模型“**混元-A13B**”，该模型引入了创新的**动态推理方法**，使其能够根据任务复杂性在快速和深度“思考”之间智能切换。
核心亮点:动态推理与MoE架构
“混元-A13B”的核心优势在于其**实时调整推理深度**的能力。对于简单的查询，模型会启用**快速模式**，以最少的推理步骤迅速响应;而面对更复杂的问题，它则能激活涉及**多步骤思考的深度推理过程**。用户还可以通过特定命令来手动控制这种行为，使用“**/think**”启用深度模式，或使用“**/no_think**”关闭深度模式。
该模型采用了**混合专家（MoE）架构**，总参数量高达**800亿**，但在实际推理过程中，仅有**130亿个参数**处于活跃状态，这有助于提高运行效率。此外，“混元-A13B”支持最高达**256，000个标记的上下文窗口**，处理长文本的能力显著增强。
训练数据与性能表现
根据腾讯发布的技术报告，“混元-A13B”已在**20万亿个token**上进行训练，并针对推理任务及更广泛的用例进行了优化。为了提升模型在科学任务中的可靠性，腾讯特别从**STEM（科学、技术、工程、数学）领域**收集了**2500亿个token**进行训练，数据涵盖数学教科书、考试、GitHub开源代码、逻辑谜题以及从中**学到大学的科学文本**。
腾讯声称，其“**混元-A13B-Instruct**”版本能够与OpenAI、Deepseek和阿里巴巴Qwen等领先模型相媲美。报告指出，在**2024年美国数学竞赛AIME**中，“混元-A13B”的准确率达到了**87.3%**，领先于OpenAI o1的74.3%。
然而，需要注意的是，从**2025年的结果来看**，OpenAI o1在该轮测试中领先近3%。此外，腾讯的比较数据基于Deepseek-R1的**过时1月版本**，而Deepseek在**5月发布的版本**在AIME2024和2025中的表现更优异，分别取得了91.4分和87.5分。

腾讯开源的“混元-A13B”是一款动态推理大模型，具有以下特点和优势：

动态推理能力

快思考模式：适合简单任务，如查询天气、生成简短文本等，能够快速给出简洁高效的输出，响应时间极短。
慢思考模式：适用于复杂任务，如分析财报、逻辑推理等，会进行更深入的推理，包括反思和回溯等步骤，生成更长的推理链，提高准确性和鲁棒性。

技术架构

混合专家（MoE）架构：总参数800亿，激活参数仅130亿，通过选择性激活相关组件，降低了推理延迟和计算开销。
注意力机制优化：采用分组查询注意力（GQA）策略，显著提高了KV缓存的内存效率。

预训练与后训练

高质量语料：预训练使用了20万亿高质量token的语料，覆盖多个领域，提升了模型的通用能力。
多阶段后训练：通过监督微调（SFT）和强化学习（RL）进一步提升模型性能，特别是在数学、科学和逻辑推理任务上。

应用场景

长文处理：支持256K原生上下文窗口，能够处理长文本任务，如文档摘要和问答。
Agent工具调用：能够高效生成复杂指令响应，如出行攻略、数据文件分析等。

开发者友好

低门槛部署：在极端条件下，仅需1张中低端GPU卡即可部署。
开源生态：已融入主流推理框架生态，支持多种量化格式。

性能优势

推理速度：整体吞吐量是前沿开源模型的2倍以上。
性价比：在效果比肩顶尖开源模型的同时，大幅降低了推理延迟与计算开销。

“混元-A13B”的动态推理能力和灵活的架构设计，使其在处理复杂任务时更具优势，同时也兼顾了简单任务的高效响应，是一款兼具效率和准确性的大模型。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。