首页 > 快讯 > 深入解析腾讯混元 TurboS 技术报告，全面展示560亿参数的Mamba混合架构

深入解析腾讯混元 TurboS 技术报告，全面展示560亿参数的Mamba混合架构

发布时间：2025-05-22 16:30:55 | 责任编辑：吴昊 | 浏览量：102 次

腾讯发布了混元 TurboS 技术报告，揭示了其旗舰大语言模型 TurboS 的核心创新与强大能力。
根据全球权威大模型评测平台 Chatbot Arena 的最新排名，混元 TurboS 在239个参赛模型中位列第七，成为国内仅次于 Deepseek 的顶尖模型，并在国际上仅落后于谷歌、OpenAI 及 xAI 等几家机构。
混元 TurboS 模型的架构采用了创新的 Hybrid Transformer-Mamba 结构，这种新颖的设计结合了 Mamba 架构在处理长序列上的高效性与 Transformer 架构在上下文理解上的优势，从而实现了性能与效率的平衡。该模型总共包含128层，激活参数量高达560亿，成为业界首个大规模部署的 Transformer-Mamba 专家混合模型（MoE）。通过这样的架构创新，TurboS 在国际权威评测中取得了整体高分1356。
为了进一步提升模型的能力，混元 TurboS 引入了自适应长短思维链机制，能够根据问题的复杂度自动切换响应模式。这一机制让模型在处理简单问题时能够迅速响应，而在面对复杂问题时，则会深入分析并给出高准确度的答案。此外，团队还设计了包含监督微调、自适应长短 CoT 融合等四个关键模块的后训练流程，进一步增强了模型的表现。
在预训练阶段，混元 TurboS 在16万亿 Token 的语料上进行训练，确保了模型的数据质量和多样性。其核心架构包含 Transformer、Mamba2和前馈神经网络（FFN）组件，层级构成合理，最大程度上提升了训练和推理的效率。
此次技术报告的发布，不仅展示了腾讯在大语言模型领域的技术实力，也为今后大模型的发展提供了新的思路与方向。
论文链接: https://arxiv.org/abs/2505.15431
划重点:
🌟 TurboS 模型在 Chatbot Arena 中排名第七，展现了强大的竞争力。
💡 创新的 Hybrid Transformer-Mamba 架构实现了性能与效率的最佳平衡。
🔍 自适应长短思维链机制提升了模型在不同复杂度问题下的响应能力。

目前公开资料中并没有提到腾讯混元Turbo S拥有560B参数，以下是关于腾讯混元Turbo S技术报告的全面揭秘：

架构创新

融合Hybrid-Mamba-Transformer架构：混元Turbo S采用Hybrid-Mamba-Transformer融合模式，将Mamba架构和Transformer架构相结合。Mamba架构基于状态空间模型，通过引入选择性机制，能够高效处理长序列数据；而Transformer架构擅长捕捉复杂上下文信息。这种融合模式既发挥了Mamba在长序列处理上的优势，又保留了Transformer的优势，突破了传统纯Transformer结构大模型在长文训练和推理成本高的难题，有效降低了计算复杂度和KV-Cache缓存占用，实现了训练和推理成本的下降。
长短思维链融合：通过长短思维链的融合，混元Turbo S在保持文科类问题快思考体验的同时，基于自研混元T1慢思考模型合成的长思维链数据，显著改进了理科推理能力，实现模型整体性能明显提升。

性能表现

响应速度快：相比上一代Turbo模型，首字响应时间降低44%，吞吐提升100%，能够实现“秒回”，吐字速度提升一倍，首字时延更低。
成本更低：云上API定价100万token输出两元，相比于上一代Turbo降低了数倍。
效果更好：在业界通用的多个公开基准测试上，混元Turbo S在知识、数学、推理等多个领域展现出对标DeepSeek V3、GPT 4o、Claude3.5等业界领先模型的效果表现。

应用与部署

作为核心基座：混元Turbo S将作为旗舰模型，成为腾讯混元系列衍生模型的核心基座，为推理、长文、代码等衍生模型提供基础能力。
腾讯云API调用：开发者和企业用户可以通过腾讯云官网的API调用混元Turbo S，且有一周内的免费试用期。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。