美团推出 LongCat-Flash-Chat:560亿参数刷新记录,智能体展现惊人表现!
发布时间:2025-09-01 16:16:28 | 责任编辑:张毅 | 浏览量:10 次
近日,美团正式发布并开源了其最新的 AI 大模型 ——LongCat-Flash-Chat。这款模型以560B 的总参数量和18.6B 到31.3B 的激活参数范围,展现了其在计算效率与性能之间的优越平衡。LongCat-Flash 采用了创新的混合专家模型(MoE)架构,利用 “零计算专家” 机制,使得每个 token 在处理时仅激活必要的参数,确保算力高效利用。
在模型架构方面,LongCat-Flash 还引入了跨层通道设计,极大提升了训练和推理的并行性。这使得模型在仅仅30天的训练时间内,就在 H800硬件上达到了单用户每秒处理100个 token 的推理速度。值得注意的是,该模型的训练过程中,采用了 PID 控制器来实时调整专家的偏置,保持激活参数的平均水平在27B,从而有效控制算力消耗。
不仅如此,LongCat-Flash 在智能体能力的提升上也做了诸多优化。通过构建自有的 Agentic 评测集和多智能体数据生成策略,该模型在各类智能体任务中表现优异,尤其是在复杂场景下,其在 VitaBench 基准测试中的得分更是位列第一。相较于参数规模更大的模型,LongCat-Flash 依然展现出卓越的智能体工具使用能力。
在通用知识方面,LongCat-Flash 同样不甘示弱。在 ArenaHard-V2测试中,其得分达到86.50,位列所有评估模型的第二;而在 MMLU 和 CEval 基准测试中分别获得89.71和90.44的高分,显示出其在语言理解和中文能力评估上的竞争力。
LongCat-Flash-Chat 以其高效的推理速度和出色的智能体表现,不仅在技术上领先同行,且其开源举措也为开发者提供了更多的研究和应用机会。
项目地址:https://github.com/meituan-longcat/LongCat-Flash-Chat
体验官网:https://longcat.ai/
是的!美团于 2025 年 9 月 1 日正式发布并开源了全新的 LongCat-Flash-Chat 大模型,凭借其 560B 总参数量 和创新的 混合专家模型(MoE)架构,在智能体任务等多个领域表现惊艳,再次刷新行业高度!
📌 模型亮点
-
总参数量 560B,激活参数仅 18.6B~31.3B(平均 27B),通过“零计算专家(Zero-Computation Experts)”机制,实现算力按需分配,极大提升计算效率
。
-
推理速度突破:在 H800 硬件上,单用户每秒可生成 100+ tokens,且输出成本低至 5 元/百万 tokens
。
-
训练高效:通过跨层通道设计、PID 控制器实时微调专家偏置等技术,仅用 30 天 即完成高效训练
。
🏆 性能表现
-
智能体任务:
-
在 VitaBench(复杂场景智能体基准)中以 24.30 分 位居 第一
。
-
在 τ2-Bench(智能体工具使用基准)中,超越参数规模更大的模型
。
-
-
通用知识:
-
ArenaHard-V2:86.50 分,位列 第二
。
-
MMLU(多任务语言理解):89.71 分
。
-
CEval(中文通用能力评估):90.44 分
。
-
-
编程能力:
-
TerminalBench:39.51 分,位列 第二
。
-
SWE-Bench-Verified:60.4 分
。
-
-
指令遵循:
-
IFEval:89.65 分,位居 第一
。
-
COLLIE(中文指令遵循):57.10 分
。
-
Meeseeks-zh(中文多场景指令):43.03 分
。
-
🚀 开源与体验
-
在线体验:官网
。
。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。