首页 > 快讯 > 美团推出 LongCat-Flash-Lite：震撼发布，搭载 45 亿激活参数，性能媲美巨量模型

美团推出 LongCat-Flash-Lite：震撼发布，搭载 45 亿激活参数，性能媲美巨量模型

发布时间：2026-02-06 17:28:08 | 责任编辑：吴昊 | 浏览量：143 次

传统 MoE（混合专家）架构通过增加专家数量提升模型能力，却常受困于边际收益递减与高昂的通信开销。今日，美团 LongCat 团队发布了全新模型 LongCat-Flash-Lite，通过“嵌入扩展（Embedding Expansion）”这一新范式，成功打破了效能瓶颈。
LongCat 团队的研究表明，在特定条件下，扩展嵌入层相比单纯增加专家数量能获得更优的帕累托前沿。基于此，LongCat-Flash-Lite 拥有 685亿总参数，但由于采用了 N-gram 嵌入层，每次推理仅需激活 29亿至45亿参数。其中，超过300亿参数被高效分配至嵌入层，利用 N-gram 捕获局部语义，精准锁定如“编程命令”等细分场景，显著提升了理解精度。
为了将理论上的稀疏优势转化为实际性能，美团在系统层面实施了三重优化:
参数智能分配:嵌入层参数占比达46%，利用 O（1）的查找复杂度避免了计算量随参数扩容而线性增长。
专用缓存与内核融合:设计了类似 KV Cache 的 N-gram Cache 机制，并定制 CUDA 内核（如 AllReduce+RMSNorm 融合），大幅降低 I/O 延迟。
推测解码协同:通过3步投机推理扩大批次大小，配合常规嵌入层的草案模型，进一步压缩延迟。
在典型负载下（输入4K，输出1K），该模型 API 可提供 500-700token/s 的极速生成速度，支持最长 256K 上下文。
在多项权威基准测试中，LongCat-Flash-Lite 展现出跨级别的竞争力:
智能体任务:在 $\tau^2$-Bench 的电信、零售、航空三大场景中均获最高分。
代码能力:SWE-Bench 准确率达 54.4%，在 TerminalBench（终端命令执行）中以33.75分远超同类模型。
通用素质:MMLU 得分 85.52，与 Gemini2.5Flash-Lite 旗鼓相当;数学竞赛级 AIME24表现稳健。
目前，美团已全面开源模型权重、技术报告及配套推理引擎SGLang-FluentLLM。开发者可通过LongCat API 开放平台申请试用，每日享有5000万 tokens 的免费额度。

这是一篇关于美团 LongCat-Flash-Lite 震撼发布：45 亿激活参数性能比肩巨量模型的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： AI资讯：Anthropic发布最新Claude Opus 4.6；千问新春“大免单”活动首日大热；腾讯上线“火龙漫剧”新平台

下一篇：谁将在未来成为流量霸主？阿里“千问”豪掷30亿提供免费服务，AI领域以年薪128万招聘增长工程师，人力争夺战达到空前激烈！

美团推出 LongCat-Flash-Lite：震撼发布，搭载 45 亿激活参数，性能媲美巨量模型

最新Ai信息

最新Ai工具

热门AI推荐