首页 > 快讯 > 美团推出 LongCat-Flash-Lite:震撼发布,搭载 45 亿激活参数,性能媲美巨量模型

美团推出 LongCat-Flash-Lite:震撼发布,搭载 45 亿激活参数,性能媲美巨量模型

发布时间:2026-02-06 17:28:08 | 责任编辑:吴昊 | 浏览量:5 次

传统 MoE(混合专家)架构通过增加专家数量提升模型能力,却常受困于边际收益递减与高昂的通信开销。今日,美团 LongCat 团队发布了全新模型 LongCat-Flash-Lite,通过“嵌入扩展(Embedding Expansion)”这一新范式,成功打破了效能瓶颈。
LongCat 团队的研究表明,在特定条件下,扩展嵌入层相比单纯增加专家数量能获得更优的帕累托前沿。基于此,LongCat-Flash-Lite 拥有 685亿总参数,但由于采用了 N-gram 嵌入层,每次推理仅需激活 29亿至45亿参数。其中,超过300亿参数被高效分配至嵌入层,利用 N-gram 捕获局部语义,精准锁定如“编程命令”等细分场景,显著提升了理解精度。
为了将理论上的稀疏优势转化为实际性能,美团在系统层面实施了三重优化:
参数智能分配:嵌入层参数占比达46%,利用 O(1) 的查找复杂度避免了计算量随参数扩容而线性增长。
专用缓存与内核融合:设计了类似 KV Cache 的 N-gram Cache 机制,并定制 CUDA 内核(如 AllReduce+RMSNorm 融合),大幅降低 I/O 延迟。
推测解码协同:通过3步投机推理扩大批次大小,配合常规嵌入层的草案模型,进一步压缩延迟。
在典型负载下(输入4K,输出1K),该模型 API 可提供 500-700token/s 的极速生成速度,支持最长 256K 上下文。
在多项权威基准测试中,LongCat-Flash-Lite 展现出跨级别的竞争力:
智能体任务:在 $\tau^2$-Bench 的电信、零售、航空三大场景中均获最高分。
代码能力:SWE-Bench 准确率达 54.4%,在 TerminalBench(终端命令执行)中以33.75分远超同类模型。
通用素质:MMLU 得分 85.52,与 Gemini2.5Flash-Lite 旗鼓相当;数学竞赛级 AIME24表现稳健。
目前,美团已全面开源模型权重、技术报告及配套推理引擎SGLang-FluentLLM。开发者可通过LongCat API 开放平台申请试用,每日享有5000万 tokens 的免费额度。

美团推出 LongCat-Flash-Lite:震撼发布,搭载 45 亿激活参数,性能媲美巨量模型

这是一篇关于美团 LongCat-Flash-Lite 震撼发布:45 亿激活参数性能比肩巨量模型的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐