美团发布开源模型LongCat:助力开发者,推动AI应用快速实现
发布时间:2025-09-01 11:20:09 | 责任编辑:吴昊 | 浏览量:4 次
近日,美团正式发布其最新的开源大语言模型 LongCat(龙猫),旨在推动人工智能技术的发展和应用。该模型的发布不仅标志着美团在AI领域的又一重要进展,也为开发者和研究人员提供了一个功能强大的新工具。
LongCat 的核心版本 LongCat-Flash 拥有560亿个参数,其核心优势在于创新的混合专家(MoE)架构。这种架构通过动态计算机制,根据上下文需求仅激活18.6B至31.3B的参数(平均约27B),大幅优化了计算效率。这使得 LongCat 在推理过程中能达到每秒超过100个标记的处理能力,展现了卓越的性能。
在技术实现上,美团特别注重模型的训练稳定性与扩展性。通过一系列优化策略,LongCat 能够在超过十万个加速器的规模上进行高效训练,并实现低延迟推理。此外,模型设计考虑到了参数激活的动态分配,确保在不同任务下的计算负载保持一致。
为了提升模型能力,LongCat 采用了多阶段训练管道。初期训练旨在构建基础模型,并通过数据融合策略进行优化;后期训练则进一步增强了其推理和编码能力,并将上下文长度扩展至128k,以满足更复杂的任务需求。
评估结果显示,LongCat 在多个基准测试中的表现与业界领先模型相当,特别是在 MMLU、数学推理和通用推理等领域展现出良好的准确率。这些成绩不仅证明了LongCat的技术实力,也为其在实际应用中的潜力奠定了基础。
美团表示,通过开放 LongCat 这一强大模型,希望能够促进AI技术的共享与发展,为更多开发者提供便利,从而推动整个行业的进步。LongCat的开源,无疑将成为未来AI应用的有力助手。
地址:https://longcat.chat/
。该模型的核心版本 LongCat-Flash 采用创新的 混合专家(MoE)架构,总参数达 5600亿(560B),通过动态计算机制,根据任务复杂度激活 18.6B 至 31.3B 参数(平均约27B),实现计算效率与性能的双重优化
。
技术亮点:
-
架构创新:引入 Shortcut-connected MoE(ScMoE) 架构,通过快捷连接扩大计算与通信的重叠窗口,显著提升训练和推理的吞吐量
。
-
动态计算:根据输入内容的复杂度,自适应调整激活参数数量,确保算力按需分配,推理速度突破 每秒100个token
。
-
多阶段训练:采用多阶段训练管道,包括大规模预训练、中期推理与代码能力提升,以及后期对话和工具使用能力优化,使模型在复杂任务中表现出色
。
开源策略:
-
MIT许可协议:采用对开发者极为友好的MIT协议,允许商业使用、修改和再分发,已同步发布至 GitHub 和 Hugging Face 平台
。
-
开发者支持:官网 longcat.ai 提供在线体验,无需部署即可测试模型能力,同时提供详细部署文档和工具,助力开发者快速上手
。
性能表现:
-
基准测试:在 MMLU、数学推理和通用推理 等领域表现优异,与 GPT-4.1、Claude 4 Sonnet 等国际主流模型相当
。
-
智能体能力:针对智能体(Agentic)任务进行特化训练,在工具调用和多步骤任务处理方面具有突出优势
。
行业影响:
-
生态构建:通过开源,美团旨在构建全球开发者社区,推动本地生活场景等垂直领域的AI应用创新
。
-
技术民主化:降低先进AI技术的使用门槛,避免技术垄断,促进AI技术的多元化和健康发展
。
。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。