震撼发布!5600亿参数的美团LongCat引领数学证明新高度,重设行业标杆
发布时间:2026-03-23 10:48:00 | 责任编辑:张毅 | 浏览量:2 次
在大模型向垂直专业领域进军的征途中,美团 刚刚交出了一份令学术界与工业界瞩目的答卷。
3月21日,美团 正式开源了名为 LongCat-Flash-Prover 的超大规模数学证明模型。这款拥有 5677亿参数 的巨兽,采用了先进的 MoE(混合专家模型)架构,专门针对极其复杂的数学形式化证明问题进行了深度优化。
在衡量模型逻辑推理能力的顶级基准测试中,LongCat-Flash-Prover 展现出了统治级的实力:
刷新纪录: 在 MiniF2F-Test 测试中取得了 97.1% 的惊人成绩,仅需72次推理尝试。
攻克难题: 在 PutnamBench 任务中成功解决了41.5% 的问题,上述两项数据均刷新了全球 SOTA(当前最佳)水平。
为了让大模型真正拥有“数学家”般的严谨,美团 在技术路径上实现了多项关键突破:
消除幻觉: 引入了基于 AST(抽象语法树)的多阶段严格验证流程,并整合 Lean4形式化语言,从根源上杜绝了 AI 在逻辑推演中的“胡言乱语”。
训练算法进化: 针对 MoE 模型长程任务训练不稳的顽疾,美团引入了自研的 HisPO 算法,并配合定理一致性检测机制,有效防止了模型在强化学习阶段出现“投机取巧”的奖励黑客行为。
高效架构:5600亿的总参数量确保了模型深厚的知识底蕴,而MoE架构则保证了推理时的灵活性与高效性。
目前,美团 已将该模型及其代码在 GitHub 和 Hugging Face 平台全面开源。
随着 LongCat-Flash-Prover 的亮相,国产大模型在数学逻辑、代码验证等高阶推理领域的竞争力得到了有力证明。当复杂的定理证明不再仅仅依赖人类头脑,而是能通过百亿级激活参数的专家模型精准破解,AI 距离实现真正的“通用人工智能”又迈出了扎实的一步。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
