首页 > 快讯 > Meta Llama4强势登场，却在长上下文任务中翻车

Meta Llama4强势登场，却在长上下文任务中翻车

发布时间：2025-04-08 10:00:41 | 责任编辑：字母汇 | 浏览量：89 次

《Meta Llama4强势登场，却在长上下文任务中翻车》相关软件官网

一项新的独立评估显示，Meta 最新推出的 Llama4模型——Maverick 和 Scout 在标准测试中表现出色，但在复杂长上下文任务中表现欠佳。根据人工智能分析的“智能指数”，Maverick 得分49分，领先 Claude3.7Sonnet（得分未具体列出），但落后于 Deepseek V30324(53分);Scout 得分36分，与 GPT-4o-mini 相当，优于 Claude3.5Sonnet 和 Mistral Small3.1。两款模型在推理、编码和数学任务中表现稳定，未显示明显短板。
Maverick 的架构效率令人瞩目，其活动参数仅为 Deepseek V3的170亿（对比370亿），总参数占60%(4020亿对比6710亿)，且能处理图像而非仅限于文本。价格方面，Maverick 每百万输入/输出代币均价为0.24美元/0.77美元，Scout 为0.15美元/0.4美元，低于 Deepseek V3，甚至比 GPT-4o 便宜10倍，成为最实惠的 AI 模型之一。
然而，Llama4的发布引发争议。LMArena 基准测试显示，Maverick 在 Meta 推荐的“实验性聊天版本”下排名第二，但启用“风格控制”后跌至第五，凸显其依赖格式优化而非纯粹内容质量。测试人员质疑 Meta 的基准可靠性，指出其与其他平台表现差异明显。Meta 承认优化了人类评估体验，但否认训练数据作弊。
长上下文任务是 Llama4的明显弱点。Fiction.live 测试表明，Maverick 在128，000个令牌下准确率仅为28.1%，Scout 更低至15.6%，远逊于 Gemini2.5Pro 的90.6%。尽管 Meta 宣称 Maverick 支持100万令牌、Scout 支持1000万令牌上下文窗口，但实际性能远未达标。研究显示，超大上下文窗口收益有限，128K 以下更实用。
Meta 生成 AI 负责人 Ahmad Al-Dahle 回应称，早期不一致源于实施问题，而非模型缺陷。他否认测试作弊指控，并表示部署优化正在进行，预计数日内稳定。

Meta最新发布的Llama 4模型在长上下文任务中表现欠佳，以下是具体情况：

测试结果

Fiction.live测试：Maverick在128,000个令牌下准确率仅为28.1%，Scout更低至15.6%，远逊于Gemini 2.5 Pro的90.6%。
MTOB测试：在长上下文任务中，Llama 4 Scout和Maverick的表现均未达到预期。尽管Meta宣称Maverick支持100万令牌、Scout支持1000万令牌上下文窗口，但实际性能远未达标。

原因分析

模型架构问题：Llama 4采用了混合专家架构（MoE），虽然在一定程度上提高了效率，但可能在处理长上下文任务时存在局限性。
训练数据问题：有内部员工爆料称，Llama 4在训练过程中可能存在将测试集混入训练数据的情况，导致模型在实际应用中表现不佳。
优化不足：Meta承认Llama 4在发布时存在一些实施问题，导致模型在长上下文任务中的表现不稳定。

官方回应与改进措施

官方回应：Meta生成AI负责人Ahmad Al-Dahle回应称，早期不一致源于实施问题，而非模型缺陷。他否认测试作弊指控，并表示部署优化正在进行，预计数日内稳定。
改进措施：Meta可能会对模型进行进一步的优化和调整，以提高其在长上下文任务中的表现。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：亚马逊 AI 视频模型 Nova Reel 升级：可生成长达两分钟的视频片段

下一篇： Geekplus 连续四年入选全球顶级机器人公司，助力仓储效率革命