Meta 新模型 Llama-4-Maverick 排名骤降,引发刷榜质疑
发布时间:2025-04-14 18:06:31 | 责任编辑:字母汇 | 浏览量:20 次
《Meta 新模型 Llama-4-Maverick 排名骤降,引发刷榜质疑》相关软件官网

近日,Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名,这一剧烈波动引发了开发者们的广泛质疑,认为 Meta 可能通过提交特供版本以刷榜。事情的起因要追溯到4月6日,Meta 发布了其最新的大模型 Llama4,包括 Scout、Maverick 和 Behemoth 三个版本。其中,Llama-4-Maverick 在初期的评估中表现亮眼,位列 LMArena 排行榜的第二名,仅次于 Gemini2.5Pro。
然而,随着开发者对 Llama4开源版的实际使用反馈逐渐披露,这款模型的声誉迅速下滑。一些开发者发现 Meta 提交给 LMArena 的版本与他们所公开的开源版本存在显著差异,这引发了对 Meta 是否存在刷榜行为的质疑。针对这一问题,Chatbot Arena 官方于4月8日确认,Meta 提供的确实是一个 “特供版”,并表示将考虑更新排行榜。
根据 Chatbot Arena 的说法,Meta 首次提交的 Llama-4-Maverick-03-26-Experimental 是一个实验性优化版本,这个版本当时排名第二。而修正后的开源版 Llama-4-Maverick-17B-128E-Instruct,虽然拥有17B 的激活参数和128个 MoE 专家,排名却仅为32名,远远落后于 Gemini2.5Pro、GPT4o 等更高排名的模型,甚至不及基于上一代模型改造的 Llama-3.3-Nemotron-Super-49B-v1。
对于 Llama-4-Maverick-03-26-Experimental 为何表现不如预期,Meta 在最近的一次发布会上解释称,该模型是 “专门针对对话进行优化” 的,因此在 LM Arena 上的表现相对较好。这种优化虽然在排行榜上取得了高分,但也使得开发者们在不同场景下难以准确预测该模型的实际表现。
Meta 发言人向 TechCrunch 表示,Meta 会继续探索各种定制版本,并期待开发者根据自己的需求对 Llama4进行调整和改进。公司希望看到开发者们的创造性成果,同时也重视他们的反馈。
Meta 新发布的开源大模型 Llama-4-Maverick 的排名在 LMArena 的排行榜上从第 2 名骤降至第 32 名,引发了开发者对其刷榜行为的质疑。
事件经过
- 模型发布与初期表现:4 月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版本。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二,仅次于 Gemini 2.5 Pro。
- 版本差异引发质疑:然而,随着开发者实际使用 Llama 4 大模型开源版的效果陆续曝光,Llama 4 的口碑急转直下。有开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与提交给社区的开源版本不同,因而质疑 Meta 刷榜作弊。
- 官方确认“特供版”:4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是“特供版”。Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。
- 开源版排名下滑:目前,开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。
事件影响
- 开发者信任受损:这一事件引发了开发者对 Meta 的信任危机,开发者们普遍对模型的真实性和公平性表示愤慨。他们认为,针对基准测试调整模型不仅具有误导性,还使得他们难以准确预测该模型在不同场景下的表现。
- 行业讨论加剧:该事件再次引发了关于 AI 模型性能评估和排名的广泛讨论。开发者们开始强调 AI 模型在真实场景中的实用性和适应性,而不仅仅是测试中的高分。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
上一篇: 人工智能在金融风险控制中扮演什么角色?
下一篇: 人工智能在体育训练中的应用是什么?