首页 > 快讯 > 调查发现，流行的AI基准测试LMArena可能偏重于大型企业供应商

调查发现，流行的AI基准测试LMArena可能偏重于大型企业供应商

发布时间：2025-05-02 12:26:48 | 责任编辑：张毅 | 浏览量：97 次

《调查发现，流行的AI基准测试LMArena可能偏重于大型企业供应商》相关软件官网

Salesforce AI Research发布多项创新，旨在解决企业AI系统在强大智能与稳定执行力之间的差距，即“锯齿状智能”。核心目标是构建更智能、可信、适用于企业应用的AI代理，并向“企业通用智能”（EGI）迈进。
研究重点在于量化和解决AI性能不一致性，推出了SIMPLE数据集作为公开基准。更重要的是，Salesforce推出了CRMArena，一个模拟真实CRM场景的基准测试框架，用于全面评估AI代理在服务、分析和管理等角色中的表现。早期测试显示，现有领先AI座席在函数调用成功率方面仍有提升空间。
在模型层面，Salesforce发布了SFR-Embedding，一种在文本嵌入基准测试中领先的新模型，旨在更深入地理解上下文。同时推出了针对代码搜索优化的SFR-Embedding-Code。此外，还推出了xLAM V2（大型动作模型），专注于预测和执行任务序列，尤其适用于需要与企业系统交互的自主代理。
为解决企业对AI安全性的担忧，Salesforce推出了SFR-Guard模型，增强了其信任层，为AI代理的行为提供保障。同时推出了ContextualJudgeBench，用于评估基于LLM的判断模型。在多模态领域，推出了TACO模型，通过思维行动链解决复杂的多步骤问题，并在相关基准测试中取得显著性能提升。
Salesforce强调与客户的共同创新，客户反馈是塑造企业AI路线图的关键。通过应用Atlas推理引擎等先进技术，AI性能已得到显著提升。
Salesforce的研究正值企业加速采用AI的关键时刻，其关注点在于将先进功能与可靠性能相结合。与追求更大模型的行业趋势不同，Salesforce更侧重于解决现实世界的业务需求。相关技术将在未来几个月内逐步推出，首先应用于数据云，并为Agentforce的未来版本提供支持。Salesforce认为，在企业AI竞争中，一致性和可靠性将最终胜出。

根据最新的研究，流行的人工智能基准 LMArena 被认为在某些方面有利于大型供应商，以下是具体分析：

私密测试与选择性发布影响排名

多版本测试与“分数游戏”：大型供应商如 Meta、Google 和 OpenAI 被允许在发布之前私下测试其模型的多个版本，并只选择表现最好的版本发布到公共排行榜中。例如，Meta 在发布 Llama 4 之前测试了至少 27 个版本。研究人员发现，提交多个几乎相同的版本可以显著提高模型的得分，即使版本之间的差异很小。例如，仅提交十个版本，模型就可以获得大约 100 分的提升。
不公平的测试机会：这种私密测试的机会并未向所有公司开放，只有少数公司被告知可以进行私密测试，且不同公司获得的私密测试量差异巨大。

用户数据获取不平等

数据获取与模型优化：通过 API 访问，供应商可以收集模型之间的交互数据，包括用户提示和偏好。然而，这些数据的分配并不平等。例如，OpenAI 和 Google 的模型占据了 61.4% 的所有数据收集。研究还表明，使用更多 Arena 数据训练的模型可以提高其在 Arena 的排名表现，即使该模型在外部基准测试中的表现略有下降。
模型展示频率差异：大型供应商的模型展示频率远高于其他模型。例如，Google 和 OpenAI 的模型展示频率超过 34%，这使它们能够获得更多用户数据。

模型移除缺乏透明度

模型移除与排名扭曲：许多模型在没有公开通知的情况下被移除，这种模式对开源模型的影响尤为突出。在研究的 243 个模型中，有 205 个在没有解释的情况下被停用，而只有 47 个被正式标记为已弃用。这种不透明的移除方式可能会扭曲排名，尤其是当这些模型之前是关键的比较参考点时。

LMArena 的回应

反驳研究结论：LMArena 的团队反驳了这些研究结论，认为其排名“反映了数百万真实人类的偏好”，并认为预先提交测试是一种合法的方法，可以帮助模型更好地符合用户期望。
强调公开性：LMArena 强调其平台的源代码和数百万用户互动是公开的，并且只有最终公开发布的模型才会被纳入排名。
部分接受建议：虽然 LMArena 认为研究中存在一些事实错误和误导性陈述，但其团队也在审查一些研究建议，例如调整模型展示给用户的公平程序。

研究人员的建议

增加透明度：研究人员呼吁 LMArena 增加透明度，例如保留所有测试模型版本的可见性，无论其表现如何。
限制提交版本数量：建议限制供应商一次可以提交的版本数量，并确保模型曝光在用户中的公平分配。
明确文档记录：要求对模型移除进行明确的文档记录，包括移除原因。

影响与展望

对小型供应商的影响：这种偏向大型供应商的机制可能会使小型供应商和开源项目处于不利地位，因为它们通常无法承担像大型公司那样的资源投入。
对行业的影响：如果 LMArena 的排名不能准确反映模型的真实性能，可能会导致行业资源向错误的方向倾斜。
改进的必要性：研究人员警告说，如果不进行更严格的监督，LMArena 可能会奖励战略性的排行榜优化，而不是真正的性能改进。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。