说明:
官网入口 官方网站主页;
IOS App Store 下载,支持 iPhone/iPad/Mac;
安卓 Google Play / 应用宝下载;
客户端 Mac/Windows/iOS/Android 官方下载;
插件 浏览器插件(默认 Chrome);
GitHub / HuggingFace / ModelScope 模型或项目托管地址;
API 模型/软件接口地址;
MCP 官网的 MCP 栏目入口。
若未显示,表示暂无对应渠道,欢迎补充或纠错。

AIGC官网收录 │
2025-05-26 │
549 次 │
人工核对 │
官网认证 │
定期更新 │
AI开放平台
LMArena(Chatbot Arena) 图文介绍:
LMArena.ai(原名 Chatbot Arena)是一个由加州大学伯克利分校 SkyLab 与 LMSYS 团队共同开发的开源平台,旨在通过众包方式评估和比较大型语言模型(LLM)的性能。该平台允许用户在匿名对战环境中测试不同的 AI 聊天机器人,并根据人类偏好进行投票,从而生成实时更新的排行榜。
核心功能
- 匿名对战评估 用户可以向两个匿名的 AI 模型提出相同的问题,平台将收集用户对各自回答的偏好投票。这种盲测机制有助于减少品牌影响,确保评估的客观性。
- 排行榜系统 平台采用 Elo 评分系统,根据用户的投票结果对模型进行排名。此外,还结合了 MT-Bench 和 MMLU(5-shot)等基准测试,全面评估模型在多轮对话、多任务处理等方面的能力。
- 多模态支持 LMArena 支持图文输入,用户可以上传图片,与支持多模态的模型(如 GPT-4o、Gemini、Claude 等)进行交互,测试其图文理解和生成能力。
- 开放社区参与 平台鼓励社区用户参与模型评估,贡献自己的投票数据。截至目前,已累计超过 100 万次用户投票,形成了丰富的评估数据集。
技术背景与发展
LMArena 的评估方法得到了学术界的认可。研究表明,使用强大的语言模型(如 GPT-4)作为评判者,其评估结果与人类偏好高度一致,达到 80% 以上的一致性水平。此外,平台还引入了 Prompt-to-Leaderboard(P2L)机制,允许用户通过自定义提示词实时测试模型表现,进一步增强了评估的灵活性和实用性。
近期动态与影响
随着平台影响力的提升,LMArena 正在从学术项目转型为独立公司,注册名为 Arena Intelligence,计划保持平台的开放性和中立性,同时寻求商业化发展。值得注意的是,平台的排行榜已成为 AI 领域的重要参考,吸引了包括 DeepSeek、Qwen、ChatGLM 等在内的多个国内外模型参与评估。例如,DeepSeek-R1 模型在排行榜中表现突出,位列全球第三,显示出国产模型在国际竞争中的崛起。
©️版权声明:
本网站(AIGC官网)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
本网站(AIGC官网)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
Alexa Translations整合AI与专家,为法律、金融等行业提供高效定制翻译服务。