谷歌发布LMEval:一种新的统一工具,用于评估大语言和多模态模型性能
发布时间:2025-05-27 09:24:21 | 责任编辑:张毅 | 浏览量:44 次
近日,谷歌宣布推出 LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。该工具为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的 AI 模型进行比较,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。
以往,对新 AI 模型的比较往往比较复杂,因为各个提供商使用自己的 API、数据格式和基准设置,导致评估效率低下且难以进行。因此,LMEval 应运而生,它通过标准化评估流程,使得一旦设置好基准,就能轻松地将其应用于任何支持的模型,几乎无需额外工作。
LMEval 不仅支持文本评估,还扩展到了图像和代码的评估。谷歌表示,用户可以轻松添加新的输入格式。系统能够处理多种评估类型,包括是非题、多选题和自由文本生成。同时,LMEval 能够识别 “推脱策略”,即模型故意给出模棱两可的答案以避免生成有问题或风险的内容。
该系统在 LiteLLM 框架上运行,能够平滑处理谷歌、OpenAI、Anthropic、Ollama 和 Hugging Face 等不同提供商的 API 差异。这意味着相同的测试可以在多个平台上运行,而无需重新编写代码。一个突出的特点是增量评估,用户无需每次都重新运行整个测试套件,而只需执行新增的测试,这不仅节省了时间,也降低了计算成本。此外,LMEval 还使用多线程引擎加快计算速度,能够并行运行多个计算。
谷歌还提供了一个名为 LMEvalboard 的可视化工具,用户可以利用该仪表板分析测试结果。通过生成雷达图,用户可以查看模型在不同类别上的表现,并深入探讨个别模型的表现。该工具支持用户进行模型间的比较,包括在特定问题上的并排图形显示,方便用户了解不同模型的差异。
LMEval 的源代码和示例笔记本已经在 GitHub 上公开,供广大开发者使用和研究。
项目:https://github.com/google/lmeval
划重点:
🌟 LMEval 是谷歌推出的开源框架,旨在统一评估不同公司的大型 AI 模型。
🖼️ 支持文本、图像和代码的多模态评估,且可轻松添加新的输入格式。
📊 提供 LMEvalboard 可视化工具,帮助用户深入分析和比较模型表现。
谷歌于2025年5月26日宣布推出LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。以下是关于LMEval的详细介绍:
核心功能
-
统一评估流程:为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的AI模型进行比较,如GPT-4o、Claude3.7Sonnet、Gemini2.0Flash和Llama-3.1-405B等。
-
多模态评估支持:不仅支持文本评估,还扩展到了图像和代码的评估,用户可以轻松添加新的输入格式。
-
多种评估类型:系统能够处理多种评估类型,包括是非题、多选题和自由文本生成。
-
识别“推脱策略”:能够识别模型故意给出模棱两可的答案以避免生成有问题或风险内容的情况。
-
跨平台兼容性:在LiteLLM框架上运行,能够平滑处理谷歌、OpenAI、Anthropic、Ollama和Hugging Face等不同提供商的API差异,相同的测试可以在多个平台上运行,而无需重新编写代码。
-
增量评估:用户无需每次都重新运行整个测试套件,而只需执行新增的测试,节省了时间,也降低了计算成本。
-
多线程引擎:使用多线程引擎加快计算速度,能够并行运行多个计算。
-
可视化工具:提供了一个名为LMEvalboard的可视化工具,用户可以利用该仪表板分析测试结果,通过生成雷达图查看模型在不同类别上的表现,并深入探讨个别模型的表现,还支持模型间的比较,包括在特定问题上的并排图形显示。
其他特点
-
安全、可扩展的存储:测试结果存储在自加密的SQLite数据库中,既保证了安全性,又便于访问。
-
易于使用:用户友好,GitHub仓库中提供了示例笔记本,运行不同模型版本的评估只需几行代码。
安装与使用
-
安装:可以通过
pip install lmeval-framework
命令进行安装。 -
开发环境搭建:需要安装
uv
工具,并通过uv venv
等命令设置虚拟环境。
适用场景
-
模型比较:方便研究人员和开发者对不同提供商的AI模型进行比较和评估。
-
模型优化:通过标准化的评估流程,帮助优化模型性能。
-
安全性分析:识别模型的“推脱策略”,有助于分析模型的安全性。
LMEval的源代码和示例笔记本已经在GitHub上公开,供广大开发者使用和研究。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。