首页 > 快讯 > OpenAI推出AI Agent评测基准PaperBench

OpenAI推出AI Agent评测基准PaperBench

发布时间：2025-04-03 09:56:56 | 责任编辑：字母汇 | 浏览量：282 次

《OpenAI推出AI Agent评测基准PaperBench》相关软件官网

OpenAI 团队推出了一个名为 PaperBench 的基准测试，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。
为确保评估的客观性，研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务，并设定明确的评分标准。PaperBench 一共包含8316个可以单独评分的任务，所有评分量规均与每篇论文的作者合作开发，以保证其准确性和真实性。
为了实现大规模评估，研究团队还开发了一种基于大型语言模型（LLM）的自动评分系统。这一系统能够根据预设的评分标准对 AI 代理的复制尝试进行评分，同时，团队也为该评分系统建立了独立的基准，以评估其性能。
在对多个前沿 AI 模型进行评测后，研究发现表现最佳的代理是 Claude3.5Sonnet（新版本），其平均复制得分为21.0%。为了进一步验证这些结果，研究人员还邀请了多位顶尖的机器学习博士生尝试 PaperBench 的部分任务，结果显示，目前的 AI 模型尚未超越人类的复制能力。
为了推动后续研究，OpenAI 团队决定将其开发的代码开源，以便更多的研究者能够利用这一平台，深入探索 AI 代理的工程能力及其在复制 AI 研究方面的潜力。
项目代码:https://github.com/openai/preparedness/tree/main/project/paperbench

OpenAI 近日推出了全新的 AI Agent 评测基准 PaperBench，旨在评估 AI 智能体复现前沿 AI 研究的能力。以下是关键信息总结：

1. 评测内容与目标

任务要求：AI Agent 需要从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文，包括理解论文贡献、开发代码库并成功执行实验。
评分标准：OpenAI 设计了 8,316 个可单独评分的任务，涵盖论文理解、代码实现和实验执行等多个维度，确保评测全面且细致。
目标：衡量 AI 在科研复现方面的自动化能力，推动 AI Agent 在学术研究中的应用。

2. 评测结果

Claude 3.5 Sonnet 表现最佳，平均复现得分为 21.0%，但仍远低于人类水平。
其他模型表现：
- GPT-4o 系列（如 o1）得分为 13.2%。
- DeepSeek-R1 仅 6%。
- GPT-4o Mini-High 表现最差。
人类基准对比：OpenAI 邀请 8 名机器学习博士 进行相同测试，发现 AI 在早期阶段（如快速生成代码）可能优于人类，但 24 小时后人类表现超越 AI，显示 AI 在长期规划和优化方面仍有不足。

3. 评测技术细节

测试环境：AI Agent 运行在 Ubuntu 24.04 Docker 容器 中，配备 A10 GPU 和联网能力。
自动评分系统：OpenAI 开发了 JudgeEval 基准，用于验证自动评分的准确性，确保评测公正。
轻量版评测（PaperBench Code-Dev）：降低门槛，仅评估代码开发能力，不要求完整实验复现。

4. 行业意义

推动 AI Agent 发展：该基准有助于衡量 AI 在复杂科研任务中的能力，促进更强大的自主研究 AI 开发。
揭示当前 AI 局限：AI 在长期任务规划、代码优化和实验执行方面仍落后于人类，需进一步改进。

PaperBench 是 OpenAI 在 AI Agent 评测领域的重要尝试，为 AI 科研能力设定了新标准。尽管当前 AI 表现仍有限，但该基准将推动 AI 向更自主、更高效的科研助手方向发展。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Tinder推出AI语音调情游戏”Game Game”，与OpenAI合作引发争议

下一篇： OpenAI 成立新委员会，助力构建最强大的非营利组织

OpenAI推出AI Agent评测基准PaperBench

1. 评测内容与目标

2. 评测结果

3. 评测技术细节

4. 行业意义

最新Ai信息

最新Ai工具

热门AI推荐