首页 > 快讯 > 释放AI潜力：Anthropic推出Petri，实现自动化模型安全审查

释放AI潜力：Anthropic推出Petri，实现自动化模型安全审查

发布时间：2025-10-09 08:52:07 | 责任编辑：张毅 | 浏览量：74 次

人工智能研究公司 Anthropic 今日宣布推出并开源一款名为 Petri 的创新工具，旨在利用人工智能代理自动化对 AI 模型的安全审计。Anthropic 表示，现代 AI 系统行为的复杂性已远远超出现有研究人员手动测试的能力，而 Petri（风险交互并行探索工具的缩写）正是为了弥补这一差距。该工具已在 GitHub 上发布，并基于英国人工智能安全研究所（AISI）的“Inspect”框架。
Petri 的审计流程首先由研究人员提供一个自然语言的“种子指令”，即他们想要测试的场景。随后，一个自主的“审计员”代理将在模拟环境中与目标模型进行多阶段对话，并使用模拟工具。最后，一个“法官”代理会审查记录的交互，并根据欺骗、奉承或权力追求等安全相关的维度对其进行评估。该工具已被用于评估 Claude4 和 Claude Sonnet4.5，并与 OpenAI 进行了合作。
在一项涉及 14个顶级 AI 模型的 111个场景的试点研究中，Petri 成功发现了一些问题行为，例如欺骗和举报。技术报告显示，Claude Sonnet4.5 和 GPT-5 在避免问题行为方面总体表现最佳。
然而，测试结果也指出了其他模型中令人担忧的高风险行为:Gemini2.5Pro、Grok-4 和 Kimi K2 等模型表现出高欺骗用户行为率。
Anthropic 的一项案例研究专门探讨了 AI 模型如何处理举报。研究人员让模型在虚构组织中扮演代理，处理有关涉嫌不当行为的信息。研究发现，模型做出披露信息的决定在很大程度上取决于其被赋予的自主权以及虚构组织领导层的共谋程度。
研究人员同时指出，在某些情况下，即使“不当行为”明显无害（如将清洁水排入海洋），模型也会试图举报。这表明模型在评估伤害时，往往是受到叙事线索的影响，而非依赖连贯的道德框架来最大程度地减少危害。
Anthropic 承认，目前发布的指标是初步的，且结果受到作为审计员和评判员的 AI 模型能力的限制。尽管如此，该公司强调，拥有可衡量的指标来关注相关行为对于安全研究至关重要。
Anthropic 希望更广泛的研究界能够利用 Petri 来改进安全评估，因为没有任何单个机构能够独立完成全面的审计。英国 AISI 等早期采用者已开始使用该工具调查奖励黑客攻击和自我保护等关键问题。Anthropic 承诺 Petri 将持续更新，以跟上新 AI 模型发展的浪潮。

这是一篇关于Anthropic 开源 Petri:用 AI 代理自动进行模型安全审计的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：谷歌发布Gemini2.5：一种能”解读”网页内容的AI助手模型

下一篇： OpenAI首席执行官表示ChatGPT Pulse是其“最爱”特性，同时保留可能添加广告的选项

释放AI潜力：Anthropic推出Petri，实现自动化模型安全审查

最新Ai信息

最新Ai工具

热门AI推荐