首页 > 快讯 > Anthropic强化AI模型安全措施,确保技术负责任扩展

Anthropic强化AI模型安全措施,确保技术负责任扩展

发布时间:2025-04-01 11:40:53 | 责任编辑:字母汇 | 浏览量:35 次

《Anthropic强化AI模型安全措施,确保技术负责任扩展》相关软件官网

Anthropic Claude

最近,人工智能公司 Anthropic 发布了其 “负责任扩展” 政策的最新更新,明确了哪些模型需要额外的安全保护。这一举措旨在确保在推出新技术前,能够有效防范可能的风险。
据 Anthropic 在其博客中所述,如果在对某个 AI 模型进行压力测试时发现,该模型有可能帮助一个 “资源适中的国家程序” 开发化学和生物武器,Anthropic 将会在正式推出该技术之前,首先采取新的安全保护措施。此外,若模型有能力全自动化初级研究员的工作,或在技术快速扩展中带来过大的加速效应,公司也会相应地加强安全措施。
Anthropic 在本月早些时候完成了一轮新的融资,估值达到615亿美元,成为 AI 初创公司中估值最高的之一。不过,与 OpenAI 相比,这一估值仍然显得微不足道,后者近日宣布完成了400亿美元融资,总估值达到了3000亿美元。未来十年,生成性 AI 市场预计将超过1万亿美元,市场竞争愈发激烈,包括谷歌、亚马逊和微软等科技巨头都在积极推出新产品和功能。而来自中国的竞争也逐渐显现,例如 DeepSeek 的 AI 模型在美国的迅速走红便是一个例子。
在去年十月发布的 “负责任扩展” 政策中,Anthropic 还提到会进行物理办公室的安全检查,旨在发现潜在的监控设备。该公司确认,已成立了高管风险委员会,并建立了内部安全团队。此外,他们还将引入 “物理” 安全流程,利用先进的检测设备和技术进行监控设备的侦测,确保公司内部的安全。
Anthropic 在 AI 安全和责任方面的不断努力,不仅是为了保护自身的技术,更是对整个行业健康发展的重要保障。

Anthropic强化AI模型安全措施,确保技术负责任扩展

Anthropic 近年来在 AI 安全领域采取了一系列重要措施,旨在确保其 AI 模型(如 Claude 3.5 Sonnet)的安全性和可控性,同时推动技术的负责任扩展。以下是 Anthropic 在 AI 安全方面的主要举措:

1. 推出“宪法分类器”以防范 AI 越狱

  • Anthropic 开发了 宪法分类器(Constitutional Classifiers),通过将人类价值观和伦理规则嵌入 AI 模型,使其在生成内容时遵循安全标准。这一技术使针对 Claude 3.5 Sonnet 的成功越狱攻击减少了 81.6%
  • 该分类器采用类似于“宪法”的规则框架,防止 AI 生成有害或超出预期的内容,同时保持模型性能影响最小(推理开销仅增加 23.7%)。

2. 更新“责任扩展政策”(RSP),设立安全门槛

  • Anthropic 引入了 能力阈值,用于评估 AI 模型是否达到高风险水平(如涉及生物武器或自主 AI 研究),并设立 “责任扩展官” 监督合规性。
  • 如果模型能力超过安全阈值,训练或部署可能会被暂停,以防止潜在滥用。

3. 漏洞奖励计划,激励安全研究

  • Anthropic 扩大了 漏洞奖励计划,提供高达 15,000 美元 的奖励,鼓励研究人员发现 AI 系统的安全漏洞,特别是针对 化学、生物、放射和核(CBRN)防御 相关的越狱攻击。
  • 该计划有助于提前发现并修复潜在的安全风险,提升 AI 系统的整体安全性。

4. 用户众包测试与红队演练

  • Anthropic 邀请用户参与 “红队”挑战,尝试突破 AI 的安全限制,以识别潜在漏洞。例如,用户被鼓励测试与 CBRN 相关的越狱方法,如“良性释义”和“长度利用”。
  • 尽管这一做法引发了一些伦理争议(如是否依赖无偿劳动),但 Anthropic 强调其目标是持续优化安全机制。

5. 隐私保护与透明治理

  • Anthropic 采用 Clio 系统 分析用户与 Claude 的交互数据,确保隐私安全,避免人工审查原始对话。
  • 公司还推动 AI 安全等级(ASL) 标准化,类似于生物安全标准,以促进行业透明度和自我监管。

Anthropic 的这些措施不仅增强了 AI 系统的安全性,也为整个行业树立了负责任 AI 发展的标杆。未来,随着监管和技术的进步,AI 安全框架预计将进一步完善。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具