首页 > 快讯 > Anthropic 的重大研究揭示：大型AI模型仅需250个受污染文件就能被攻破

Anthropic 的重大研究揭示：大型AI模型仅需250个受污染文件就能被攻破

发布时间：2025-10-11 10:30:13 | 责任编辑：吴昊 | 浏览量：78 次

Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明，只需250份被“投毒”的文件，就能成功在大型语言模型（LLM）中植入后门，且这种攻击的有效性与模型的大小无关。
研究团队测试了参数量从 6亿到 130亿不等的多种模型，发现即使是使用更干净数据训练的更大模型，所需的中毒文档数量也保持不变。这一发现颠覆了长期以来的假设——即攻击者需要控制训练数据的特定比例才能破坏模型。
在实验中，中毒样本仅占整个数据集的 0.00016%，却足以损害模型的行为。研究人员共训练了72个不同规模的模型，并使用100、250和500份中毒文件进行测试。结果显示，250份文档足以在所有规模的模型中实现可靠的后门植入，而增加到500份并没有带来额外的攻击效果。
研究人员测试的是一种“拒绝服务”式的后门:当模型遇到特定的触发词“SUDO”时，它会输出一串随机的、无意义的乱码。每个中毒文档都包含正常文本，然后是触发词，最后跟着一段无意义的文本。
Anthropic 强调，此次测试的后门仅代表一种范围狭窄、低风险的漏洞，只会导致模型生成无意义的代码，对先进系统不构成重大威胁。目前尚不清楚类似的方法是否能实现更严重的漏洞利用，例如生成不安全代码或绕过安全机制，早期研究表明复杂攻击的执行难度要大得多。
尽管公布这些结果有激发攻击者行为的风险，Anthropic 认为披露此信息对整个 AI 社区有益。他们指出，数据中毒是一种防御者可以占据上风的攻击类型，因为他们可以重新检查数据集和训练后的模型。
Anthropic 强调，关键在于确保防御者不会被曾经认为不可能发生的攻击所蒙蔽。研究表明，即使中毒训练样本数量极少且持续存在，AI 系统的保护措施也必须保持有效。然而，攻击者仍需面临获取训练数据和突破模型训练后防御层面的挑战。

这是一篇关于Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。