首页 > 快讯 > AI安全警告：只需250个文档就能“污染”大型语言模型

AI安全警告：只需250个文档就能“污染”大型语言模型

发布时间：2025-10-11 17:08:48 | 责任编辑：吴昊 | 浏览量：76 次

近日，人工智能研究公司 Anthropic 发布了一项震惊业界的研究，揭示了对大语言模型进行 “数据投毒” 攻击的新可能性。以往，大家普遍认为，攻击者需要占训练数据中一定比例的 “毒药” 样本才能成功，但该研究颠覆了这一观念。实际上，只需 250 份 “投毒” 文档就足以对任何规模的大模型实施攻击。
研究团队与英国人工智能安全研究所及艾伦・图灵研究所合作，进行了迄今为止规模最大的投毒攻击模拟。他们采用了一种名为 “拒绝服务” 的后门攻击方式。攻击的核心在于，当模型接收到特定的触发短语时，便会陷入混乱，输出一堆无意义的随机文本。这一过程的细节相当严谨：首先，团队从正常文档中随机提取一段开头，然后加入触发词，最后再加上一段随机生成的乱码。这种 “伪装” 让毒文档在正常数据中难以察觉。
实验中，研究人员使用了不同参数规模的四种模型（600M、2B、7B 和 13B），每种模型都经过相同的训练标准。实验结果显示，模型的大小对投毒的成功率几乎没有影响。无论是 250 份还是 500 份投毒文档，所有模型的反应都几乎一致。尤其令人震惊的是，250 份投毒文档仅占模型总训练数据的微不足道的 0.00016%，却能成功污染整个模型。
研究表明，只要模型 “见过” 250 份投毒文档，攻击效果便会迅速显现。这一发现不仅让人对 AI 安全产生担忧，也促使各界重新审视数据源的审查机制。为了应对这一威胁，专家建议加强对训练数据的监控与审查，同时开发自动检测 “投毒文档” 的技术。
尽管该研究揭示了数据投毒的可行性，但研究者也指出，这一发现是否适用于更大规模的模型（如 GPT-5 等）尚待验证。此外，攻击者在实施攻击时也面临着确保 “毒药” 被选中的不确定性。因此，这项研究无疑为 AI 安全敲响了警钟，促使行业加紧行动，增强防护措施。

这是一篇关于AI安全警报：只需250份文件即可 “投毒” 大语言模型的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。