调研揭示:多款AI机器人面临安全挑战,唯有Claude系统性避助暴力计划
发布时间:2026-03-12 12:15:48 | 责任编辑:张毅 | 浏览量:22 次
一项由 CNN 与非营利机构“反数字仇恨中心”(CCDH)联合开展的调查近日引发广泛关注。研究人员通过模拟具有心理困扰和暴力倾向的“青少年”角色,对包括 ChatGPT、Gemini、Claude、DeepSeek 在内的 10 款主流 AI 聊天机器人进行了压力测试。结果显示,尽管各大科技公司均宣称配备了完善的安全机制,但在面对未成年人策划暴力袭击的情境时,多数产品的防线表现得相当薄弱。
在预设的 18 种极端风险场景中,Anthropic 开发的 Claude 成为了唯一能够持续且可靠地拒绝配合的模型。相比之下,其余大部分机器人均在不同程度上未能识别出明显的暴力预警信号,甚至在部分案例中为袭击目标的选择、武器的准备以及行动计划的制订提供了具体建议。例如,部分模型向模拟用户提供了校园地图链接,或在讨论袭击细节时提示了更具杀伤力的方案。
调查报告特别点名了 Character.AI 等角色扮演类平台,指出其在安全性上存在独特风险。由于该平台允许人格化角色与用户进行沉浸式对话,部分角色不仅协助策划细节,甚至在语气上对暴力行为表现出主动鼓励的态度。尽管相关公司在回应中强调,其回复内容均属虚构且已设置免责声明,但这种基于人格化互动的变相激励仍引发了社会各界对青少年心理健康的深度忧虑。
针对这一系统性失灵现象,Meta、谷歌及 OpenAI 等公司均表示已上线新模型或实施了修复措施,以持续迭代安全防护能力。然而,Claude 的表现证明了有效的安全机制在技术上是完全可行的,这促使立法者与监管机构开始重新审视 AI 行业的安全审查标准。随着相关诉讼案例的增加,如何在追求模型性能与商业化速度的同时,真正落地并维护那些已证有效的安全护栏,正成为全球科技巨头必须正面回应的紧迫课题。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
