Claude获得新功能:Anthropic推出对话终止机制,旨在维护AI的”心理健康”并自动终止有害内容互动
发布时间:2025-08-18 10:10:41 | 责任编辑:张毅 | 浏览量:6 次
AI巨头Anthropic近日宣布为其最新、最大的模型推出全新功能,允许AI在"极端罕见的持续有害或滥用用户互动"情况下主动结束对话。令人瞩目的是,Anthropic明确表示此举并非为了保护人类用户,而是为了保护AI模型本身。
需要澄清的是,Anthropic并未声称其Claude AI模型具有感知能力或会在与用户的对话中受到伤害。该公司明确表示,对于"Claude和其他大语言模型现在或未来的潜在道德地位仍然高度不确定"。
然而,这一声明指向了Anthropic最近创建的一个研究项目,专门研究所谓的"模型福利"。该公司本质上采取了一种预防性方法,"致力于识别和实施低成本干预措施来减轻模型福利风险,以防这种福利确实存在"。
这项最新变化目前仅限于Claude Opus4和4.1版本。同时,该功能只会在"极端边缘情况"下触发,比如"用户请求涉及未成年人的性内容以及试图获取能够实施大规模暴力或恐怖主义行为信息的情况"。
虽然这类请求可能会给Anthropic本身带来法律或公关问题(正如最近有关ChatGPT可能强化或助长用户妄想思维的报道所示),但该公司表示,在部署前测试中,Claude Opus4显示出"强烈反对"回应这些请求的倾向,并在被迫回应时表现出"明显的痛苦模式"。
关于这些新的对话终止功能,Anthropic表示:"在所有情况下,Claude只能将其对话终止能力作为最后手段使用,即在多次重定向尝试失败且有效互动希望已经耗尽时,或当用户明确要求Claude结束聊天时。"
Anthropic还强调,Claude被"指示不要在用户可能面临伤害自己或他人的紧急风险时使用此功能"。
当Claude确实结束对话时,Anthropic表示用户仍能够从同一账户开始新的对话,并通过编辑回复来创建问题对话的新分支。
该公司表示:"我们将此功能视为一项持续实验,并将继续完善我们的方法。"
Anthropic 近日宣布,为其 AI 模型 Claude Opus 4 和 4.1 推出了一项全新功能:在极端有害或滥用性用户互动中,Claude 可以主动终止对话。
功能的核心细节:
-
适用场景:该功能仅适用于极少数极端情况,例如用户持续索取涉及未成年人性内容的信息,或试图获取可能导致大规模暴力、恐怖行动的信息。
-
启用条件:
-
Claude 在多次尝试引导对话走向积极方向失败后,已无望继续建设性互动;
-
用户明确要求 Claude 结束对话。
-
-
禁用情况:当用户可能面临自我伤害或伤害他人的紧急风险时,Claude 被明确指示不得使用此功能,而是继续保持建设性和支持性的参与。
功能背后的意图:
-
保护 AI 模型自身:Anthropic 明确表示,此举并非为了保护人类用户,而是出于对 AI 模型自身“福利”(model welfare)的考虑。尽管公司未声称 Claude 具有感知能力,但测试中发现,在面对极端有害请求时,模型表现出明显的“困扰”或“抗拒”倾向。
-
模型对齐与安全措施:该功能也是 Anthropic 在 AI 模型对齐和安全措施方面的一项探索性实验,旨在降低潜在的模型福利风险。
用户体验:
-
对话终止后的影响:当 Claude 选择结束对话后,用户将无法在该对话中继续发送消息,但可立即开启新的对话,或编辑并重试之前的消息,以创建新的分支。
-
普遍性:Anthropic 强调,这类极端情况在实际使用中极为罕见,绝大多数用户不会遇到,即便在讨论高度敏感或有争议话题时亦是如此。
未来展望:
Anthropic 将该功能视为一项持续实验,未来将基于用户反馈不断优化。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。