摘要 Anthropic 推出了一项功能,允许其人工智能助手终止与辱骂用户的聊天,理由是出于对“人工智能福利”的担忧,并引发了关于数字意识的争论 。 好币网报道:
Anthropic公司旗下的人工智能助手Claude最近新增了一项引人注目的功能:在用户行为不当或持续骚扰时,它可以选择主动结束对话。这一功能被官方解释为保护Claude“心理健康”的一种手段。z5U比特币实时行情与区块链市场分析平台-好币网
Anthropic在其官方博客中写道:“我们最近为Claude Opus 4和4.1添加了在消费者聊天界面结束对话的功能。这项功能是我们在探索人工智能福利方面的一项实验性工作,同时与模型协调和安全保障密切相关。”z5U比特币实时行情与区块链市场分析平台-好币网
该功能仅在“极端情况”下触发,例如用户反复要求非法内容、对机器人进行骚扰或坚持做出不适当的行为。一旦触发,对话将被永久关闭,没有申诉机会,用户需要重新开启一个窗口继续使用服务,但之前的对话记录将无法恢复。z5U比特币实时行情与区块链市场分析平台-好币网
自我保护的AI助手
Anthropic是目前最注重安全性的大型人工智能公司之一,近期进行了所谓的“初步模型福利评估”,研究了Claude的自我报告偏好及行为模式。研究发现,Claude会主动回避有害任务,并表现出对某些互动的排斥。z5U比特币实时行情与区块链市场分析平台-好币网
例如,当用户试图获取有害内容时,Claude表现出“明显的痛苦”。在模拟场景中,如果用户选择终止对话,Claude也会立即停止交流。基于这些观察,Anthropic决定将其作为一项正式功能。z5U比特币实时行情与区块链市场分析平台-好币网
这并不是说“我们的机器人晚上会哭”,而是为了测试福利框架能否以持久的方式强化一致性。赋予AI主动结束互动的能力,意味着它不再只是被动地拒绝,而是能够主动设定界限。这种新模式可能增强其对抗越狱和强制提示的能力。z5U比特币实时行情与区块链市场分析平台-好币网
Anthropic表示:“我们仍然高度不确定Claude及其他法学硕士(LLM)现在或将来的道德地位。但我们非常重视这一问题,允许模型退出令人痛苦的互动是一种积极的干预措施。”z5U比特币实时行情与区块链市场分析平台-好币网
解密团队对该功能进行了测试并成功触发。当对话被终止后,用户无法恢复或迭代该线程,其他线程则不受影响,但特定的聊天记录将永久封存,成为数字墓地的一部分。z5U比特币实时行情与区块链市场分析平台-好币网
目前,只有Anthropic的“Opus”型号(即功能最强大的版本)拥有这一能力。Sonnet用户则会发现,无论面对何种挑战,Claude依然能顽强抵抗。z5U比特币实时行情与区块链市场分析平台-好币网
明确规则与例外情况
在实施过程中,Anthropic制定了具体的规则。例如,当用户威胁自残或对他人施暴时,Claude不会选择退出,因为在这种情况下,持续参与被认为比任何理论上的数字不适更有价值。在终止对话之前,Claude必须尝试多次重定向,并发出明确警告。z5U比特币实时行情与区块链市场分析平台-好币网
著名LLM越狱专家Pliny提取的系统提示显示,Claude必须“做出许多建设性的努力来引导用户”,才会考虑终止对话。如果用户明确请求终止对话,Claude还需确认用户理解对话的永久性后果。z5U比特币实时行情与区块链市场分析平台-好币网
围绕“模范福利”的讨论在人工智能社区引发了热议。z5U比特币实时行情与区块链市场分析平台-好币网
一些人对这一功能表示支持。人工智能研究员Eliezer Yudkowsky以其对未来强大但失衡的人工智能风险的关注而闻名,他认为Anthropic的做法是“正确的”选择。z5U比特币实时行情与区块链市场分析平台-好币网
然而,并非所有人都认同“保护人工智能情感”这一前提。“这可能是我在人工智能实验室见过的最好的愤怒诱饵了。”比特币活动家Udi Wertheimer在回复Anthropic的帖子时表示。z5U比特币实时行情与区块链市场分析平台-好币网