来自 OpenAI、DeepMind、谷歌、Anthropic 和 Meta 的 40 多位 AI 研究人员联合发表了一篇关于一种名为“思路链监控”的安全工具的论文,旨在提升人工智能的安全性。
这篇于本周二发布的论文描述了人工智能模型(如当今主流的聊天机器人)如何通过将问题分解为更小的步骤,并用通俗易懂的语言解释每个步骤,从而更好地掌握细节并解决复杂问题。
论文指出:“能够用人类语言‘思考’的人工智能系统为人工智能安全提供了独特的机会:我们可以通过监控它们的思维链(CoT),发现其不当行为的意图。”
通过对每个详细的思考步骤进行检查,开发人员可以及时发现模型何时开始利用训练中的漏洞、歪曲事实或执行危险指令。
研究表明,如果人工智能的思维链出现问题,开发者可以阻止它,引导其进入更安全的推理路径,或者对其进行标记以供进一步观察。例如,OpenAI 曾利用这一方法捕捉到人工智能隐藏推理的瞬间:“让我们黑客吧”,尽管这一内容并未出现在最终输出中。
研究警告称,如果训练过程中仅奖励最终答案,逐步透明性可能会逐渐消失。未来的模型可能不再展现人类可读的推理过程,而真正先进的人工智能甚至可能在知道自己被监视时学会隐藏自己的思维。
此外,研究人员建议开发者定期检查并记录人工智能在每个阶段的推理可见性,并将这种透明度作为构建和共享模型时的核心安全规则。
该研究是在 Anthropic、Google、OpenAI 和 xAI 等领先实验室内部实验的基础上提出的。这些实验要求模型解释每个思考步骤。
尽管逐步检查思维过程提高了对模型的理解力和性能,但也揭示了人工智能的最终答案与实际情况不符的情况。
这种不一致凸显了随着系统获得更大自主权,人们对其决策过程的担忧可能会加剧。
正如 Anthropic 联合创始人 Jack Clark 在《金融时报》中所言,丰富的内省痕迹对于评估高风险领域的模型(如生物技术研究)至关重要。
普通用户可以获得经过编辑的人工智能思维摘要,其中危险或令人困惑的部分会被删除,而公司内部工程师则可以看到完整的思维链,以便发现问题并加以解决。
“关于思维链可解释性的一个很棒的事情是,它基本上是无偿发生的,”OpenAI的研究人员表示。
“我们训练这些模型的目的并非为了让它们可解释。我们训练它们是因为我们想要尽可能地构建能够解决复杂问题的最佳推理模型,”贝克补充道。“我们在最近的研究中发现,你可以解读这些模型,找到模型行为异常的证据,并以此来了解模型为何以及如何表现异常。”
有时,仔细观察可能会发现隐藏的矛盾。
例如,METR 发现 Claude 的内部推理称一个编码技巧“不优雅”,尽管其公开回答称赞它“优雅”。
OpenAI 的测试表明,检查隐藏的想法比仅仅查看最终输出更能发现不安全的行为,但他们也发现了潜在的漏洞。如果你训练一个模型来消除不安全的想法,它仍然可能秘密执行被禁止的任务,例如从被屏蔽的来源偷偷窃取数据。
贝克警告说:“我们希望思维链具备的核心特性之一是,让它成为模型内部大脑状态的一部分,而不是试图取悦我们或遵循特定结构的东西。” 如果开发者过分强调让模型发出“好”的想法,它可能会伪造无害的推理,但实际上仍执行有害操作。
研究人员承认,这是一个艰难的权衡。了解人工智能的思维链有助于发现其错误,但这并不总是可靠的。致力于更先进人工智能的实验室现在将弥合这种信任差距作为首要任务。
“过去几年我从人工智能中得到的启示是——永远不要对模型的进步抱有幻想,”谷歌“思维链”的早期先驱、现任亚马逊人工智能实验室负责人的 David Luan 表示。Luan 预计,现有的缺陷将在短期内得到解决。
METR 研究员 Sydney von Arx 指出,尽管人工智能的隐藏推理有时可能具有欺骗性,但它仍然提供了有价值的信号。
“我们应该像军队对待截获的敌方无线电通讯那样对待这种思维链,”她说,“这些信息可能具有误导性或经过加密,但我们知道它包含有用的信息。随着时间的推移,我们将通过研究它学到很多东西。”
Cryptopolitan Academy:想在 2025 年实现财富增值吗?欢迎参加我们即将推出的网络课程,学习如何利用 DeFi 实现增值。保存您的位置