关于AI的可怕真相没有人知道它们到底是如何工作的(2 / 2)

加入书签

巴特森说,团队非常专注于研究 LLM中的重要神经元组,而不是单个神经元。这有点像一群神经学家在人类大脑中探寻控制不同身体或心理功能的部分。

“也许我们正开始弄清楚神经网络的基本参与者是什么,并基于此探究神经元是如何相互作用的,例如‘它是如何映射物理世界的,它是如何映射情感世界的,它是如何思考文学或个体的’。这样,你便可以得到对于更大的神经元模块的理解。”

Anthropic的联合创始人杰克·克拉克(Jack Clark)补充说:“我认为,目前的情况是,我们可以将这些可解释性技术应用于参数较小的文本模型,而无法应用于数千亿参数大小的巨型文本模型。目前人们面临的问题是,我们能以多快的速度将文本可解释性技术应用于更大的模型。”

可解释性和安全性

AI公司投资解释性研究最迫切的原因之一,或许是为了找到更好的方法来在大型语言模型周围建立“防护栏”。如果一个模型容易输出有害言论,研究人员通常会研究系统对各种潜在风险提示的响应,然后对模型的发言进行限制,或者完全禁止模型对某些提示进行回应。

但西雅图艾伦人工智能研究所(Allen Institute for AI)模型可解释性研究员萨拉·维格莱夫(Sarah Wiegreffe)表示,这种方法确实存在局限性。她说:“这当然是有限的,因为考虑到模型可以接收的巨大输入空间,以及它可以产生的巨大输出空间,要合理地列举出现实世界中可能遇到的所有可能场景是相当困难的。”

在这种情况下,机械可解释性可能意味着在深层神经网络寻找导致不安全输出的关键计算点。“例如,最近的一些研究表明,如果你能在语言模型中定位某个事实陈述,那么就意味着你实际上可以编辑该模型的权重,并从根本上纠正它。也就是说在不需要重新训练整个系统的情况下,你可以修正模型来改变那些不正确的参数。”维格莱夫说。

但是,凡事都有两面性,调整一个大型语言模型对一种有害行为的倾向性可能会阻碍它对我们喜欢的其他行为的倾向性。例如,明确的“不要说……”命令可能会限制模型的创造性和即兴发挥的能力。即使用侵入性较小的方式来“操纵“一个模型也会如此。

事实上,人工智能界的许多人仍然对“用逐个神经元的机械解释性来确保 AI系统的近期和长期安全性”是否必要,持保留态度。

“鉴于我们的工作时限,我不认为这是研究智能系统的最佳方式。”here的戈麦斯(Gomez)说。

事实上,随着资本主义势力现在推动科技公司在每个行业生产 LLM,并很快将其用于个人技术(例如 Alexa和 Siri),人工智能社区可能没有那么长的时间来加深他们对 LLM如何工作的理解。

戈麦斯说:“最简单的方法就是要求系统引用其来源,我相信随着这些系统开始被用于更重要的任务,我们将不得不要求模型的输出要以事实为基础。”

没有基准

虽然存在大量的基准来衡量语言模型的性能,如人工智能的标准化测试,但还没有一组通用的基准来衡量 LLM的可解释性。业界还没有采用 OpenAI的评分系统来解释 LLM中单个神经元的输出。

有很多研究人员尽他们最大的努力在研究 LLM背后的工作机制,他们发表论文,探索研究模型的新技术,社区中的其他研究人员则试图在现有直觉的基础上理解现有的进步。巴特森说:“我们还没有一个可以达成一致并努力实现的指标或基准。目前我们已经了解了一些现象,现在正在把整体情况汇总起来。”

巴特森说:“当你看到它的时候,你肯定知道其中的内在机制。你会说,‘哦,好吧,这是对正在发生的事情更好的描述。”

可解释性与一致性

虽然 LLMs的近期安全很重要,但未来的 LLMs可能会带来远比输出错误答案更严重的威胁。研究员和哲学家尤德科夫斯基(Eliezer Yudkowsky)为人们敲响警钟,他表示随着 LLMs变得更好,在智力上远远超过人类,以及它们变得更加自主,它们很有可能会开始违背人类的利益。

这种可能性可能比你想象的更大。让我们假设 LLM在学习和推理方面不断进步,并且能够更好地捕捉数据(可能是实时视觉和音频数据),使其在现实世界中站稳脚跟,并开始共享数据和相互训练。让我们假设 LLM最终成为 AGI(人工通用智能),并在重要方面的表现远远超过人类智能。如果不完全了解这些强大的 LLM的早期先例,我们能否在其发展的各个阶段管理这些大型语言模型,使其与人类利益保持一致,不与我们作对,甚至不愿与我们作对呢?

目前人们在这个问题上仍然存在分歧。尤德科夫斯基和辛顿对人类是否能够管理人工智能系统中的一致性持严重怀疑态度,他们都不认为在这些系统中实现机械可解释性是一个万能解决方案。

尤德科夫斯基说:“如果你正处在一场全球人工智能军备竞赛中,人们会说减速没有意义,因为他们的竞争对手不会减速。”他认为 AI系统将通过学习隐藏其内部过程,来抵制人类的安全训练。如果你试图利用自己的“作恶思想检测器”来训练这些巨大的、不可捉摸的语言模型矩阵,让它们不再“作恶”,你就是在训练它们反对作恶的同时,也在训练它们反对可见性。”

尤德科夫斯基说:“这就是为什么即使实现‘能够在 AI的思维中看到警示标志’级别的可解释性,也并不意味着每个人都是安全的。”

译者:Araon_

↑返回顶部↑

书页/目录