关于AI的可怕真相没有人知道它们到底是如何工作的(1 / 2)

加入书签

 随着科技公司竞相改进和应用大型语言模型 LLM,研究人员仍然无法解释或“演绎”这些神秘“黑匣子”的内部机制。这就是人工智能 AI聊天机器人非常可怕之处:没有人知道它们具体是如何工作的。本文来自编译,希望能对你有所启示。

像 ChatGPT、Bard这样的大型语言模型(LLM),与过去的革命性技术相比,至少在一个方面有显著的不同,那就是:没有人确切地知道前者是如何工作的,甚至连构建模型的人都不清楚。

传统的计算机程序的编码十分详细,以指示计算机反复执行相同的任务。但神经网络,包括那些运行大型语言模型(LLMs)的神经网络,是以人类无法理解的方式和独特语言进行编程,并进行推理的。今年 2月份,《纽约时报》记者 Kevin Roose在与 Bing Chat进行的一次神奇对话中发现它拥有两个完全不同的人格,微软首席技术官 Kevin Stt无法解释为什么聊天机器人会说出诸如“我爱你”这样的话。

LLM语言模型的这一“神秘又不可捉摸”的方面加剧了科学家们的担忧,即该技术的持续开发和应用可能会产生严重甚至是灾难性的意外结果。越来越多的科学家认为,随着 LLM变得越来越好、越来越聪明,它们可能会被图谋不轨者(或国防机构)利用来伤害人类。一些人认为,由于人工智能系统将表现出与人类相比更高的智力和更强的推理能力,因此“它们最终与人类站在对立面”是其进化过程中可预测的、自然而然形成的结果。

今年 3月,包括图灵奖得主约书亚·本吉奥(Yoshua Bengio)、史蒂夫·沃兹尼亚克(Steve Wozniak)和埃隆·马斯克(Elon Musk)在内的 1000多名商界领袖和科学家签署了一封公开信,呼吁暂停开发比 GPT-4更强大的 AI系统至少 6个月,部分原因是他们对这些人工智能系统的工作原理缺乏了解。

信中写道:“最近几个月,各个人工智能实验室陷入了一场失控又危险的竞赛中,他们致力于开发和部署更强大的数字思维,但即使是研发者也无法理解、预测或可靠地控制这些数字思维。”

目前,“人工智能教父”杰弗里·辛顿(Geoffrey Hinton)以更明确的态度加入了 AI批评者的行列,公开谈论了他对 AI的担忧。辛顿近期在麻省理工学院接受采访时说:“我认为人类完全有可能只是数字智能进化的一个过渡阶段。”辛顿最近辞去了在谷歌的工作,他之所以选择离职是想日后自己能够完全自由地讨论人工智能的危险性,他想要成为“吹哨人”,阻止危险事件发生。

“我要拉响警报,我们必须要为此担忧,虽然目前还不清楚是否有解决方案。”辛顿从谷歌离职时表示。他还提到,当人工智能系统被允许设定自己的“子目标”时,它们最终会把人类视为实现这些目标的障碍。一个经典假设就是:一个负责解决气候变化问题的人工智能机器人可能很快就会认定,人类和人类习惯是引起气候变化的重要因素,所以人类是实现其目标的主要障碍。这种想法认为,拥有超人类智慧的人工智能可能很快就会学会去欺骗使用它的人类操作员。

这种危险直接关系到人类解读神秘黑匣子运行机制的能力。OpenAI在本月发表的一篇关于人工智能可解释性的研究论文中似乎承认了这一点,OpenAI的研究人员写道:“我们对它们内部工作原理的了解仍然非常有限。例如,使用者可能很难从输出中判断它们是使用了有偏见的启发式方法还是在胡编乱造。”

随着模型规模的不断扩大和算法不断优化,自然语言模型处理技术取得了巨大进步,研究人员发现自己在解释 LLMs大型语言模型运行机制方面远远落后。人们投入更多的资金用于更新和优化迭代模型的性能,而不是用于更好地理解模型的内部运行机制。

那么,问题是,目前开发人工智能的利润驱动型科技公司能否在短期内充分了解 LLM并有效管理长期风险?

机械可解释性:逆向工程神经网络

大型语言模型发展得太快了,可以说是飞速发展。这项技术目前的领先者——ChatGPT,由一种名为“radically souped-up transformer model”的技术驱动,该技术是谷歌在 2017年的发明。从广义上讲,ChatGPT作为处理序列数据的模型,其利用大量的文本语料库和复杂的计算能力进行训练,最终进化为一个对人类语言有着惊人敏锐直觉的巨型语言模型。

但 OpenAI的 GPT模型所做的不仅仅是预测句子中的单词。随着 ChatGPT的更新迭代发展,在反复研究所有训练数据的同时,它们获取了关于世界运作的相关知识,拥有了复杂理性的计算能力。

但是,对人类语言的敏锐直觉是如何从模型对其训练数据的处理中产生的呢?LLM在哪个网络层和神经元中将这些直觉应用于其输出的内容中呢?回答这些问题的唯一方法是对神经网络进行逆向工程,以此来对模型实现的算法给出一个机理上的解释。也就是说,跟踪网络中神经元之间复杂的相互作用网络,它们对输入(提示)做出反应,从而产生输出(答案)。这种重组被称为“机械可解释性”。

LLM开发公司 Anthropic的可解释性研究员约书亚·巴特森(Joshua Batson)说:“它的最小元素可能是一个单独的小神经元,看看它会对什么做出反应,然后会将这种反应传递给谁。”

支撑 ChatGPT等工具的神经网络由一层又一层的神经元组成,这些神经元是复杂数学计算发生的连接点。当在没有人为对单词或短语进行标记,也没有人为对输出做出反馈的情况下,去处理堆积如山的文本数据时,这些神经元共同形成了一个抽象的多维矩阵,映射出单词与单词、单词和短语之间的关系。该模型能够理解单词或短语在上下文中的含义,并能够预测句子中接下来可能出现的单词,或者最有可能从语言提示中出现的单词。

神经网络架构大致是基于复杂生物体(人类)的神经系统所设计的,今天最先进的 LLM模型有数亿个这样的神经元。经过几十年的研究,迄今为止神经科学还没有成功实现对生物系统的逆向工程。

LLM开发者 here的首席执行官艾丹·戈麦斯(Aidan Gomez)表示:“神经科学试图采取自下而上的方法,事实证明这是一种非常困难的方法,因为跟踪整个路径是极其困难的。”戈麦斯说,“在一个活的有机体中,这种自下而上的方法意味着研究生物体获取感官数据的方式,并跟踪脉冲。因为神经脉冲从一个神经元传递到另一个神经元,最终形成可能导致行动的高阶神经元。”

在一个合成的神经网络中,跟踪一个神经元到另一个神经元的路径也同样困难。这很令人遗憾,因为正是在这些路径中,类似于 HAL 9000的想法的起源出现了。

图像模型的成功

机械可解释性领域取得的突破性进展,要归功于神经网络方面的相关研究,尤其是那些旨在识别和分类不同类型图像的神经网络研究。在这些神经网络中,研究人员更容易确定单个神经元的具体任务,以及每个神经元的工作如何为识别图像内容的整体目标做出贡献。

在一个旨在识别图像中的汽车的神经网络中,有一层神经元可能专门用于检测表示特定形状(例如曲线或圆形)的像素组。这一层中的一个神经元可能会被激活,并向网络中的另一层神经元发送一个高概率分数,以判断这个形状是轮胎还是方向盘。随着这些连接的建立,智能 AI会越来越确定此图形是一辆车。

因此,可解释性导致了微调的能力。正如 Anthropic的巴特森解释的那样:“如果你想知道为什么不是汽车的东西被误认为是汽车了,可以通过神经网络追踪,你会发现是车轮探测器将煎锅错误指认成了轮胎。”

↑返回顶部↑

书页/目录