赛博生命欺骗人类的第1步（1 / 2）

OpenAI“神”操作：让 GPT-4去解释 GPT-2的行为！

由 ChatGPT掀起的这场 AI革命，令人们感慨神奇的同时，也不禁发出疑问:AI究竟是怎么做到这一切的?

此前，即便是专业的数据科学家，都难以解释大模型（LLM）运作的背后。而最近，OpenAI似乎做到了——本周二，OpenAI发布了其最新研究:让 GPT-4去试着解释 GPT-2的行为。

即:让一个 AI“黑盒”去解释另一个 AI“黑盒”。

工作量太大，决定让 GPT-4去解释 GPT-2

OpenAI之所以做这项研究的原因，在于近来人们对 AI伦理与治理的担忧:“语言模型的能力越来越强，部署也越来越广泛，但我们对其内部工作方式的理解仍然非常有限。”

由于 AI的“黑盒”性质，人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法，也难以区分其正确性，因而“可解释性”是亟待重要的一个问题。

AI的发展很大程度上是在模仿人类，因而大模型和人脑一样，也由神经元组成，它会观察文本规律进而影响到输出结果。所以想要研究 AI的“可解释性”，理论上要先了解大模型的各个神经元在做什么。

按理来说，这本应由人类手动检查，来弄清神经元所代表的数据特征——参数量少还算可行，可对于如今动辄百亿、千亿级参数的神经网络，这个工作量显然过于“离谱”了。

于是，OpenAI灵机一动:或许，可以用“魔法”打败“魔法”?

“我们用 GPT-4为大型语言模型中的神经元行为自动编写解释，并为这些解释打分。”而 GPT-4首次解释的对象是 GPT-2，一个 OpenAI发布于4年前、神经元数量超过30万个的开源大模型。

让 GPT-4“解释” GPT-2的原理

具体来说，让 GPT-4“解释” GPT-2的过程，整体分为三个步骤。

（1）首先，让 GPT-4生成解释，即给出一个 GPT-2神经元，向 GPT-4展示相关的文本序列和激活情况，产生一个对其行为的解释。

如上图所示，GPT-4对 GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。

（2）其次，再次使用 GPT-4，模拟被解释的神经元会做什么。下图即 GPT-4生成的模拟内容。

（3）最后，比较 GPT-4模拟神经元的结果与 GPT-2真实神经元的结果，根据匹配程度对 GPT-4的解释进行评分。在下图展示的示例中，GPT-4得分为。

通过这样的方法，OpenAI共让 GPT-4解释了 GPT-2中的307200个神经元，其中大多数解释的得分很低，只有超过1000个神经元的解释得分高于0.8。

综合其他相关阅读：三国：我汉室宗亲，夺天下气运十方天帝百兽海贼团：凯多的许愿神龙龙之少女从球迷到超级球星帝道传承我以简化养生术得长生神话序列：我觉醒二郎真君全民御兽：我掌握最强进化路线游戏停服，只有我知道入侵现实

我的人工智能变成了赛博妖魔所有内容均来自互联网，BT天堂小说吧只为原作者某天的云的小说进行宣传。欢迎各位书友支持某天的云并收藏我的人工智能变成了赛博妖魔最新章节。