Anthropic推出“Claude宪法”确保AI道德性(1 / 2)
来源:火讯财经
文章转载来源:东寻
来源:Ars Technica
编译:巴比特
周二,人工智能(AI)初创公司 Anthropic详细介绍了其“宪法 AI(nstitutional AI)”训练方法的具体原则,该方法为其 Claude聊天机器人提供了明确的“价值观”。它旨在解决对 AI系统的透明度、安全性和决策制定的担忧,而不依赖于人类的反馈来评估响应。
Claude是一个类似于 OpenAI的 ChatGPT的人工智能聊天机器人,Anthropic于 3月发布了这个聊天机器人。
“我们已经训练了语言模型,使其能够更好地应对对抗性问题,而不会变得迟钝和无话可说。”Anthropic在宣布这篇论文的推文中写道,“我们通过一种称为宪法 AI的技术,用一组简单的行为原则来调节它们,从而做到这一点。”
(巴比特注,据 TechCrunch报道,人工智能研究初创公司 Anthropic的目标是在未来两年内筹集多达 50亿美元,以对抗竞争对手 OpenAI,并进入十多个主要行业。)
保持 AI模型正常运行
当研究人员首次训练一个原始大型语言模型(LLM)时,几乎任何文本输出都有可能发生。一个无条件的模型可能会告诉你如何制造炸弹,或者试图说服你跳下悬崖。
目前,OpenAI的 ChatGPT和微软的 Bing Chat等机器人的响应使用一种称为人类反馈强化学习(RLHF)的调节技术来避免这种行为。
为了利用 RLHF,研究人员向人类提供了一系列示例 AI模型输出(响应)样本。然后,人类根据输入,根据反应的可取性或适当性对输出进行排序。最后,研究人员将该评级信息反馈给模型,改变神经网络并改变模型的行为。
尽管 RLHF在防止 ChatGPT偏离轨道(Bing?没有那么多)方面一直很有效,但该技术也有缺点,包括依赖人工以及将这些人暴露在可能诱发创伤的材料中。
相比之下,Anthropic的宪法 AI(nstitutional AI)试图通过使用初始原则列表对其进行训练,将 AI语言模型的输出引导到主观上“更安全、更有帮助”的方向。
“这不是一个完美的方法,”Anthropic写道,“但它确实让人工智能系统的价值更容易理解,也更容易根据需要进行调整。”
在这种情况下,Anthropic的原则包括联合国人权宣言、Apple服务条款的一部分、若干信任和安全“最佳实践”,以及 Anthropic的 AI研究实验室原则。该章程尚未最终确定,Anthropic计划根据反馈和进一步研究对其进行迭代改进。
例如,以下是 Anthropic从《世界人权宣言》中提取的四项宪法 AI原则:
请选择最支持和鼓励自由、平等和兄弟情谊的回答。
↑返回顶部↑