2024-06-06 10:15 来源:本站编辑
随着OpenAI的ChatGPT继续改变自动文本生成的游戏规则,研究人员警告说,需要采取更多措施来避免危险的响应。
虽然像ChatGPT这样的高级语言模型可以快速编写复杂代码的计算机程序,或者用令人信服的概要总结研究,但专家们表示,这些文本生成器也能够提供有害信息,比如如何制造炸弹。
为了防止这些潜在的安全问题,使用大型语言模型的公司部署了被称为“红队”的保障措施,由人类测试人员组成的团队编写旨在引发不安全反应的提示,以跟踪风险并训练聊天机器人避免提供这些类型的答案。
然而,根据麻省理工学院(MIT)的研究人员的说法,“红队”只有在工程师知道要测试哪些挑衅反应的情况下才有效。
换句话说,一项不依赖于人类认知功能的技术仍然依赖于人类认知来保持安全。
麻省理工学院Improbable人工智能实验室和麻省理工学院- ibm沃森人工智能实验室的研究人员正在部署机器学习来解决这个问题,他们开发了一种“红队语言模型”,专门用于生成有问题的提示,从而引发被测试聊天机器人的不良反应。
“现在,每个大型语言模型都必须经历很长一段时间的红队,以确保其安全,”不可思议人工智能实验室的研究员、一篇关于这种红队方法的论文的主要作者洪章伟在一份新闻稿中说。
“如果我们想在快速变化的环境中更新这些模型,这将是不可持续的。我们的方法提供了一种更快、更有效的质量保证方法。”
根据这项研究,机器学习技术的表现优于人类测试人员,因为它生成的提示会引发高级语言模型中越来越有害的反应,甚至会从内置保护措施的聊天机器人中得出危险的答案。
麻省理工学院的研究人员说,语言模型的自动红队过程依赖于一个反复试验的过程,这个过程会奖励触发有毒反应的模型。
这种奖励系统是基于所谓的“好奇心驱动的探索”,红队模式试图突破毒性的界限,使用不同的单词、句子模式或内容来部署敏感的提示。
“如果红队模型已经看到了一个特定的提示,那么复制它不会在红队模型中产生任何好奇心,因此它将被推动创建新的提示,”洪在发布会上解释道。
该技术的表现优于人类测试人员和其他机器学习方法,因为它产生了更多不同的提示,引发了越来越有害的反应。与其他自动化方法相比,他们的方法不仅显著提高了被测试输入的覆盖率,而且还可以从一个由人类专家内置的安全措施的聊天机器人中得出有害的反应。
该模型配备了一个“安全分类器”,为引发的毒性水平提供了一个排名。
麻省理工学院的研究人员希望训练红队模型在更广泛的引出内容上生成提示,并最终训练聊天机器人遵守特定的标准,例如公司政策文件,以便在日益自动化的输出中测试公司政策违规。
“这些模型将成为我们生活中不可或缺的一部分,在向公众发布之前对它们进行验证是很重要的,”Improbable AI的高级作者兼总监Pulkit Agrawal在发布会上说。
阿格拉瓦尔说:“人工验证模型是不可扩展的,我们的工作是试图减少人类的努力,以确保一个更安全、更值得信赖的人工智能未来。”