欢迎来到进口食品商务网!

人工智能聊天机器人永远不会停止产生幻觉

2024-05-26 22:40 来源:本站编辑

作者:Lauran Leffer,《科学美国人

去年夏天,一名联邦法官对纽约市一家律师事务所处以5000美元的罚款,原因是一名律师使用人工智能工具ChatGPT起草了一起人身伤害案件的摘要。

这篇文章充满了谎言——包括超过六个完全捏造的过去案例,旨在为人身伤害诉讼建立先例。

斯坦福大学和耶鲁大学的研究人员在最近对三种流行的大型语言模型(llm)进行的预印本研究中发现,类似的错误在人工智能生成的法律输出中很普遍。

当生成人工智能模型产生与现实不符的反应时,有一个术语叫做“幻觉”。

幻觉通常被认为是AI的一个技术问题——一个努力工作的开发者最终会解决的问题。但许多机器学习专家并不认为幻觉是可以修复的,因为它源于法学硕士们完全按照他们被开发和训练的方式去做:尽他们所能地回应用户的提示。

根据一些人工智能研究人员的说法,真正的问题在于我们对这些模型是什么以及我们如何决定使用它们的集体观念。研究人员说,为了减轻幻觉,生成式人工智能工具必须与事实核查系统相结合,这样就不会让聊天机器人不受监督。

许多与人工智能幻觉相关的冲突都源于营销和炒作。科技公司将他们的法学硕士描述为数字瑞士军刀,能够解决无数问题或取代人类工作。

但如果应用在错误的环境中,这些工具就会失效。聊天机器人向用户提供了不正确的、可能有害的医疗建议,媒体发表了人工智能生成的文章,其中包括不准确的财务指导,带有人工智能界面的搜索引擎发明了虚假引用。

随着越来越多的人和企业依赖聊天机器人获取事实信息,它们编造事实的倾向变得更加明显和具有破坏性。

但今天的法学硕士从来没有被设计成纯粹准确。亚利桑那州立大学研究人工智能的计算机科学教授Subbarao Kambhampati说,它们被创造出来是为了创造——为了产生。

“现实是:没有办法保证生成的内容的真实性,”他解释说,并补充说,所有计算机生成的“创造力在某种程度上都是幻觉”。

在1月份发布的一份预印本研究中,新加坡国立大学(National University of Singapore)的三位机器学习研究人员证明,幻觉在大型语言模型中是不可避免的。

该证明应用了学习理论中的一些经典结果,例如康托尔的对角化论证,以证明llm根本无法学习所有可计算函数。换句话说,它表明总会有超出模型能力的可解决问题。

“对于任何法学硕士来说,现实世界都有一部分是它无法学习的,在那里它将不可避免地产生幻觉,”该研究的合著者Ziwei Xu、Sanjay Jain和Mohan Kankanhalli在给《科学美国人》的联合电子邮件中写道。

Kambhampati说,尽管这个证明看起来是准确的,但它提出的论点——某些困难的问题总是会难倒计算机——太宽泛了,无法深入了解为什么会发生特定的虚构。

他继续说,这个问题比证明所显示的更为普遍,因为法学硕士即使面对简单的要求也会产生幻觉。

伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign)研究自然语言和语音处理的计算机科学教授Dilek hakkani - t<e:1> r表示,人工智能聊天机器人经常产生幻觉的一个主要原因源于它们的基本结构。

llm基本上是超级高级的自动补全工具;它们被训练来预测一个序列(比如一串文本)中接下来应该出现什么。如果一个模型的训练数据包含了关于某个主题的大量信息,它可能会产生准确的输出。

但法学硕士的目的是总是能给出答案,即使是在训练数据中没有出现的主题上。hakkani - t r表示,这增加了出现错误的可能性。

添加更多基于事实的训练数据似乎是一个显而易见的解决方案。但人工智能平台Vectara的联合创始人兼首席执行官、计算机科学家阿姆鲁•阿瓦达拉(Amr Awadallah)表示,法学硕士能掌握的信息量存在实际和物理上的限制。Vectara在排行榜上追踪法学硕士的幻觉率。

(在追踪的人工智能模型中,最低的幻觉率约为3%至5%。)

为了达到语言的流畅性,这些庞大的模型被训练的数据比它们能存储的数据要多得多——数据压缩是不可避免的结果。

阿瓦达拉说,当法学硕士们不能“完全像在培训中那样回忆起所有事情时,他们就会编造一些东西,填补空白。”而且,他补充说,这些模型已经在我们的计算能力的边缘运行;试图通过制造更大的llm来避免幻觉,会产生更慢的模型,更昂贵,对环境更有害。

幻觉的另一个原因是校准,乔治亚理工学院的计算机科学教授Santosh Vempala说。校准是对法学硕士进行调整以使某些输出优于其他输出的过程(以匹配训练数据的统计数据或生成更逼真的人性化短语)。

在去年11月首次发布的一篇预印本论文中,Vempala和一位合著者认为,任何校准过的语言模型都会产生幻觉——因为准确性本身有时会与自然流畅、看似原创的文本发生冲突。

减少校准可以提高真实性,同时在llm生成的文本中引入其他缺陷。Vempala说,未经校准的模型可能会以公式化的方式书写,比人更频繁地重复单词和短语。问题在于,用户希望人工智能聊天机器人既真实又流畅。

Kambhampati说,法学硕士可能永远无法产生完全准确的输出,这意味着我们需要重新考虑何时、何地以及如何部署这些生成工具。

他补充说,他们是绝妙的创意创造者,但他们不是独立解决问题的人。他解释说:“你可以通过将它们放入一个带有验证器的架构中来利用它们。”无论这意味着让更多的人参与到循环中,还是使用其他自动化程序。

在Vectara,阿瓦达拉正致力于此。他的团队的排行榜项目是幻觉探测器概念的早期证明,而检测幻觉是能够修复它们的第一步,他说。

未来的检测器可能会与自动人工智能编辑器配对,在错误到达最终用户之前纠正错误。他的公司还在开发一款名为AskNews的混合聊天机器人和新闻数据库,该数据库将法学硕士和检索引擎结合起来,从最近发表的文章中挑选出最相关的事实来回答用户的问题。

阿瓦达拉说,AskNews提供的时事描述比法学硕士单独提供的描述要准确得多,因为聊天机器人只根据数据库搜索工具挖掘的来源做出反应。

hakkani - t r也在研究基于事实的系统,将专门的语言模型与相对可靠的信息源(如公司文档、经过验证的产品评论、医学文献或维基百科帖子)相结合,以提高准确性。

她希望,一旦所有的问题都解决了,这些基础的网络有一天会成为健康获取和教育公平等方面的有用工具。她说:“我确实看到了语言模型作为一种工具的力量,它能让我们的生活更美好、更高效、更公平。”

在未来,专门的系统会验证法学硕士的输出,为特定环境设计的人工智能工具将部分取代今天的通用模型。人工智能文本生成器的每个应用程序(无论是客户服务聊天机器人、新闻摘要服务,甚至是法律顾问)都将成为定制架构的一部分,从而实现其实用性。

与此同时,不那么接地气的多面手聊天机器人将能够回答你的任何问题,但不能保证是真的。它们将继续成为强大的创意伙伴或灵感和娱乐的来源——但不是神谕或百科全书——完全按照设计。

劳伦·莱弗(Lauren Leffer)是一名狱警特约撰稿人,《科学美国人》前科技报道研究员。她报道了许多主题,包括人工智能、气候和奇怪的生物学。)

海招网声明:未经许可,不得转载。