" Large language models (LLMs) can generate fluent and coherent text on various topics and domains, but they are also prone to hallucinations or generating plausible sounding nonsense. This can range from minor inconsistencies to completely fabricated or contradictory statements. The causes of hallucinations are related to data quality, generation methods and objectives, and input context. To reduce hallucinations, users can provide clear and specific prompts, use active mitigation strategies, and employ multi-shot prompting. By understanding the causes and employing strategies, users can harness the true potential of LLMs and reduce hallucinations. "
I'll agree on the data quality being a potential cause. Training methodology can also lead to unexpected outcomes. However, the core cause of hallucinations is really that the model hasn't properly converged in n-dimensional space primarily due to a lack of sufficient training data. The surface area of the problem being modeled increases significantly as you increase the dimensionality, meaning that you need a corresponding increase in the size of the training data in order to have enough coverage so that you have a high degree of confidence that the converged model approximates the actual target. These gaps in the spacial coverage leaves the model open to just guessing what the correct answer is leading to the model just making something up or hallucinating.
我同意数据质量可能是潜在原因。训练方法也可能导致意外结果。然而,幻觉的核心原因实际上是模型在n维空间中没有正确收敛,主要是由于训练数据不足。随着维度的增加,所建模的问题的表面积显著增加,这意味着您需要相应增加训练数据的规模,以确保有足够的覆盖范围,从而对收敛模型与实际目标的逼近具有高度的信心。空间覆盖的这些空白导致模型只能猜测正确答案,从而编造出虚构的内容或产生幻觉。
如何减少 AI 的「幻觉」
「幻觉」的出现似乎是不可避免的,但所幸,是 AI 在推理中产生的「幻觉」绝非「无药可救」。
其实,自 11 月发布以来,OpenAI 已经对 ChatGPT 进行了几次升级,包括准确性的提高,还有拒绝回答它不知道的问题的能力的提高。
OpenAI 计划如何使 ChatGPT 更加准确呢?
A. 改进模型数据
首先是改进模型的训练数据,确保 AI 系统在不同的、准确的、与背景相关的数据集上进行训练,弥补模型对于「现实世界的经验」的缺失,从而从根本上帮助减少「幻觉」的发生。
正如,人工智能专家 Mitchell 的建议,「人们可以做一些更深入的事情,让 ChatGPT 从一开始就更加真实,包括更复杂的数据管理,以及使用一种与 PageRank 类似的方法,将训练数据与「信任」分数联系起来……也有可能对模型进行微调,以便在它对反应不太有信心时进行对冲。」
实际的解决方案,在很大程度上取决于具体的 AI 模型。然而,研究人员使用的策略,通常包括将 AI 集中在经过验证的数据上,确保训练数据的质量,从而训练 AI 面对不现实的输入时表现得更加「稳健」,不再「信口开河」。
B. 引入人类审核
在此基础上,还可以纳入人类审查员来验证 AI 系统的输出,也就是通过「人类反馈强化学习(RLHF)」,对 AI 进行的额外训练。
这是 OpenAI 正在使用的技术,官方的描述是「我们现在雇人来教我们的神经网络如何行动,教 ChatGPT 如何行动。你只要和它互动,它就会根据你的反应,推断出,这是不是你想要的。如果你对它的输出不满意,那下次应该做一些不同的事情。」
RLHF 原理图|图片来源:bdtechtalks.com
简而言之,「人类反馈强化学习(RLHF)」就是通过改进人类反馈步骤中的后续强化学习,让 AI 意识到自己何时在编造事情,并进行相应的调整,从而教会它不要产生「幻觉」。
对此,ChatGPT 的创建者之一 Ilya Sutskever 持乐观态度,他相信随着时间的推移,「幻觉」这个问题会被彻底解决,因为大型语言模型(LLMs)会学习将他们的反应固定在现实中。
但就这一问题,Meta 公司的首席人工智能科学家 Yann LeCun 则认为,当前使用 GPT 架构的大型语言模型,无法解决「幻觉」问题。
C. 外部知识增强
除此之外,检索增强(retrieval augmentation)也可以使 ChatGPT 更加准确。
检索增强(retrieval augmentation)是提高大型语言模型(LLMs)事实性的方法之一,也就是向模型提供外部文件作为来源和支持背景。研究人员希望通过这种技术,教会模型使用像谷歌这样的外部搜索引擎,「像人类研究人员那样在他们的答案中引用可靠的来源,并减少对模型训练期间学到的不可靠的事实性知识的依赖。」
Bing Chat 和 Google Bard 已经通过引入「网络搜索」做到了这一点。相信很快,支持浏览器的 ChatGPT 版本也将如此。此外,ChatGPT 插件旨在用它从外部来源,如网络和专门的数据库,检索的信息来补充 GPT-4 的训练数据。这种补充就类似于一个能接触到百科全书的人,会比没有百科全书的人在事实方面更为准确。
D. 增加模型透明度
此外,增加模型的透明度也是减少「幻觉」必要的措施。
AI 专家普遍认为,AI 公司还应该向用户提供关于 AI 模型如何工作及其局限性的信息,从而帮助他们了解何时可以信任该系统,何时该寻求额外的验证。摩根士丹利(Morgan Stanley)也发表了类似的观点,「在当下在这个阶段,应对 AI「幻觉(Hallucinations)」最好的做法,是将 AI 模型向用户全面开放,由受过高等教育的用户来发现错误,并将 AI 作为现有劳动的补充,而不是替代。」
也许,「幻觉」只是 AI 发展路上的一个小插曲,但它提醒我们必须保持警惕,确保我们的技术为我们服务,而不是把我们引入歧途。
Reference
Why Large Language Models Hallucinate - YouTube
大模型幻觉问题专栏 (360doc.com) 文章来源:https://www.toymoban.com/news/detail-507483.html
ChatGPT 张口就来的「病」,应该怎么「治」? | 极客公园 (geekpark.net)文章来源地址https://www.toymoban.com/news/detail-507483.html
到了这里,关于Why Large Language Models Hallucinate and How to solve this//LLM为什么产生幻觉以及如何应对的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!