Why Large Language Models Hallucinate and How to solve this//LLM为什么产生幻觉以及如何应对

这篇具有很好参考价值的文章主要介绍了Why Large Language Models Hallucinate and How to solve this//LLM为什么产生幻觉以及如何应对。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

" Large language models (LLMs) can generate fluent and coherent text on various topics and domains, but they are also prone to hallucinations or generating plausible sounding nonsense. This can range from minor inconsistencies to completely fabricated or contradictory statements. The causes of hallucinations are related to data quality, generation methods and objectives, and input context. To reduce hallucinations, users can provide clear and specific prompts, use active mitigation strategies, and employ multi-shot prompting. By understanding the causes and employing strategies, users can harness the true potential of LLMs and reduce hallucinations. "

I'll agree on the data quality being a potential cause. Training methodology can also lead to unexpected outcomes. However, the core cause of hallucinations is really that the model hasn't properly converged in n-dimensional space primarily due to a lack of sufficient training data. The surface area of the problem being modeled increases significantly as you increase the dimensionality, meaning that you need a corresponding increase in the size of the training data in order to have enough coverage so that you have a high degree of confidence that the converged model approximates the actual target. These gaps in the spacial coverage leaves the model open to just guessing what the correct answer is leading to the model just making something up or hallucinating.

我同意数据质量可能是潜在原因。训练方法也可能导致意外结果。然而,幻觉的核心原因实际上是模型在n维空间中没有正确收敛,主要是由于训练数据不足。随着维度的增加,所建模的问题的表面积显著增加,这意味着您需要相应增加训练数据的规模,以确保有足够的覆盖范围,从而对收敛模型与实际目标的逼近具有高度的信心。空间覆盖的这些空白导致模型只能猜测正确答案,从而编造出虚构的内容或产生幻觉。

如何减少 AI 的「幻觉」

「幻觉」的出现似乎是不可避免的,但所幸,是 AI 在推理中产生的「幻觉」绝非「无药可救」。

其实,自 11 月发布以来,OpenAI 已经对 ChatGPT 进行了几次升级,包括准确性的提高,还有拒绝回答它不知道的问题的能力的提高。

OpenAI 计划如何使 ChatGPT 更加准确呢?

A. 改进模型数据

首先是改进模型的训练数据,确保 AI 系统在不同的、准确的、与背景相关的数据集上进行训练,弥补模型对于「现实世界的经验」的缺失,从而从根本上帮助减少「幻觉」的发生。

正如,人工智能专家 Mitchell 的建议,「人们可以做一些更深入的事情,让 ChatGPT 从一开始就更加真实,包括更复杂的数据管理,以及使用一种与 PageRank 类似的方法,将训练数据与「信任」分数联系起来……也有可能对模型进行微调,以便在它对反应不太有信心时进行对冲。」

实际的解决方案,在很大程度上取决于具体的 AI 模型。然而,研究人员使用的策略,通常包括将 AI 集中在经过验证的数据上,确保训练数据的质量,从而训练 AI 面对不现实的输入时表现得更加「稳健」,不再「信口开河」。

B. 引入人类审核

在此基础上,还可以纳入人类审查员来验证 AI 系统的输出,也就是通过「人类反馈强化学习(RLHF)」,对 AI 进行的额外训练。

这是 OpenAI 正在使用的技术,官方的描述是「我们现在雇人来教我们的神经网络如何行动,教 ChatGPT 如何行动。你只要和它互动,它就会根据你的反应,推断出,这是不是你想要的。如果你对它的输出不满意,那下次应该做一些不同的事情。」

Why Large Language Models Hallucinate and How to solve this//LLM为什么产生幻觉以及如何应对

RLHF 原理图|图片来源:bdtechtalks.com

简而言之,「人类反馈强化学习(RLHF)」就是通过改进人类反馈步骤中的后续强化学习,让 AI 意识到自己何时在编造事情,并进行相应的调整,从而教会它不要产生「幻觉」。

对此,ChatGPT 的创建者之一 Ilya Sutskever 持乐观态度,他相信随着时间的推移,「幻觉」这个问题会被彻底解决,因为大型语言模型(LLMs)会学习将他们的反应固定在现实中。

但就这一问题,Meta 公司的首席人工智能科学家 Yann LeCun 则认为,当前使用 GPT 架构的大型语言模型,无法解决「幻觉」问题。

C. 外部知识增强

除此之外,检索增强(retrieval augmentation)也可以使 ChatGPT 更加准确。

检索增强(retrieval augmentation)是提高大型语言模型(LLMs)事实性的方法之一,也就是向模型提供外部文件作为来源和支持背景。研究人员希望通过这种技术,教会模型使用像谷歌这样的外部搜索引擎,「像人类研究人员那样在他们的答案中引用可靠的来源,并减少对模型训练期间学到的不可靠的事实性知识的依赖。」

Bing Chat 和 Google Bard 已经通过引入「网络搜索」做到了这一点。相信很快,支持浏览器的 ChatGPT 版本也将如此。此外,ChatGPT 插件旨在用它从外部来源,如网络和专门的数据库,检索的信息来补充 GPT-4 的训练数据。这种补充就类似于一个能接触到百科全书的人,会比没有百科全书的人在事实方面更为准确。

D. 增加模型透明度

此外,增加模型的透明度也是减少「幻觉」必要的措施。

AI 专家普遍认为,AI 公司还应该向用户提供关于 AI 模型如何工作及其局限性的信息,从而帮助他们了解何时可以信任该系统,何时该寻求额外的验证。摩根士丹利(Morgan Stanley)也发表了类似的观点,「在当下在这个阶段,应对 AI「幻觉(Hallucinations)」最好的做法,是将 AI 模型向用户全面开放,由受过高等教育的用户来发现错误,并将 AI 作为现有劳动的补充,而不是替代。」

也许,「幻觉」只是 AI 发展路上的一个小插曲,但它提醒我们必须保持警惕,确保我们的技术为我们服务,而不是把我们引入歧途。

 

Reference

Why Large Language Models Hallucinate - YouTube

大模型幻觉问题专栏 (360doc.com) 

ChatGPT 张口就来的「病」,应该怎么「治」? | 极客公园 (geekpark.net)文章来源地址https://www.toymoban.com/news/detail-507483.html

到了这里,关于Why Large Language Models Hallucinate and How to solve this//LLM为什么产生幻觉以及如何应对的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Unifying Large Language Models and Knowledge Graphs: A Roadmap

      知识图嵌入(KGE)旨在将每个实体和关系映射到一个低维向量(嵌入)空间中。这些嵌入包含KGs的语义和结构信息,可用于各种任务,如问答[182]、推理[38]和推荐[183]。传统的知识图嵌入方法主要依靠知识图的结构信息来优化嵌入上定义的评分函数(如TransE[25]和DisMult[184])。然而,

    2024年02月12日
    浏览(47)
  • 【论文笔记】Unifying Large Language Models and Knowledge Graphs:A Roadmap

    (后续更新完善) 以往将KGs集成到大型语言模型的工作主要分为三个部分:1)将KGs集成到训练目标中,2)将KGs集成到LLM输入中,3)将KGs集成到附加的融合模块中。 2.1.1 Integrating KGs into Training Objective 这一类的研究工作集中在设计新的知识感知训练目标,一个直观的想法是在预训练

    2024年02月07日
    浏览(44)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap 论文阅读笔记

    NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks,  KG-enhanced LLMs, pre-training and inference stages to provide external knowl

    2024年02月19日
    浏览(47)
  • 论文笔记:A Simple and Effective Pruning Approach for Large Language Models

    iclr 2024 reviewer 评分 5668 大模型网络剪枝的paper 在努力保持性能的同时,舍弃网络权重的一个子集 现有方法 要么需要重新训练 这对于十亿级别的LLMs来说往往不现实 要么需要解决依赖于二阶信息的权重重建问题 这同样可能带来高昂的计算成本 ——引入了一种新颖、简单且有

    2024年04月17日
    浏览(43)
  • WizardKM:Empowering Large Language Models to Follow Complex Instructions

    作者表明当前nlp社区的指令数据比较单一,大部分都是总结、翻译的任务,但是在真实场景中,人们有各式各样的需求,这限制了模型的通用性。 作者提到这种人类标注的qa数据如果质量比较高,那么将很好的释放模型的性能,但是现在获取数据存在一些问题: 标注这类数据

    2024年02月01日
    浏览(51)
  • Enabling Large Language Models to Generate Text with Citations

    本文是LLM系列的文章,针对《Enabling Large Language Models to Generate Text with Citations》的翻译。 大型语言模型(LLM)已成为一种广泛使用的信息搜索工具,但其生成的输出容易产生幻觉。在这项工作中,我们的目标是使LLM能够生成带有引用的文本,提高其事实的正确性和可验证性。

    2024年02月12日
    浏览(55)
  • 【论文笔记】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

    将LLMs应用于医学,以协助医生和病人护理,成为人工智能和临床医学领域的一个有前景的研究方向。为此, 本综述提供了医学中LLMs当前进展、应用和面临挑战的全面概述 。 具体来说,旨在回答以下问题: 1)什么是LLMs,如何构建医学LLMs? 2)医学LLMs的下游表现如何? 3)

    2024年02月03日
    浏览(46)
  • 论文系列之Applying Large Language Models API to Issue Classification Problem

    这些研究展示了自动标记issue类型的不同方法,以及如何利用自然语言处理(NLP)和机器学习技术来辅助开源软件(OSS)项目的维护者和新贡献者。 通过这种方法,研究者能够在较小的数据集上训练模型,并在个体项目中实现了高达93.2%的精度、95%的召回率和89.3%的F1分数。这

    2024年02月02日
    浏览(47)
  • 文献阅读:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

    文献阅读:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators 1. 文章简介 2. 方法介绍 3. 实验考察 1. 实验结果 2. 消解实验 3. Consistency Stability 4. 结论 思考 文献链接:https://arxiv.org/abs/2303.16854 这一篇文章是我司的另一篇关于GPT模型的Prompt工程调优的文章,不过这篇文章

    2024年02月12日
    浏览(45)
  • LLM论文:ALCE (Enabling Large Language Models to Generate Text with Citations)

    这是一篇RAG领域的文章,原文在这:https://aclanthology.org/2023.emnlp-main.398.pdf 时间 [Submitted on 24 May 2023 (v1), last revised 31 Oct 2023 (this version, v2)] 背景 LLM在信息搜索、生成带引用的文本时存在幻觉问题,即事实准确性有待提升,而且用户难以验证准确性。 现有工作的不足 人工评估或

    2024年01月16日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包