增强LLM:使用搜索引擎缓解大模型幻觉问题

这篇具有很好参考价值的文章主要介绍了增强LLM:使用搜索引擎缓解大模型幻觉问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文题目:FRESHLLMS:REFRESHING LARGE LANGUAGE MODELS WITH SEARCH ENGINE AUGMENTATION

论文地址:https://arxiv.org/pdf/2310.03214.pdf

论文由Google、University of Massachusetts Amherst、OpenAI联合发布。


        大部分大语言模型只会训练一次,不会被频繁的更新,训练用到的知识会慢慢过时,所以它无法适应变化的世界。论文作者提出了动态问答的基准测试,称为FRESHQA,并且提出了一种简单的解决问题的方法,FRESHPROMPT。

        FRESHQA收集的问题根据难度可以分别单跳和多跳两种,两种问题的区别在于是否需要多级的推理。而根据答案的性质问题可以分为1.永远不变;2.缓慢变化;3.快速变化;4.虚假前提。

增强LLM:使用搜索引擎缓解大模型幻觉问题,大模型,人工智能,openai,大模型

测试集的评估模式也分别两种:1.RELAXED,它仅衡量主要答案是否正确; 2.STRICT,它衡量响应中的所有声明是否是事实和最新的(即没有幻觉)。

        FRESHPROMPT 是一种简单而有效的方法,对于给定的问题,它通过提取所有最新和相关的信息(包括来自搜索用户也询问的相关问题的知识)来利用搜索引擎,并使用少样本上下文学习教模型推理检索到的证据并找出正确的答案。
        搜索引擎返回内容如下图,serper api返回内容类似。

增强LLM:使用搜索引擎缓解大模型幻觉问题,大模型,人工智能,openai,大模型
FRESHPROMPT的具体做法如下: 
        使用搜索引擎得到相关实时信息,并处理成统一的结构化信息:
        1.对问题q进行逐字记录检索搜索引擎,并保留所有检索信息。
        (搜索引擎使用google的serper api;搜索返回字段如下:relatedSearches,organic,searchParameters,knowledgeGraph,answerBox,peopleAlsoAsk,根据问题不同返回字段不同。)
        2.将所有信息进行提取,生成内容为结构化的统一格式,证据E = {(s,d,t,x,h)的列表。
        (符号表示如下:s:source, d:date, t:title, x:snippet, h:highlight)
        3.对E的列表按时间进行排序。

        为了帮助模型“理解”任务和期望输出,我们在输入提示的开头提供了输入输出示例的少量演示。每个演示都显示了模型示例问题和问题检索到的证据列表,然后对证据进行思维链推理,以找出最相关和最新的答案。最终的提问构造如下图。其中demonstrations表示输入输出示例的演示。

增强LLM:使用搜索引擎缓解大模型幻觉问题,大模型,人工智能,openai,大模型


   实验结果

     增强LLM:使用搜索引擎缓解大模型幻觉问题,大模型,人工智能,openai,大模型
表中主要展示不同的模型和实验配置(消融实验)在FRESHQA数据集上的表现(STRICT)。
大模型选取了gpt3.5和gpt4。
google search表示直接使用google进行回复,选取结果为answer box(如有) 或者 第一个结果的 text snippet。 
PPL.AI是一个将LLM和搜索引擎相结合以生成对用户查询的有用响应的答案引擎。
self-ask是一种使用情景学习的方法,教LLM将每个问题分解成更简单的子问题,然后通过谷歌搜索来回答。
对于FRESHPROMPT的设置,搜索答案的选取不同(snippets only、answer box relevant info)、搜索结果的排序不同(search order、time order、random order)、搜索结果数量不同(1、5、15,默认为10)、输入输出示例描述demonstrations数量不同、是否添加premise check(让模型进行错误前提检查)。

结论

1.FRESHPROMPT可以带来巨大的效果提升,因为外部实时数据的加入,使模型可以回答动态问题。
2.FRESHPROMPT比其他的搜索增强的方法效果好,对比方法为PPL.AI和+self-ask方法。3.premise check方法对与错误前提问题有效,但是同时也会降低有效前提问题的回答准确性。总体结果为弊大于利。
4.更全面更新的相关证据的效果会更好。time order>search order>>random order;搜索内容更加全面(不仅仅是text snippets)也会有利回复。
5.增加检索到的证据的数量进一步提高了 FRESHPROMPT效果,但要考虑大模型的token length limit。
6.冗长的演示(demonstrations)改进了复杂的问题,但也增加了幻觉。文章来源地址https://www.toymoban.com/news/detail-738624.html

到了这里,关于增强LLM:使用搜索引擎缓解大模型幻觉问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 增强常见问题解答搜索引擎:在 Elasticsearch 中利用 KNN 的力量

    在快速准确的信息检索至关重要的时代,开发强大的搜索引擎至关重要。 随着大型语言模型和信息检索架构(如 RAG)的出现,在现代软件系统中利用文本表示(向量/嵌入)和向量数据库已变得越来越流行。 在本文中,我们深入研究了如何使用 Elasticsearch 的 K 最近邻 (KNN) 搜

    2024年02月08日
    浏览(35)
  • 搜索引擎变天了!谷歌宣布开放「生成式搜索平台」!AI 大模型颠覆搜索体验

    作者 | 小戏、兔子酱 搜索引擎,可能真的要变天了! Google 终于要迎来它 25 年来最大的改变,谷歌宣布了开始内测开放【生成式搜索平台(Search Generative Experience,SGE)】,并逐步舍弃那些甚至是臭名昭著的十条蓝色链接(10 Blue Links) 1998 年,拉里·佩奇与谢尔盖·布林凭借

    2024年02月07日
    浏览(42)
  • 大语言模型在搜索引擎中的应用前景

    在过去的几年里,大语言模型(Large Language Model, LLM)技术取得了令人瞩目的进展。从GPT-3到最近的ChatGPT,这些基于深度学习的大型语言模型展现出了惊人的文本生成能力,能够理解和生成人类语言,在各种应用场景中发挥着日益重要的作用。 搜索引擎作为信息获取的主要入口,一直

    2024年04月15日
    浏览(25)
  • 第三十一部分:大模型在搜索引擎领域

    在过去的几年里,搜索引擎技术发展迅速,从简单的查询到智能的语义搜索和知识图谱。随着大模型在自然语言处理(NLP)和计算机视觉等领域的成功应用,搜索引擎也开始逐渐引入大模型技术,以提高搜索质量和用户体验。本文将从大模型在搜索引擎领域的背景、核心

    2024年02月20日
    浏览(33)
  • 3DSEE:AI驱动的3D模型语义搜索引擎

    3DSEE (3D SEmantic Engine)是基于 AI 技术的 3D 模型语义搜索引擎,可以自动提取 3D 模型内涵的语义信息并存储入库,以帮助用户使用自然语言或高效地检索 3D 模型。3DSEE 提供完善的二次开发 API,无论使用Java、Python、PHP、JavaScript还是C#,都可以在自己的应用中集成 3D 模

    2024年02月03日
    浏览(24)
  • 如何(正确)使用搜索引擎?使用搜索引擎的高效技巧(例如:百度、谷歌)

              提起这个搜索引擎,我们对它就有三种级别的认识          第一种:完全不知道“搜索引擎”是什么或者是“我只知道浏览器”          第二种:知道搜索引擎,但不知道这玩意还有使用方式!          第三种:知道搜索引擎并知道怎么使用的大量相关知识

    2024年02月04日
    浏览(48)
  • LLM之幻觉(二):大语言模型LLM幻觉缓减技术综述

           LLM幻觉缓减技术分为两大主流, 梯度方法 和 非梯度方法 。梯度方法是指对基本LLM进行微调;而非梯度方法主要是在推理时使用Prompt工程技术。LLM幻觉缓减技术,如下图所示: LLM幻觉缓减技术值得注意的是: 检索增强生成(RAG) 知识检索(https://arxiv.org/abs/2307.039

    2024年01月18日
    浏览(31)
  • 通过搜索引擎让大模型获取实时数据-实现类似 perplexity 的效果

    汇报一下这周末的工作,主要是开发了一门课程:通过搜索引擎让大模型获取实时数据,第一次开发一门课程,难免会有很多不熟悉和做的不好的地方。 已经训练好的大模型有气数据的局限性,比如 GPT-4,只有 2023年4月之前的数据。关于最新发生的一些事情,它无法回答。

    2024年04月23日
    浏览(50)
  • kali被动收集信息,Google搜索引擎使用技巧,Maltego收集子域名,Shodan搜索引擎使用方法

    GoogleHack一般指google hack。 google hack是指使用Google等搜索引擎对某些特定的网络主机漏洞(通常是服务器上的脚本漏洞)进行搜索,以达到快速找到漏洞主机或特定主机的漏洞的目的。 常用的Google site    指定域名 inurl    URL中存在的关键在页面 intext    网页内容里面

    2024年02月12日
    浏览(46)
  • 百度搜索引擎使用技巧

    作为和一个合格的ccv程序员,掌握搜索引擎的高级搜索语法是必不可少的技能,下面列举出百度搜索引擎常见的几种搜索语法。 普通人是直接搜索,比如:前端开发。 搜索范围限定在包含 keyword 的网页标题中,这也是最普通的搜索。 语法: intitle:和后面的之间

    2024年02月06日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包