RAG:让大语言模型拥有特定的专属知识

这篇具有很好参考价值的文章主要介绍了RAG:让大语言模型拥有特定的专属知识。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作为一个在Chatbot领域摸爬滚打了7年的从业者,笔者可以诚实地说,在大语言模型的推动下,检索增强生成(Retrieval Augmented Generation,RAG)技术正在快速崛起。
RAG的搜索请求和生成式AI技术,为搜索请求和信息检索领域带来了革命性的改变。RAG能够帮助大语言模型根据可靠的数据直接给出答案。

本文就来介绍一下RAG的技术原理,并和Fine-tuning(微调)进行对比,同时介绍RAG的周边要素——向量数据库。

值得一提的是,RAG原本属于Chatbot系统搭建中的重要一环,笔者把RAG提前到生命周期部分中来讲述的原因是在数据处理和Prompt撰写的过程中,需要对 RAG 有基础的了解。

为什么有了大语言模型还需要RAG

ChatGPT的出现,使越来越多的开发者开始深入探索大语言模型在实际生产中的应用效果,尤其关注如何搭建一个拥有专属知识的大语言模型应用。

在开始RAG的介绍前,笔者先介绍大语言模型在当下的能力边界。

  1. 大语言模型的能力

(2)逻辑推理的能力:大语言模型具有一定的逻辑推理能力,无须额外增加任何特殊提示词,就能做出简单的推理,并挖掘出问题的深层内容。在补充了一定的提示词后,大语言模型能展现更强的推理能力。

(3)尝试回答所有问题的能力:特别是对话类型的大语言模型,如GPT-3.5、GPT-4,会尝试以对话形式回答用户的所有问题。大语言模型面对无法准确回答的问题,就算回答“我不能回答这个信息”,也会努力给出答案。

(4)通用知识的能力:大语言模型本身拥有海量的通用知识,这些通用知识的准确度较高,覆盖范围广泛。

(5)多轮对话的能力:大语言模型可以根据设定好的角色,理解不同角色之间的多次对话的含义,这意味着可以在对话中采用追问的形式,而不是每一次对话都要把之前所有的关键信息重复一遍。

  1. 大语言模型的限制

(1)被动触发:大语言模型是被动触发的,即需要用户输入或给出一段内容,大语言模型才会回应。大语言模型无法主动发起交互。

(2)知识过期:特指GPT-3.5和GPT-4,二者的训练数据都截至2021年9月,意味着大语言模型不知道之后的知识。

(3)细分领域的幻觉:虽然大语言模型在通用知识部分表现优秀,但在特定知识领域(如垂直的医药行业),大语言模型的回答往往存在错误,无法直接采信。

(4)对话长度:如果给大语言模型提供的内容过多,超过模型字符长度的限制,则该轮对话会失败。

  1. 用户的常见需求

希望搭建Chatbot的企业,通常期望用大语言模型实现以下功能。

采取多轮对话的形式,理解用户的提问并回答。

要求准确地回答关于企业的专属知识。

不能回答与企业专属领域知识无关的内容。

可以发现,虽然大语言模型有上下文推理能力,但由于大语言模型存在“知识过期”和“细分领域的幻觉”这两个限制,且它会尽可能地尝试回答所有的问题,因此只是单纯地使用大语言模型是没有办法解决所有问题的,RAG正是在这个背景下应运而生的。

RAG的技术原理

在RAG出现之前,早期的问答系统主要依赖预定义的规则和模板,以及简单的关键词匹配技术。知识图谱的出现,为问答系统带来了一定的改进,但这些系统仍然依赖固定的数据结构和知识库,限制了系统处理复杂问题的能力发展。

大语言模型出现后,尤其是ChatGPT的出现,显著提高了机器对自然语言的理解能力,大语言模型在大量文本上进行预训练后,能够生成更自然、更准确的语言。

RAG结合了信息检索和文本生成两种方法,旨在突破传统问答系统的局限。通过将外部数据检索的相关信息输入大语言模型,大语言模型能够基于这些信息生成回答,进而增强答案生成的能力。RAG能够处理更广泛、更复杂的问题。

使用RAG后可以有效解决大语言模型细分领域的幻觉和知识过期的问题。通过预检索模块,无需一次性向大语言模型输入过多的知识,大部分知识都可以用外部数据库承载,解决了当前大语言模型对话长度受 Token限制的问题。

值得注意的是,在生成回答时,RAG 系统不是简单地复制检索到的信息,而是在综合并加工这些信息,这使最终的回答既准确又具有一定的原创性。这一点是RAG区别于其他简单问答系统的关键。

  1. RAG的核心组件

RAG主要有两个核心组件:信息检索和文本生成。

信息检索

信息检索(Retrieve)的主要任务是在一个大型的知识库或文档集合中搜索与用户提出的问题相关的信息。这个过程类似人在图书馆中查找相关书籍以回答某个问题。通常,这一步骤依赖传统的信息检索技术,如倒排索引、TF-IDF评分、BM25算法等,或者采用更现代的基于向量的搜索方法。

虽然让大语言模型拥有特定领域的知识就要外挂向量数据库已经成为业内共识,但其实不只是向量数据库,所有外部存储的内容都可以被检索,再进行二次生成。

文本生成

文本生成(Generate)的职责是根据检索到的信息生成一个连贯、准确的回答。这个过程可以看作根据收集到的材料撰写一篇简短的文章或回答。

这个功能通常采用预训练的生成式语言模型来实现,如GPT系列。这些模型在大量文本上进行预训练,能够生成流畅且语义连贯的文本。

信息检索和文本生成两个组件的紧密结合至关重要。信息检索为文本生成提供了必要的原料,而文本生成则将这些原料转化为易于理解和有用的信息。这种结合使得RAG能够处理更复杂的查询,并生成更准确、更丰富的回答。

值得注意的是,在进行检索之前,对数据的处理也非常重要。通常,外部数据不仅存储在数据库中,也可能存储在外部文档(PDF、Markdown、Word、Excel等)或网页中。这时,需要对所有外部数据进行清洗和处理,同时需要提取一些元数据,包括文件名、时间、章节、图片等。

另外,仅加载外部文件是不够的。通常,外部文件非常大,而且Embedding模型和大语言模型都有长度限制,这时就需要将文件进一步切割成文本块(Chunk),才能精准地进行检索和生成。根据索引方式的不同、模型选择的不同,以及问答文本长度和复杂度的不同,切割的方法也有不同,简单的数据处理的流程如图1所示。笔者会在第10章对数据处理进行更详细的介绍。

大语言模型rag,语言模型,人工智能,机器学习

图1

  1. RAG的工作流程

首先,通过检索系统引导大语言模型从外界数据库中查找与问题相关的文档或段落;然后,重新构建输入大语言模型的内容。最后,使用大语言模型在此基础上生成符合检索系统规定格式的答案。简而言之,RAG被视为模型的“外挂数据库”,以优化其回复。

为了让读者有完整的结构概览,结合数据处理流程和RAG流程,可以将RAG的工作流程简化为图2所示的形式。接下来将重点介绍RAG的工作流程。

大语言模型rag,语言模型,人工智能,机器学习

图2

最基础的RAG

最基础的RAG流程如图3所示。

大语言模型rag,语言模型,人工智能,机器学习

图3

(1)接收查询:系统收到用户的问题或查询。

(2)检索相关信息:系统查询一个或多个外部知识库,查找与该问题相关的信息或文档。

(4)提供回应:系统将生成的回答呈现给用户。

增加预处理查询的RAG

在用户提问环节,可以对问题进行进一步的预处理和理解查询,具体流程如图4所示。

(1)问题预处理:系统先对用户输入进行预处理,如文本清洗、标准化等,确保输入数据的质量。

(2)理解查询:系统运用自然语言处理技术理解查询的内容和意图。这个环节可以利用传统自然语言处理技术中的知识领域和意图识别,即根据用户的提问选择不同数据库中的内容,甚至可以对应不同匹配阈值及操作,具体细节本节不再详述。

大语言模型rag,语言模型,人工智能,机器学习

图4

带有聊天历史的RAG

在实际对话中,用户和Chatbot的交流往往不是一句话,而是多句话,且上下文之间有指代关系。例如,用户说了两句话:

李佳芮是句子互动的创始人。

她今年多大了?

如果系统逐句处理接收的信息,则无法确定句子中的“她”指的是谁。系统需要将两句话结合起来,才能正确理解用户的提问是“李佳芮多大了”。

在这个例子中,除了对问题进行基础的预处理,还有一步重要的操作就是把之前的历史记录输入系统。通用的做法之一是让大语言模型将当前的问题和先前的问题结合,使用Prompt 引导大语言模型重写用户的问题,这样做可以有效地解决指代消除的问题。具体流程如图5所示。

大语言模型rag,语言模型,人工智能,机器学习

图5

增加自动排序的RAG

尽管增加了聊天的历史记录,但由于在数据处理环节中系统内切割成的块数量很多,系统检索的维度不一定是最有效的,因此一次检索的结果在相关性上并不理想。这时,需要一些策略对检索的结果进行重新排序,或者重新调整组合相关度、匹配度等因素,使其更适合业务的场景。

对此,通常会设置内部触发器进行自动评审,触发自动重排序的逻辑,具体流程如图6所示。

大语言模型rag,语言模型,人工智能,机器学习

图6

上述几个案例只是简单的RAG扩展说明,系统搭建章节会展示一个完整的案例。需要注意的是,在很多中间环节都可以根据具体场景加入各种工程化实现,满足真实的应用场景。在某些应用中,即使在最后的环节也不代表RAG技术的完成。用户的反馈可以进一步优化RAG的性能,例如用户评价回答质量的信息可以用来训练和改进模型。

RAG在Chatbot中的应用

RAG 技术在 Chatbot 应用中有非常重要的作用,尤其是在提高回应的相关性和准确性、处理复杂查询及增强个性化和上下文理解能力方面。

  1. 提高回应的相关性和准确性

(1)基于检索的信息丰富性:RAG 技术的检索组件可以从大量的知识库中检索与用户提问相关的信息。这意味着Chatbot可以访问更多的数据点,从而提供更丰富、更准确的回答。例如,当用户询问关于某个历史事件的细节时,RAG 技术能够从多个来源中检索相关信息,确保回答的全面性和准确性。

(2)文本生成组件的语境适应能力:RAG 的文本生成组件不仅是简单地重复检索到的信息,还能根据上下文生成适当的回答。这意味着即使利用同样的信息源,对不同的问题,生成的回答也会有所不同,这能确保回应与用户的查询高度相关。

(3)数据质量和过滤机制:Chatbot 中的 RAG 技术通常配备高质量的数据源,并使用过滤机制来确保检索到的信息是可信和准确的。这降低了生成错误信息的风险,提高了回应的准确性。

  1. 处理复杂查询

(1)信息聚合能力:对于复杂的查询,RAG 技术能够从不同的信息源中聚合数据。这意味着它可以综合多个观点或信息片段,提供一个全面的回答。例如,回答关于气候变化影响的复杂问题时,RAG能够综合科学研究、统计数据和专家意见等多方面的信息。

(2)上下文感知和连续对话能力:RAG技术在处理复杂查询时还具备上下文感知的能力。这意味着它可以理解并利用对话的历史和上下文信息,更好地处理多轮对话中的复杂查询。

  1. 增强个性化和上下文理解能力

(1)个性化回答:RAG技术能够根据用户的历史交互和偏好提供个性化的回答。例如,如果系统知道用户对某个特定主题有深入的了解,则可以提供有关该主题的更深入的回答。

(2)上下文追踪能力和长期记忆:Chatbot中的RAG系统通常具有上下文追踪能力和一定程度的长期记忆。这意味着它们能够记住用户过去的提问和回答,以便在未来的交互中提供更相关和连贯的回答。

(3)情感识别:RAG 技术可以整合情感识别功能,使 Chatbot 能够根据用户的情绪调整其回答的风格和内容。这增加了交互的个性化,使其更人性。

RAG技术在Chatbot中的应用极大地提高了回应的相关性和准确性,使得处理复杂查询成为可能,并显著增强了个性化与上下文理解的能力,为用户提供了更丰富、更自然、更个性化的交互体验,推动了Chatbot技术的发展。

RAG面临的挑战

当然,RAG并非无所不能,当前仍然有以下技术难点需要持续优化。

(1)检索与生成的协同工作:检索到的内容与生成的内容能否紧密结合是一个关键问题。

(2)计算效率:执行检索和生成这两个步骤可能导致系统响应延迟,使整个系统的运行速度变慢,因此对时间敏感的应用而言,RAG可能不太适用。

(3)数据噪声:外部检索的数据可能带有噪声,这会影响生成内容的准确性。

未来,RAG会在法律、教育、商业等方向上有非常多的应用。值得一提的是,在某一特定语言风格(如鲁迅的语言风格)、模型本身的价值观倾向等方面,还需要类似 Fine-tuning的技术来优化大语言模型。

更多关于RAG及大模型时代下从0到1构建Chatbot的内容,欢迎阅读《Chatbot从0到1(第2版):对话式交互实践指南》一书!

↑限时五折优惠↑

大语言模型rag,语言模型,人工智能,机器学习文章来源地址https://www.toymoban.com/news/detail-788361.html

到了这里,关于RAG:让大语言模型拥有特定的专属知识的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch:特定领域的生成式 AI - 预训练、微调和 RAG

    作者:来自 Elastic Steve Dodson 有多种策略可以将特定领域的知识添加到大型语言模型 (LLM) 中,并且作为积极研究领域的一部分,正在研究更多方法。 对特定领域数据集进行预训练和微调等方法使 LLMs 能够推理并生成特定领域语言。 然而,使用这些 LLM 作为知识库仍然容易产生

    2024年02月19日
    浏览(38)
  • Elasticsearch:RAG vs Fine-tunning (大语言模型微调)

    如果你对 RAG 还不是很熟悉的话,请阅读之前的文章 “Elasticsearch:什么是检索增强生成 - RAG?”。你可以阅读文章 “Elasticsearch:在你的数据上训练大型语言模型 (LLM)” 来了解更多关于如何训练你的模型。在今天的文章中,我们来讲述 RAG 及 大语言模型的优缺点。这篇文章旨

    2024年02月04日
    浏览(50)
  • 阿里首提前向训练框架:让大模型深度思考,可快速定制专属模型

    大语言模型(LLM)是当前自然语言处理领域最核心的技术,以 GPT-4 为代表的大语言模型展现出了类人的学习能力。其中,情境学习(In-context Learning)是大语言模型最神秘的能力之一。如下图所示,在这种情境学习的范式下,大模型无需更新任何参数,仅依赖几个示例样本(demonstrations)就可以学习新任务,执行新样本的预测。

    2024年02月11日
    浏览(45)
  • NVIDIA 大模型 RAG 分享笔记

    数据是有一定范围的 。大量的数据在一定的时间内训练完成的。确定数据对于基础模型是有一定的范围的。对专业领域,垂直领域的应用场景来说,知识是不够全面的。是缺乏专业的知识的。 数据有时间限制的 。知识更新迭代快,给的回答可能过时 幻觉 RAG 是一种解决的

    2024年01月19日
    浏览(36)
  • 【Langchain】+ 【baichuan】实现领域知识库【RAG】问答系统

    本项目使用 Langchain 和 baichuan 大模型, 结合领域百科词条数据(用xlsx保存),简单地实现了领域百科问答实现。

    2024年02月21日
    浏览(45)
  • Elasticsearch 混合检索优化大模型 RAG 任务

    Elastic 社区在自然语言处理上面做的很不错官方博客更新速度也很快,现阶段大模型的应用场景主要在 Rag 和 Agent 上,国内 Rag(Retrieval-Augmented Generation 检索增强生成) 的尤其多,而搜索对于 Elasticsearch 来说是强项特别是 8.9 之后的版本提供了 ESRE 模块(集成了高级相关性排序

    2024年04月25日
    浏览(38)
  • 24-25年是下一代浪潮最关键的两年!GenAI框架与工具合集;RAG要点速查手册;国内首个MoE开源大模型;大语言模型新书追更 | ShowMeAI日报

    👀 日报周刊合集 | 🎡 生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! https://d.design/competition/alipay-spring 补充一份背景:堆友 (D.Design) 是阿里巴巴推出的一个新的在线设计平台 支付宝和堆友联合推出了一场 AIGC 视频创作比赛,邀请创作者使用AI工具创作贺岁 MV,并提

    2024年01月22日
    浏览(48)
  • AIGC内容分享(三):AIGC应用:基于RAG构建个人知识库

    目录 前言 Collect (收集) 收集是什么? Organize (组织) 组织信息 Distill (提炼) 提炼信息 Express (表达) 表达见解 Finetune调优 调整输出内容 总结一下 在信息爆炸的时代,如何有效地处理和汲取大量的信息成为一个关键的挑战,尤其对于知识工作者。如果有一个知识库就像外挂大脑

    2024年02月02日
    浏览(42)
  • llama-index调用qwen大模型实现RAG

    llama-index在实现RAG方案的时候多是用的llama等英文大模型,对于国内的诸多模型案例较少,本次将使用qwen大模型实现llama-index的RAG方案。 llamaindex需要预装很多包,这里先把我成功的案例里面的pip包配置发出来,在requirements.txt里面。       llamaindex实现RAG中很关键的一环就是知

    2024年04月09日
    浏览(40)
  • AI大模型低成本快速定制秘诀:RAG和向量数据库

      当今人工智能领域,最受关注的毋庸置疑是大模型。然而,高昂的训练成本、漫长的训练时间等都成为了制约大多数企业入局大模型的关键瓶颈。   这种背景下,向量数据库凭借其独特的优势,成为解决低成本快速定制大模型问题的关键所在。   向量数据库是一种

    2024年02月05日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包