论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE

这篇具有很好参考价值的文章主要介绍了论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

微软24年1月的paper

1 into

1.1 背景

  • AI在如农业等特定领域的应用仍然有限,这是由于缺乏专门的训练数据
    • 虽然AI已被用来从农业的卫星图像和传感器数据中派生见解,但技术在农民中的采用仍然缓慢
  • 尽管GPT-4和Bing是寻找信息的强大工具,但它们可能不会为有关其作物和家畜的非常具体问题的农民提供最佳解决方案
    • 这些问题通常需要了解当地条件、特定品种和最新数据,这些数据可能通过一般搜索引擎不容易获得
  • 下表比较了针对三个不同美国州的相同查询,GPT-4和一个农学专家的回答【看黄色部分】
    • 专家会提供基于特定州的特定气候和农业传统的情境化回答
    • LLMs提供的是一个通用答案,虽然正确,但不像专家答案那样对每个州都那么精确

论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE,论文笔记,论文阅读

1.2 论文思路

  • 提出了一个全面的大语言模型流程,以生成高质量的、特定于行业【如农业】的问题和答案
    • 旨在生成地理特定的答案
    • 起点是一个农业数据集,该数据集被输入到三个主要组件:问答生成、检索增强生成(RAG)和微调过程
      • 问答生成根据农业数据集中可用的信息创建问题和答案对
      • RAG使用它作为知识来源
      • 精炼生成的数据,并用其微调数个模型

2 方法

论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE,论文笔记,论文阅读

2.1 数据集收集

  • 在农业领域,这包括农业和环境政府机构、科学知识仓库以及农学考试数据库
  • 合适的时机,利用爬虫收集所需数据

2.2 PDF 信息提取

  • 从收集的文档中提取信息和文本结构对后续步骤的质量至关重要
    • 这是一个具有挑战性的任务,因为PDF的主要目的是在不同的系统中准确显示文档,而不是为了便于信息提取
    • PDF文件的底层结构【章节、子章节和相关内容】并不映射到文档的逻辑结构
    • 由于文档来自各种来源,我们观察到它们的布局和格式复杂,缺乏标准化,经常呈现出表格、图片、侧边栏和页脚的混合

论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE,论文笔记,论文阅读

  • 此步骤的主要目标是解决处理来自一系列格式化PDF文档所固有的复杂性
    • 焦点不仅在于恢复每个文件的内容,还包括其结构
      • 哪些是章节和子章节
      • 表格和图表中呈现的信息
      • 文档内的交叉引用
      • 将图片与它们的标题和描述链接起来
  • 在线上可用的多种工具能从PDF中提取信息(PDF2Text;PyPDF)
    • 缺乏以结构化方式检索内容的能力
    • 例如,pdf2text是一个开源的Python库,提供了遍历PDF页面并恢复文本信息的方法
      • 但表示章节或子章节开始的标记在检索的数据中丢失了,这阻碍了我们推理文档结构的能力
      • 表格和图形的标题也在转换中丢失了,这些有时包含了理解文档的关键信息
      • 论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE,论文笔记,论文阅读
  • 采用了GROBID(GeneRation Of BIbliographic Data),一个专门为从PDF格式的科学文献中提取和处理数据而定制的机器学习库
    • 目标是将非结构化的PDF数据转换为TEI(Text Encoding Initiative)格式的结构化数据,有效管理大量文件
    • 不仅保留内容,还保留原始PDF的结构
      • 文档元数据(标题、作者、摘要)、章节、表格、图形引用、参考文献和内容本身
    • 论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE,论文笔记,论文阅读

2.3 问题生成

  • 目标是生成与上下文相关的、高质量的问题,这些问题能准确反映提取文本的内容
    • ——>采用了Guidance框架
      • 首先,通过从文本中明确添加支持标签来增强可用文档的内容和结构
        • 制定了提示,以从文档的每个部分提取位置和农业主题列表(例如,如果该部分提到了作物、牲畜或疾病)
        • 让LLM模型基于从JSON文件中提取的数据回答它们
        • 论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE,论文笔记,论文阅读
      • 接着,结合支持上下文和章节内容,提示LLM基于它们生成一组问题
        • 论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE,论文笔记,论文阅读

2.4 回答生成(RAG)

  • RAG遵循三个步骤
    • 嵌入生成和索引构建
      • 我们使用句子Transformer从数据集中的PDF文档提取的文本块计算嵌入
      • 我们使用Facebook AI相似性搜索(FAISS),一个用于高效索引和向量相似性搜索的库,来创建嵌入的数据库
    • 检索
      • 给定一个输入问题,我们计算其嵌入并从FAISS数据库检索相关的文本块。
      • 这是通过FAISS检索工具similarity_search_with_score完成的
    • 答案生成
      • 以问题和检索到的文本块为输入,使用一个LLM模型来合成答案。
      • 将从FAISS数据库检索到的信息作为上下文提供给GPT-4,并通过自定义提示实现了特定于领域的答案生成。
      • 答案与相关问题一起正确格式化为一个JSON文件,以创建问答对。

2.5 finetune

  • 之前已经从Llama2-13b-chat和RAG生成了一个包含问题及相应答案的数据集。
  • 这一步训练了几个不同大小的基础完成模型【Open-Llama-3b、Llama2-7b和Llama2-13b】
    • 使用了8个H100 GPU和PyTorch的完全分片数据并行(FSDP)进行微调
    • 训练过程包括每个GPU喂入4个样本的微批次,并在4个微批次上累积梯度,导致每个训练步骤的有效批量大小为128个样本
    • 训练进行了4个周期,采用自动混合精度和BFloat16
    • Adam优化器
    • 基础学习率为2e-5,以及余弦学习率调度器与线性热身
  • 同时对GPT-4进行了微调
    • 考虑到GPT-4更大且更昂贵,我们的目标是评估相比于其基础训练,该模型是否会从额外知识中受益
    • ——>使用LoRA进行微调
      • 优化进行了4个周期,批量大小为256个样本,基础学习率为1e-4,并随着训练的进行而衰减。
      • 微调在七个节点上进行,每个节点有八个A100 GPU,总运行时间为1.5天。

3 主要实验结果

3.1 RAG的影响

论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE,论文笔记,论文阅读

论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE,论文笔记,论文阅读

3.2 RAG和finetune的比较

论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE,论文笔记,论文阅读文章来源地址https://www.toymoban.com/news/detail-845839.html

到了这里,关于论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 对 ChatGLM-6B 做 LoRA Fine-tuning

    ChatGLM-6B 是一个支持中英双语的对话语言模型,基于 GLM (General Language Model)。它只有 62 亿个参数,量化后最低 (INT4 量化) 只需要 6GB 的显存,完全可以部署到消费级显卡上。在实际使用这个模型一段时间以后,我们发现模型的对话表现能力确实非常不错。那么,基于这个模型做

    2023年04月25日
    浏览(34)
  • ChatGPT进阶:利用Fine-tuning训练自己的模型

    ChatGPT是“大力出奇迹”的经典表现,大模型给ChatGPT带来了惊人的智能,但是要训练这样的大模型,可是十分烧钱的,根据OpenAI给出的数据,1700亿参数的Davinci模型从头训练一遍,大概需要耗时3个月,耗资150万美元。那我们普通人或者小公司面对这个高门槛,对自定义模型是

    2024年02月17日
    浏览(52)
  • 一分钟搞懂 微调(fine-tuning)和prompt

    大家都是希望让预训练语言模型和下游任务靠的更近,只是实现的方式不一样。Fine-tuning中:是预训练语言模型“迁就“各种下游任务;Prompting中,是各种下游任务“迁就“预训练语言模型。 微调(fine-tuning)和prompt是自然语言处理领域中常用的两个术语,它们都是指训练和

    2023年04月26日
    浏览(51)
  • 深度学习概念(术语):Fine-tuning、Knowledge Distillation, etc

    这里的相关概念都是基于已有预训练模型,就是模型本身已经训练好,有一定泛化能力。需要“再加工”满足别的任务需求。 进入后GPT时代,对模型的Fine-tuning也将成为趋势,借此机会,我来科普下相关概念。 有些人认为微调和训练没有区别,都是训练模型,但是微调是在原

    2024年02月09日
    浏览(42)
  • openai模型个性化训练Embedding和fine-tuning区别

    现在基于自然语言和文档进行对话的背后都是使用的基于嵌入的向量搜索。OpenAI在这方面做的很好,它的Cookbook(github.com/openai/openai-cookbook)上有很多案例,最近他们对文档做了一些更新。 GPT擅长回答问题,但是只能回答它以前被训练过的问题,如果是没有训练过的数据,比如

    2024年02月15日
    浏览(45)
  • llamafactory:unified efficient fine-tuning of 100+ lanuage models

    1.introduction llamafactory由三个主要模块组成,Model Loader,Data Worker,Trainer。 2.Efficient fine-tuning techniques 2.1 Efficient Optimization 冻结微调:冻结大部分参数,同时只在一小部分解码器层中微调剩余参数,GaLore将梯度投影到低维空间,以内存高效的方法实现全参数学习;相反,Lora冻结

    2024年04月14日
    浏览(42)
  • 了解大语言模型的参数高效微调(Parameter-Effcient Fine-Tuning)

    🍉 CSDN 叶庭云 : https://yetingyun.blog.csdn.net/ 大语言模型在众多应用领域实现了突破性的进步,显著提升了各种任务的完成度。然而,其庞大的规模也带来了高昂的计算成本。这些模型往往包含数十亿甚至上千亿参数,需要巨大的计算资源来运行。特别是,当需要为特定的下游

    2024年04月14日
    浏览(69)
  • Fine-tuning Large Enterprise Language Models via Ontological Reasoning

    本文是LLM系列文章,针对《Fine-tuning Large Enterprise Language Models via Ontological Reasoning》的翻译。 大型语言模型(LLM)利用特定任务的训练数据,将微调作为一种适应不同目标的技术。任务特异性应该与领域定向齐头并进,即LLM的专业化,以准确地处理给定感兴趣领域的任务。然

    2024年02月09日
    浏览(47)
  • 基于ChatYuan-large-v2 语言模型 Fine-tuning 微调训练 广告生成 任务

    ChatYuan-large-v2 是一个开源的支持中英双语的功能型对话语言大模型,与其他 LLM 不同的是模型十分轻量化,并且在轻量化的同时效果相对还不错,仅仅通过 0.7B 参数量就可以实现 10B 模型的基础效果,正是其如此的轻量级,使其可以在普通显卡、 CPU 、甚至手机上进行推理,而

    2024年02月13日
    浏览(47)
  • 自然语言基础 IMDB下的 MLM (掩码模型) & Bert Fine-tuning (模型微调)

    本文是Hugging Face 上 NLP的一篇代码教程,通过imdb数据集, Fine-tuning微调 Bert预训练模型。 涉及包括: MLM, Bert, Fine-tuning, IMDB, Huggingface Repo 微调的方式是通过调整训练模型的学习率来重新训练模型,这个来自 早期 ACL 2018的一篇paper: 《Universal Language Model Fine-tuning for Text

    2024年02月15日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包