GPT学习笔记-文章的摘要

这篇具有很好参考价值的文章主要介绍了GPT学习笔记-文章的摘要。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在多数针对GPT的应用中,很多都是希望通过GPT加载私有数据,为企业或个人做知识助理。对于海量的数据的处理方法应该是结合向量数据库和已有的文件数据库ES,Mongodb等。但是有一些已有的以文档形式记录的企业知识,怎么处理呢?下面我们看看,openai提供的一个把已有的pdf文档加载到GPT中的代码例子。

GPT-3可以帮助我们从过大而无法放入上下文窗口的文档中提取关键的数字、日期或其他重要内容。解决这个问题的一种方法是将文档分块并分别处理每个块,然后再将答案合并为一个列表。

在代码例子中中,将运行以下步骤:

  • 加载一个长PDF并提取出文本
  • 创建一个用于提取关键信息的提示
  • 将我们的文档分块并处理每个块以提取出任何答案
  • 最后将它们合并
  • 我们将这种简单的方法扩展到三个更难的问题上

方法

  • 设置:拿取一个PDF,一个关于动力单元的一级方程式财务规章文档,并从中提取文本进行实体提取。我们将使用这个来尝试提取埋藏在内容中的答案。
  • 简单的实体提取:通过以下步骤从文档的一部分中提取关键信息:
    1. 创建一个模板提示,包含我们的问题和它期望的格式的例子
    2. 创建一个函数,接受一段文本作为输入,与提示结合并获得一个响应
    3. 运行一个脚本来分块文本,提取答案并输出它们以便解析
  • 复杂的实体提取:提出一些需要更严格的推理才能解决的更难的问题

例子代码是openai的cookbook的examples/Entity_extraction_for_long_documents.ipynb文章来源地址https://www.toymoban.com/news/detail-453883.html

到了这里,关于GPT学习笔记-文章的摘要的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习&&深度学习——针对序列级和词元级应用微调BERT

    👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er 🌌上期文章:机器学习深度学习——NLP实战(自然语言推断——注意力机制实现) 📚订阅专栏:机器学习深度学习 希望文章对你们有所帮助 在上一节使用了注意力机制来实现自然语言推断模型,后面会给出更好

    2024年02月10日
    浏览(32)
  • 【GPT】文本生成任务(生成摘要、文本纠错、机器翻译等的模型微调)

    NLG:自然语言生成任务,很多NLP任务可以被描述为NLG任务,如经典的T5模型(text to text transfer transformer模型)就是NLG模型,如文本纠错任务,输出正确的文本描述、智能问答根据一定背景进行推理,然后回答。 主要分为三种: 抽取式摘要:从原文档中提取现成的句子作为摘要

    2023年04月26日
    浏览(48)
  • 全世界都在讨论ChatGPT,其实很多人根本连GPT是啥都不知道

    我现在让我们以一种易于理解的方式去拆解一下g pt 这三个字 g pt的全称都是generative pretangetransformer中文翻译是生成性育性链变换模型 那我们一个一个字母来看 ppt的第一个字母g至绝格瑞条的首字母翻译过来就是生成性 所以我们称差的ppt是生成性 人工智能也就是所谓的生成性

    2024年02月05日
    浏览(36)
  • stable diffusion webui界面布局(很多大佬一键安装包的样式,自己部署却没有?那就看这篇文章吧!)

    自己部署stable diffusion界面布局(很多大佬一键安装包的样式,自己部署却没有?那就看这篇文章吧!) 如下图,使用一键部署的项目,有【外挂vae模型】【跳过CLIP部署】,且【采样方法】的部署不是下拉列表,而是所有采样方法都放出来了 如下图:这是不适用一键部署包,

    2024年02月16日
    浏览(47)
  • GPT3学习笔记

    关于GPT-3的主要事实: 模型分类 :GPT-3有8个不同的模型,参数从1.25亿到1750亿不等。 模型大小 :最大的GPT-3模型有1750亿参数。这比最大的BERT模型大470倍(3.75亿个参数) 体系结构 :GPT-3是一种自回归模型,使用仅有解码器的体系结构。使用下一个单词预测目标进行训练 学习方式 :G

    2024年02月11日
    浏览(27)
  • GPT学习笔记-聚类(clustering)

    聚类是一种非常有用的无监督学习技术,它的主要目的是发现数据的内在结构和模式。在许多实际应用中,我们可能没有明确的目标变量或预测目标,但我们仍希望了解数据的组织方式,或者找出数据中的特定模式或组。这就是聚类的价值所在。 尽管聚类是无监督的(即我们

    2024年02月06日
    浏览(29)
  • Auto-GPT 学习笔记

    Auto-GPT 是一个基于 GPT-4 的自主智能体实验项目。 它展示了大规模语言模型的规划、记忆和工具使用能力。 Auto-GPT 的目标是实现一个完全自主的 AI 代理。 GitHub 仓库 规划(Planning) 使用强化学习策略进行多跳思考。 通过角色扮演实现自省。 提供完整的上下文,例如从记忆中获取

    2024年02月11日
    浏览(33)
  • GPT/GPT4在人工智能,深度学习,编程等领域应用

    详情点击链接:GPT/GPT4在人工智能,深度学习,编程等领域应用 一OpenAI 1.最新大模型GPT-4 Turbo 2.最新发布的高级数据分析,AI画图,图像识别,文档API 3.GPT Store 4.从0到1创建自己的GPT应用 5. 模型Gemini以及大模型Claude2 二定制自己的GPTs 1.自定义GPTs使用 2.聊天交流的方式制作自己

    2024年01月17日
    浏览(38)
  • 机器学习笔记 - 关于GPT-4的一些问题清单

            据报道,GPT-4 的系统由八个模型组成,每个模型都有 2200 亿个参数。GPT-4 的参数总数估计约为 1.76 万亿个。         近年来,得益于 GPT-4 等高级语言模型的发展, 自然 语言处理(NLP) 取得了长足的进步。 凭借其前所未有的规模和能力, GPT-4 为语言 AI​​设立

    2024年02月13日
    浏览(33)
  • 很多应用都是nginx+apache+tomcat

    nginx 负责负载均衡,将大量的访问量平衡分配给多个服务器  apache 是用来处理静态html、图片等资源,在对HTML解析、响应等方面比tomcat效率更高。  tomcat 处理JSP等内容,进行后台业务操作。 类似这种 配置,1,2,3三台机器是相同的东西,利用nginx负载均衡 apache用来处理静态

    2024年02月09日
    浏览(22)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包