深度学习系列60: 大模型文本理解和生成概述

这篇具有很好参考价值的文章主要介绍了深度学习系列60: 大模型文本理解和生成概述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

参考网络课程:https://www.bilibili.com/video/BV1UG411p7zv/?p=98&spm_id_from=pageDriver&vd_source=3eeaf9c562508b013fa950114d4b0990

1. 概述

包含理解和分类两大类问题,对应的就是BERT和GPT两大类模型;而交叉领域则对应T5
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

2. 信息检索(IR)

深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

2.1 传统方法:BM25

传统IR方法BM25基于tf-idf,介绍如下深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
根据单词去匹配有两类问题:有时候同一个词有很多意思;有时候同一个意思使用完全不同的词表达的;这样就会产生precision和recall两方面的问题。

2.2 大模型方法

大模型IR的逻辑如下:将查询q和文档库D都输入神经网络,得到q的向量和D中所有d的向量,然后查询和q相似度最高的d。
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
大模型IR方法有两种:cross-encoder和dual-encoder。
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
一般会分两步:先使用右边的de进行粗筛,然后使用左边的ce进行精排。
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

3. 知识问答

3.1 理解类QA

深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
举个例子,我们英语考试的阅读理解:
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
传统模型如下:
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
一个具体的实现方法如下:
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
有了大模型之后,整体的架构变得极为简单:
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
下面是一个基于BERT的例子,把问题和reference输入bert,然后把cls的embedding拿出来,接上一个分类层即可。
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

还有一种更简单的prompt learning的方式:
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

3.2 开放类QA

深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
包括两类:
1) 生成式问答
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

2)检索式问答
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
第一步的检索工作,可以使用大模型来训练:
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

3.3 微调代码

下面是使用openDelta进行微调知识问答的例子:
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

4. 文本生成

深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

4.1 语言建模LM

深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
大模型中的seq2seq代表是BART和T5,使用下面的方法,学习到了很强的填空能力
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

GPT是自回归的模型,结构上是把transformer的decoder单独拿出来。GPT学习到的是预测下一个词的能力
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
而BERT则是非回归的模型,结构上可以理解为transformer的encoder。没有时序关系,因此可以做上下文理解任务。
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

4.2 解码过程

LM的结果是词表的概率分布,我们需要解码成人类可读的语言
从最简单的greedy decoding开始:
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
这种myopic的方法,效果只能说是一般。
第二种是beam search的方法:
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
第三种是不追求概率最大,而是以一定概率去随机解码
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
temperature是softmax之前处以的一个数,这个数字越大的话,采样就越平均,也就是随机性增加了(多样性增加了,但是可能不相关)。
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

4.3 可控文本生成

有3类方法
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

4.3.1 prompt方法

可以在输入文本前面加prompt
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
也可以在模型前加prefix(也就是prefix-tuning的做法)
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

4.3.2 修改概率分布

使用正样本和负样本生成器来知道原模型:
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

4.3.3 直接修改模型结构

如下图,有两个encoder,其中一个用来编码guidance,并且会先解码,其结果再和source文本编码的结果一起进行解码
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能

4.4 测评

BLUE指的是生成的文本的n-gram有多少与token的text是相似的,其中BP是对短句的惩罚,然后N一般取4,也就是计算1-gram到4-gram的相似度平均值。
PPL指的是生成目标概率的负相关系数。
ROUTE是一个基于recall-oriented来进行计算的方法
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能
深度学习系列60: 大模型文本理解和生成概述,深度学习系列,深度学习,人工智能文章来源地址https://www.toymoban.com/news/detail-835511.html

到了这里,关于深度学习系列60: 大模型文本理解和生成概述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【AIGC-文本/图片生成视频系列-10】SparseCtrl:在文本生成视频的扩散模型中添加稀疏控制

    目录 一. 项目概述 二. 方法详解 三. 应用结果 四.个人思考 由于扩散模型生成空间的不确定性,仅仅通过文本生成视频时,会导致模糊的视频帧生成。 今天解析的SparseCtrl,是一种有效解决上述问题的方案,通过带有附加编码器的时间稀疏条件图来控制文本到视频的生成。

    2024年04月15日
    浏览(35)
  • 猿创征文|【深度学习前沿应用】文本生成

    作者简介 :在校大学生一枚,C/C++领域新星创作者,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPCC)志愿者,以及编程爱好者,期待和大家一起学习,一起进步~ . 博客主页 :

    2024年02月06日
    浏览(30)
  • 【深度学习】生成对抗网络理解和实现

            本篇说明GAN框架是个啥。并且以最基础的数据集为例,用代码说明Gan网络的原理;总的老说,所谓神经网络,宏观上看,就是万能函数,在这种函数下,任何可用数学表述的属性,都可以映射成另一种可表示属性。         生成对抗网络 (GAN) 是一种算法架

    2024年02月13日
    浏览(43)
  • 点云深度学习系列博客(五): 注意力机制原理概述

    目录 1. 注意力机制由来 2. Nadaraya-Watson核回归 3. 多头注意力与自注意力 4. Transformer模型 Reference 随着Transformer模型在NLP,CV甚至CG领域的流行,注意力机制(Attention Mechanism)被越来越多的学者所注意,将其引入各种深度学习任务中,以提升性能。清华大学胡世民教授团队近期发

    2024年02月10日
    浏览(32)
  • 深度学习9:简单理解生成对抗网络原理

    目录 生成算法 生成对抗网络(GAN) “生成”部分 “对抗性”部分 GAN如何运作? 培训GAN的技巧? GAN代码示例 如何改善GAN? 结论 您可以将生成算法分组到三个桶中的一个: 鉴于标签,他们预测相关的功能(朴素贝叶斯) 给定隐藏的表示,他们预测相关的特征(变分自动编

    2024年02月10日
    浏览(27)
  • 深度学习-循环神经网络-RNN实现股价预测-LSTM自动生成文本

    基于文本内容及其前后信息进行预测 基于目标不同时刻状态进行预测 基于数据历史信息进行预测 序列模型:输入或者输出中包含有序列数据的模型 突出数据的前后序列关系 两大特点: 输入(输出)元素之间是具有顺序关系。不同的顺序,得到的结果应该是不同的,比如“

    2024年01月24日
    浏览(33)
  • 深度学习入门——深度卷积神经网络模型(Deep Convolution Neural Network,DCNN)概述

    机器学习是实现人工智能的方法和手段,其专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识和技能,重新组织已有的知识结构使之不断改善自身性能的方法。计算机视觉技术作为人工智能的一个研究方向,其随着机器学习的发展而进步,尤其近10年来,以深

    2024年02月13日
    浏览(34)
  • 深度学习RNN,GRU,LSTM文本生成解码器的训练损失讲解(附代码)

    以下以GRU为例讲解RNN作为解码器时如何根据用户、商品特征信息 hidden 生成评价。 解码器部分代码如下: 在训练时,解码器会有两个输入:一是编码器提取的用户、商品特征,二是用户对商品的评价。 评价是文字,在训练开始前已经转换成了Token ID, 比如 I love this item , 每个

    2024年04月12日
    浏览(28)
  • 深度学习实战9-文本生成图像-本地电脑实现text2img

    大家好,我是微学AI,今天给大家带来一个文本生成图像的案例。让大家都成为艺术家,自己电脑也能生成图片 ,该模型它能让数十亿人在几秒钟内创建出精美的艺术品。在速度和质量方面,都有所突破,这意味着图像生成技术走向大众。 Stable Diffusion模型 包括两个步骤:

    2024年02月09日
    浏览(38)
  • AIGC:利用多个AI技术前沿模型(GPT-3.5/GPT-4/Claude/ForefrontChat/HuggingChat)实现文本理解、生成文本类/图片类的结果对比并分析性能案例集合

    AIGC:利用多个AI技术前沿模型(GPT-3.5/GPT-4/Claude/ForefrontChat/HuggingChat)实现文本理解、生成文本类/图片类的结果对比并分析性能案例集合 目录 文本理解 1、理解语境中的术语含义 GPT-4的回答 GPT-3.5的回答 Forefront Chat(GPT-3.5)的回答 Claude+的回答 HuggingChat的回答 2、请用一句话总结贝

    2024年02月09日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包