深入理解深度学习——BERT(Bidirectional Encoder Representations from Transformers):基础知识

这篇具有很好参考价值的文章主要介绍了深入理解深度学习——BERT(Bidirectional Encoder Representations from Transformers):基础知识。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分类目录:《深入理解深度学习》总目录
相关文章:
· BERT(Bidirectional Encoder Representations from Transformers):基础知识
· BERT(Bidirectional Encoder Representations from Transformers):BERT的结构
· BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model)
· BERT(Bidirectional Encoder Representations from Transformers):NSP(Next Sentence Prediction)任务
· BERT(Bidirectional Encoder Representations from Transformers):输入表示
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[句对分类]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[单句分类]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[文本问答]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[单句标注]
· BERT(Bidirectional Encoder Representations from Transformers):模型总结与注意事项


BERT全称为Bidirectional Encoder Representations from Transformers,即来自Transformers的双向编码器表示,是谷歌发表的论文Pre-training of Deep Bidirectional Transformers for Language Understanding中提出的一个面向自然语言处理任务的无监督预训练语言模型,是近年来自然语言处理领域公认的里程碑模型。其意义在于:从大量无标记数据集中训练得到的深度模型,可以显著提高各项自然语言处理任务的准确率。事实上,BERT刷新了在自然语言推断、问答及命名实体识别任务等11项自然语言处理任务上的表现,甚至在SQuAD问答测试中超过了人类的表现。

BERT被认为是近年来优秀预训练语言模型的集大成者,其参考了ELMo模型的双向编码思想,借鉴了GPT用Transformer作为特征提取器的思路,并采用了word2vec所使用的CBOW训练方法。BERT问世后,更多优秀的预训练语言模型如春笋般不断涌现,在不同的领域和场景中均体现了更好的性能,但是它们的模型结构和底层思想依然没有完全脱离BERT,可见BERT影响之深远。

从名字上看,BERT强调的是Bidirectional Encoder,即双向编码器,这使它有别于同一时期使用单向编码引起广泛关注的预训练语言模型——GPT。GPT是标准的语言模型,用Transformer Decoder(包含Masked Multi-Head Attention)作为特征提取器,具有良好的文本生成能力。当然,其缺陷也比较明显,即当前词的语义只由其前序词决定,在语义理解上略有不足。而BERT的创新在于用Transformer Encoder(包含Multi-Head Attention)作为特征提取器,并使用与之配套的掩码训练方法。虽然使用双向编码使得BERT不再具有文本生成能力,但研究结果表明,BERT在对输入文本的编码过程中,利用了每个词的所有上下文信息,与只能使用前序信息提取语义的单向编码器相比,BERT的语义信息提取能力更强。

下面举例说明单向编码与双向编码在语义理解上的差异:

今天天气很差,我们不得不取消户外运动。

将句中的某个字或词挖走,句子就变成:今天天气很( ),我们不得不取消户外运动。分别从单向编码(如GPT)和双向编码(如BERT)的角度来考虑“( )”中应该填什么词。单向编码只会使用“今天天气很”这五个字的信息来推断“( )”内的字或词,以人类的经验与智慧,使用概率最大的词应该是:“好”“不错”“差”“糟糕”,而这些词可以被划分为截然不同的两类。双向编码可以利用下文信息“我们不得不取消户外运动”来帮助模型判断,以人类的经验与智慧,概率最大的词应该是:“差”“糟糕”。通过这个例子我们可以直观地感受到,不考虑模型的复杂度和训练数据量,双向编码与单向编码相比,可以利用更多的上下文信息来辅助当前词的语义判断。在语义理解能力上,采用双向编码的方式是最科学的,而BERT的成功很大程度上由此决定。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.文章来源地址https://www.toymoban.com/news/detail-501452.html

到了这里,关于深入理解深度学习——BERT(Bidirectional Encoder Representations from Transformers):基础知识的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入理解深度学习——BERT派生模型:ALBERT(A Lite BERT)

    分类目录:《深入理解深度学习》总目录 预训练语言模型的一个趋势是使用更大的模型配合更多的数据,以达到“大力出奇迹”的效果。随着模型规模的持续增大,单块GPU已经无法容纳整个预训练语言模型。为了解决这个问题,谷歌提出了ALBERT,该模型与BERT几乎没有区别,

    2024年02月10日
    浏览(34)
  • 深入理解深度学习——BERT派生模型:RoBERTa(A Robustly Optimized BERT Pretraining Approach)

    分类目录:《深入理解深度学习》总目录 现阶段,预训练语言模型总是可以通过更大的模型和更多的数据获得更好的性能,GPT系列模型就是此类优化方向的典范。RoBERTa(模型名源自论文名A Robustly Optimized BERT Pretraining Approach)是脸书公司提出的在BERT基础上增加训练数据,充分

    2024年02月10日
    浏览(64)
  • 深入理解深度学习——BERT派生模型:T5(Text to Text Transfer Transformer)

    分类目录:《深入理解深度学习》总目录 T5的全称为Text to Text Transfer Transformer,是谷歌提出的预训练语言模型领域的通用模型,该模型将所有自然语言问题都转化成文本到文本的形式,并用一个统一的模型解决。为了得到大一统的高质量预训练语言模型,T5不可避免地走上了

    2024年02月10日
    浏览(29)
  • 深入理解深度学习——BERT派生模型:跨语言模型XLM(Cross-lingual Language Model)

    分类目录:《深入理解深度学习》总目录 BERT本应在语义理解上具有绝对优势,但其训练语料均为英语单语,受限于此,早期的BERT只在英语文本理解上有优势。随着全球化进程的加速,跨语言的预训练语言模型也具有非常重要的应用场景。为了探究BERT在跨语言场景中的性能,

    2024年02月10日
    浏览(38)
  • 七篇深入理解机器学习和深度学习的读物推荐

    在这篇文章中将介绍7篇机器学习和深度学习的论文或者图书出版物,这些内容都论文极大地影响了我对该领域的理解,如果你想深入了解机器学习的内容,哪么推荐阅读。 在自然语言处理和序列建模领域,Vaswani等人的一篇论文《Attention Is All You Need》彻底改变了这一领域。这

    2024年02月07日
    浏览(27)
  • 深入理解深度学习——正则化(Regularization):Dropout

    分类目录:《深入理解深度学习》总目录 Dropout供了正则化一大类模型的方法,计算方便且功能强大。在第一种近似下,Dropout可以被认为是集成大量深层神经网络的实用Bagging方法。Bagging涉及训练多个模型,并在每个测试样本上评估多个模型。当每个模型都是一个很大的神经

    2024年02月09日
    浏览(29)
  • 深入理解深度学习——正则化(Regularization):数据集增强

    分类目录:《深入理解深度学习》总目录 让机器学习模型泛化得更好的最好办法是使用更多的数据进行训练。当然,在实践中,我们拥有的数据量是很有限的。解决这个问题的一种方法是创建假数据并添加到训练集中。对于一些机器学习任务,创建新的假数据相当简单。对分

    2024年02月16日
    浏览(24)
  • 深入理解深度学习——Transformer:解码器(Decoder)部分

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(Attention Mechanism):基础知识 ·注意力机制(Attention Mechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function) ·注意力机制(Attention Mechanism):

    2024年02月10日
    浏览(35)
  • 深入理解深度学习——正则化(Regularization):参数绑定和参数共享

    分类目录:《深入理解深度学习》总目录 目前为止,我们讨论对参数添加约束或惩罚时,一直是相对于固定的区域或点。例如, L 2 L^2 L 2 正则化(或权重衰减)对参数偏离零的固定值进行惩罚。然而,有时我们可能需要其他的方式来表达我们对模型参数适当值的先验知识。

    2024年02月07日
    浏览(53)
  • 深入理解深度学习——正则化(Regularization):Bagging和其他集成方法

    分类目录:《深入理解深度学习》总目录 相关文章: · 集成学习(Ensemble Learning):基础知识 · 集成学习(Ensemble Learning):提升法Boosting与Adaboost算法 · 集成学习(Ensemble Learning):袋装法Bagging · 正则化(Regularization):Bagging和其他集成方法 Bagging(Bootstrap Aggregating)是通

    2024年02月07日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包