论文阅读——BERT

这篇具有很好参考价值的文章主要介绍了论文阅读——BERT。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ArXiv:https://arxiv.org/abs/1810.04805

github:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT

 

一、模型及特点:

1、模型:

        深层双向transformer encoder结构

        BERT-BASE:(L=12, H=768, A=12)

        BERT-LARGE:(L=24, H=1024, A=16)

2、特点:

        不同任务使用统一架构,预训练和微调只有很小不同

        双向预训练模型——通过训练MLM子任务获得

论文阅读——BERT,NLP,深度学习

论文阅读——BERT,NLP,深度学习

论文阅读——BERT,NLP,深度学习

二、训练:两阶段训练——预训练和微调

1、预训练:

        (1)训练设置

            1)在无标签、不同任务上训练

            2)训练两个子任务:Masked LM(MLM),Next Sentence Prediction (NSP)

                 MLM:为了双向模型

                        损失函数:cross entropy loss

                        mask:随机选择15%的位置,被选择的位置有80%mask,10%随机token,10%unchanged。训练中位置不变,但是由于每个句子不一样,所以预测的token也不是每次都一样。

                 NSP:为了理解句子关系

        (2)数据:

            BooksCorpus (800M words)、English Wikipedia (2,500M words)  extract only the text passages and ignore lists, tables, and headers.

2、微调:

预训练参数初始化,针对不对任务在有标签数据的所有参数微调,不同任务各自单独微调。

论文阅读——BERT,NLP,深度学习

三、实验:

1、数据:

GLUE、SQuAD v1.1(问答。损失函数-最大似然,首先在TriviaQA上微调,然后在SQuAD 上微调)、SQuAD v2.0(没有在TriviaQA上微调)、The Situations With Adversarial Generations (SWAG)文章来源地址https://www.toymoban.com/news/detail-714618.html

到了这里,关于论文阅读——BERT的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】基于深度学习的时序预测——Autoformer

    系列文章链接 论文一:2020 Informer:长时序数据预测 论文二:2021 Autoformer:长序列数据预测 论文三:2022 FEDformer:长序列数据预测 论文四:2022 Non-Stationary Transformers:非平稳性时序预测 论文五:2022 Pyraformer:基于金字塔图结构的时序预测 论文六:2023 Crossformer:多变量时序预

    2024年02月13日
    浏览(40)
  • 【论文阅读】基于深度学习的时序异常检测——TransAD

    系列文章链接 数据解读参考:数据基础:多维时序数据集简介 论文一:2022 Anomaly Transformer:异常分数预测 论文二:2022 TransAD:异常分数预测 论文三:2023 TimesNet:基于卷积的多任务模型 论文链接:TransAD.pdf 代码库链接:https://github.com/imperial-qore/TranAD 这篇文章是基于多变量数

    2024年02月14日
    浏览(71)
  • 【论文阅读】基于深度学习的时序异常检测——TimesNet

    系列文章链接 参考数据集讲解:数据基础:多维时序数据集简介 论文一:2022 Anomaly Transformer:异常分数预测 论文二:2022 TransAD:异常分数预测 论文三:2023 TimesNet:基于卷积的多任务模型 论文链接:TimesNet.pdf 代码库链接:https://github.com/thuml/Time-Series-Library 项目介绍:https

    2024年02月13日
    浏览(51)
  • 深度学习中的图像融合:图像融合论文阅读与实战

    个人博客 :Sekyoro的博客小屋 个人网站 :Proanimer的个人网站 介绍图像融合概念,回顾sota模型,其中包括数字摄像图像融合,多模态图像融合, 接着评估一些代表方法 介绍一些常见应用,比如RGBT目标跟踪,医学图像检查,遥感监测 动机: 由于硬件设备的理论和技术限制,单一

    2024年02月02日
    浏览(54)
  • 【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer

    系列文章链接 数据解读参考:数据基础:多维时序数据集简介 论文一:2022 Anomaly Transformer:异常分数预测 论文二:2022 TransAD:异常分数预测 论文三:2023 TimesNet:基于卷积的多任务模型 论文链接:Anomaly Transformer.pdf 代码链接:https://github.com/thuml/Anomaly-Transformer 视频讲解(原

    2024年02月14日
    浏览(35)
  • 论文阅读-基于深度学习的多模态情感分析研究综述

    非核心 原文链接:基于深度学习的多模态情感分析研究综述 - 中国知网 (cnki.net) 深度学习完成多模态情感分析综述。主要介绍 多模态情感分析 的概念、背景、意义。总结了 多模态融合技术和交互技术 ,讨论多模态情感分析 未来发展 。 目前经典的多模态情感分析研究已经

    2024年02月04日
    浏览(51)
  • 【论文阅读】深度多视图聚类的自监督判别特征学习

    文章链接 聚类结构不明确 的某些视图所带来的负面影响,导致多视图聚类性能较差,所以本文提出SDMVC。 深度编码器用来独立的学习每个视图 ;为了利用互补信息, 将所有视图的嵌入特征串联起来形成全局特征 ,可以克服某些视图聚类结构不清晰的负面影响。以 自监督的

    2024年02月02日
    浏览(42)
  • 【论文阅读】1 SkyChain:一个深度强化学习的动态区块链分片系统

    1.1 文献标题 SkyChain: A Deep Reinforcement Learning-Empowered Dynamic Blockchain Sharding System 1.2 作者 中山大学系统科学与工程学院,广州中国数据与计算机学院 香港理工大学计算学系,中山大学数字生活国家工程研究中心 1.3 年份 :2020年8月 1.4 期刊 :ICPP 1)分片是将网络划分为多个不相

    2024年02月03日
    浏览(56)
  • 『论文阅读|利用深度学习在热图像中实现无人机目标检测』

    论文题目: Object Detection in Thermal Images Using Deep Learning for Unmanned Aerial Vehicles 利用深度学习在热图像中实现无人机目标检测 这项研究提出了一种神经网络模型,能够识别无人驾驶飞行器采集的热图像中的微小物体。模型由三部分组成:骨干、颈部和预测头。骨干基于 YOLOv5 的结

    2024年02月20日
    浏览(39)
  • 【论文阅读】基于深度学习的时序预测——Non-stationary Transformers

    系列文章链接 论文一:2020 Informer:长时序数据预测 论文二:2021 Autoformer:长序列数据预测 论文三:2022 FEDformer:长序列数据预测 论文四:2022 Non-Stationary Transformers:非平稳性时序预测 论文五:2022 Pyraformer:基于金字塔图结构的时序预测 论文六:2023 Crossformer:多变量时序预

    2024年02月13日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包