论文阅读——BERT

10月前作者：じんじん分类：Toy博客阅读(43) 违法举报

这篇具有很好参考价值的文章主要介绍了论文阅读——BERT。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

ArXiv：https://arxiv.org/abs/1810.04805

github：GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT

一、模型及特点：

1、模型：

深层双向transformer encoder结构

BERT-BASE：(L=12, H=768, A=12）

BERT-LARGE：(L=24, H=1024, A=16）

2、特点：

不同任务使用统一架构，预训练和微调只有很小不同

双向预训练模型——通过训练MLM子任务获得

论文阅读——BERT,NLP,深度学习

论文阅读——BERT,NLP,深度学习

论文阅读——BERT,NLP,深度学习

二、训练：两阶段训练——预训练和微调

1、预训练：

（1）训练设置

1）在无标签、不同任务上训练

2）训练两个子任务：Masked LM（MLM）,Next Sentence Prediction (NSP)

MLM：为了双向模型

损失函数：cross entropy loss

mask：随机选择15%的位置，被选择的位置有80%mask，10%随机token，10%unchanged。训练中位置不变，但是由于每个句子不一样，所以预测的token也不是每次都一样。

NSP：为了理解句子关系

（2）数据：

BooksCorpus (800M words)、English Wikipedia (2,500M words) extract only the text passages and ignore lists, tables, and headers.

2、微调：

预训练参数初始化，针对不对任务在有标签数据的所有参数微调，不同任务各自单独微调。

论文阅读——BERT,NLP,深度学习

三、实验：

1、数据：

GLUE、SQuAD v1.1（问答。损失函数-最大似然，首先在TriviaQA上微调，然后在SQuAD 上微调）、SQuAD v2.0（没有在TriviaQA上微调）、The Situations With Adversarial Generations (SWAG)文章来源地址https://www.toymoban.com/news/detail-714618.html

到了这里，关于论文阅读——BERT的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【论文阅读】基于深度学习的时序预测——Pyraformer

系列文章链接论文一：2020 Informer：长时序数据预测论文二：2021 Autoformer：长序列数据预测论文三：2022 FEDformer：长序列数据预测论文四：2022 Non-Stationary Transformers：非平稳性时序预测论文五：2022 Pyraformer：基于金字塔图结构的时序预测论文六：2023 Crossformer：多变量时序预

2024年02月13日
浏览(45)
【论文阅读】基于深度学习的时序异常检测——TransAD

系列文章链接数据解读参考：数据基础：多维时序数据集简介论文一：2022 Anomaly Transformer：异常分数预测论文二：2022 TransAD：异常分数预测论文三：2023 TimesNet：基于卷积的多任务模型论文链接：TransAD.pdf 代码库链接：https://github.com/imperial-qore/TranAD 这篇文章是基于多变量数

2024年02月14日
浏览(83)
【论文阅读】基于深度学习的时序异常检测——TimesNet

系列文章链接参考数据集讲解：数据基础：多维时序数据集简介论文一：2022 Anomaly Transformer：异常分数预测论文二：2022 TransAD：异常分数预测论文三：2023 TimesNet：基于卷积的多任务模型论文链接：TimesNet.pdf 代码库链接：https://github.com/thuml/Time-Series-Library 项目介绍：https

2024年02月13日
浏览(56)
【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer

系列文章链接数据解读参考：数据基础：多维时序数据集简介论文一：2022 Anomaly Transformer：异常分数预测论文二：2022 TransAD：异常分数预测论文三：2023 TimesNet：基于卷积的多任务模型论文链接：Anomaly Transformer.pdf 代码链接：https://github.com/thuml/Anomaly-Transformer 视频讲解（原

2024年02月14日
浏览(37)
深度学习中的图像融合:图像融合论文阅读与实战

个人博客 :Sekyoro的博客小屋个人网站 :Proanimer的个人网站介绍图像融合概念，回顾sota模型，其中包括数字摄像图像融合，多模态图像融合，接着评估一些代表方法介绍一些常见应用，比如RGBT目标跟踪，医学图像检查，遥感监测动机：由于硬件设备的理论和技术限制，单一

2024年02月02日
浏览(58)
论文阅读-基于深度学习的多模态情感分析研究综述

非核心原文链接：基于深度学习的多模态情感分析研究综述 - 中国知网 (cnki.net) 深度学习完成多模态情感分析综述。主要介绍多模态情感分析的概念、背景、意义。总结了多模态融合技术和交互技术，讨论多模态情感分析未来发展。目前经典的多模态情感分析研究已经

2024年02月04日
浏览(54)
【论文阅读】深度多视图聚类的自监督判别特征学习

文章链接聚类结构不明确的某些视图所带来的负面影响，导致多视图聚类性能较差，所以本文提出SDMVC。深度编码器用来独立的学习每个视图；为了利用互补信息，将所有视图的嵌入特征串联起来形成全局特征，可以克服某些视图聚类结构不清晰的负面影响。以自监督的

2024年02月02日
浏览(45)
【论文阅读】1 SkyChain：一个深度强化学习的动态区块链分片系统

1.1 文献标题 SkyChain: A Deep Reinforcement Learning-Empowered Dynamic Blockchain Sharding System 1.2 作者中山大学系统科学与工程学院，广州中国数据与计算机学院香港理工大学计算学系，中山大学数字生活国家工程研究中心 1.3 年份：2020年8月 1.4 期刊：ICPP 1）分片是将网络划分为多个不相

2024年02月03日
浏览(58)
『论文阅读|利用深度学习在热图像中实现无人机目标检测』

论文题目： Object Detection in Thermal Images Using Deep Learning for Unmanned Aerial Vehicles 利用深度学习在热图像中实现无人机目标检测这项研究提出了一种神经网络模型，能够识别无人驾驶飞行器采集的热图像中的微小物体。模型由三部分组成：骨干、颈部和预测头。骨干基于 YOLOv5 的结

2024年02月20日
浏览(40)
SCI一区论文阅读小结之深度学习在气象领域应用（未完待续）

最近文献调研，发现一个研究相近的师兄最近发的几篇文章给的启发性很高，阅读文献的同时也对这几篇文章做个总结，以防自己忘记，也分享给大家。首先，甩出这位大佬的RG: https://www.researchgate.net/profile/Xuan-Tong-3/research 最近的研究都是将深度学习应用到气象领域的，比如

2024年02月21日
浏览(37)