这篇具有很好参考价值的文章主要介绍了BERT精读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
论文精读 —— BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding - 知乎 (zhihu.com)
pre-training:在一个数据集上训练好一个模型,这个模型主要的目的是用在一个别的任务上面。别的任务如果叫training,那么在大的数据集上训练我这个任务叫做pre-training。文章来源:https://www.toymoban.com/news/detail-600627.html
NLP任务中使用没有标号的大量数据训练出的模型效果比在有标号的数据上训练效果好,同样的思想,在CV中,可能使用小的没有标签的数据训练的模型比在imagenet上训练的模型效果好。文章来源地址https://www.toymoban.com/news/detail-600627.html
英语积累:
analyzing ... holistically 整体分析
fifine-grained 精确的
unidirectional 单向的
bidirectional 双向的
alleviates 减轻了
fuse 融合
a shallow concatenation 浅层连接
an integral part 不可分割的一部分
integrating 集成
coarser granularities 粗粒度
denoising 去噪的
derived objectives 派生目标
context-sensitive 上下文相关的
benchmarks 基准
from scratch 从头开始做起,从零开始
separate 单独的
unifified architecture 统一架构
across different tasks 跨不同任务的
omit 省略
exhaustive 详细的
unambiguously represent 明确的表示
arbitrary span 任意跨度
contiguous text 连续文本
linguistic sentence 语言句子
WordPiece embeddings 字段嵌入
WordPiece想法:如果一个词在整个里面出现的概率不大的话,我应该把它切开看它的子序列,某个子序列出现的概率较大的话,那么只保留这个子序列就可以了。这样就可以把一个相对来说较长的词切成很多一段一段的片段,且这些片段是经常出现的,这样就可以用一个较小的词典表示较大的文本了。
aggregate sequence 聚合序列
differentiate 区分
indirectly 间接的
trivially predict 简单的预测
fed into 输入
mitigate 使缓和(减轻)
binarized 二值化的
monolingual corpus 单语(只用一种语言的)语料库
Ablation Studies 消融分析
到了这里,关于BERT精读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!