【NLP】1、BERT | 双向 transformer 预训练语言模型-Toy模板网

这篇具有很好参考价值的文章主要介绍了【NLP】1、BERT | 双向 transformer 预训练语言模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

【NLP】1、BERT | 双向 transformer 预训练语言模型,NLP,自然语言处理,bert,transformer

论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

出处：Google

在 BERT 之前的语言模型如 GPT 都是单向的模型，但 BERT 认为虽然单向（从左到右预测）预测任务符合语言模型的建模过程，但对一些语言理解任务不太友好，因为要理解一句话说的是什么意思的话（如 VQA），同时看到一整句话也是可以的，是符合逻辑的，而不是只能一个单词一个单词的来逐个看。

所以 BERT 打破了语言模型单向的限制，做了一个双向的模型，就是做完形填空的时候运行看左边也运行看右边，而且是受 Cloze （1953年的论文）这个方法的启发

具体的做法就是每次随机选一些 token 然后 mask 掉这些信息，目标是预测这些 token，这样就允许训练一个双向且深的 transformer 模型结构

此外，BERT 还做了一个任务——下一个句子的预测（next sentence prediction），就是给模型两个句子，让模型判断这两个句子在原文中是不是相邻的，能让模型学习句子层面的信息

BERT 的两个步骤：

模型超参数：base 共 110M 参数（也就是 1.1亿）对标的是 GPT 模型大小，large 共 340M 参数（也就是 3.4亿）

输入和输出：

输入是一个序列，可以是一个句子，也可以是两个句子，两个句子也会并成一个序列
序列的构成方式：使用的切词方法是 WordPiece，因为如果按照空格切词的话会导致词典很大，WordPiece 是说如果一个词出现频率不高的话，那么就切开看它的子序列，子序列出现多的话保留子序列就可，可以使用 30000 token vocabulary 就能表示一个大的文本了。切好词之后就要把两个句子整合成一个序列，序列的第一个词用于都是 [CLS]，bert 希望这个 token 表示整个序列的特征。还有一个 [SEP] token 表示将两个句子在这里切开，因为毕竟每个句子还是独立的个体，所以要有标志将其切开。在图 1 左侧就展示了，将句子切成 token，然后将求每个 token 的 embedding，
每个 token 还要加位置的 embedding 和 segment embedding，如图 2 所示

【NLP】1、BERT | 双向 transformer 预训练语言模型,NLP,自然语言处理,bert,transformer 文章来源地址https://www.toymoban.com/news/detail-661895.html