机器学习：Bert and its family-Toy模板网

这篇具有很好参考价值的文章主要介绍了机器学习：Bert and its family。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

机器学习：Bert and its family,机器学习,bert,预训练模型

Bert

机器学习：Bert and its family,机器学习,bert,预训练模型
先用无监督的语料去训练通用模型，然后再针对小任务进行专项训练学习。

机器学习：Bert and its family,机器学习,bert,预训练模型

ELMo
Bert
ERNIE
Grover
Bert&PALS

Outline

机器学习：Bert and its family,机器学习,bert,预训练模型

Pre-train Model

机器学习：Bert and its family,机器学习,bert,预训练模型

首先介绍预训练模型，预训练模型的作用是将一些token表示成一个vector

机器学习：Bert and its family,机器学习,bert,预训练模型
比如：

Word2vec
Glove

但是对于英文，有太多的英文单词，这个时候应该对单个字符进行编码：

FastText

对于中文，可以对部首偏旁，或者把中文字当做图片送人网络中得到输出：
机器学习：Bert and its family,机器学习,bert,预训练模型
上述方法的问题不会考虑每个句子意思中相同字会有不同的意思，产生相同的token：

contextualized word embedding

类似于sequence2sequence模型的encoder一样。

同样的token，给出不一样的embedding，上述句子都有苹果两字。

Bigger Model
Smaller Model

重点关注ALBERT，将模型变小的技术：

网络架构设计：

让模型能读很长的内容，不仅是一篇文章，有可能是一本书。
Transformer-XL
Reformer
Longformer

self-attention的计算复杂度是 $O(n^2)$

How to fine-tune

如何进行预训练
机器学习：Bert and its family,机器学习,bert,预训练模型

输入：
一个句子还是两个句子，[sep]进行分割。
输出部分：
输出一个class，加入一个[cls]，产生跟整个句子有关的embedding

如果没有cls，就是把所有的embedding合起来送入模型，得到一个输出。

第二种就是给每个token一个class，相当于每个embedding一个class

Extraction-based QA

General Sequence
如何用在生成文本呢？

上述结构encoder得不到好的使用

机器学习：Bert and its family,机器学习,bert,预训练模型
将预训练模型当做encoder使用，每次产生一个word后，送入模型继续生成，直到产生eos结束符。

机器学习：Bert and its family,机器学习,bert,预训练模型
微调有两种方法：

第一种：预训练模型不动，对其产生的embedding 针对具体任务进行训练，只对上层模型微调；
第二种：预训练模型和具体任务模型联合到一起训练，消耗会大一些；
第二种方法会比对第一种方法获得的效果要更好一点，但是训练整个模型会遇到的一些问题：
训练完了之后预训练模型也发生了改变，相当于每个任务都会有一个不同的预训练模型，每个模型都比较大，这样非常的浪费。

针对上述问题，解决方法：

Adapter：只训练少量的参数结构APT

机器学习：Bert and its family,机器学习,bert,预训练模型

fine-tune的时候只会调APT结构的参数，但是是插入到transformer结构中，加深了网络：

Weighted Features
综合每一层的embedding，送到具体的任务中学习，权重参数可以学出来。

模型的loss，泛化能力。start-point到end-point，两点间距离越宽，凹的越浅说明泛化能力越一般；两点间距离越近，凹得越深说明泛化能力越好。

How to pre-train

如何进行预训练：

机器学习：Bert and its family,机器学习,bert,预训练模型

翻译任务

Context Vector（Cove）

把输入的句子A送入encoder，然后decoder得到句子B，需要大量的pair对data

Self-supervised Learning

机器学习：Bert and its family,机器学习,bert,预训练模型
self-supervised的input和output是自己产生出来的。

Predict Next Token

给定输入，预测下一个token

机器学习：Bert and its family,机器学习,bert,预训练模型
有了w1预测w2，用w1, w2预测w3，然后用w1,w2,w3预测w4，但是不能用右边的数据用来预测左边的数据：

基础架构网络使用的是LSTM：

LM
ELMo
ULMFiT

后续一些算法将LSTM换成Self-attention
机器学习：Bert and its family,机器学习,bert,预训练模型

GPT
Megatron
Turing NLG

注意：控制Attention的范围

机器学习：Bert and its family,机器学习,bert,预训练模型
可以用来生成文章： talktotransformer.com

机器学习：Bert and its family,机器学习,bert,预训练模型

机器学习：Bert and its family,机器学习,bert,预训练模型
如果只考虑左边的出现关系，为什么不考虑右边文本呢？

Predict Next Token-Bidrectional

左右两边产生的context，二者联合起来作为最终表示：
机器学习：Bert and its family,机器学习,bert,预训练模型

但是问题是左边只能看到左边的，无法看到右边的结束，右边只能看到右边的，无法看到左边的开始。

Masking input

机器学习：Bert and its family,机器学习,bert,预训练模型

随机的盖住某个词，是看到了完整的句子才来预测这个词是什么。
这种思想往前推，跟以前的cbow非常像：
机器学习：Bert and its family,机器学习,bert,预训练模型
Bert与cbow的区别就是左右两边的长度可以无限，而不是有个window窗口长度。

随机mask是否够好呢？有几种mask方法：

wwm
ERNIE
SpanBert
SBO

盖住一整个句子或者盖住好几个词。或者先把Entity找出来，然后把这些词盖住：

盖住的长度按照上述图的出现概率。

盖住的左右两边的embedding来预测，以及输入的index来恢复中间的哪个词。
SBO的设计期待左右两边的token embedding能够包含左右两边的embeeding信息。

XLNet

结构不是使用的Transformer，而是使用Transformer-XL

机器学习：Bert and its family,机器学习,bert,预训练模型

随机把顺序打乱，用各式各样不同的信息训练一个token。

Bert的训练语料比较规整：
机器学习：Bert and its family,机器学习,bert,预训练模型
Bert不擅长做Generative任务，因为bert训练的时候给的是整个句子，而generative只是给一部分，然后由左得右预测下一个token

MASS/BART

机器学习：Bert and its family,机器学习,bert,预训练模型
要对w1,w2, w3,w4进行一些破坏，不然model学不到任何东西，破坏的方法：

mask（随机mask）
delete（直接删掉）
permutation（打乱)
rotation（改变起始位置）
Text Infilling （插入一个别的误导，少掉一个mask)

结果是：
机器学习：Bert and its family,机器学习,bert,预训练模型

UniLM

机器学习：Bert and its family,机器学习,bert,预训练模型

UniLM进行多项训练

Replace or Not

ELECTRA，避开了需要训练和生成的东西，判断哪个位置是否被置换，训练非常简单，另外每个输出都被用到。
*
置换的词不好弄，如果是随便置换肯定很容易知道。所以有了下面的结果，用一个小的bert预测的结果作为替换的结果，小的bert效果不要太好，不然预测的结果跟真实的一样，得不到替换的效果，因为替换的结果是一模一样的。

只需要四分之一的计算量，就能达到XLNet的效果。