自然语言处理从入门到应用——动态词向量预训练：双向语言模型-Toy模板网

这篇具有很好参考价值的文章主要介绍了自然语言处理从入门到应用——动态词向量预训练：双向语言模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

分类目录：《自然语言处理从入门到应用》总目录

对于给定的一段输入文本 $w_1w_2\cdots w_n$ ，双向语言模型从前向（从左到右）和后向（从右到左）两个方向同时建立语言模型。这样做的好处在于，对于文本中任一时刻的词 $w_t$ ，可以同时获得其分别基于左侧上下文信息和右侧上下文信息的表示。具体地，模型首先对每个词单独编码。这一过程是上下文无关的，主要利用了词内部的字符序列信息。基于编码后的词表示序列，模型使用两个不同方向的多层长短时记忆网络（LSTM）分别计算每一时刻词的前向、后向隐含层表示，也就是上下文相关的词向量表示。利用该表示，模型预测每一时刻的目标词。对于前向语言模型， $t$ 时刻的目标词是 $w_{t+1}$ ，对于后向语言模型，目标词是 $w_{t-1}$ 。

输入表示层

ELMo模型采用基于字符组合的神经网络表示输入文本中的每个词，目的是减小未登录词（Out-Of-Vocabulary，OOV）对模型的影响。下图展示了输入表示层的基本结构。首先，字符向量层将输入层中的每个字符（含额外添加的起止符）转换为向量表示。假设 $w_t$ 由字符序列 $c_1c_2\cdots c_l$ 构成，对于其中的每个字符 $c_i$ ，可以表示为： $v_{c_i}=E^{\text{char}}e_{c_i}$ 。其中， $E^{\text{char}}\in R^{d^{\text{char}}\times |V^{\text{char}}|}$ 表示字符向量矩阵； $V^{\text{char}}$ 表示所有字符集合； $d^{\text{char}}$ 表示字符向量维度； $e_{c_i}$ 表示字符 $c_i$ 的独热编码。记 $w_t$ 中所有字符向量组成的矩阵为 $C_t\in R^{d^{\text{char}}\times l}$ ，即 $C_t=[v_{c_1}, v_{c_2}, \cdots, v_{c_l}]$ 。接下来，利用卷积神经网络对字符级向量表示序列进行语义组合（Semantic Composition）。这里使用一维卷积神经网络，将字符向量的维度 $d^{\text{char}}$ 作为输入通道的个数，记为 $N^{\text{in}}$ ，输出向量的维度作为输出通道的个数，记为 $N^{\text{out}}$ 。另外，通过使用多个不同大小（宽度）的卷积核，可以利用不同粒度的字符级上下文信息，并得到相应的隐含层向量表示，这些隐含层向量的维度由每个卷积核对应的输出通道个数确定。拼接这些向量，就得到了每一位置的卷积输出。然后，池化操作隐含层所有位置的输出向量，就可以得到对于词 $w_t$ 的定长向量表示，记为 $f_t$ 。假设使用宽度分别为{1，2，3，4，5，6，7}的7个一维卷积核，对应的输出通道数量分别为{32，32，64，128，256，512，1024}，那么输出向量 $f_t$ 的维度为2048。自然语言处理从入门到应用——动态词向量预训练：双向语言模型接着，模型使用两层Highway神经网络对卷积神经网络输出作进一步变换，得到最终的词向量表示 $x_t$ 。Highway神经网络在输入与输出之间直接建立“通道”，使得输出层可以直接将梯度回传至输入层，从而避免因网络层数过多而带来的梯度爆炸或弥散的问题。单层Highway神经网络的具体计算方式如下：
$x_t=g\odot f_t+(1 - g)\odot\text{ReLU}(Wf_t+b)$

式中， $g$ 为门控向量，其以 $f_t$ 为输入，经线性变换后通过Sigmoid函数计算得到：
$g=\sigma(W^gf_t+b^g)$

式中， $W^g$ 与 $b^g$ 为门控网络中的线性变换矩阵与偏置向量。可见，Highway神经网络的输出实际上是输入层与隐含层的线性插值结果。当然，通常模型的结构是根据实验调整和确定的，我们也可以自行尝试其他的模型结构。例如，可以使用字符级双向LSTM网络编码单词内字符串序列。接下来，在由上述过程得到的上下文无关词向量的基础之上，利用双向语言模型分别编码前向与后向上下文信息，从而得到每一时刻的动态词向量表示。

前向语言模型

在前向语言模型中，对于任一时刻目标词的预测，都只依赖于该时刻左侧的上下文信息或者历史。这里使用基于多层堆叠的长短时记忆网络语言模型。将模型中多层堆叠LSTM的参数记为 $\overrightarrow{\theta}^\text{LSTM}$ ，Softmax输出层参数记为 $\theta^\text{out}$ 。则模型可以表示为：
$p(w_1w_2\cdots w_n)=\prod_{t=1}^nP(w_t|x_{1:t-1}; \overrightarrow{\theta}^\text{LSTM}; \theta^\text{out})$

后向语言模型

与前向语言模型相反，后向语言模型只考虑某一时刻右侧的上下文信息。可以表示为：
$p(w_1w_2\cdots w_n)=\prod_{t=1}^nP(w_t|x_{t+1:n}; \overleftarrow{\theta}^\text{LSTM}; \theta^\text{out})$

参考文献：
[1] 车万翔, 崔一鸣, 郭江. 自然语言处理：基于预训练模型的方法[M]. 电子工业出版社, 2021.
[2] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[3] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[4] Sudharsan Ravichandiran. BERT基础教程：Transformer大模型实战[M]. 人民邮电出版社, 2023
[5] 吴茂贵, 王红星. 深入浅出Embedding：原理解析与应用实战[M]. 机械工业出版社, 2021.文章来源地址https://www.toymoban.com/news/detail-497018.html

到了这里，关于自然语言处理从入门到应用——动态词向量预训练：双向语言模型的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！