【自然语言处理】理解词向量、CBOW与Skip-Gram模型

这篇具有很好参考价值的文章主要介绍了【自然语言处理】理解词向量、CBOW与Skip-Gram模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

由于计算机不能直接对各种字符进行运算，为此需要将词的表示进行一些转换。因此，在自然语言处理中，通常需要对输入的语料进行一些预处理：
【自然语言处理】理解词向量、CBOW与Skip-Gram模型,自然语言处理

其中，如何对词汇进行表示是很关键的问题，糟糕的表示方法容易导致所谓的 “Garbage in, garbage out”。

一、词向量基础知识

对词汇的表示，常见的有One-hot represention 和 Distributed Representation 两种形式。

1.1 One-hot表示

One-hot represention 将词汇用二进制向量表示，这个向量表示的词汇，仅仅在词汇表中的索引位置处为1，其他地方都为0。例子如下图所示：
【自然语言处理】理解词向量、CBOW与Skip-Gram模型,自然语言处理
这样的方式表示词汇虽然简单，但是也有如下缺点：

单词的上下文丢失了。
没有考虑频率信息。
词汇量大的情况下，向量维度高且稀疏，占用内存。

1.2 Distributed表示

Distributed Representation 也可以理解为Word Embedding，具体形式为：
【自然语言处理】理解词向量、CBOW与Skip-Gram模型,自然语言处理
注意到，使用Word Embedding得到的向量维度远小于词汇表的个数。如果将上面的向量在空间中表示，可以得到：

上图告诉我们，通过词向量之间的距离可以度量他们之间的关系，意思相近的词在空间中的距离比较近。出现这种现象的原因是最后得到的词向量在训练过程中学习到了词的上下文。

那么，Distributed Representation 要如何得到？

使用神经网络语言模型可以得到；
使用word2vec。

二、word2vec基础知识

word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。在正式讲解 word2vec 前，还需要对一些基本概念有所了解。

2.1 CBOW和Skip-gram

CBOW模型（Continuous Bag-of-Words Model）和Skip-gram模型（Continuous Skip-gram Model）。如下图所示：
【自然语言处理】理解词向量、CBOW与Skip-Gram模型,自然语言处理
由图可见，两个模型都包含三层：输入层、投影层和输出层。区别在于：

CBOW模型： 在已知上下文 $w_{t-2}, w_{t-1}, w_{t+1} w_{t+2}$ 的前提下预测当前词 $w_t$
Skip-gram模型： 在已知当前词 $w_t$ 的前提下预测上下文 $w_{t-2}, w_{t-1}, w_{t+1} w_{t+2}$

三、基于Hierarchical Softmax的 CBOW 模型和 Skip-gram 模型

3.1 CBOW 模型

CBOW 模型是在已知上下文 $w_{t-2}, w_{t-1}, w_{t+1} w_{t+2}$ 的前提下预测当前词 $w_t$ 。后面我们用 $co n t e x t (w)$ 来表示词 $w$ 的上下文中的词，通常，我们取词 $w$ 前后 $2$ c个单词来组成 $co n t e x t (w)$ 。下图给出了CBOW模型的网络结构：
【自然语言处理】理解词向量、CBOW与Skip-Gram模型,自然语言处理

它包括三层：输入层、投影层、输出层。

输入层：包含 $co n t e x t (w)$ 中的 $2 c$ 个词向量 $\mathbf v(context(w)_1),\mathbf v(context(w)_2),\ldots,\mathbf v(context(w)_{2c}) \in \mathbf R^m$
，每个词向量的长度是 $m$ 。
投影层：将输入层的 $2 c$ 个词向量累加求和，即 $\mathbf x_w = \sum_{i=1}^{2c}\mathbf v(context(w)_i)$ 。
输出层：输出层是用哈夫曼算法以各词在语料中出现的次数作为权值生成的一颗二叉树，其叶子结点是语料库中的所有词，叶子个数 $N = ∣ D ∣$ ，分别对应词典D中的词。