机器学习——Word2Vec-Toy模板网

这篇具有很好参考价值的文章主要介绍了机器学习——Word2Vec。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

参考资料：

https://zhuanlan.zhihu.com/p/114538417
https://www.cnblogs.com/pinard/p/7243513.html

1 背景知识

1.1 统计语言模型

统计语言模型是基于语料库构建的概率模型，用来计算一个词串 $W=(w_1,w_2,\cdots,w_T)$ 构成句子的概率：
$\begin{align} p(W)&=p(w_1,w_2,\cdots.w_T)\\ &=p(w_1)p(w_2|w_1)\cdots p(w_T|w_1,w_2,\cdots,w_{T-1})（乘法公式） \end{align}$
$p (W)$ 被称为语言模型，（2）式中的每个因子即为语言模型的参数。理论上，只要我们根据语料库计算出所有的模型参数，就能对很方便地计算出任意词串构成句子的概率，但由于参数过多，这种方法是不现实的。

1.2 N-gram模型

N-gram 模型的基本思想是做 $n - 1$ 阶 Markov 假设，即认为：
$\begin{align} p(w_k|w_1,w_2,\cdots,w_{k-1})&=p(w_k|w_{k-n+1}\cdots,w_{k-1})\\ &\approx\frac{count(w_{k-n+1}\cdots,w_{k-1},w_k)}{count(w_{k-n+1}\cdots,w_{k-1})}（大数定律） \end{align}$
其中， $co u n t (W)$ 表示词串 $W$ 在语料库中出现的次数。

需要注意的是：根据实际意义，即使 $count(w_{k-n+1}\cdots,w_{k-1},w_k)=0$ ，也不能认为 $p(w_k|w_{k-n+1}\cdots,w_{k-1})=0$ ；同理，即使 ${count(w_{k-n+1}\cdots,w_{k-1},w_k)}={count(w_{k-n+1}\cdots,w_{k-1})}$ ，也不能认为 $p(w_k|w_{k-n+1}\cdots,w_{k-1})=1$ ，故 N-gram 模型往往需要进行平滑处理。

但这种方法的参数仍然很多，所以我们可以考虑构建一个函数 $F=(w,{\rm context}(w),\theta)$ ，通过极大似然估计的方式估计出参数 $\theta$ ：
$L(\theta)=\sum\limits_{w\in C}\log p(w|{\rm context}(w),\theta)$
其中 C 为语料库。这样以来，所有条件概率的计算都可以通过计算 $F(w,{\rm context}(w),\hat\theta)$ 来完成。显然，如何构建 $F$ 成为了这一方法的关键问题。