【大数据】文本特征提取与文本相似度分析-Toy模板网

这篇具有很好参考价值的文章主要介绍了【大数据】文本特征提取与文本相似度分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

写在博客前的话：
本文主要阐述如何对一段简短的文本做特征提取的处理以及如何对文本进行分析。
本文主要脉络以一个故事 $s t ory$ 为主线，以该主线逐步延申，涉及到：文本特征提取、词汇频率统计 (TF)，反文档频率 (IDF) 以及 余弦相似度 计算的概念，读者可以按照自己需求通过目录直接抵达，同时更建议从上到下按照本文介绍依次对概念逐个理解。

文本特征提取

文本特征提取的步骤一览图：
【大数据】文本特征提取与文本相似度分析

《故事 $s t ory$ 在此》:
在情人节的那天，南方小镇的大街上，下着毛毛细雨，女朋友坐在V90CC的副驾驶上，看着车载导航，说到：前面一共有三个酒店，三个酒店的点评如下：
酒店一： "It is a hotel; quiet hotel, cheap hotel; ￥200 at hotel, Nice hotel;”
酒店二： “It is a quiet hotel, Nice!”
酒店三： “It is OK with the noise, since the hotel is cheapest among hotels.”
你说，哪个酒店都行，但是女朋友说到她想去的酒店的类型：
想去的类型： {cheap, quiet, nice ,hotel}，让你按照这个决定从三个酒店中选择最符合她心意的，否则晚上睡地板。

第一步：分割句子

【大数据】文本特征提取与文本相似度分析

按照空格分割

将三个酒店的点评按照空格拆分开：

酒店一： "It is a hotel; quiet hotel, cheap hotel; ￥200 at hotel, Nice hotel;”
酒店二： “It is a quiet hotel, Nice!”
酒店三： “It is OK with the noise, since the hotel is cheapest among hotels.”

拆分结果：

酒店	拆分结果
酒店1	{ $I t, i s, a, h o t e l,;, q u i e t,,, h o t e l, c h e a p, h o t e l,;, ￥200, a t, h o t e l,,, N i ce, h o t e l,;$ }
酒店2	{ $I t, i s, a, q u i e t, h o t e l,,, N i ce,!$ }
酒店3	{ $I t, i s, O K, w i t h, t h e, n o i se,,, s in ce, t h e, h o t e l, i s, c h e a p es t, am o n g, h o t e l s, .$ }

去除数字以及标点符号

将上一步的结果进行去除数字以及标点符号的操作，去除结果为：

酒店	去除结果
酒店1	{ $I t, i s, a, h o t e l, q u i e t, h o t e l, c h e a p, h o t e l, a t, h o t e l, N i ce, h o t e l$ }
酒店2	{ $I t, i s, a, q u i e t, h o t e l, N i ce$ }
酒店3	{ $I t, i s, O K, w i t h, t h e, n o i se, s in ce, t h e, h o t e l, i s, c h e a p es t, am o n g, h o t e l s$ }

所有字符全部小写

将上一步的结果进行改进，将所有的字符全部小写，结果为：

酒店	小写结果
酒店1	{ $i t, i s, a, h o t e l, q u i e t, h o t e l, c h e a p, h o t e l, a t, h o t e l, ni ce, h o t e l$ }
酒店2	{ $i t, i s, a, q u i e t, h o t e l, ni ce$ }
酒店3	{ $i t, i s, o k, w i t h, t h e, n o i se, s in ce, t h e, h o t e l, i s, c h e a p es t, am o n g, h o t e l s$ }

第一步骤分割句子到此完成！
下面进行第二步去除词汇！！

第二步：去除词汇

【大数据】文本特征提取与文本相似度分析
在完成分割句子的步骤之后，此时需要对句子中一些常用词，不如代词，冠词以及功能词进行清除，原因在于这些词汇其实对我们的分析并没有用处，知识为了保证句子的完整性与语法才用的词汇，去除之。

需要去除的代词与冠词功能词包含： $" a ", " t h e ", " in ", " t o ", " I ", " h e ", " s h e "$ 等。

继续进行改进，将所有代词冠词等清除：

酒店	清除后结果
酒店1	{ $h o t e l, q u i e t, h o t e l, c h e a p, h o t e l, h o t e l, ni ce, h o t e l$ }
酒店2	{ $q u i e t, h o t e l, ni ce$ }
酒店3	{ $n o i se, h o t e l, c h e a p es t, h o t e l s$ }

第三步：标准化

【大数据】文本特征提取与文本相似度分析

在完成上述的两个步骤后，接近处理的尾声，最后一步进一步对剩下的词汇做处理，去除复数的形式，去除比较级与最高级形式，修改同义词汇不同形式的词语。若上述理解起来有些不明白，可以看如下的举例：

$e . g .$
（1）去除复数形式
“hotels” to “hotel”

（2）去除最高级形式
“cheapest” to “cheap”

（3）去除同义不同词
“computational” to “compute”
“computation” to “compute”

将上一步处理好的三个酒店的结果再做进一步处理，作为最终处理结果：

酒店	处理后结果
酒店1	{ $h o t e l, q u i e t, h o t e l, c h e a p, h o t e l, h o t e l, ni ce, h o t e l$ }
酒店2	{ $q u i e t, h o t e l, ni ce$ }
酒店3	{ $n o i se, h o t e l, c h e a p, h o t e l$ }

“你怎么才弄完？？”女朋友埋怨道，我早就整理好了！！！

至此，我们对三个酒店的信息处理完成，即 文本特征提取 完成。

词汇频率统计（TF）

我们此步骤为将处理好的三个酒店的信息进行词汇频率统计：

Hotel1: { $h o t e l : 5, q u i e t : 1, c h e a p : 1, ni ce : 1$ }
Hotel2: { $q u i e t : 1, h o t e l : 1, ni ce : 1$ }
Hotel3: { $n o i se : 1, h o t e l : 2, c h e a p : 1$ }

我们根据上面的结果构造 词频统计表格：

Vocabulary	quiet	cheap	hotel	noise	nice
Hotel1	1	1	5	0	1
Hotel2	1	0	1	0	1
Hotel3	0	1	2	1	0

至此，我们可以尝试去判断女朋友所求的酒店是哪个酒店了。

还记得女朋友的要求吗？
她的想法我怎么会不记得 😃
想去的类型： {cheap, quiet, nice ,hotel}

我们将首先尝试用余弦相似度来判别哪个酒店符合，不了解余弦相似度没关系，我将详细介绍一下余弦相似度与内积。

内积与余弦相似度

内积

内积可以理解为：第一个向量投影到第二个向量上，我们来举个例子：
【大数据】文本特征提取与文本相似度分析
所以，两个向量： $q=[q_1,q_2,...,q_n]$ 与 $x=[x_1,x_2,...,x_n]$ ，他们的内积为：
$q·x=\sum_{i=1}^{n} x_iq_i=x_1q_1+x_2q_2+...+x_nq_n$ ，内积的几何含义为：两个向量之间夹角的余弦。

余弦相似度

余弦相似度通过计算两个向量之间的夹角余弦值来评估两个向量的相似度。
【大数据】文本特征提取与文本相似度分析
计算向量 $q$ 与向量 $x$ 的余弦相似度公式为： $\frac {q·w} {||q||||x||}$
其中， $q \cdot w$ 为向量 $q$ 与向量 $x$ 的内积， $∣∣ q ∣∣$ 代表着向量 $q$ 的长度。

为什么我们可以用余弦来判定两个向量的相似度？下面我们论证一下余弦相似度的可行性：
第一，什么是向量的相似？
第二，为什么两个向量的余弦值可以用来判断其相似度？

我们从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。
两个向量有相同的指向时，余弦相似度的值为1；
两个向量夹角为90°时，余弦相似度的值为0；
两个向量指向完全相反的方向时，余弦相似度的值为-1。
需要注意的是，余弦的相似度，与向量的长度无关的，仅仅与向量的指向方向相关

所以当求出的余弦相似度的值为1时，我们说这两个向量相似，因为他们会指向相同的方向，而相反的方向是必然其值为-1。

@GF：第一次选择酒店 ❌

我们开始根据余弦相似度来第一次选择酒店，我把上面处理好的词频统计表格粘贴来，然后将女朋友的期待 {cheap, quiet, nice ,hotel} 也按照格式放到表格中：

Vocabulary	quiet	cheap	hotel	noise	nice
Hotel1	1	1	5	0	1
Hotel2	1	0	1	0	1
Hotel3	0	1	2	1	0
GF_want	1	1	1	0	1

我们可以将表格中 三个酒店词频统计 以及 女朋友的期待 转换成向量：
GF_want: $[1, 1, 1, 0, 1]$ ，记为: $GF$
Hotel1: $[1, 1, 5, 0, 1]$ ，记为: $H_1$
Hotel2: $[1, 0, 1, 0, 1]$ ，记为: $H_2$
Hotel3: $[0, 1, 2, 1, 0]$ ，记为: $H_3$

至此，我们可以求每个酒店向量与女朋友的期待向量的余弦相似度了！
$H_1)=\frac {1*1+1*1+1*5+0*0+1*1} {\sqrt {1^2+1^2+1^2+0^2+1^2}+\sqrt {1^2+1^2+5^2+0^2+1^2}}=\frac 8 {\sqrt 4 \sqrt {28}}≈0.756$
$H_2)=\frac {1*1+1*0+1*1+0*0+1*1} {\sqrt {1^2+1^2+1^2+0^2+1^2}+\sqrt {1^2+0^2+1^2+0^2+1^2}}=\frac 3 {\sqrt 4 \sqrt 3}≈0.866$
$H_3)=\frac {1*0+1*1+1*2+0*1+1*0} {\sqrt {1^2+1^2+1^2+0^2+1^2}+\sqrt {0^2+1^2+2^2+1^2+0^2}}=\frac 3 {\sqrt 4 \sqrt 8}≈0.530$

对比来看，最大值为酒店2，所以告诉女朋友，那咱们去第二个酒店！结果没有想到的是，女朋友很不高兴，说你不了解她了，这，真的错了吗？

拿出之前各个酒店的详情一对比，欸，还真错了，应该选第一个，这咋回事？？余弦相似度不好用了？？？
仔细观察上面的三个计算公式，对比一下，发现了点东西：
【大数据】文本特征提取与文本相似度分析
这个值异常的大，导致我们在计算余弦相似度时，分母过大使得结果变小。

那么我们该如何做？？？这就是我们的下一个要学习的部分反文档频率（IDF）

反文档频率（IDF）

我们现在试想这个问题：如果所有的酒店都具有这个特征，那么这个特征还叫特征吗？
我们能区分这三个酒店的不同，通过其所包含的不同的特征。但是要是所有的酒店都包含该特征，那么该特征就显得有些无足轻重。本案例中 “hotel” 特征就是如此。

“如果你没理解，那我再来举一个例子”，副驾驶的女朋友调了调座椅说到，我在人群中，你是怎么一眼看到我的？你是根据我的很多特征，去判断哦，那个漂亮的女孩子是你的女朋友。但是如果你选择的特征里有一个是有眼睛，这个特征对不对？对，因为我有眼睛，但是有没有意义？没有，因为所有女孩子都有眼睛。就是这个意思。

我们回到 IDF。IDF (inverse document frequency)，称为逆文档频率，又称为反文档频率，是文档频率的倒数。IDF用来判断该特征有没有意义。

第 $i$ 个特征的 $I D F$ 的计算公式为：

$idf_i = log_2(\frac N {df_i})$ ，其中 $N$ 为一共统计了多少个个体，即个体的总数；而 $df_i$ ，则是document frequency的缩写，含义为统计所有的个体中有多少个个体出现了第 $i$ 个特征；

在本案例中， $idf_{quiet}=log_2 \frac 3 2=0.585$
$N = 3$ ，含义为一共存在三个酒店； $df_i=2$ 意味着有两个酒店包含 quiet 这个特征。

根据下表，计算所有特征的 $i df$

Vocabulary	quiet	cheap	hotel	noise	nice
Hotel1	1	1	5	0	1
Hotel2	1	0	1	0	1
Hotel3	0	1	2	1	0

$idf_{quiet}=log_2 \frac 3 2=0.585$
$idf_{cheap}=log_2 \frac 3 2=0.585$
$idf_{hotel}=log_2 \frac 3 3=0$
$idf_{noise}=log_2 \frac 3 1=1.585$
$idf_{nice}=log_2 \frac 3 2=0.585$