利用Python实现酒店评论的中文情感分析，含数据集

这篇具有很好参考价值的文章主要介绍了利用Python实现酒店评论的中文情感分析，含数据集。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

利用Python实现酒店评论的情感分析

完整代码下载地址：利用Python实现酒店评论的中文情感分析文章来源地址https://www.toymoban.com/news/detail-755178.html

情感极性分析，即情感分类，对带有主观情感色彩的文本进行分析、归纳。情感极性分析主要有两种分类方法：基于情感知识的方法和基于机器学习的方法。基于情感知识的方法通过一些已有的情感词典计算文本的情感极性（正向或负向），其方法是统计文本中出现的正、负向情感词数目或情感词的情感值来判断文本情感类别；基于机器学习的方法利用机器学习算法训练已标注情感类别的训练数据集训练分类模型，再通过分类模型预测文本所属情感分类。本文采用机器学习方法实现对酒店评论数据的情感分类，利用Python语言实现情感分类模型的构建和预测，不包含理论部分，旨在通过实践一步步了解、实现中文情感极性分析。

1 开发环境准备

1.1 Python环境

在python官网https://www.python.org/downloads/ 下载计算机对应的python版本，本人使用的是Python2.7.13的版本。

1.2 第三方模块

本实例代码的实现使用到了多个著名的第三方模块，主要模块如下所示：

1）Jieba
目前使用最为广泛的中文分词组件。下载地址：https://pypi.python.org/pypi/jieba/
2）Gensim
用于主题模型、文档索引和大型语料相似度索引的python库，主要用于自然语言处理（NLP）和信息检索（IR）。下载地址：https://pypi.python.org/pypi/gensim
本实例中的维基中文语料处理和中文词向量模型构建需要用到该模块。
3）Pandas
用于高效处理大型数据集、执行数据分析任务的python库，是基于Numpy的工具包。下载地址：https://pypi.python.org/pypi/pandas/0.20.1
4）Numpy
用于存储和处理大型矩阵的工具包。下载地址：https://pypi.python.org/pypi/numpy
5）Scikit-learn
用于机器学习的python工具包，python模块引用名字为sklearn，安装前还需要Numpy和Scipy两个Python库。官网地址：http://scikit-learn.org/stable/
6）Matplotlib
Matplotlib是一个python的图形框架，用于绘制二维图形。下载地址：https://pypi.python.org/pypi/matplotlib
7）Tensorflow
Tensorflow是一个采用数据流图用于数值计算的开源软件库，用于人工智能领域。
官网地址：http://www.tensorfly.cn/
下载地址：https://pypi.python.org/pypi/tensorflow/1.1.0

2 数据获取

2.1 停用词词典

本文使用中科院计算所中文自然语言处理开放平台发布的中文停用词表，包含了1208个停用词。下载地址：http://www.hicode.cc/download/view-software-13784.html

2.2 正负向语料库

文本从http://www.datatang.com/data/11936 下载“有关中文情感挖掘的酒店评论语料”作为训练集与测试集，该语料包含了4种语料子集，本文选用正负各1000的平衡语料（ChnSentiCorp_htl_ba_2000）作为数据集进行分析。

3 数据预处理

3.1 正负向语料预处理

下载并解压ChnSentiCorp_htl_ba_2000.rar文件，得到的文件夹中包含neg（负向语料）和pos（正向语料）两个文件夹，而文件夹中的每一篇评论为一个txt文档，为了方便之后的操作，需要把正向和负向评论分别规整到对应的一个txt文件中，即正向语料的集合文档（命名为2000_pos.txt）和负向语料的集合文档（命名为2000_neg.txt）。
具体Python实现代码如下所示：