文本数据分析——情感分析-Toy模板网

这篇具有很好参考价值的文章主要介绍了文本数据分析——情感分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

python文本分析工具NLTK

在python环境下运行以下代码，选择需要的语料库进行下载

典型的文本与处理流程为

分词

编辑结巴分词（中文分词）

特殊字符可以使用正则表达式进行分词

词形问题、词形归一化

词性标注和停用词

使用词频表示文本特征来度量文本间的相似性

取出词频统计的最多的n个单词编辑

文本分类编辑

朴素贝叶斯算

python文本分析工具NLTK

NLP（自然语言处理）领域种最常用的一个python库，NLP是将自然语言（文本）转化为计算机程序更容易理解的形式，

在python环境下运行以下代码，选择需要的语料库进行下载

nltk就像是一个骨架，我们要让他运动起来，就必须有血有肉，这些血肉就是下面的这些模型等

import nltk
nltk.download()

弹出以下窗口，Collection中有各种的教程、例子等，corpora为各种语料库，全部下载完约1-2G左右，models为各种模型，All Packages为前面的所有包

文本数据分析——情感分析

下面是brown（布朗）库的调用和基本情况查看

from nltk.corpus import brown
print(brown.cotegories())#查看语料库包含的类别
print('共有{}个句子'.format(len(brown.sents())))
print('共有{}个单词'.format(len(brown.words())))

典型的文本与处理流程为

对原始数据进行分词
词形归一化
词性标注
去除停用词
得到处理好的单词列表

分词

默认使用punkt分词模型，在上述方法中下载此模型才可使用

nltk.word_tokenize('需要分词的句子')

结巴分词（中文分词）

使用jieba库，首先需要pip安装 pip install jieba

jieba.cut('需要分词的句子',cut_all=True/False)

文本数据分析——情感分析

特殊字符可以使用正则表达式进行分词

如需学习可以借鉴以下链接(5条消息) 正则表达式——python对字符串的查找匹配_爱打羽毛球的小怪兽的博客-CSDN博客_python 字符串正则查找

词形问题、词形归一化

文本数据分析——情感分析

词干提取 stemming

文本数据分析——情感分析

词形归并lemmatization

需要提前下载wordnet语料库才可以使用 文本数据分析——情感分析

上述的went之所以没有变成go，是因为默认他为名词，我们需要对其指定词性，比如动词

文本数据分析——情感分析

词性标注和停用词

词性标注需要提前下载averaged_perceptron_tagger

文本数据分析——情感分析

停用词需要提前下载stopwords

文本数据分析——情感分析

使用词频表示文本特征来度量文本间的相似性

文本数据分析——情感分析

取出词频统计的最多的n个单词

文本分类

使用TextCollection自己创建一个语料库文件，如图所示

文本数据分析——情感分析

朴素贝叶斯算法

可以借鉴下面两个链接来了解机器学习的基础知识，若是又想提高模型预测率的同学可以查阅相关资料

机器学习笔记_爱打羽毛球的小怪兽的博客-CSDN博客

机器学习示例总结（线性回归、逻辑回归、KNN算法、朴素贝叶斯、SVM算法、决策树）_爱打羽毛球的小怪兽的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-426433.html

到了这里，关于文本数据分析——情感分析的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

文本数据分析——情感分析

python文本分析工具NLTK

在python环境下运行以下代码，选择需要的语料库进行下载

典型的文本与处理流程为

分词

结巴分词（中文分词）

特殊字符可以使用正则表达式进行分词

词形问题、词形归一化

词性标注和停用词

使用词频表示文本特征来度量文本间的相似性

取出词频统计的最多的n个单词

文本分类

朴素贝叶斯算法

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2