目录
python文本分析工具NLTK
在python环境下运行以下代码,选择需要的语料库进行下载
典型的文本与处理流程为
分词
编辑 结巴分词(中文分词)
特殊字符可以使用正则表达式进行分词
词形问题、词形归一化
词性标注和停用词
使用词频表示文本特征来度量文本间的相似性
取出词频统计的最多的n个单词编辑
文本分类编辑
朴素贝叶斯算
python文本分析工具NLTK
NLP(自然语言处理)领域种最常用的一个python库,NLP是将自然语言(文本)转化为计算机程序更容易理解的形式,
在python环境下运行以下代码,选择需要的语料库进行下载
nltk就像是一个骨架,我们要让他运动起来,就必须有血有肉,这些血肉就是下面的这些模型等
import nltk
nltk.download()
弹出以下窗口,Collection中有各种的教程、例子等,corpora为各种语料库 ,全部下载完约1-2G左右,models为各种模型,All Packages为前面的所有包
下面是brown(布朗)库的调用和基本情况查看
from nltk.corpus import brown
print(brown.cotegories())#查看语料库包含的类别
print('共有{}个句子'.format(len(brown.sents())))
print('共有{}个单词'.format(len(brown.words())))
典型的文本与处理流程为
- 对原始数据进行分词
- 词形归一化
- 词性标注
- 去除停用词
- 得到处理好的单词列表
分词
默认使用punkt分词模型,在上述方法中下载此模型才可使用
nltk.word_tokenize('需要分词的句子')
结巴分词(中文分词)
使用jieba库,首先需要pip安装 pip install jieba
jieba.cut('需要分词的句子',cut_all=True/False)
特殊字符可以使用正则表达式进行分词
如需学习可以借鉴以下链接(5条消息) 正则表达式——python对字符串的查找匹配_爱打羽毛球的小怪兽的博客-CSDN博客_python 字符串正则查找
词形问题、词形归一化
词干提取 stemming
词形归并lemmatization
需要提前下载wordnet语料库才可以使用
上述的went之所以没有变成go,是因为默认他为名词,我们需要对其指定词性,比如动词
词性标注和停用词
词性标注需要提前下载averaged_perceptron_tagger
停用词需要提前下载stopwords
使用词频表示文本特征来度量文本间的相似性
取出词频统计的最多的n个单词
文本分类
使用TextCollection自己创建一个语料库文件,如图所示
朴素贝叶斯算法
可以借鉴下面两个链接来了解机器学习的基础知识,若是又想提高模型预测率的同学可以查阅相关资料
机器学习笔记_爱打羽毛球的小怪兽的博客-CSDN博客文章来源:https://www.toymoban.com/news/detail-426433.html
机器学习示例总结(线性回归、逻辑回归、KNN算法、朴素贝叶斯、SVM算法、决策树)_爱打羽毛球的小怪兽的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-426433.html
到了这里,关于文本数据分析——情感分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!