文本数据分析——情感分析

这篇具有很好参考价值的文章主要介绍了文本数据分析——情感分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

python文本分析工具NLTK

在python环境下运行以下代码,选择需要的语料库进行下载

 典型的文本与处理流程为

分词

​编辑 结巴分词(中文分词)

 特殊字符可以使用正则表达式进行分词

 词形问题、词形归一化

 词性标注和停用词

使用词频表示文本特征来度量文本间的相似性

 取出词频统计的最多的n个单词​编辑

 文本分类​编辑

 朴素贝叶斯算


python文本分析工具NLTK

NLP(自然语言处理)领域种最常用的一个python库,NLP是将自然语言(文本)转化为计算机程序更容易理解的形式,

在python环境下运行以下代码,选择需要的语料库进行下载

nltk就像是一个骨架,我们要让他运动起来,就必须有血有肉,这些血肉就是下面的这些模型等

import nltk
nltk.download()

弹出以下窗口,Collection中有各种的教程、例子等,corpora为各种语料库 ,全部下载完约1-2G左右,models为各种模型,All Packages为前面的所有包

文本数据分析——情感分析

下面是brown(布朗)库的调用和基本情况查看

from nltk.corpus import brown
print(brown.cotegories())#查看语料库包含的类别
print('共有{}个句子'.format(len(brown.sents())))
print('共有{}个单词'.format(len(brown.words())))

 典型的文本与处理流程为

  1. 对原始数据进行分词
  2. 词形归一化
  3. 词性标注
  4. 去除停用词
  5. 得到处理好的单词列表

分词

默认使用punkt分词模型,在上述方法中下载此模型才可使用

nltk.word_tokenize('需要分词的句子')

 结巴分词(中文分词)

使用jieba库,首先需要pip安装 pip install jieba

jieba.cut('需要分词的句子',cut_all=True/False)

文本数据分析——情感分析

 特殊字符可以使用正则表达式进行分词

如需学习可以借鉴以下链接(5条消息) 正则表达式——python对字符串的查找匹配_爱打羽毛球的小怪兽的博客-CSDN博客_python 字符串正则查找

 词形问题、词形归一化

文本数据分析——情感分析

词干提取 stemming

文本数据分析——情感分析

文本数据分析——情感分析

词形归并lemmatization

需要提前下载wordnet语料库才可以使用文本数据分析——情感分析

 上述的went之所以没有变成go,是因为默认他为名词,我们需要对其指定词性,比如动词

文本数据分析——情感分析

 词性标注和停用词

词性标注需要提前下载averaged_perceptron_tagger

文本数据分析——情感分析

文本数据分析——情感分析

文本数据分析——情感分析

 停用词需要提前下载stopwords

文本数据分析——情感分析

使用词频表示文本特征来度量文本间的相似性

文本数据分析——情感分析

 取出词频统计的最多的n个单词

 文本分类

 使用TextCollection自己创建一个语料库文件,如图所示  

 文本数据分析——情感分析

 朴素贝叶斯算法

可以借鉴下面两个链接来了解机器学习的基础知识,若是又想提高模型预测率的同学可以查阅相关资料

 机器学习笔记_爱打羽毛球的小怪兽的博客-CSDN博客

机器学习示例总结(线性回归、逻辑回归、KNN算法、朴素贝叶斯、SVM算法、决策树)_爱打羽毛球的小怪兽的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-426433.html

到了这里,关于文本数据分析——情感分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【毕业设计】电商产品评论数据分析可视化(情感分析) - python 大数据

    🔥 Hi,大家好,这里是丹成学长的毕设系列文章! 🔥 对毕设有任何疑问都可以问学长哦! 这两年开始,各个学校对毕设的要求越来越高,难度也越来越大… 毕业设计耗费时间,耗费精力,甚至有些题目即使是专业的老师或者硕士生也需要很长时间,所以一旦发现问题,一定

    2024年02月01日
    浏览(53)
  • 【毕业设计】大数据B站用户数据情感分析系统 - python

    🔥 Hi,大家好,这里是丹成学长的毕设系列文章! 🔥 对毕设有任何疑问都可以问学长哦! 这两年开始,各个学校对毕设的要求越来越高,难度也越来越大… 毕业设计耗费时间,耗费精力,甚至有些题目即使是专业的老师或者硕士生也需要很长时间,所以一旦发现问题,一定

    2023年04月12日
    浏览(46)
  • 利用Python实现酒店评论的中文情感分析,含数据集

    完整代码下载地址:利用Python实现酒店评论的中文情感分析 情感极性分析 ,即情感分类,对带有主观情感色彩的文本进行分析、归纳。情感极性分析主要有两种分类方法: 基于情感知识的方法 和 基于机器学习的方法 。基于情感知识的方法通过一些已有的情感词典计算文本

    2024年02月05日
    浏览(40)
  • 大数据舆情评论数据分析:基于Python微博舆情数据爬虫可视化分析系统(NLP情感分析+爬虫+机器学习)

    基于Python的微博舆情数据爬虫可视化分析系统,结合了NLP情感分析、爬虫技术和机器学习算法。该系统的主要目标是从微博平台上抓取实时数据,对这些数据进行情感分析,并通过可视化方式呈现分析结果,以帮助用户更好地了解舆情动向和情感倾向。系统首先利用爬虫技术

    2024年04月15日
    浏览(42)
  • Python爬取影评并进行情感分析和数据可视化

    前几天出了《航海王:红发歌姬》等电影,我就立马看了,正好做一个爬取影评,想看看影评的好坏。这就离不开python爬虫和自然语言处理技术了。 这是一个小案例:包含python爬虫、数据预处理、自然语言处理、数据可视化等内容。下面我将详细这个小案例。 1、分析界面元

    2024年02月08日
    浏览(87)
  • 基于Python的微博大数据舆情分析,舆论情感分析可视化系统,可作为Python毕业设计

    基于Python的微博大数据舆情分析,舆论情感分析可视化系统 微博舆情分析系统,项目后端分爬虫模块、数据分析模块、数据存储模块、业务逻辑模块组成。 先后进行了数据获取和筛选存储,对存储后的数据库数据进行提取分析处理等操作,得到符合需要的结构化数据,将处

    2024年02月12日
    浏览(41)
  • Python基于大数据的微博的舆情分析,微博评论情感分析可视化系统(V2.0),附源码,数据库

    博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅 文末获取源码联系 🍅 👇🏻 精彩专栏推荐订阅👇🏻 不然下次找不到哟 2022-2024年最全的计算机软件毕业设计选

    2024年03月16日
    浏览(55)
  • 【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格

    目录 一些将BV号转化为AV号的变量设置 词云屏蔽词设置 使用代理IP(直接从IP网站复制的) 爬虫的函数 将结果写入表格中 下面是主函数,首先看看能不能抓取到,还有一些变量设置 开始循环爬评论 对一些统计数据进行处理 制作词云 制作柱状图和饼图 结束,生成表格 男女

    2024年02月07日
    浏览(57)
  • 大数据分析 | 用 Python 做文本词频分析

    老师教给我,要学骆驼,沉得住气的动物。看它从不着急,慢慢地走,慢慢地嚼,总会走到的,总会吃饱的。 ———《 城南旧事 》 目录 一、前言 Python 简介 Python 特点 二、基本环境配置 三、分析 Part1介绍 Part2词频分析对象——《“十四五”规划》 Part3文本预处理 Part4中文

    2024年02月02日
    浏览(46)
  • Python数据分析与应用目录及课后习题答案

    第1章 Python数据分析概况 第一章 (1)下列关于数据和数据分析的说法正确的是(B)。 A.数据就是数据库中的表格 B.文字、声音、图像这些都是数据 C.数据分析不可能预测未来几天的天气变化 D.数据分析的数据只能是结构化的 (2)下列关于数据分析流程的说法错误的是

    2024年02月03日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包