SnowNLP使用自定义语料进行模型训练(情感分析)

这篇具有很好参考价值的文章主要介绍了SnowNLP使用自定义语料进行模型训练(情感分析)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

SnowNLP

SnowNLP是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能,像隐马尔科夫模型、朴素贝叶斯、TextRank等算法均在这个库中有对应的应用。如果大家仔细观察过博主的博客,就会发现博主使用了摘要提取这一功能来增强博客的sEO,即通过自然语言处理(NLP)技术,提取每一篇文章中的摘要信息。因为SnowNLP本身使用的语料是电商网站评论,所以,当我们面对不同的使用场景时,它自带的这个模型难免会出现"水土不服"”。因此,如果我们希望得到更接近实际的结果,最好的方案是使用自定义语料进行模型训练。值得庆幸的是,这一切在SnowNLP中实施起来非常简单,并不需要我们去钻研那些高深莫测的算法。至此,就引出了今天这篇博客的主题,即 SnowNLP使用自定义语料进行模型训练。

SnowNLP主要原理是计算出的情感分数表示语义积极的概率,越接近0情感表现越消极,越接近1情感表现越积极。

关于snownlp实战案例,可以参考我之前的文章数据分析案例-对某宝用户评论做情感分析

我们先来看看如果不重新训练模型,直接使用原生的snownlp结果是什么样的

from snownlp import SnowNLP
print('"这首歌真难听"的情感得分是:',SnowNLP("这首歌真难听").sentiments
print(SnowNLP('"今天天气真好啊"的情感得分是:',"今天天气真好啊").sentiments)

SnowNLP使用自定义语料进行模型训练(情感分析)

 从结果我们以看出,第一个明显是消极评分,结果确实0.79,明显不符合。第二个也一样,是积极情感,评分也不高。所以我们需要训练自己的情感分析模型才能得出我们想要的结果。

训练模型

关于如何训练情感分析模型的方法有很多,包括基于词典/规则、机器学习、snownlp。本次就讲解最容易上手的snownlp来训练模型。

首先提前准备好消极和积极情感的文本,分别为neg.txt和pos.txt。

比如我这里的neg.txt

SnowNLP使用自定义语料进行模型训练(情感分析)

pos.txt

SnowNLP使用自定义语料进行模型训练(情感分析) 接着开始训练模型

# 训练
from snownlp import sentiment
sentiment.train('neg.txt', 'pos.txt')
sentiment.save("sentiment.marshal")

运行之后在同目录下会生成一个sentiment.marshal.3的文件。

接着来到你snownlp的路径下:

SnowNLP使用自定义语料进行模型训练(情感分析)

 这里建议你备份一下原生的sentiment.marshal.3文件,然后将刚才得到的sentiment.marshal.3文件替换这里的sentiment.marshal.3即可。

接下来我们重新运行上面的测试代码,结果如下:

SnowNLP使用自定义语料进行模型训练(情感分析)

 此时,我们明显看见了随着模型的改变,效果明显发生变化,模型准确度提高。

测试模型

前面我们已经训练了自己的语料库,得出了模型。接着我们用测试数据来检测模型的准确率。 

# 测试模型效果,导入测试数据
import pandas as pd
data_test = pd.read_excel("test.xlsx")
data_test.head()

SnowNLP使用自定义语料进行模型训练(情感分析)

sentiment是人工标记的情感标签。

s = []
for c in data_test['comment']:
    score = SnowNLP(c).sentiments
    if score>=0.5:
        s.append(1)
    else:
        s.append(0)
count = np.sum((s == data_test['sentiment'])==1)
print('准确率为:',count/len(data_test))

 SnowNLP使用自定义语料进行模型训练(情感分析)

 得出的模型准确率还有待提高,只要前面准备的消极和积极的语料库数据足够大且丰富,这里的准确率就会提高一大截。

模型利用

前面我们已经将模型训练好了,接着我们就开始利用模型给未标记情感分类的评论进行标记。

data = pd.read_excel("data.xlsx")
s = []
for c in data['comment']:
    score = SnowNLP(c).sentiments
    if score>=0.5:
        s.append(1)
    else:
        s.append(0)
data['sentiment'] = s
data.to_excel("data_result.xlsx",index=False)  # 导出标记情感标签的评论数据
data.head()

SnowNLP使用自定义语料进行模型训练(情感分析)

 以上就是SnowNLP使用自定义语料进行模型训练,希望对学习情感分析的你有所帮助。文章来源地址https://www.toymoban.com/news/detail-416412.html

到了这里,关于SnowNLP使用自定义语料进行模型训练(情感分析)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • NLP-分词器:SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文语料上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】

    随着ChatGPT迅速出圈,最近几个月开源的大模型也是遍地开花。目前,开源的大语言模型主要有三大类:ChatGLM衍生的大模型(wenda、ChatSQL等)、LLaMA衍生的大模型(Alpaca、Vicuna、BELLE、Phoenix、Chimera等)、Bloom衍生的大模型(Bloomz、BELLE、Phoenix等)。其中,ChatGLM-6B主要以中英双

    2024年02月11日
    浏览(47)
  • 自定义的卷积神经网络模型CNN,对图片进行分类并使用图片进行测试模型-适合入门,从模型到训练再到测试,开源项目

    自定义的卷积神经网络模型CNN,对图片进行分类并使用图片进行测试模型-适合入门,从模型到训练再到测试:开源项目 开源项目完整代码及基础教程: 资料获取,关注公众号【一起来学习哟】获取 CNN模型: 1.导入必要的库和模块: torch:PyTorch深度学习框架。 torchvision:P

    2024年02月06日
    浏览(37)
  • 使用Python进行情感分析

    在当今的数字时代,我们需要更好地理解消费者和客户对我们的产品和服务的反应。情感分析是一种自然语言处理技术,可以帮助我们分析文本中的情感和情绪,并了解人们对某些事物的感受。在本文中,我们将探讨如何使用Python进行情感分析。 在Python中进行情感分析,需要

    2024年02月11日
    浏览(37)
  • 训练ChatGPT的必备资源:语料、模型和代码库完全指南

    文|python 近期,ChatGPT成为了全网热议的话题。ChatGPT是一种基于大规模语言模型技术(LLM, large language model)实现的人机对话工具。但是,如果我们想要训练自己的大规模语言模型,有哪些公开的资源可以提供帮助呢?在这个github项目中,人民大学的老师同学们从模型参数(

    2023年04月22日
    浏览(27)
  • 基于pytorch使用LSTM进行文本情感分析

    大家好,我是阿光。 本专栏整理了《PyTorch深度学习项目实战100例》,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集。 正在更新中~ ✨ 🚨 我的项目环境: 平台:Windows10 语言环境:python3.7 编译器:PyCharm PyTorch版本:

    2024年02月07日
    浏览(37)
  • 腾讯正式发布新混元大模型:规模超千亿,预训练语料超2万亿

    2023腾讯全球数字生态大会于9月7日举办,腾讯公司在此正式发布了其新的混元大模型。该模型参数规模超过千亿,预训练语料超过2万亿tokens,并已成功测试于腾讯云、腾讯广告、微信搜一搜等多个内部业务和产品中。 这一混元大模型不仅能服务于腾讯的产业场景,用户还可

    2024年02月09日
    浏览(25)
  • 解析旅游者心声:用PySpark和SnowNLP揭秘景区评论的情感秘密

    在本篇博客中,我们将探讨如何利用PySpark和SnowNLP这两个强大的工具来分析大规模的旅游评论数据。通过结合携程和去哪儿的数据作为示例,我们将探索如何从海量的评论中提取有价值的情感信息和洞察。PySpark作为一种分布式计算框架,能够处理大规模的数据集,为我们提供

    2024年04月16日
    浏览(22)
  • AI机器学习实战 | 使用 Python 和 scikit-learn 库进行情感分析

    专栏集锦,大佬们可以收藏以备不时之需 Spring Cloud实战专栏:https://blog.csdn.net/superdangbo/category_9270827.html Python 实战专栏:https://blog.csdn.net/superdangbo/category_9271194.html Logback 详解专栏:https://blog.csdn.net/superdangbo/category_9271502.html tensorflow专栏:https://blog.csdn.net/superdangbo/category_869

    2024年02月05日
    浏览(28)
  • 中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文语料进行高效编码

    欢迎关注『CVHub』官方微信公众号! Title: Efficient and Effective Text Encoding for Chinese Llama and Alpaca PDF: https://arxiv.org/pdf/2304.08177v1.pdf Code: https://github.com/ymcui/Chinese-LLaMA-Alpaca 大型语言模型 LLM ,如ChatGPT和GPT-4,已经彻底改变了自然语言处理研究。然而, LLMs 的昂贵训练和部署对于透明

    2024年02月09日
    浏览(41)
  • ChatGPT 使用 拓展资料:无需任何机器学习,如何利用大语言模型做情感分析?

    ChatGPT 拓展资料:无需任何机器学习,如何利用大语言模型做情感分析? 用于从文本数据中识别情感 Glove Vectors:

    2023年04月25日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包