NLP学习笔记——情感分析一 (简介)

这篇具有很好参考价值的文章主要介绍了NLP学习笔记——情感分析一 (简介)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、什么是情感分析 

二、研究现状及存在问题

1、研究现状

(1). 传统情感分类方法

(2). 短文本情感分类方法

(3). 基于深度学习的方法 

2、存在问题

(1). 文化差异

(2).情感词典无法覆盖全部情感词汇

(3). 语义相似不等于情感相似

三、情感分析的应用


一、什么是情感分析 

        情感分析又称倾向性分析观点挖掘,是一种重要的信息分析处理技术,其研究目的是自动挖掘文本中的立场观点看法情绪喜恶等。在情感状态的理论研究中,情感状态的主要表示方法有两种:离散类别型表示方法和维度连续型表示方法。

  • 离散类别型表示方法

       即将情感状态表示分为若干个类别,再通过信息特征进行分类,一般为正负极型(二类别)和多个类别。该表示方法的优势有:1.模型训练难度低2.准确率较高等优势,但也有一下三点限制:1.分类前必须先自定义类别,自定义类别无法涵盖所有类别,可能会出现没有定义的未知类别;2.类别命名过程中,相同的情感状态可能有不同的类别定义,会造成后续类别无法对应或无法公用的问题;3.更换研究领域时类别情感也必须重新定义,特别是该领域特有的类别。

  • 维度连续型表示方法:

        即将所有情感状态表示在一个低维度的空间(二维或三维),如下图所示:任何句子词汇或文本都可以表示到VA坐标平面内的一个坐标点,表示情感的正负向激动程度。该表示方法的优点有:1.可以提供更为细致的情感信息、2.不会出现类别定义不完全或类名不一致的情况;缺点是:模型训练难度相对较高。

NLP学习笔记——情感分析一 (简介)

        情感分析一般包含:情感基本单元抽取情感分类情绪分析情感摘要情感检索等,主要以当前研究最多且相对容易的离散类别型表示方法进行介绍。情感分析的基本流程如下图,具体过程后面的文章介绍:

NLP学习笔记——情感分析一 (简介)

  • 情感基本单元抽取:

        情感基本单元抽取是情感分析最低层的研究任务,是从情感文本中抽取出有意义的信息单元,然后将计算机难以识别的无结构文本信息转化为容易识别的的结构化文本信息。抽取的信息单元主要包括观点持有者评价对象(如老师)、属性词(如上课)、情感词(如好)以及情感词的极性判定(给情感词打一个正负标签,如褒义为正,贬义为负)等。

  • 情感分类:

        情感分类是情感分析中被最广泛研究的任务,是指对情感文本所体现出的主管看法进行判定,通常分为两类(正面和负面)或三类(正面、负面和中立)。按照不同的粒度可以分为:篇章级句子级属性级情感分类。

  • 情绪分析:

        情绪分析是在情感分类的二分类三分类的基础上衍生出来的,从心理学的角度出发,将情绪分为:惊喜愤怒悲哀快乐厌恶恐惧这六大类情绪(也有的说七大类)。这样的多分类无疑是比之前的二三分类难得,因为有些情感语句会存在歧义,就是表现得在两个情绪之间。当然在机器视觉领域已经有实现通过表情来识别这七大类情绪,效果还是很好的(我也有在学校的机器视觉的课设上实践过)。

  • 情感摘要:

        情感摘要是在文本摘要技术上衍生而来的,传统的文本摘要技术提取(或生成)与主题相关的信息,而情感摘要技术不仅要提取(或生成)主题信息还有提取(或生成)情感信息。与传统文本摘要技术不同的是情感摘要侧重于提取具有明显情感倾向性的主观文本信息。情感摘要一般有两种方式呈现:基于主题的情感摘要和基于情感倾向性的情感摘要。

  • 情感检索:

        情感检索是从海量的文本信息中查询文本所蕴含的观点,并根据主题的相关性观点的倾向性对结果进行排序。情感检索返回的结果需要同时满足主题的相关性和观点的倾向性。 

二、研究现状及存在问题

1、研究现状

(1). 传统情感分类方法

        传统情感分类方法主要分为两种:基于情感词典方法机器学习方法。传统情感分类方法大多利用词袋,那么就有一个忽视了情感词上下文信息的一个缺点。因此有人提出了基于句法分析的情感分类方法(例如基于依存句法分析的分类方法),但也有一些缺点,以依存句法分许为例:1.需要大量训练数据集、2.大多针对商品评论数据集,对话题广泛用词灵活、句法结构复杂的文本具有一定的局限性。

  • 情感词典方法:

        这类方法是利用词汇(词组)的情感倾向来判断文本的情感极性,首先通过计算词汇(词组)的褒贬倾向性,再以词汇(词组)为单位,通过对它们的褒贬程度的加权求和等方法,获得整个句子整个篇章的情感极性。

        情感词典的构建方法通常有三种手工标注法基于知识库的方法基于语料库的方法。其中基于知识库的方法主要是借助知识库资源中的概念的解释之间的关系(反义词、同义词等)等来判断词语的情感极性。基于语料库的方法通常有如下假设:具有相同情感倾向性的情感词容易出现在同一句子中。这类方法通常需要事先手工标注小部分种子情感词,然后通过判定情感词与种子词在语料中共现关系的强度来估计待判定情感词的情感极性。

  • 机器学习方法:

        该方法需要经过数据预处理文本表示(特征选择、特征简约、特征权重设置)与分类器训练,最终输出对情感极性的预测。在有监督学习的方法中,可以用标注好的语料来训练情感分类器,可以看成文本分类任务的过程,如果标注文本稀缺或以已标注文本和待标注文本领域不同时,可采用半监督学习迁移学习等策略

            1.特征选择:选取适当的语义单元作为特征,对不同的文档具有较强的区分力。

            2.特征简约:去除特征集中不能有效反应类别信息的特征,提高分类效率和准确率。

            3.特征权重设置:一般按照特征值是否出现取0/1值,或者按词频信息取TF、TF*IDF值等。

(2). 短文本情感分类方法

        与传统的长文本相比,短文本受词数限制,呈现内容简短特征稀疏富含新词噪音词等特点,这使得传统情感分析方法在短文本上难以保证分析效果。短文本的情感分析主要分为三类基于内部特征的方法、基于外部知识的方法和基于社会关系的方法。

  • 基于内部特征的方法

        该方法通常借助文本内的其他特征来增强特征表达,例如表情符号、标点符号等

  • 基于外部知识的方法

        该方法一般通过丰富的外部知识体系如百度百科等资源,来扩充短文本中孤立词语义特征,这是提高文本分析内容的另一途径。比如可以通过维基百科的来源知识库上通过主题模型(LDA)训练主题向量,然后将短文本中的词汇和对应的主题向量一起用于情感分类的过程。

  • 基于社交关系的方法

        该方法是利用如微博中存在的点赞、关注、转发等交互方式所体现的社交关系来改进短文本情感分类。有实验表明,加入了社会关系之后,情感分类的性能要优于仅仅基于文本的模型(具体是哪篇论文我忘了)。

(3). 基于深度学习的方法 

        对于基于深度学习的方法有太多太多,有基础的LSTM,再到seq2seq模型transformerBert预训练加微调、还有GPT模型等。这些模型相对比较复杂,三言两语介绍不清楚,感兴趣的自己再了解了解。

2、存在问题

        当前研究现状所存在的问题和挑战比较多,例如文化差异情感词典无法覆盖全部情感词汇语义相似并不等于情感相似等

(1). 文化差异

        在不同的文化条件下,词汇的情感标注已经被证明是有区别的,不同的语言中词汇的情感标注也是不同的。例如现有的中文情感词典和语料资源翻译成英文后,并不能作为其他英文的情感词典和或语料资源使用,并且一些中文的情感分析方法并不一定适用于英文。

(2).情感词典无法覆盖全部情感词汇

        对于中文来说,每年都有新的网络词汇产生,也可以理解为中文的词汇是无穷的,所以情感词典无法覆盖全部情感词汇,总会有新的情感词汇产生。

(3). 语义相似不等于情感相似

        现有的文本、句子层次的情感分析基本上使用词嵌入作为模型特征,但是词嵌入包含的是语义信息,有时候相似的语义信息可能情感差距很大,比如开心和悲伤,基本上是两个情感相反的词,但是它们的词向量的余弦相似度却不低。文章来源地址https://www.toymoban.com/news/detail-400649.html

三、情感分析的应用

  1. 商业领域:电商的商品评论,好评与差评的分类。
  2. 文化领域:可以实现对影评、书评的褒贬分类,减少观影和阅读的盲目性。
  3. 社会管理:不正当言论的识别屏蔽。
  4. 信息预测:可进行态势预测,如美国总统竞选时通过大众言论预测谁呼声高。
  5. 情绪管理:通过社交平台可以预测人的生活状态和情绪特点,例如公司可以根据员工的状态合理安排工作计划。

到了这里,关于NLP学习笔记——情感分析一 (简介)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深度学习&NLP】基于卷积神经网络(CNN)实现中文文本情感分析(分类)附代码以及数据集链接

    【注】:本文所述的实验的完整实现代码包括数据集的仓库链接会在文末给出(建议读者自行配置GPU来加速TensorFlow的相关模型,运行起来会快非常多) 目录 一、研究的背景和目的 二、文本数据集描述 1、数据集来源以及使用目的 2、数据规模、以及如何划分数据集 3、数据集的

    2024年02月04日
    浏览(63)
  • kaggle学习笔记-情感和地理空间分析

    秘鲁食品评论中的情绪和地理空间分析 自然语言处理 (NLP) 是人工智能的一个分支,致力于让计算机能够像人类一样理解文本和口语单词。 另一方面,地理空间分析是对图像、GPS、卫星摄影和历史数据的收集、显示和操作,这些数据以地理坐标明确描述,或以街道地址、邮政

    2024年02月16日
    浏览(40)
  • 大数据毕业设计Python+Django旅游景点评论数据采集分析可视化系统 NLP情感分析 LDA主题分析 bayes分类 旅游爬虫 旅游景点评论爬虫 机器学习 深度学习 人工智能 计算机毕业设计

    毕业论文(设计)开题报告 学生姓名 学  号 所在学院 信息工程学院 专  业 指导教师姓名 指导教师职称 工程师 助教 指导教师单位 论文(设计)题目 基于朴素贝叶斯算法旅游景点线上评价情感分析 开  题  报  告  内  容 选题依据及研究内容(国内、外研究现状,初步

    2024年04月17日
    浏览(66)
  • 文本挖掘学习笔记(三):文档相似度、文档分类和情感分析

    注:学习笔记基于文彤老师文本挖掘的系列课程 全文基于《射雕英雄传》语料库,下面是读入数据的一个基于Pandas的通用操作框架。 计算两个词相似度的原理:简单的说,就是将每个词的向量在空间上进行余弦运算,当cos越接近0时候,两者越相似。 词袋模型不考虑词条之间

    2023年04月22日
    浏览(40)
  • 使用 Docker 和 HuggingFace 实现 NLP 文本情感分析应用

    在继续分享“干燥、有趣”的向量数据库实战内容之前,我们来聊一篇简单有趣的内容:如何使用 Docker 和 HuggingFace 现成的模型,快速实现一个 NLP 文本情感分析应用,支持中英文内容的情感快速分析。 在这篇文章里,我们不需要准备显卡和语料,也不需要耐心等待“炼丹”

    2023年04月10日
    浏览(41)
  • 自然语言处理 Paddle NLP - 情感分析技术及应用-理论

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月09日
    浏览(73)
  • [学习笔记] [机器学习] 9. 朴素贝叶斯(概率基础、联合概率、条件概率、贝叶斯公式、情感分析)

    视频链接 数据集下载地址:无需下载 学习目标: 4. 说明条件概率与联合概率 5. 说明贝叶斯公式、以及特征独立的关系 6. 记忆贝叶斯公式 7. 知道拉普拉斯平滑系数 8. 应用贝叶斯公式实现概率的计算 9. 会使用朴素贝叶斯对商品评论进行情感分析 朴素贝叶斯算法主要还是用来

    2024年02月09日
    浏览(45)
  • 【NLP教程】用python调用百度AI开放平台进行情感倾向分析

    目录 一、背景 二、操作步骤 2.1 创建应用 2.2 获取token 2.3 情感倾向分析 三、其他情感分析 四、讲解视频 Hi,大家!我是 @马哥python说 ,一名10年程序猿。 今天我来演示一下:通过百度AI开放平台,利用python调用百度接口进行中文情感倾向分析,并得出情感极性分为积极、消

    2023年04月25日
    浏览(49)
  • 自然语言处理 Paddle NLP - 情感分析技术及应用SKEP-实践

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月09日
    浏览(53)
  • Pytorch实战笔记(1)——BiLSTM 实现情感分析

    本文展示的是使用 Pytorch 构建一个 BiLSTM 来实现情感分析。本文的架构是第一章详细介绍 BiLSTM,第二章粗略介绍 BiLSTM(就是说如果你想快速上手可以跳过第一章),第三章是核心代码部分。 坦白的说,其实我也不懂 LSTM,但是我这里还是尽我最大的可能解释这个模型。这里我

    2024年02月01日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包