论文阅读笔记(一)

这篇具有很好参考价值的文章主要介绍了论文阅读笔记(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

《MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos》

发表年份: 2016

主要贡献:

  • 提出了Multimodal Opinion-level Sentiment Intensity (MOSI) 数据集
  • 提出了多模态情绪分析未来研究的基线
  • 提出了一种新的多模态融合方式

1 引言

在这些在线意见视频中研究情绪主要面临的挑战和解决方法:

挑战 解决方法
这些视频的不稳定性和快节奏性。演讲者经常在主题和观点之间切换。这使得识别和区分发言者表达的不同观点变得具有挑战性。 该文章提出了一种主观性注释方案,用于在线多媒体内容中的细粒度意见分割。
这些意见视频中表达的情绪强度的范围和微妙性。希望方法不仅能够识别视频片段的极性(例如,正面或负面),而且还能估计表达情绪的强度。 每个意见片段中的情绪都被注释为高度积极和高度消极范围之间的值。
如何使用信息而不仅仅是文本?简单地关注口语(例如,基于文本的情感分析)可能会带来歧义,这将通过视觉信息来解决。 该文章提出了与情感强度相关的语言和手势的多模态研究,这导致了多模态字典的想法。

2 相关工作

2.1 多模态情绪分析数据集

数据集 详情
YouTube Opinion Dataset 包含了来自YouTube的47条视频。该数据集由手动转录的文本和自动提取的音频和视频特征以及自动提取的话语组成
MMMO Dataset 是YouTube Opinion Dataset的扩展,将47个视频扩展到370个
Spanish Multimodal Opinion Dataset 是西班牙多模态情绪分析数据集。它由105个视频组成,在话语层面对情感极性进行了注释,总共包含了550个话语(话语是基于长时间停顿自动提取的,大多数视频有 6-8 个话语)

这些数据集都没有情感强度注释,它们更注重极性,主要关注对视频或话语的分析,而不是对情绪细粒度(fine-grained)的分析。

3 MOSI:Multimodal Opinion-level Sentiment Intensity Corpus(多模态意见级情感强度语料库)

该数据集包括:

  • 多模态观测数据,包括转录的语音和视觉姿势以及自动音频和视觉特征
  • 意见级的主观分割
  • 具有高编码一致性的情感强度注释
  • 单词、视觉和听觉特征之间的对齐

3.1 采集方法

从YouTube上下载用户表达有关不同主题的意见的video-blog 或者 vlog。

要求:

  • 只有一个讲话者,并且主要面向相机
  • 可以允许记录设备的设置不一样
  • 可以允许用于和相机之间的距离不同
  • 可以允许不同视频的背景和光线不同
  • 视频保持他们原始的分辨率,并且以MP4的格式记录
  • 每个视频的长度在2~5分钟内

按照上述要求选择了93个视频,最后视频集合中包含89位不同的演讲者,其中有41位女性和48位男性,年龄在20~30岁之间,都用英语表述,数据集示例如下图:

论文阅读笔记(一)

所有的视频剪辑都是手动转录的以提取口语和每个口语开始的时间。转录分为4个阶段:

  • 由一位专家手动转录所有的视频
  • 由第二位转录员审查和纠正所有的转录内容
  • 使用称为 P 2 F A 4 P2FA^4 P2FA4的强制对齐器将文本在单词和音素级别与音频对齐
  • 手动检查对齐,如果需要,使用 P R A A T PRAAT PRAAT进行校正

3.2 意见级的主观分割

该文章将主观性定义为一种私人状态的表达,一种通过携带一种观点、信仰、思想、感觉、情感、目标、评价或判断来区分的状态。用一下3个规则定义主观性:

  • 明确提及私人状态——直接提及私人状态。例如,“I also love the casting of Mark Strong as Sinestro.”
  • 表达私人状态的语音事件——私人状态已被另一个人说过或者写过。例如,“Shia LaBeouf said that the second movie lacked um heart.”
  • 表达主观——不是直接的意见,而是对意见的隐含参考。例如,“I would never recommend watching this movie.”

主观性注释产生了2199个主观片段和1503个客观片段,对于情感注释,只关注主观部分。数据集和意见段的详细统计数据见下表:

论文阅读笔记(一)

3.3 情感强度注释

情绪强度定义: 从强烈消极到强烈积极,线性标度从 -3 到 +3。
标定者:认可率高于95%的Amazon Mechanical Turk网站的在线工作人员
标定视频:2199个主观意见段
注释结果选择:strongly positive (labeled as +3),positive (+2),weakly positive (+1),neutral (0),weakly negative (-1),negative (-2), strongly negative (-3),uncertain
任务表述:“How would you rate the sentiment expressed in this video segment? (Please note that you may or may not agree with what the speaker says. It is imperative that you only rate the sentiment state of the speaker, not yourself)”
注释次数:每个视频由5个工人标定,最后取平均值

数据集中情感强度注释结果如图所示:
论文阅读笔记(一)

3.4 视觉姿势标注

音频和视觉特征自动从MPEG文件中提取,音频帧率位1000,视频帧率位30。
视觉特征包括16个面部动作特征,68个面部标志、头部姿势和方向、6个基本情绪和眼睛注视。
使用COVAREP提取了超过32个音频特征,包括音高、能量、NAQ(归一化幅度商)、MFCCs(梅尔频率倒谱系数)、峰值斜率、能量斜率。

并且,提供手动姿势注释来研究单词和姿势之间的关系,由于手在视频中并不常见,因此专注于面部姿势,选择了4种姿势和表情:微笑、皱眉、点头和摇头。注释是通过简单地标记具有这些表达中的每一个的意见段来进行的。一个专家编码器手动注释了所有 2199 个视频片段,另一个编码器注释了这个数据集的一个子集,以确认编码器的高度一致性。对于所有 4 个姿势,平均编码一致性为 80.8%

3.5 单词和视觉姿势的多模态分析

动机:想要理解单词和视觉姿势之间的交互模式
研究方案:研究当特定面部姿势存在与否时感知情绪强度分布的变化
研究问题:是否所有口语都与面部姿势进行相似的交互,或者在这些多模态交互中是否存在原型模式?

图 3 显示了多模态分析中的代表性示例,图 3 中显示的每个子图都是一个直方图,表示每个意见段的感知情感强度分布。图中可以看出口语和面部姿势之间可以分为4中不同的交互模式:中性、强调、积极和消极模式。
论文阅读笔记(一)

4 情绪和主观分析基线

设置:

  • 所有实验在演讲者独立框架中完成
  • 每一个演讲者的意见段只会出现在训练、验证或测试集某一个中(因为在同一个演讲者上训练和测试的模型不能推广到看不见的演讲者上)

4.1 情绪分析基线

方法:所有预测模型均使用 nu-SVR进行训练,并使用 5 折交叉验证方法进行测试。超参数的自动验证在训练集上进行了 4 折交叉验证。线性 nu-SVR 的超参数是 C C C n u nu nu。在验证阶段, C C C是从范围 [-5,3] 的 10 次幂中自动选择的, n u nu nu以0.1位步长从[0.1,1] 自动选择。回归器的性能是根据平均绝对误差 (MAE) 和相关性计算的。在这些研究中,我们训练了以下模型:

模型 描述
Random 一个简单的基线模型,该模型始终预测 [-3, +3] 之间的随机情绪强度,这个基线给出了关于随机模型如何工作的总体思路
Verbal 仅使用MOSI中的语言特征进行训练。一个非常简单的词袋特征集是从语音片段中的单词创建的字母组合和双字母组合创建的,包括语音暂停和暂停填充。考虑到它们的频率不高,数据集中少于 10 个实例的所有特征都从词袋中删除。
Visual 使用4中面部姿势进行训练。
Verbal + Visual 结合单词和视觉姿势数据进行训练,每个意见段的单词和视觉特征被简单的concat起来。
Multimodal Dictionary 对单词和视觉姿势的联合进行训练。建立多模态字典,对每一个单词 W j W_j Wj和姿势特征 G j G_j Gj,将集合{( W j W_j Wj & G j G_j Gj), ( W j W_j Wj & ~ G j G_j Gj)} 添加到多模态字典中。其中( W j W_j Wj & G j G_j Gj)表示单词和视觉姿势同时出现,如果他们都出现在语音片段中,则( W j W_j Wj & G j G_j Gj)值为1;( W j W_j Wj & ~ G j G_j Gj)表示仅单词出现,如果符合这种情况,则其值为1。
Human Baseline 人工预测每个意见段中的情绪得分。

结果如下表所示,创建的多模态词典优于简单的特征连接:

论文阅读笔记(一)

4.2 主观分析基线

通过线性C-SVM和DNN来进行主观分析实验。线性 C-SVM 超参数的验证方式与情感研究相同(第 4.1 节)。DNN是完全连接的网络,其层数在 [1, 5] 之间验证,每层中的神经元数量从 [10, 50] 以 10 为步长进行验证。表 4 显示了不同基线模型的结果多模态主观性分析:

论文阅读笔记(一)

5 讨论

论文阅读笔记(一)
表 3 显示了来自视觉手势的信息如何帮助多模态词典对情绪做出更准确预测的示例。
在第一种情况下,可以看出语言预测是中性的,而强烈的正面视觉线索有助于多模态词典更准确地预测意见的强度。
在第二种情况下,虽然语言暗示表明高度积极,但通过摇头表现出负面情绪表明该意见不应被视为高度积极。文章来源地址https://www.toymoban.com/news/detail-405918.html

到了这里,关于论文阅读笔记(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《Aspect-Sentiment-Multiple-Opinion Triplet Extraction》论文阅读

    文章地址: https://arxiv.org/abs/2110.07303v1   目前的关于ASTE三元组提取的方面级情感分析论文大多关注于简单的句式,比如一个方面实体仅有一个意见词加以修饰,但在一些情况下,由于我们通常会对事物的不同的属性做出不同的评价,因此对于某一个事物的最终情感将取决于

    2024年01月21日
    浏览(32)
  • 《Hierarchical Sequence Labeling Model for Aspect Sentiment Triplet Extraction》论文阅读

    文章地址: https://link.springer.com/chapter/10.1007/978-3-030-60450-9_52   在这篇文章中作者提出了一个继承性的序列标注模型( hierarchical sequence labeling model, HSLM)以端到端的方式识别文本语句中所含有的方面级情感三元组(ASTE)。该模型主要有三个部分组成:方面级序列标注模块、

    2024年01月16日
    浏览(93)
  • 论文阅读:Multimodal Graph Transformer for Multimodal Question Answering

    论文名 :Multimodal Graph Transformer for Multimodal Question Answering 论文链接 尽管 Transformer模型 在视觉和语言任务中取得了成功,但它们经常隐式地从大量数据中学习知识,而不能直接利用结构化的输入数据。另一方面, 结构化学习方法 ,如集成先验信息的图神经网络(gnn),几乎无法

    2024年02月04日
    浏览(30)
  • 论文阅读之Reasoning Implicit Sentiment with Chain-of-Thought Prompting

    本文主要对2023ACL论文《Reasoning Implicit Sentiment with Chain-of-Thought Prompting》主要内容进行介绍。 虽然情绪分析任务中通常根据输入文本中的关键意见表达来确定给定目标的情绪极性,但在隐式情绪分析(ISA)中,意见线索通常是隐含或者模糊的。因此,检测隐含情绪需要常识和

    2024年03月22日
    浏览(44)
  • [论文阅读]Multimodal Virtual Point 3D Detection

    多模态虚拟点3D检测 论文网址:MVP 论文代码:MVP 方法MVP方法的核心思想是将RGB图像中的2D检测结果转换为虚拟的3D点,并将这些虚拟点与原始的Lidar点云合并。具体步骤如下: (1) 使用2D检测器(如CenterNet)在RGB图像中检测物体。 (2) 将检测到的物体掩模投影到Lidar点云中,创建与

    2024年02月03日
    浏览(86)
  • 论文阅读:multimodal remote sensing survey 遥感多模态综述

    参考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文强调了单模态和多模态遥感影像判读之间的关键差异,然后利用这些差异来指导我们对级联结构中多模态遥感影像判读的研究。最后,对未来可能的研究方向进行了探讨

    2024年02月02日
    浏览(50)
  • 论文阅读之Multimodal Chain-of-Thought Reasoning in Language Models

    本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》主要内容进行介绍。 大型语言模型(LLM)通过利用思想链(CoT)提示生成中间推理链作为推断答案的基本原理,在复杂推理方面表现出了令人印象深刻的性能。然而,现有的CoT研究主要集中在语言模态上。

    2024年03月14日
    浏览(37)
  • [阅读笔记23][JAM]JOINTLY TRAINING LARGE AUTOREGRESSIVE MULTIMODAL MODELS

    这篇论文是24年1月发表的,然后是基于的RA-CM3和CM3Leon这两篇论文。它所提出的JAM结构系统地融合了现有的文本模型和图像生成模型。 主要有两点贡献,第一点是提出了融合两个模型的方法,第二点是为混合模型精心设计的指令微调策略。 下图是一个示例,再给出问题回答时

    2024年04月26日
    浏览(36)
  • 【论文阅读】Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-S

    paper:Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-Supervised Medical Image Segmentation         现有的自监督医学图像分割通常会遇到域偏移问题(也就是说,预训练的输入分布不同于微调的输入分布)和/或多模态问题(也就是说,它仅基于单模态数据,无法利

    2024年02月03日
    浏览(33)
  • NExT-GPT: Any-to-Any Multimodal LLM论文笔记

    论文 https://arxiv.org/pdf/2309.05519.pdf 代码 https://github.com/NExT-GPT/NExT-GPT/tree/main 现有的多模态大模型大都只是支持输入端的多模态(Text、Image、Video、Audio等),但是输出端都是Text。 也有一些现有的输入输出都是多模态的工作,如CoDi、Visual-ChatGPT、 HuggingGPT等,这一类工作又存在下

    2024年02月04日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包