情感计算-音频情感识别

这篇具有很好参考价值的文章主要介绍了情感计算-音频情感识别。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

音频情感识别意义与背景

  1. 这里的音频是指人类能够听到的声音,音频中包含丰富情感;
  2. 应用在电话服务、医学研究(抑郁、压力–发现情绪波动)、谎言分析(检测声音相关参数,例如紧张程度)、机器人中(情感理解+ 情感生成);
  3. 现在研究更多侧重于人的情感识别;
  4. 音频情感识别优点: 采集容易,不用可穿戴设备,更有效保护隐私。

研究现状与进展

  1. 80-90年代,根据韵律(how to say, 情感激动程度,能量等参数)控制人机对话的过程;

  2. 90年代后期模式识别(高斯混合、SVM、HMM等)

  3. 目前, DL(受限于数据规模较小)

  4. 国外研究团队

    英国贝尔法斯特女王大学的情感语音组
    收集并创建了第一个大规模的高自然度情感数据库,Roddy Cowie和 Ellen Douglas-Cowie 教授,重点研究心理学和语音分析。

    美国MIT媒体实验室情感计算研究所
    Rosalind Picard 教授90年代初开始进行情感语音研究
    (http://affect.media.mit.edu)

    美国南加州大学语音情感组
    Shri Narnyana教授,情感语音的声学分析、合成和识别,以及有关笑声合成研究(http://sail.usc.edu/emotion/index.php)

    爱尔兰都柏林大学
    Nick Campbell教授,从事自然情感语音合成

    以色列Nemesysco公司
    实际应用以分层声音分析技术(LVA)在安全、商业和个人娱乐领域为客户提供解决方案。创业公司 Beyond Verbal以通过识别音域变化,从而分析出愤怒、焦虑、幸福或满足等情绪,其中包括11个类别, 400个复杂情绪的变量。

    英国的初创企业EI Technologies
    可以分析人声的音调,识别高兴、悲伤、害怕、愤怒及无感情等5种用户的基本情绪。识别的准确率约为70-80%左右,这个数字要高于人类60%的平均水平,而受过训练的心理学家的判断准确率约为70%。

    日本SGI研究院能感知人类情感:KOTOHANA
    (http://www/.sgi/co/jp/solutions/bbu/ST/index/html)

  5. 国内研究团队
    中科院自动化所模式识别国家重点实验室
    东南大学无线电工程系
    清华大学计算机科学与技术系
    台湾大同大学资讯工程学系
    中国公司Emotibot竹间智能科技、清帆科技EduBrain(专注教育领域技术创新)
    其他:中国社科院语言研究所,西北工业大学、中国人民大学、哈工大,浙大,华南理工、中科大,南京师范大学、江苏大学等

音频情感数据库

  • 语音情感数据库建立的四个原则

  • 真实性,尽量不要诱发,如果采用诱发的方式,也要尽可能真实;

  • 交互性,在人与人交户中产生;

  • 连续性,动态建模,要多种情感转移;

  • 丰富性,尽可能包含多包含多媒体信息。

  1. 获取语音情感数据库的方法
  • 演员表演(最差情况):刻意模仿的情感显得比较夸大;
  • 引导情感(较差情况):设计情景,比如讲个高兴的事,看个恐怖电影;
  • 取自媒体(较好情况):从广播或者影视节目中截取片段;
  • 现实生活(理想情况):比较难获得,有些数据库基于电影电视剧片段进行类似。
  1. 音频情感识别语料库

    Belfast 英语情绪语料库
    引导情感:由50位说话人根据引导文本,表达愤怒、恐惧、高兴、悲伤和中性五种情感
    自然语料:从电视访谈节目中选取剪辑的125位说话人的多种情感

    柏林(EMO-DB)情感数据库
    引导情感:日常交流中常用的十个德语语句,共800语句,含七种情感:中性、愤怒、恐惧、高兴、悲伤、厌恶和惊奇

    FAU AIBO儿童德语情感语音库
    自然情感:录制51儿童(10-13岁,21男30女)与索尼公司生产的电子宠物AIBO游戏过程中的自然语音,保留情感信息明显的语料,共9.2小时,包括48401单词

    汉语普通话语音数据库
    演员表演:中科院自动化所研制,由演员模仿情感进行录制,共9600条语音,包括6中情感:高兴、生气、惊奇、控制、悲伤、平静
    演员表演:东南大学研制,表演性情感语音,由10名男性话者对4个语句分别用喜、怒、惊、悲四种情感录制480句

    CREST情绪语料库
    自然情感:日本的国际电气通信基础研究所(ATR)录制,包含完全自然状态下的1000小时情感语音,60%是日语,汉语和英语各占20%

    丹麦情感语音库
    演员表演:含5种情感:高兴、生气、惊奇、悲伤、平静。共260条

    CHEAVD 数据库
    取自媒体:由中科院自动化所从32部中文电影、79集电视剧、20期综艺节目中剪辑出2629个音视频情感片段,共计时长141分钟,共包括238位发音人。

    Semaine数据库
    引导情感:面向自然人机交互和人工智能研究的数据库,20 个用户(22 岁-60 岁,8 男12 女)被要求与性格迥异的4个机器角色进行交谈.这4 个角色分别是:1) 温和而智慧的Prudence;2) 快乐而外向的Poppy;3) 怒气冲冲的Spike 和4) 悲伤而抑郁的Obadiah

语音情感识别

  1. 语音特征,人类的发生器官由肺、气管、声带、鼻、口和唇等组成。
  2. 声带长短和张力决定声音的基频
  3. 声音强度取决于气流的大小和强度;
  4. 声音经过形状变化的口腔、鼻腔等共振,最后经唇部辐射传出;
  5. 声音的共振过程形成了共振峰,各共振峰的频率由共振腔的大小和形状决定。
  • 韵律特征: 最主要的语音特征,如语速、音量和音调,振幅、基音频率,持续时间等;

  • 语速:语音可以反应出说话者的情绪状态:当人的情绪比较激动的时候,比如处于愤怒状态,语言的表达速度明显加快,相反在人的情绪比较低落时,比如处于悲伤状态,语言的表达速度则明显较慢。

  • 时长:语句的发音持续时间指每一情感语句从开始到结束的持续时间,与感知的语速相对应,情感语音的时长构造主要着眼于不同情感语音发话时间构造的差别,时长分析常采用音节、句子为单元来测量。

  • 停顿:停顿也反映了情感信息,停顿指的是前一个音节与下一个音节之间无声的时间

    分析
    语速: 语速的变化是表达情感的一个重要手段。它反映一个人在不同环境,不同情感下说话时的心情急切度。人在焦虑和愤怒状态下,说话速度很快;惊奇和喜悦次之;而悲伤情感下说话速度最慢。
    停顿和时长: 不管是男性还是女性,不同情感下,其停顿和时长对于基本类型的情感变化有一定的一致性,对于微妙复杂的情感两者的变化有一定的差异。
    性别的不同,也会引起一些情感之间特征的变化差异性。比如男性说话人在放松和温顺情感下的时长变化略不同于女性说话人,停顿分析中惊奇与喜悦情感在不同性别中的变化稍有不同。

  • 音强

    能量表现为语音的音量的高低,而音量的高低又是通过声音的响度大小来反映。
    情感计算-音频情感识别 不管是男性还是女性说话人,其中中性、放松、温顺情感的能量基本在同一水平,总体能量较低,其次是轻蔑和悲伤能量相近,惊奇、喜悦和恐惧能量处于一个水平,能量最强的属于愤怒情感。

  1. 音质
  • 基频

在发出浊音时,声门波形成的周期性脉冲,即声带的振动周期被称作是浊音的基音周期,基音频率即为其倒数,简称基频,通常用F0表示。基频值取决于声带大小、厚薄、松紧程度以及声门上下之间的气压差效应等。

基音频率体现出以下规律:处在激动情绪下如愤怒的人所表达出的语音的基频较高,变化范围较大;处于低落情绪如悲伤的人所表达的语音的基频较低,变化范围较小,处于平静情绪下的人所表达出的语音的基频则相对稳定。

  • 共振峰

共振峰是反映声道特性的一个重要参数。不同情感发音的共振峰的位置不同。分析时首先用LPC法求出声道的功率谱包络,在用峰值检出法算出个共振峰的频率。

  • 基频抖动
    焦虑语音会出现“F0抖动”现象。Jitter是基频值的变化程度。
    F0 Jitter是由生理器官的作用才产生,比如情感的变化会导致声带肌肉紧张度,气流的体积速度,声道表面的坚硬或柔软等发生变化从而产生基频抖动现象
  1. 频谱
  • 线性预测倒谱系数(LPCC)
    LPCC是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数
    不同情感的发音会使声道有不同的变化,进而引起声道传输函数倒谱的变化

  • Mel频域倒谱系数(MFCC)
    考虑了人耳对不同频带的分辨率不同,充分融合人耳的听觉特性。

  1. 系统框架
  1. 语音情感识别本质上属于模式识别

局部特征 & 全局特征
多类特征融合(还可以融合副语言,如笑声、叹息)
情感计算-音频情感识别

  • 神经网络

  • 高斯混合模型(GMM)
    混合高斯模型是只有一个状态的模型,在这个状态里具有多个高斯分布函数。
    P k =    ∑ i    =    1 N w i f i ( Y ) P_{k}=\; \sum_{i\; =\; 1}^{N}{w_{i}f_{i}\left( Y \right)} Pk=i=1Nwifi(Y)

    其中 f i f_i fi是一个高斯分布函数,不同高斯分布之间的加权系数 w i w_i wi满足 ∑ i    = 1 N w i    =    1 \sum_{i\; =1}^{N}{w_{i}\; =\; 1} i=1Nwi=1
    每一个情感类型训练一个高斯混合函数,高斯函数的输入参数为语音的情感特征参数。

  • HMM
    HMM是一种基于转移概率观测概率的随机模型,它既能用短时模型(状态)解决声学特征相对稳定段的描述,又能用状态转移规律刻画稳定段之间的时变过程

  • 支持向量机
    基于结构风险最小化和统计学习理论提出了一种名为支持向量机(SVM)的机器学习方法,该方法在诸如函数拟合、非线性模式识别。小样本等领域都极具优势。

  • 混合模型
    混合高斯模型-支持向量机:该方法不仅拥有混合高斯模型统计能力强的优点,而且同时有支持向量机分类能力强的优点

    隐马尔科夫模型-人工神经网络模型:首先用隐马尔科夫模型对情感特征向量进行整合,再用人工神经网络进行最终分类识别

    采用投票机制将支持向量机、K最近邻算法、人工神经网络种分类器进行融合。

  • 深度神经网络
    DNN:原始语音信号分段输入到网络中,提取局部的情感信息,然后经过处理得到全局情感特征,送到分类器中,得到预测的概率类别。输入一段语音情感信号,可以得到每一段对每个情感类别的预测概率值

    CNN:卷积神经网络广泛应用到语音情感识别中,包括局部不变特征学习模块、情感区分特征分析模块和支持向量机模块三个部分。这种模型结构能够抽取出具有区分性的情感特征

    RNN:能够有效融合上下文信息进行音频情感建模。

    CNN- RNN:联合了CNN模型的音频信息表征能力和RNN模型的情感时序建模能力。

    胶囊网络:利用胶囊网络,考虑音频特征在声谱图中的空间关系,为获取语音全局特征提供了一种有效的汇聚方法。

    基于端到端的音频识别:直接将语谱图或时域波形点作为输入,具有特征自学习能力的优势
    其性能依赖于数据规模。

    注意力机制:有效挖掘不同音频片段对当前情感状态的贡献度。

    多任务学习:不同维度情感状态存在依存关系,利用多任务学习机制实现维度情感模型的协同优化。

    融合功能副语言信息检测的识别模型:对副语言段和语音段进行区分性建模,有效利用副语言先验信息。

    融合说话人信息和文本信息的识别模型:对音频信息、识别的文本信息、说话人信息进行时空融合。

    融合区分性训练准则的识别模型:利用三元损失函数解决不同情感状态边界模糊的问题

展望

  1. 语料
  • 语料很重要,但目前规模较小;
  • 采集整理工作难;
  • 关注跨数据库展现(如考虑文化、语种差异)。
  1. 语音情感特征
  • 找新特征,获取更高识别率;
  • 多特征融合(不能通过向量特征拼接形成高维度的形式);
  • 在高维情况下分类器的泛化性能反而更弱,要针对性进行特征降维和选择。
  1. 语义理解
  • 利用语义的语音情感识别,如文字、声音线索、视频线索;
  • 语音语义识别同情感识别相结合。

参考:国科大-情感计算课件文章来源地址https://www.toymoban.com/news/detail-424595.html

到了这里,关于情感计算-音频情感识别的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 情感分析的技术:图像与视频情感识别

    情感分析,也被称为情感检测或情感识别,是一种自然语言处理技术,旨在分析人类的情感态度,以便更好地理解人类的心理和行为。情感分析通常用于社交媒体、评论、文本、图像和视频等多种场景中。在这篇文章中,我们将深入探讨图像和视频情感识别的技术,包括其核

    2024年02月22日
    浏览(37)
  • 表情识别-情感分析-人脸识别(代码+教程)

    面部情绪识别(FER)是指根据面部表情识别和分类人类情绪的过程。通过分析面部特征和模式,机器可以对一个人的情绪状态作出有根据的推断。这个面部识别的子领域高度跨学科,涉及计算机视觉、机器学习和心理学等领域的知识。 以下是一些关键领域,其中这项技术可能

    2024年02月09日
    浏览(38)
  • 基于Pytorch的语音情感识别系统

    大家好,我是阿光。 本专栏整理了《PyTorch深度学习项目实战100例》,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集。 正在更新中~ ✨ 🚨 我的项目环境: 平台:Windows10 语言环境:python3.7 编译器:PyCharm PyTorch版本:

    2024年02月06日
    浏览(46)
  • 多模态情感识别-MISA: baseline解读

    多模态情感分析是一个活跃的研究领域,它利用多模态信号对用户生成的视频进行情感理解。解决这一任务的主要方法是开发复杂的融合技术。 (1)然而,信号的异质性造成了分布模式的差距,这带来了重大挑战。 https://blog.csdn.net/qq_40943760 (1)进行互注意力的特征表示学

    2024年02月05日
    浏览(34)
  • Bert基础(十七)--Bert实战:中文情感识别

    前面说了中文分类的过程,这次说一下情感分类相关的代码,其实情感分类也属于中文多分类的一种,知识情感分类一般会专门区分出来,但是代码基本是一致的, 基本步骤: 数据集我们使用hugging face上的数据集,打开hugging face–》datasets task选择 “Text Classification“ langua

    2024年04月28日
    浏览(31)
  • 情绪识别与AI:如何让机器具备情感理解能力

    情感智能是人工智能领域的一个重要分支,它旨在让计算机具备对人类情感的理解和识别能力。情感识别(Emotion Recognition)是情感智能的一个重要子领域,它涉及到从人类表达的情感信号(如语音、面部表情、行为等)中自动识别和分类的问题。随着人工智能技术的不断发展,情

    2024年02月20日
    浏览(43)
  • 【ResNet18】on IEMOCAP—语音情感识别(预处理篇)

    在开始模型训练前,一定要对数据处理熟悉!   一、预处理: 1、IEMOCAP语音数据部分 按照人(1F,1M,2F,2M,3F,3M,4F,4M,5F,5M): ang有语音数量:[147, 82, 67, 70, 92, 148, 205, 122, 78, 92] exc有语音数量:[63, 80, 96, 114, 48, 103, 154, 84, 82, 217] hap有语音数量:[69, 66, 70, 47, 80, 55, 31, 34, 77, 66] neu有语

    2024年02月08日
    浏览(29)
  • 多模态 | 基于GNN的多模态情感识别技术COGMEN项目复现

    COGMEN: COntextualized GNN based Multimodal Emotion recognitioN COGMEN: 基于GNN的多模态情感识别技术 Paper:   https://arxiv.org/abs/2205.02455  源代码 GitHub - Exploration-Lab/COGMEN 论文翻译及总结可参考我另外一篇博文:多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解_夏天|여름이다

    2023年04月09日
    浏览(61)
  • 《论文阅读》通过生成会话模型的迁移学习会话中的情感识别

    前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后感到失望? 小白如何从零读懂论文?和我一起来探索吧! 今天为大家带来的是《Emotion Recognition in Conversations with Transfer Learning from Generative Conversation Modeling》 出版:Journal o

    2024年02月14日
    浏览(44)
  • 计算机竞赛 GRU的 电影评论情感分析 - python 深度学习 情感分类

    🔥学长分享优质竞赛项目,今天要分享的是 🚩 GRU的 电影评论情感分析 - python 深度学习 情感分类 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分 工作量:3分 创新点:4分 这是一个较为新颖的竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://

    2024年02月13日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包