多模态分析数据集(Multimodal Dataset)整理

这篇具有很好参考价值的文章主要介绍了多模态分析数据集(Multimodal Dataset)整理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这里整理一下平时所用的多模态数据集以备之用,主要分为

  • 多模态分类(情感分类,影视分类)

  • 多模态问答

  • 多模态匹配(检索)

  • 多模态生成

多模态分析数据集(Multimodal Dataset)整理,人工智能,计算机视觉,深度学习,python,Powered by 金山文档

后面会不断地去添加,也希望能够帮到其他人,欢迎大家补充。

【0】.多模态以及其他方向如何入门或者查找数据集?

看到评论区有很多小伙伴对多模态方面不知道怎么入门,不知道使用哪些数据集,最简单的方法是找一篇最近最新的相关方向的多模态论文,通过related work可以了解这个方向的发展,通过experiment了解这个方向比较受欢迎的一些数据集。论文可以用google学术或者arxiv查,基本上能查到目前大部分的论文。

https://www.aclweb.org/anthology/ 这个网站有很多会议论文,包括ACL,EMNLP等等

https://papers.nips.cc/ 这个网站是影响力特别大的Nips会议论文

上述链接均可以有年份查询,通过年份可以找到对应年份的所有会议论文,非常方便哦。


【1】.多模态分类数据集(包括情感分类、影视分类)

一、双模态(一般是文本、图像和语音的两两组合)

1.《Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model》--【多模态讽刺识别】 2019年。论文中建立的数据集,包含文本和图像两个模态,具体来说是三个模态,文本部分包含两个方面:一个是描述(文本模态),另一个是图像的属性,即图像包含那些东西,用文字描述(也可以归类为属性模态)。数据集较好之处是给出了原始数据,即有原始的文本,原始的图像和属性描述,可以任意操作成实验表征。数据集和代码链接是https://github.com/headacheboy/data-of-multimodal-sarcasm-detection

2.《Towards Multimodal Sarcasm Detection(An Obviously Perfect Paper)》--【多模态讽刺识别】2019年。论文给的是图像和文本双模态讽刺视频。其中每个标签对应的图像包含多个,对应的文本是一组对话,具体如下图所示:

数据集链接是:https://github.com/soujanyaporia/MUStARD

二、三模态(一般是文本、图像加语音)

1.《Multimodal Language Analysis in the Wild_ CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph》--【多模态情感和情绪分析】2018年。论文中描述的CMU-MOSEI数据集规模最大的三模态数据集之一,且具有情感和情绪两个标签,情感从negative到positive一共有7个类别,情绪包含愤怒、开心、悲伤、惊讶、害怕和厌恶6个类别,标签的数值在[-3~3]之间。数据集给出了原始数据,但是过于原始,即给出的是文本,音频和视频文件,图像还得自己去以固定频率捕获并且和文本语音对其还是比较麻烦的。大多实验都使用处理好的实验数据。数据集的链接是:http://immortal.multicomp.cs.cmu.edu/raw_datasets/processed_data/

2.《UR-FUNNY: A Multimodal Language Dataset for Understanding Humor》--【多模态幽默分析】2019年。论文中描述的是UR-FUNNY数据集,包含文本语音图像三个模态来分析幽默情感。具体目前没用到没有细看,日后再补充。数据集和代码链接是:https://github.com/ROC-HCI/UR-FUNNY

好像部分同学下载失败,可以用下面这个链接:

链接:https://pan.baidu.com/s/1iOwSmlaQeTo3NH95LnPl0A

提取码:5z4o

3.《MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos》--【多模态情绪分析】。论文中描述的是CMU-MOSI数据集,跟上述的CMU-MOSEI数据集名字很像,但是发布较早,规模小且只有情绪的标签。数据集跟MOSEI一样,有处理好的实验数据,但是也有部分原始数据,video部分依然是视频不是已经捕获好的图像。数据集的链接是:http://immortal.multicomp.cs.cmu.edu/raw_datasets/processed_data/

4.《CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality》--【中文多模态情绪】2020年。论文中给出常规的文本、图片和语音的数据进行多模态情绪分类,其中标签更加细致,不仅有最终的标签,还有各个模态的标签。

具体如图所示。论文以及数据集具体我还没看,日后需要我将修改更仔细。数据集链接是: https://github.com/thuiar/MMSA

5.《Iemocap: interactive emotional dyadic motion capture database》--【多模态视频情感分析】2008。论文简单搜了一下好像要钱,凎!根据摘要可以看出IEMOCAP数据库包含大约12小时的视听数据,包括视频、语音、面部运动捕捉、文本转录。IEMOcap数据库有愤怒、快乐、悲伤、中立标签。

数据集参考这个CSDN博客https://blog.csdn.net/qq_33472146/article/details/90665196 ,需要填写一个申请表,具体如下:

数据集获取方式:

需要填一个申请表,如果没结果就给他们发封邮件。数据很大,大概18G左右,可以用Chrome下载管理器下载。

如果有任何问题可以联系这个人Anil Ramakrishna (akramakr@usc.edu)

给他发邮件,告诉他直接把数据集公开在网盘里多好,还要填申请表。。。

6.《GATED MULTIMODAL UNITS FOR INFORMATION FUSION》--【多模态影视类型分类】

该数据集是MM-IMDB,主要是进行影视短剧的多类,包含喜剧,家庭剧等等,具体分布如下图所示。

数据集MM-IMDB的链接是https://archive.org/details/mmimdb

多模态分析数据集(Multimodal Dataset)整理,人工智能,计算机视觉,深度学习,python,Powered by 金山文档

【2】.多模态问答数据集

一、双模态(一般是文本+图片)

《 Making the v in vqa matter: Elevating the role of image understanding in visual question answering》--【多模态问答】2017年。论文中是VQA数据集,包括原始的图片、问答文本等各种属性。我们简单的可以通过word2vec或者Glove或者bert提取文本的embedding,通过Resnet来提取图片的feature,图片问题和回答三个方面通过对应的id来联系

多模态分析数据集(Multimodal Dataset)整理,人工智能,计算机视觉,深度学习,python,Powered by 金山文档

数据集下载链接在https://visualqa.org/download.html


【3】.多模态检索(匹配)数据集

一、双模态(一般是文本+图像)

1.《Microsoft COCO Captions Data Collection and Evaluation Server》--【多模态图片字幕】2015年。论文给出的是经典的MS COCO数据集,现在还在广泛使用,我看21年的论文依然在用这个数据集,很出名。数据集较大,大部分设计到纯CV方面的数据集,标注一共分为5类:目标点检测,关键点检测,实例分割,全景分割以及图片标注,前面四个都是CV领域的,感兴趣的同学可以玩一下,简单的多模态方向只需要最后一个,当然如果你要通过目标检测辅助多模态分析等等方向前面几个标注也是有用的。简单的,我们这里需要的是图片和字幕两个模态,这里注意每个图片对应5条字幕,可以用来做多模态匹配之类的任务。数据集包括2014年发布的以及2017年发布的,每个都有超过几十万张图片的标注,图片给出的是原始图片,标注是基于JSON文件给出的,也是原始的文本数据,我们只要写出程序将字幕抽取出来就可以了,字幕和图片之间有id对应,非常方便。

数据集链接是:Common Objects in Context

2.《Nus-wide: A real-world web image database from national university of singapore.》--【多模态图片字幕匹配检索】2009年,数据集包含269648张图片,每张图片包含81个真实的标签以及100个文本注释。美中不足的是大概看了一下,给的直接是图片的特征,也就没有原始图片,如果论文的方法在Embedding之上可以拿来试一试。

数据集链接是:https://lms.comp.nus.edu.sg/wp-content/uploads/2019/research/nuswide/NUS-WIDE.html

具体使用起来还稍微有一些复杂,因为给的是feature,所以我就没用了。数据集的使用可以参考这个博客,写的很详细:NUS_WIDE数据库制作_LeeWei-CSDN博客_nuswide数据集

3.《Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models--【多模态图片字幕匹配检索】Flickr30k数据集,给定了31783张图像以及158915个文本注释,可以看出和MS COCO一样一张图片对应5个注释。只不过图片有点小,只有3万张。具体使用步骤可以参考这个博客:https://blog.csdn.net/gaoyueace/article/details/80564642

数据集链接是http://shannon.cs.illinois.edu/DenotationGraph/进行填表,获取下载地址http://shannon.cs.illinois.edu/DenotationGraph/data/index.html,但是好像不是很稳定。

也可以直接用我这百度云的:https://pan.baidu.com/s/1Z4tyzFfbMSkQkjcuTwG5UQ,提取码是:bk9l,分享是永久有效。下载文件蛮简单的,一个图片,一个字幕,通过图片id进行对应。

对应于Flickr30k 3万张图片,有一个小版本Flickr8k,只有8千张图片

数据集链接是:https://pan.baidu.com/s/1PWuBlzLK2bFqkRbaBTqAuw

提取码:txnd

《The IAPR Benchmark: A New Evaluation Resource for Visual Information Systems》--【多模态图片字幕匹配检索】IAPR TC-12数据集,包括20,000张从世界各地拍摄的静态自然图像,包括各种不同的静态自然图像截面。这包括不同运动和动作的照片,人物、动物、城市、风景和当代生活的许多其他方面的照片。使用三种语言(英语,德语和西班牙语)来进行注释。

多模态分析数据集(Multimodal Dataset)整理,人工智能,计算机视觉,深度学习,python,Powered by 金山文档

论文链接是:http://thomas.deselaers.de/publications/papers/grubinger_lrec06.pdf

数据集链接是:https://www.imageclef.org/photodata

《Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning》--【多模态检索】2018年。较大的多模态数据集,包含超过300万张图片以及相应的文本描述,可以用于多模态预训练(不过还是感觉好少哇,跟单模态几亿张图片比起来,多模态的标注工作太耗时耗力了)。如图所示:

多模态分析数据集(Multimodal Dataset)整理,人工智能,计算机视觉,深度学习,python,Powered by 金山文档
多模态分析数据集(Multimodal Dataset)整理,人工智能,计算机视觉,深度学习,python,Powered by 金山文档

数据集地址:https://github.com/google-research-datasets/conceptual-captions

论文地址:https://www.aclweb.org/anthology/P18-1238.pdf

6.《WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training》--【多模态检索 2021】论文发布了超级大型的中文文本图片匹配数据集 RUC-CAS-WenLan 用于预训练,数据集规模在3000万对。同时论文也发布了大型中文多模态检索预训练模型。

模型代码以及数据集的下载链接如下:https://github.com/BAAI-WuDao/BriVl

论文地址:https://arxiv.org/abs/2103.06561


【4】多模态生成数据集

一、三模态(文本、图像和语音)

1.《How2: A Large-scale Dataset for Multimodal Language Understanding》--【多模态自动语音识别、多模态机器翻译、语音文本翻译、多模态总结(Summarization)】

How2 是一个大规模的多模态数据集,涵盖了80000个视频片段(约2000小时)的各种主题的大型教学视频数据集,使用单词级别的时间对齐英语字幕。 除了多模态之外,How2也是多语言的:字幕也有葡萄牙语翻译。

数据集的链接是https://github.com/srvk/how2-dataset文章来源地址https://www.toymoban.com/news/detail-522317.html

多模态分析数据集(Multimodal Dataset)整理,人工智能,计算机视觉,深度学习,python,Powered by 金山文档

到了这里,关于多模态分析数据集(Multimodal Dataset)整理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据分析:人工智能篇

    3.1 matplotlib基本绘图操作 3.2 plot的线条和颜色 线条形状设置 字符 线条类型 字符 线条类型 ‘-’ 实线 ‘–’ 虚线 ‘-.’ 虚点线 ‘:’ 点线 ‘.’ 点 ‘,’ 像素点 ‘o’ 圆点 ‘v’ 下三角点 ‘^’ 上三角形 ‘’ 左三角形 ‘’ 右三角形 ‘1’ 下三叉点 ‘2’ 上三叉点 ‘3’

    2024年02月06日
    浏览(56)
  • 迈向多模态AGI之开放世界目标检测 | 人工智能

    作者: 王斌 谢春宇 冷大炜 引言 目标检测是计算机视觉中的一个非常重要的基础任务,与常见的的图像分类/识别任务不同,目标检测需要模型在给出目标的类别之上,进一步给出目标的位置和大小信息,在CV三大任务(识别、检测、分割)中处于承上启下的关键地位。当前

    2024年02月16日
    浏览(46)
  • 人工智能在物流数据分析中的应用:基于人工智能的物流智能监控与分析

    作者:禅与计算机程序设计艺术 引言 1.1. 背景介绍 随着全球经济的快速发展和物流行业的不断壮大,对物流管理的效率与质量的要求也越来越高。传统的物流管理手段已经难以满足现代物流行业的需要,人工智能技术在物流管理中的应用显得尤为重要。 1.2. 文章目的 本文旨

    2024年02月08日
    浏览(61)
  • 数据分析、大数据分析和人工智能之间的区别

    数据分析、大数据分析和人工智能近年来十分热门,三者之间看起来有相似之处,也有不同之处。今天就来谈谈三者间的区别。 数据分析 数据分析是指对数据进行分析,从中提取有价值的信息,以支持企业或组织的决策制定。数据分析可以针对不同的数据来源和类型,包括

    2024年02月06日
    浏览(76)
  • 人工智能安全的数据治理和数据分析

    作者:禅与计算机程序设计艺术 随着人工智能的普及和应用,越来越多的个人和组织使用基于机器学习、深度学习等技术进行各种各样的业务决策、工作指导和服务推荐。然而,随之而来的安全问题也逐渐显现出来,尤其是在对模型训练、模型部署、模型迭代、模型交付等环

    2024年02月09日
    浏览(60)
  • 人工智能:数据分析之数据预处理、分析模型与可视化

    在人工智能和数据科学领域,数据分析是一种核心过程,它帮助我们从大量的数据中提取有价值的信息。数据分析的质量和结果直接影响到决策的效率和准确性。在这篇博客中,我们将详细探讨数据分析的关键步骤,包括数据预处理、分析模型和可视化,并通过实际应用案例

    2024年03月10日
    浏览(76)
  • 通用人工智能技术(深度学习,大模型,Chatgpt,多模态,强化学习,具身智能)

    目录 前言 1.通用人工智能 1.1 生物学分析 1.2具身智能 1.2.1当前的人工智能的局限 1.2.2 具身智能实现的基础 1.2.3 强化学习(决策大模型) 2.结论 往期文章 参考文献       目前的人工智能实质上只是强人工智能,或者说单个领域的通用人工智能。比方说Chatgpt它属于自然语言

    2024年02月07日
    浏览(86)
  • 【展望】多方计算展望:基于人工智能的数据分析平台

    作者:禅与计算机程序设计艺术 当前,随着人类对社会生活的依赖程度越来越高、信息化水平越来越高,越来越多的个人消费行为被计算机和智能手机等各种设备所代替。而数字经济也正在以惊人的速度发展。尽管如此,人工智能技术在数据驱动下对实体经济产生的深远影响

    2024年02月13日
    浏览(45)
  • 数据分析的未来:机器学习和人工智能的革命

    数据分析是现代科学和工业的核心技术,它涉及到大量的数据收集、存储、处理和分析。随着数据的增长和复杂性,传统的数据分析方法已经不能满足需求。机器学习和人工智能技术正在革命化数据分析领域,为我们提供了更高效、准确和智能的解决方案。 在本文中,我们将

    2024年02月20日
    浏览(147)
  • 解锁数据分析的神器:ChatGPT引领人工智能革命

    💂 个人网站:【 海拥】【神级代码资源网站】【办公神器】 🤟 基于Web端打造的:👉轻量化工具创作平台 💅 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 在当今数字化时代,数据分析成为决策制定和问题解决的关键工具。随着人工智能(AI)的迅猛发展,C

    2024年02月05日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包