Microsoft 图像BERT，基于大规模图文数据的跨模态预训练

9月前作者：大伟先生分类：Toy博客阅读(39) 违法举报

这篇具有很好参考价值的文章主要介绍了Microsoft 图像BERT，基于大规模图文数据的跨模态预训练。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

视觉语言任务是当今自然语言处理（NLP）和计算机视觉领域的热门话题。大多数现有方法都基于预训练模型，这些模型使用后期融合方法融合下游任务的多模态输入。然而，这种方法通常需要在训练期间进行特定的数据注释，并且对于许多多模态任务来说，满足这一要求仍然非常困难和昂贵。Microsoft研究人员最近发表的一篇论文提出了一种新的视觉语言预训练模型，用于图像 - 文本联合嵌入，ImageBERT，它在MSCOCO（图像检索任务）和Flickr 30k（文本检索）数据集上都实现了SOTA性能。

与Google的BERT（来自变压器的双向编码器表示）语言模型一样，ImageBERT是基于Transformer的。它采用不同的模态（文本和视觉标记）作为输入，通过嵌入层编码到不同的嵌入中。然后将这些嵌入输入多层双向自注意力转换器，该转换器训练跨模态转换器来建模图像和文本之间的关系。

Microsoft 图像BERT，基于大规模图文数据的跨模态预训练,人工智能,bert,人工智能,深度学习

ImageBERT模型架构

数据的数量和质量对于视觉语言任务的跨模型预训练至关重要，因此研究人员开发了一种弱监督方法，用于从互联网收集大规模图像文本数据，以提高预训练性能。他们的大规模weAk监督图像文本（LAIT）数据集包括10万个视觉语言对（图像+描述），并用于预训练ImageBERT模型。

Microsoft 图像BERT，基于大规模图文数据的跨模态预训练,人工智能,bert,人工智能,深度学习

弱监督数据收集管道

在LAIT之后，研究人员在第二阶段对公共数据集概念标题（最广泛使用的图像文本预训练数据）和SBU标题（SBU标题照片数据集）对模型进行了预训练。该模型同时在研究人员设计的四个任务上进行预训练，以对文本和视觉内容及其相互关系进行建模：

**任务1：**掩蔽语言建模（MLM） –这与BERT培训中的MLM相同。它提出了一个新的预训练目标，并能够训练深度双向嵌入。

**任务2：**屏蔽对象分类（MOC） – MLM 任务的扩展。

**任务3：**屏蔽区域特征回归（MRFR） – 与 MOC 类似，此任务还通过更精确的对象特征预测工作对视觉内容进行建模。

**任务4：**图像文本匹配（ITM） – 学习图像-文本对齐的任务。

实验结果表明，多阶段预训练方法比单阶段预训练方法取得了更好的效果。研究人员还进行了微调，并将预训练的ImageBERT模型与SOTA方法在图像检索和文本检索任务上进行了比较，其中ImageBERT在MSCOCO和Flickr30k数据集上都获得了最佳结果。

Microsoft 图像BERT，基于大规模图文数据的跨模态预训练,人工智能,bert,人工智能,深度学习

研究人员希望他们的新模型和数据集能够进一步推进跨模态预训练的研究和发展。

论文ImageBERT：使用大规模弱监督图像文本数据的跨模态预训练发表在arXiv上。文章来源地址https://www.toymoban.com/news/detail-653163.html

到了这里，关于Microsoft 图像BERT，基于大规模图文数据的跨模态预训练的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

学习PCL库：基于LOD的大规模点云可视化

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系dianyunpcl@163.com。未经作者允许请勿转载，欢迎各位同学积极分享和交流。什么是LOD（Level of Detail）？ LOD（Level of Detail）是一种在计算机图形学中用于优化渲染性能

2024年02月08日
浏览(39)
加速大规模数据处理和多维分析：基于Lucene和Hadoop的开源项目

大数据时代带来了处理和分析海量数据的挑战，我很高兴向大家介绍我的个人开源项目：Lucene-Hadoop。这个项目基于Lucene和Hadoop，旨在提供高效的数据存储和查询引擎，加速大规模数据处理和多维分析。项目介绍 https://github.com/arlixu/lucene-hadoop Lucene-Hadoop利用Lucene和Hadoop的强大

2024年02月08日
浏览(43)
SpringBoot 基于向量搜索引擎及虹软人脸识别SDK的大规模人脸搜索

SpringBoot 基于向量搜索引擎及虹软人脸识别SDK的大规模向量数据搜索在线环境demo 为了方便大家测试效果，开放了一个在线环境供大家测试并降低了识别门槛和难度，使得照片也可以通过筛选，大家使用前无比观看视频，按照视频方式操作。由于服务器昂贵，资源有限，生产

2023年04月12日
浏览(38)
基于大规模测量和多任务深度学习的电子鼻系统目标识别、浓度预测和状态判断

为了实现响应特征的自动提取，简化模型的训练和应用过程，设计了一种双块知识共享结构的多任务卷积神经网络(MTL-CNN)来训练E-nose系统的模型。该模型可以同时执行三种不同的分类任务，用于目标识别、浓度预测和状态判断。使用值为RA/RG （RA在空气中的电阻值，RG为在目

2024年02月09日
浏览(40)
大规模 Transformer 模型 8 比特矩阵乘简介 - 基于 Hugging Face Transformers、Accelerate 以及 bitsandbytes

语言模型一直在变大。截至撰写本文时，PaLM 有 5400 亿参数，OPT、GPT-3 和 BLOOM 有大约 1760 亿参数，而且我们仍在继续朝着更大的模型发展。下图总结了最近的一些语言模型的尺寸。由于这些模型很大，因此它们很难在一般的设备上运行。举个例子，仅推理 BLOOM-176B 模型，你就

2023年04月26日
浏览(57)
大规模语言模型--LLaMA 家族

LLaMA 模型集合由 Meta AI 于 2023 年 2 月推出，包括四种尺寸(7B 、13B 、30B 和 65B)。由于 LLaMA 的开放性和有效性，自从 LLaMA 一经发布，就受到了研究界和工业界的广泛关注。LLaMA 模型在开放基准的各种方面都取得了非常出色的表现，已成为迄今为止最流行的开放语言模型。大

2024年04月25日
浏览(43)
LLaMA(大规模机器学习和分析)

LLaMA(大规模机器学习和分析)是一个先进的软件平台，是Meta 推出 AI 语言模型 LLaMA，一个有着上百亿数量级参数的大语言模型用于大规模部署和管理机器学习模型。借助LLaMA，组织可以高效地在大型数据集上训练和部署模型，缩短投放市场的时间，并提高预测模型的准确性。

2024年02月11日
浏览(54)
ChatGPT大规模封锁亚洲地区账号

我是卢松松，点点上面的头像，欢迎关注我哦！在毫无征兆的情况下，从3月31日开始OpenAI大规模封号，而且主要集中在亚洲地区，特别是ip地址在台湾、日本、香港三地的，命中率目测40%。新注册的账号、Plus也不好使了。如果你登陆的时候出现“提示无法加载历史信息”或

2023年04月09日
浏览(60)
利用Python进行大规模数据处理

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。随着数据量的不断增长，大规模数据处理变得越来越重要。在这个领域，Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语

2024年04月24日
浏览(39)
服务器单机大规模数据存储方案

大规模数据存储都需要解决三个核心问题： 1.数据存储容量的问题，既然大数据要解决的是数据 PB 计的数据计算问题，而一般的服务器磁盘容量通常 1～2TB，那么如何存储这么大规模的数据呢？ 2.数据读写速度的问题，一般磁盘的连续读写速度为几十 MB，以这样的速度，几十

2024年02月11日
浏览(55)