【论文阅读】Generative Pretraining from Pixels

这篇具有很好参考价值的文章主要介绍了【论文阅读】Generative Pretraining from Pixels。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Generative Pretraining From Pixels

引用: Chen M, Radford A, Child R, et al. Generative pretraining from pixels[C]//International conference on machine learning. PMLR, 2020: 1691-1703.

论文链接: http://proceedings.mlr.press/v119/chen20s.html

简介

受自然语言中无监督表示学习进展的启发,作者研究了类似的模型是否能够学习图像的有用表示,训练了一个序列Transformer来自回归地预测像素,而不包含2D输入结构的知识。尽管是在低分辨率的ImageNet上进行训练,没有标签,但实验发现一个GPT-2规模的模型通过线性探测、微调和低数据分类学习,学习到了强大的图像表示。在CIFAR-10上,使用线性探测达到了96.3%的准确率,超过了监督的Wide ResNet,全微调达到了99.0%的准确率,与顶级监督预训练模型相匹配。同时,作者还在ImageNet上与自监督基准进行了比较,通过将像素替换为VQVAE编码,在线性探测特征时达到了69.0%的top-1准确率。

Method

【论文阅读】Generative Pretraining from Pixels,论文阅读

论文的方法包括预训练阶段和微调阶段。在预训练中,探索了auto-regressive和BERT,还应用序列Transformer架构来预测像素,而不是语言标记。而测量表征质量的一种方法是对图像分类进行微调。微调为模型添加了一个小的分类头,用于优化分类目标并调整所有权重。当与早停结合使用时,预训练可以被视为一种有利的初始化或正则化。另一种方法则使用预先训练的模型作为特征提取器。特别地,给定标记的示例(X,Y),将模型应用于X以产生特征fx。然后,在(fx,Y)上训练线性分类器。线性探测源自一种直觉,即好的特征应该线性地分离转移任务的类别。此外,线性探测有助于将特征质量与模型架构区分开来:在微调中,一个模型可能优于另一个模型,因为它的架构更适合下游任务,而不是因为更好的预训练。

Pre-training

给定由高维数据 X = ( x 1 , . . . , x n ) X=(x_1,...,x_n) X=x1,...,xn组成的未标记数据集 X X X,可以选择集合 [ 1 , n ] [1,n] [1n]的排列π,并对密度 p ( x ) p(x) p(x)进行自回归建模:
【论文阅读】Generative Pretraining from Pixels,论文阅读

当处理图像时,选择 1 ≤ i ≤ n 1≤i≤n 1in的单位置换 π i = i π_i=i πi=i,也称为光栅顺序。通过最小化数据的负对数似然来训练模型:
【论文阅读】Generative Pretraining from Pixels,论文阅读

对于BERT目标,其采样为子序列 M ⊂ [ 1 , n ] M⊂[1,n] M[1n],使得每个索引 i i i独立地具有出现在 M M M中的概率为0.15。称 M M M为BERT掩码,并且通过最小化以“未掩码”为条件的“掩码”元素 x M x_M xM的负对数似然来训练模型:
【论文阅读】Generative Pretraining from Pixels,论文阅读

Architecture

transformer decoder取一个输入序列 x 1 , . . . , x n x_1,...,x_n x1,...,xn,并为每个位置产生 d d d维嵌入。解码器被实现为 L L L个块的堆栈,其中第 l l l个产生中间嵌入 h l 1 , . . . , h l n h_l^1,...,h_l^n hl1,...,hln也是维数d。我们使用transformer decoder块的GPT-2公式,它作用于输入张量 h l h_l hl如下:
【论文阅读】Generative Pretraining from Pixels,论文阅读

特别地,**层规范在注意力机制和MLP之前,并且所有运算都位于残差路径上。**这样的配置可以轻松地缩放transformer。

序列元素之间的唯一混合发生在注意力操作中,为了确保在训练AR目标时进行适当的调节,将标准的上三角掩码应用于注意力逻辑的n×n矩阵。当使用BERT目标时,不需要注意logit掩蔽:在将内容嵌入应用于输入序列之后,将M中的位置清零。

此外,由于学习了每个序列元素的独立位置嵌入,BERT模型没有位置归纳偏差(即它是置换不变的)。换句话说,位置之间的任何空间关系都必须由模型在训练时学习。对于AR模型来说,这并不完全正确,因为选择光栅顺序也会修复预先指定的条件顺序。然而,置换不变性是与卷积神经网络形成强烈对比的一种特性,卷积神经网络包含了特征应该从空间上接近的元素产生的归纳偏差。

Fine-tuning

当进行微调时,我们对序列的 n L n^L nL维度进行平均池化,以提取每个示例的特征的d维向量。然后,学习从 f L f_L fL到类别的logits的投影,使用它来最小化交叉熵损失。

Linear Probing

为线性探测提取固定特征遵循与微调类似的过程,只是平均池化并不总是在最后一层:
【论文阅读】Generative Pretraining from Pixels,论文阅读

其中0≤l≤l。实验表明,最佳特征通常位于网络的中间。在微调中,投影这些中间特征以产生类logits。

实验

【论文阅读】Generative Pretraining from Pixels,论文阅读

表征质量在很大程度上取决于提取特征的层。与监督模型相比,这些生成模型的最佳表征位于网络的中间层。

【论文阅读】Generative Pretraining from Pixels,论文阅读
【论文阅读】Generative Pretraining from Pixels,论文阅读
【论文阅读】Generative Pretraining from Pixels,论文阅读文章来源地址https://www.toymoban.com/news/detail-838657.html

到了这里,关于【论文阅读】Generative Pretraining from Pixels的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读:FusionGAN: A generative adversarial network for infrared and visible image fusion

    @article{ma2019fusiongan, title={FusionGAN: A generative adversarial network for infrared and visible image fusion}, author={Ma, Jiayi and Yu, Wei and Liang, Pengwei and Li, Chang and Jiang, Junjun}, journal={Information fusion}, volume={48}, pages={11–26}, year={2019}, publisher={Elsevier} } [论文下载地址] Image fusion, infrared image, visible image

    2024年01月22日
    浏览(48)
  • 【论文阅读】Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-S

    paper:Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-Supervised Medical Image Segmentation         现有的自监督医学图像分割通常会遇到域偏移问题(也就是说,预训练的输入分布不同于微调的输入分布)和/或多模态问题(也就是说,它仅基于单模态数据,无法利

    2024年02月03日
    浏览(50)
  • 【论文阅读】Learing to summarize from human feedback

    更多关于大模型的文章可见:ShiyuNee/Awesome-Large-Language-Models: Papers about large language models (github.com) 该仓库持续更新 通过训练模型来向着人类偏好优化可以显著提高摘要质量。 High-level methodology 从一个在摘要数据集上使用SFT微调好的初始模型开始,然后经过以下三个步骤: 从已

    2024年02月09日
    浏览(34)
  • 论文阅读:Offboard 3D Object Detection from Point Cloud Sequences

    目录 概要 Motivation 整体架构流程 技术细节 3D Auto Labeling Pipeline The static object auto labeling model The dynamic object auto labeling model 小结 论文地址: [2103.05073] Offboard 3D Object Detection from Point Cloud Sequences (arxiv.org)     该论文提出了一种利用点云序列数据进行离线三维物体检测的方法,称

    2024年02月06日
    浏览(48)
  • 目标检测:Proposal-Contrastive Pretraining for Object Detection from Fewer Data

    论文作者:Quentin Bouniot,Romaric Audigier,Angélique Loesch,Amaury Habrard 作者单位:Université Paris-Saclay; Université Jean Monnet Saint-Etienne; Universitaire de France (IUF) 论文链接:http://arxiv.org/abs/2310.16835v1        目标检测是计算机视觉和图像处理领域的一个重要任务,其目标是在数字图像或视频

    2024年02月06日
    浏览(47)
  • 论文阅读 HighlightMe: Detecting Highlights from Human-Centric Videos

    摘要: 我们提出了一种与领域和用户偏好无关的方法来检测以人为中心的视频中的精彩片段摘录。我们的方法适用于视频中多种可观察到的以人为中心的模态的基于图形的表示,例如姿势和面部。我们使用配备时空图卷积的自动编码器网络来检测基于这些模式的人类活动和交

    2024年02月16日
    浏览(45)
  • On Moving Object Segmentation from Monocular Video with Transformers 论文阅读

    标题 :On Moving Object Segmentation from Monocular Video with Transformers 作者 : 来源 :ICCV 时间 :2023 代码地址 :暂无 通过单个移动摄像机进行移动对象检测和分割是一项具有挑战性的任务,需要了解识别、运动和 3D 几何。将识别和重建结合起来可以归结为融合问题,其中需要结合外

    2024年02月08日
    浏览(51)
  • 论文阅读-BotPercent: Estimating Twitter Bot Populations from Groups to Crowds

    目录 摘要 引言 方法 数据集 BotPercent架构 实验结果 活跃用户中的Bot数量 Bot Population among Comment Sections  Bot Participation in Content Moderation Votes  Bot Population in Different Countries’ Politics 论文链接:https://arxiv.org/pdf/2302.00381.pdf         Twitter机器人检测在打击错误信息、识别恶意在

    2024年02月14日
    浏览(36)
  • 论文阅读《Learning Adaptive Dense Event Stereo from the Image Domain》

    论文地址:https://openaccess.thecvf.com/content/CVPR2023/html/Cho_Learning_Adaptive_Dense_Event_Stereo_From_the_Image_Domain_CVPR_2023_paper.html   事件相机在低光照条件下可以稳定工作,然而,基于事件相机的立体方法在域迁移时性能会严重下降。无监督领域自适应作为该问题的一种解决方法,传统的

    2024年02月04日
    浏览(37)
  • A Survey of Embodied AI: From Simulators to Research Tasks 论文阅读

    题目 :A Survey of Embodied AI: From Simulators to Research Tasks 作者 :Jiafei Duan, Samson Yu 来源 :arXiv 时间 :2022 通过评估当前的九个具体人工智能模拟器与我们提出的七个功能,本文旨在了解模拟器在具体人工智能研究中的使用及其局限性。 本文调查了实体人工智能的三个主要研究任

    2024年02月14日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包