多模态论文阅读之BLIP

这篇具有很好参考价值的文章主要介绍了多模态论文阅读之BLIP。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Title

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Motivation

  1. 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢?
  2. 数据角度:SOTA的方法(如CLIP、ALBEF等)都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升,但本文的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优(suboptimal)的。

Contribution

  1. Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型,再通过一些方法获得一个更干净的数据集,能不能训练处一个更好的模型。
  2. Unified:caption filter

Model

多模态论文阅读之BLIP,论文阅读文章来源地址https://www.toymoban.com/news/detail-742478.html

到了这里,关于多模态论文阅读之BLIP的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读-NOLANet多模态伪造检测

    一、论文信息: 题目: Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning(多模态伪造检测——视觉+频谱+语音) 作者团队: 会议:AIPR 2020 二、背景与创新 背景: 合成视频威胁到数字媒体的信任与隐私,许多deepfake检测方法使用单帧视频,

    2023年04月14日
    浏览(48)
  • 多模态大模型-CogVLm 论文阅读笔记

    论文地址 :https://arxiv.org/pdf/2311.03079.pdf code地址 : https://github.com/THUDM/CogVLM 时间 : 2023-11 机构 : zhipuai,tsinghua : visual language model 效果:(2023-11) :CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W,

    2024年02月03日
    浏览(52)
  • 多模态视觉语言模型:BLIP和BLIP2

    BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation BLIP的总体结构如下所示,主要包括三部分: 单模态编码器(Image encoder/Text encoder) :分别进行图像和文本编码,文本编码器和BERT一样在输入中增加了[CLS]来表征整个句子 Image-grounded text encoder :通

    2024年04月24日
    浏览(44)
  • 论文阅读:multimodal remote sensing survey 遥感多模态综述

    参考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文强调了单模态和多模态遥感影像判读之间的关键差异,然后利用这些差异来指导我们对级联结构中多模态遥感影像判读的研究。最后,对未来可能的研究方向进行了探讨

    2024年02月02日
    浏览(65)
  • 论文阅读-基于深度学习的多模态情感分析研究综述

    非核心 原文链接:基于深度学习的多模态情感分析研究综述 - 中国知网 (cnki.net) 深度学习完成多模态情感分析综述。主要介绍 多模态情感分析 的概念、背景、意义。总结了 多模态融合技术和交互技术 ,讨论多模态情感分析 未来发展 。 目前经典的多模态情感分析研究已经

    2024年02月04日
    浏览(51)
  • 多模态应用展望——看图聊天、BLIP2

    BLIP2 是 salesforce 公司开源的多模态模型,其大致的原理,可以类比看图写作,当前 AI 在文生图模式之外,也支持图生文模式,可以将照片中的核心元素识别出来。然后把这些元素作为上下文,交给 ChatGPT 类似的大语言模型进行扩展写作和对话。 BLIP2 在线试用地址为:https:/

    2024年02月06日
    浏览(39)
  • [论文阅读]MVX-Net——基于3D目标检测的多模态VoxelNet

    MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目标检测的多模态VoxelNet 论文网址:MVX-Net 这篇论文主要提出了两种多模态融合方法,PointFusion和VoxelFusion,用于将RGB图像特征与点云特征结合,从而提高3D目标检测的性能。论文的主要内容和贡献总结如下: 提出了两种简单有效的多模

    2024年02月07日
    浏览(67)
  • CoFSM基于共现尺度空间的多模态遥感图像匹配方法--论文阅读记录

    目录 论文 Multi-Modal Remote Sensing Image Matching Considering Co-Occurrence Filter 参考论文:SIFT系列论文, SIFT    Distinctive Image Features from Scale-Invariant Keypoints,作者:David G. Lowe 快速样本共识算法FSC:A Novel Point-Matching Algorithm Based on Fast Sample Consensus for Image Registration ,Digital Object Ident

    2024年04月24日
    浏览(96)
  • [BLIP]-多模态Language-Image预训练模型

    论文:https://arxiv.org/pdf/2201.12086.pdf  代码:GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation demo:BLIP - a Hugging Face Space by akhaliq motivation: 从模型角度来看,大多数方法要么采用基于编码器的模型,要么采用编码器

    2024年02月05日
    浏览(48)
  • 图像融合论文阅读:CoCoNet: 基于多层特征集成的耦合对比学习网络多模态图像融合

    @article{liu2023coconet, title={Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion}, author={Liu, Jinyuan and Lin, Runjia and Wu, Guanyao and Liu, Risheng and Luo, Zhongxuan and Fan, Xin}, journal={International Journal of Computer Vision}, pages={1–28}, year={2023}, publisher={Springer} } 论文级

    2024年02月04日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包