Multimodal Contrastive Training for Visual Representation Learning

1年前作者：宇来风满楼分类：Toy博客阅读(18)违法举报

这篇具有很好参考价值的文章主要介绍了Multimodal Contrastive Training for Visual Representation Learning。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Multimodal Contrastive Training for Visual Representation Learning,表征学习,人工智能,计算机视觉,算法,深度学习
parameterize the image encoder as f $_{iq}$

query feature q $_{ii}$ ，key feature k $_{ii}$
parameterize the textual encoder as $f_{cq}(·; Θ_q, Φ_{cq})$ ，momentum textual encoder as $f_{ck}(·; Θ_k, Φ_{ik})$ . $c^†_j$ 和 $c^\star_j$ 是different augmented examples
Multimodal Contrastive Training for Visual Representation Learning,表征学习,人工智能,计算机视觉,算法,深度学习

吐槽

第一张图字母下标被黑色背景盖住了，且作者不公布代码，不该是CVPR的“水平”文章来源地址https://www.toymoban.com/news/detail-790709.html

到了这里，关于Multimodal Contrastive Training for Visual Representation Learning的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》
本文是2022年CVPR上的一篇多模态论文，利用对比学习和动量来进行图片与文本信息的上游预训练。作者提出问题简单的跨模态比对模型无法确保来自同一模态的相似输入保持相似。（模态内部语义信息损失）全局互信息最大化的操作没有考虑局部信息和结构信息。对于上
2024年04月13日
浏览(15)
好文推荐 A transformer-based representation-learning model with unified processing of multimodal input
论文地址：https://www.nature.com/articles/s41551-023-01045-x 代码地址：https://github.com/RL4M/IRENE 基于Transformer的表示学习模型，作为临床诊断辅助工具，以统一的方式处理多模态输入。将图像与文字转化为visual tokens和text tokens，通过一个双向的跨模态注意力机制块共同学习不同信息间的
2024年02月07日
浏览(9)
论文阅读：Multimodal Graph Transformer for Multimodal Question Answering
论文名：Multimodal Graph Transformer for Multimodal Question Answering 论文链接尽管 Transformer模型在视觉和语言任务中取得了成功，但它们经常隐式地从大量数据中学习知识，而不能直接利用结构化的输入数据。另一方面，结构化学习方法，如集成先验信息的图神经网络(gnn)，几乎无法
2024年02月04日
浏览(8)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
大开眼界？探索多模态模型种视觉编码器的缺陷。论文中指出，上面这些VQA问题，人类可以瞬间给出正确的答案，但是多模态给出的结果却是错误的。是哪个环节出了问题呢？视觉编码器的问题？大语言模型出现了幻觉？还是视觉特征与语言模型间的特征没有对齐？作者将
2024年01月24日
浏览(11)
论文笔记--GloVe: Global Vectors for Word Representation
标题：GloVe: Global Vectors for Word Representation 作者：Jeffrey Pennington, Richard Socher, Christopher D. Manning 日期：2014 期刊：EMNLP 文章提出了一种新的单词表示的训练方法：Glove。该方法结合了基于统计方法和基于上下文窗口方法的优势，在多个下游任务上超越了当下SOTA方法的表现。
2024年02月15日
浏览(8)
【论文阅读】Equivariant Contrastive Learning for Sequential Recommendation
2023-RecSys https://github.com/Tokkiu/ECL 对比学习（CL）有利于对具有信息性自我监督信号的顺序推荐模型的训练。现有的解决方案应用一般的顺序数据增强策略来生成正对，并鼓励它们的表示是不变的。然而，由于用户行为序列的固有属性，一些增强策略，如项目替代，可能会导致
2024年01月18日
浏览(11)
论文阅读：Rethinking Range View Representation for LiDAR Segmentation
来源ICCV2023 LiDAR分割对于自动驾驶感知至关重要。最近的趋势有利于基于点或体素的方法，因为它们通常产生比传统的距离视图表示更好的性能。在这项工作中，我们揭示了建立强大的距离视图模型的几个关键因素。我们观察到， “多对一”的映射，语义不连贯性，形状变
2024年02月02日
浏览(10)
【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
本文推出了 EVA ，这是一个以视觉为中心的基础模型，旨在仅使用可公开访问的数据来探索大规模视觉表示的局限性。EVA 是一种经过预训练的普通 ViT，用于重建以可见图像块为条件的屏蔽掉的图像-文本对齐（image-text aligned）的视觉特征。通过这个前置任
2024年02月06日
浏览(12)
论文阅读：Heterogeneous Graph Contrastive Learning for Recommendation（WSDM ’23）
论文链接在推荐系统中，图神经网络在建模图结构数据上已经变成一个强有力的工具。但是现实生活的推荐语义通常涉及异质关系（像用户的社交关系，物品知识关系的依赖），这些都包含丰富的语义信息去提升表征能力的学习。同时，对比自监督学习在推荐系统中也取得了
2024年02月08日
浏览(8)
论文笔记 - ：DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION
Title: 深入研究单目 3D 物体检测的输出表示单目 3D 对象检测旨在从单个图像中识别和定位 3D 空间中的对象。最近的研究取得了显着的进展，而所有这些研究都遵循基于 LiDAR 的 3D 检测中的典型输出表示。然而，在本文中，我们认为现有的离散输出表示不适合单目 3D 检测。具
2024年04月09日
浏览(7)