刷论文的感觉太棒了!(对比学习 / CLIP改进 / 视频理解)

这篇具有很好参考价值的文章主要介绍了刷论文的感觉太棒了!(对比学习 / CLIP改进 / 视频理解)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

😍😍😍更多精彩福利😍😍😍
刷论文的感觉太棒了!(对比学习 / CLIP改进 / 视频理解)

1. 对比学习论文总结

学习视频:

  • 李沐-MoCo论文逐段精读
  • 李沐-对比学习论文综述
阶段 代表工作
百花齐放(18-19中) Inst Disc: memory Bank, 每张图都是一个类别(个体判别) Inva Spread: end-to-end, 在同一mini-batch中选正负样本 CPC V1:用预测未来的代理任务做对比学习 CMC:增大同一物体不同视角的互信息 Deep cluster
CV双雄(19-20中) MoCo V1: queue + momentum encoder SimCLR V1: MLP(projection head) + 数据增强 CPC V2 Infomin
不用负样本 MoCo V2: V1 + MLP + aug + 增大epoch SimCLR V2: large, 2层MLP, momentum encoder Swav: multi-crop, 图片一个视角预测另一个视角,和聚类中心比
Transformer MoCo V3: V2 + SimSiam BYOL(匹配->预测) =》BN Blog =》BYOL V2
BYOL =》Sim Siam(stop gradient) =》DINO

2. CLIP改进论文总结

学习视频:

  • 李沐-CLIP论文逐段精读
  • 李沐-CLIP改进工作串讲(上)
  • 李沐-CLIP改进工作串讲(下)
领域 代表工作
语义分割 Lseg: Language Driven Semantic Segnatation: zero-shot CLIP, dense feature, image encoder: DPT (ViT + decoder), supervise learning(依赖mask手工标注)目标函数非对比学习
GroupVit: Semantic Segmentation Energes from Text Supervision: ViT + group block + group tokens(hpy聚类中心)
目标检测 Open-Vocabulary ViLD: CLIP的预训练image encoder作为teacher学习image embedding对比
GLIP:Grounded Language-Image Pre-traing: 伪标签, phrase grounding
图形学 CLIPasso: saliency initial, semantic loss + geometric loss
视频 图文检索 CLIP4Clip: 时序图像文本融合:mean pooling效果最好; Transformer/LSTM; early fusion(tight)效果差
动作识别 ActionCLIP:temporal shift module
图像文本 CLIP-ViL 用回图像文本下游任务
语音 AudioCLIP
三维 PointCLIP depthCLIP
CLIP改进工作可以总结为三类:
    1. 直接使用CLIP预训练模型得到更好的特征和现有框架得到特征进行融合(改动最小)
    2. CLIP当做teacher,将其训练得到的特征用来蒸馏,加速现有模型训练(中间)
    3. 借鉴多模态对比学习思想,定义自己任务的正负样本计算对比loss,实现zero-shot

3. 视频理解论文总结

学习视频:

  • 李沐-双流网络论文逐段精读
  • 李沐-I3D论文精读
  • 李沐-视频理解论文串讲(上)
  • 李沐-视频理解论文串讲(下)

传统手工特征方法:
(image) SIFT -> (Video) STIP -> (光流) DT/IDT -> (全局特征) IDT + FV

深度学习方法:文章来源地址https://www.toymoban.com/news/detail-412881.html

方法 代表工作
CNN DeepVideo(CVPR2014): Sports 1M Datasets, 失败的尝试
Two-Stream Two-Stream(nureons2014): Spatial stream + Temporal stream late fusion
TDD(CVPR2015): 手工IDT+沿轨迹堆叠光流
Beyond Short Snippet(CVPR2015): 使用LSTM增强特征,实际上最后一层+LSTM没那么有用(帧短抽到的特征差不多)
Conv Two-Stream(CVPR2016): early fusion, Spatial fusion(max/concat/stack Conv(效果最好)/sum/bilinear), Temporal fusion(3D Pooling/3D Conv + 3D Pooling)
王利民TSN(ECCV2016): 长时间视频理解, 给视频分段后结果求共识
    tips1: 使用ImageNet预训练光流, 复制参数为目标channel来初始化
    tips2: partial BN, 第一层使用BN, 其余层freeze BN
    tips3: 数据增强, conner cropping = scale jittering
TSN+全局建模
DOVF(CVPR2017): face rencting encoding
TLE(CVPR2017): end-to-end, bi-linearing encoding
ActionVLAN: VLAN
3D Conv C3D(ICCV2015): 3D版VGG, 网络深, 提供一个好特征可以做下游任务
I3D(CVPR2017): 利用2D预训练模型, 同时使用光流刷爆UCF101, 证明2D向3D迁移的有效性
Non-local NN: 使用plug and play(即插即用)的non-local block(self-attention)长时间建模,验证了多block效果更好/td>
R(2+1)D(CVPR2018): 3D拆成空间2D+时间1D(二者利用特征投射融合), 训练简单效果好
SlowFast: Slow(标准I3D)少帧小输入大网络 + Fast多帧大输入小网络 later connection, Fast时间维度不下采样
Hidden Two-Stream: 将光流学习融入网络,不需要抽光流
TSM(ICCV2019): shift 2D网络
总结: 由于抽光流耗时且占内存,兴起了3D Conv, 从C3D到I3D, 之后的演变主要为四方面:
    1. 改进2D网络: R3D, MFNet, STC
    2. 2D结合3D:S3D, R(2+1)D, ECO, D3D
    3. 长时序处理:LTC, T3D, non-local, V4D
    4. 高效率:CSN, SlowFast, X3D
Vision Transformer Timesformer: Space-Time Attention降低复杂度: Divided ST A; Sparse Local Global A; Axial A(T+W+H)
ViViT, VidTr, MViT...

到了这里,关于刷论文的感觉太棒了!(对比学习 / CLIP改进 / 视频理解)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【视频异常检测】Delving into CLIP latent space for Video Anomaly Recognition 论文阅读

    中文题目:视频异常识别的CLIP潜在空间研究 文章信息: 原文链接:https://arxiv.org/abs/2310.02835 源代码:https://github.com/luca-zanella-dvl/AnomalyCLIP 我们介绍了一种新的方法AnomalyCLIP,它首次将大型语言和视觉(LLV)模型(如CLIP)与多实例学习相结合,用于联合视频异常检测和分类。

    2024年04月14日
    浏览(91)
  • 论文笔记:基于CLIP引导学习的多模式假新闻检测

      对于我们这一代人来说,在线社交网络在很大程度上取代了以报纸和杂志为代表的传统信息交流方式。人们喜欢在社交媒体上寻找朋友或分享观点。然而,在线网络也促进了假新闻的广泛和快速传播。   文中提出了一个FND-CLIP框架,即基于对比语言-图像预训练(CLIP)的多

    2024年01月21日
    浏览(43)
  • CLIP和改进工作

    CLIP 改进方向 语义分割 Lseg、GroupViT 目标检测 ViLD、GLIP v1/v2 视频理解 VideoCLIP、CLIP4clip、ActionCLIP 图像生成 VQGAN-CLIP、CLIPasso、CLIP-Draw 多模态下游任务 VL Downstream 其他 prompt enginering(CoOp等) depthCLIP、pointCLIP(点云)、audioCLIP(音频) 数据集4个亿 论文标题中有一个重要的点——

    2024年02月07日
    浏览(29)
  • 强化学习-DQN改进及一些强化学习路由优化论文笔记

    通用超参数 Duel Structure VS→该state在当前policy下的value QSA→该state进行这个action在当前policy下的value advantage = VS - QSA 裁剪区域的确定? 34 194按行输出min,33 193min为90*90 background knowledge [bisect Module] python自带的二分查找的包 基本使用 bisect with list 在一个increasing array插入一个元素

    2024年04月13日
    浏览(49)
  • 对比学习论文阅读:CoCLR算法笔记

    标题:Self-supervised Co-training for Video Representation Learning 会议:NIPS2020 论文地址:https://dl.acm.org/doi/abs/10.5555/3495724.3496201 官方代码:https://www.robots.ox.ac.uk/~vgg/research/CoCLR/ 作者单位:牛津大学 本文的研究目标是纯视觉的自监督视频表征学习。我们做出了以下贡献:①我们研究了在

    2024年02月03日
    浏览(61)
  • 论文笔记与实战:对比学习方法MOCO

    (好久没更新了~~~准备分享一些paper笔记以及在公司分享的内容) (还是要记录呀,很多东西过段时间再看都有点想不起来了) MOCO: Mo mentum Co ntrast for Unsupervised Visual Representation Learning MOCO是标题前两个单词的首两个字符缩写组成,翻译过来就是动量对比,是一种无监督(或者

    2024年02月16日
    浏览(42)
  • 带你认识一下多模态对比语言图像预训练CLIP

    本文分享自华为云社区《多模态对比语言图像预训练CLIP:打破语言与视觉的界限》,作者:汀丶。 一种基于多模态(图像、文本)对比训练的神经网络。它可以在给定图像的情况下,使用自然语言来预测最相关的文本片段,而无需为特定任务进行优化。CLIP的设计类似于GPT

    2024年02月06日
    浏览(38)
  • 中科院一区论文复现,改进蜣螂算法,Fuch映射+反向学习+自适应步长+随机差分变异,MATLAB代码...

    本期文章复现一篇发表于 2024年 来自中科院一区 TOP顶刊《Energy》 的改进蜣螂算法。 论文引用如下: Li Y, Sun K, Yao Q, et al. A dual-optimization wind speed forecasting model based on deep learning and improved dung beetle optimization algorithm[J]. Energy, 2024, 286: 129604. 改进的蜣螂优化算法原理如下 : 改进策

    2024年02月19日
    浏览(36)
  • CLIP Surgery论文阅读

    M = norm ⁡ ( resize ⁡ ( reshape ⁡ ( F i ˉ ∥ F i ‾ ∥ 2 ⋅ ( F t ∥ F t ‾ ∥ 2 ) ⊤ ) ) ) M=operatorname{norm}left(operatorname{resize}left(operatorname{reshape}left(frac{boldsymbol{F}_{bar{i}}}{left|boldsymbol{F}_{underline{i}}right|_{2}} cdotleft(frac{boldsymbol{F}_{t}}{left|boldsymbol{F}_{underline{t}}right|_{2}}

    2024年03月16日
    浏览(49)
  • CLIP 论文解读

    现有的计算机视觉系统用来预测一组固定的预订对象类别,比如ImageNet数据集有1000类,CoCo数据集有80类。这种受限的监督形式限制了模型的通用性和可用性。使用这种方法训练好的模型对训练过程中出现的对象类别有很好的识别效果,但是对训练过程中未出现的类别,识别效

    2024年02月04日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包