机器视觉多模态学习11篇经典论文代码以及解读

这篇具有很好参考价值的文章主要介绍了机器视觉多模态学习11篇经典论文代码以及解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

此处整理了深度学习－机器视觉，最新的发展方向－多模态学习，中的11篇经典论文，整理了相关解读博客和对应的Github代码，看完此系列论文和博客，相信你能快速切入这个方向。每篇论文、博客或代码都有相关标签，一目了然，整理到这里了

webhub123 机器视觉多模态学习11篇经典论文

在网站中的效果如下，全部放在对应的AI目录中，便于管理。这样就不需要在每个网站一个个点击收藏，然后再也找不到了

多模态代码,计算机视觉,人工智能,深度学习

CLIP　Learning Transferable Visual Models From Natural Language Supervision 　图片和文本之间的对比学习

ViLT　ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision　第一个摆脱了目标检测的视觉文本模型

ViLD　OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION　CLIP蒸馏帮助开集目标检测a

GLIP　Grounded Language-Image Pre-training　联合目标检测和文本定位

CLIP4Clip　CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip　拿CLIP直接做视频文本retrievala

ActionCLIP　ActionCLIP: A New Paradigm for Video Action Recognition　用多模态对比学习有监督的做视频动作分类

PointCLIP　PointCLIP: Point Cloud Understanding by CLIP　3D变2D，巧妙利用CLIP做点云

LSeg　LANGUAGE-DRIVEN SEMANTIC SEGMENTATION　有监督的开集分割

GroupViT　GroupViT: Semantic Segmentation Emerges from Text Supervisioｎ　只用图像文本对也能无监督做分割

CLIPassoCLIP　CLIPasso: Semantically-Aware Object Sketching 　跨界生成简笔画

DepthCLIP　Can Language Understand Depth?　用文本跨界估计深度

论文和简介整理自　GitHub - mli/paper-reading: 深度学习经典、新论文逐段精读　其他博客和代码为手工整理，读者可以根据自己喜好，在网站上复制到自己的收藏中，然后手动替换即可。

文章来源地址https://www.toymoban.com/news/detail-649441.html

到了这里，关于机器视觉多模态学习11篇经典论文代码以及解读的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网