VLM 系列——中文CLIP——论文解读

1年前作者：TigerZ*分类：Toy博客阅读(9)违法举报

这篇具有很好参考价值的文章主要介绍了VLM 系列——中文CLIP——论文解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、概述

1、是什么

CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》，训练使用2亿图-文对的对比学习（不是LLM的预测下一个token），是一个双塔模型（图像和文本各子拥有一个编码器）。由于对齐了图像和文本特征，可以用来做：图-图（文章中没有相关测试任务）、图-文、文-图、文-文（文章中没有相关测试任务）的检索，当然图-文和文-图检索也可以转化为zero-shot 的分类。

2、亮点

*开源代码、模型（多个版本模型：图像编码器提供5种，参数量77-958M）、demo，并且提供用于部署的NVIDIA TensorRT和ONNX模型，比用于推理的Pytorch模型快2到10倍。

*消融实验后验证，两阶段训练更优：使用CLIP初始化，先训练文本编码器；再联合训练。

*在MUGE、Flickr30K-CN和COCO-CN数据集的zero-shot 和 finetune 任务上达到最先进的水平；在ELEVATER上的zero-shot分类具有竞争力的性能。

PS

在一些场景下使用，居然ba

文章来源地址https://www.toymoban.com/news/detail-821740.html

到了这里，关于VLM 系列——中文CLIP——论文解读的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

CLIP，GLIP论文解读，清晰明了
CLIP：Contrastive Language-Image Pre-training 论文名称：Learning Transferable Visual Models From Natural Language Supervision 原论文地址：https://arxiv.org/abs/2103.00020 开源预训练模型：https://github.com/OpenAI/CLIP GLIP论文名称：Grounded Language-Image Pre-training 原论文地址： https://arxiv.org/abs/2112.03857 是的没错，开
2024年02月05日
浏览(5)
CLIP原理解读——大模型论文阅读笔记一
通过自然语言处理来的一些监督信号，可以去训练一个迁移效果很好的视觉模型。论文的作者团队收集了一个超级大的图像文本配对的数据集，有400 million个图片文本的配对，模型最大用了ViT-large，提出了CLIP（Contrastive Language-Image Pre-training），是一种从自然语言监督中学习
2024年02月08日
浏览(7)
AIGC系列之：CLIP和OpenCLIP
目录模型背景 CLIP模型介绍相关资料原理和方法 Image Encoder Text Encoder 对比学习预训练 Zero Shot预测优势和劣势总结 OpenClip模型介绍相关资料原理结果用法模型总结 Stable Diffusion主要由三个核心模块组成： Text Encoder（文本编码器） Image Information Creator（图像信息生成器）
2024年02月04日
浏览(9)
多模态表征—CLIP及中文版Chinese-CLIP：理论讲解、代码微调与论文阅读
我之前一直在使用CLIP/Chinese-CLIP，但并未进行过系统的疏导。这次正好可以详细解释一下。相比于CLIP模型，Chinese-CLIP更适合我们的应用和微调，因为原始的CLIP模型只支持英文，对于我们的中文应用来说不够友好。Chinese-CLIP很好地弥补了这方面的不足，它使用了大量的中文-文
2024年03月15日
浏览(10)
AIGC究竟是什么？深度解读人工智能生成内容
随着科技的飞速发展，人工智能已经不再是遥不可及的未来技术，而是与我们的生活密切相关。从智能手机到自动驾驶汽车，从聊天机器人到医疗诊断系统，人工智能的应用越来越广泛。在这个过程中，AIGC（人工智能生成内容）作为一个新兴的概念，正逐步走进公众的视野。
2024年02月09日
浏览(35)
论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition
如何将现有的图像 - 文本多模态大模型（例如 OpenAI CLIP）用于视频内容理解，是一个非常实用且具有前景的研究课题。它不仅可以充分挖掘图像大模型的潜力，还可以为视频大模型的设计和研究铺平道路。在视频内容理解领域，为节省计算 / 数据开销，视频模型通常「微调
2024年02月02日
浏览(6)
最近读的AIGC相关论文思路解读
提示：本博客是作者本人最近对AIGC领域相关论文调研后，临时记录所用，所有观点都是来自作者本人局限理解，以及个人思考，不代表对。如果你也正好看过相关文章，发现作者的想法和思路有问题，欢迎评论区留言指正！既然是论文阅读分享，首先，你需要有一些AIGC基础
2024年02月10日
浏览(6)
何恺明团队12页论文新作剑指AIGC！“新CLIP”只需一个trick，训练速度快3.7倍！性能不降反升...
杨净艳艳发自凹非寺量子位 | 公众号 QbitAI 何恺明团队又上新了。这次，他们的成果围绕当下最火的AIGC背后的CLIP展开。 ——只在该模型的极简结构上，施加了一个简单的mask，就让新模型的速度快了3.7倍。同时，性能还可以做到不降反升。团队表示，希望他们的工作能
2024年02月11日
浏览(11)
论文怎么降低AIGC（人工智能生成内容）的影响？
大家好，小发猫降重今天来聊聊论文怎么降低AIGC（人工智能生成内容）的影响？，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：论文怎么降低AIGC（人工智能生成内容）的影响？在学术界，随着人工智能技术
2024年03月16日
浏览(12)
AIGC系列之：DDPM原理解读（简单易懂版）
目录 DDPM基本原理 DDPM中的Unet模块 Unet模块介绍 Unet流程示意图 DownBlock和UpBlock MiddleBlock 文生图模型的一般公式总结本文部分内容参考文章：https://juejin.cn/post/7251391372394053691，https://zhuanlan.zhihu.com/p/563661713，感谢博主的辛苦工作，本文尽量去繁就简去理解DDPM的原理
2024年04月17日
浏览(6)