VLM 系列——中文CLIP——论文解读

这篇具有很好参考价值的文章主要介绍了VLM 系列——中文CLIP——论文解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、概述

1、是什么

    CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》,训练使用2亿 图-文 对的对比学习(不是LLM的预测下一个token),是一个双塔模型(图像和文本各子拥有一个编码器)。由于对齐了图像和文本特征,可以用来做:图-图(文章中没有相关测试任务)、图-文、文-图、文-文(文章中没有相关测试任务)的检索,当然 图-文 和 文-图 检索 也可以转化为zero-shot 的分类。

2、亮点

    *开源代码、模型(多个版本模型:图像编码器提供5种,参数量77-958M)、demo,并且提供用于部署的NVIDIA TensorRT和ONNX模型,比用于推理的Pytorch模型快2到10倍。
    *消融实验后验证,两阶段训练更优:使用CLIP初始化,先训练文本编码器;再联合训练。
    *在MUGE、Flickr30K-CN和COCO-CN数据集的zero-shot 和 finetune 任务上达到最先进的水平;在ELEVATER上的zero-shot分类具有竞争力的性能。

PS

    在一些场景下使用,居然ba

文章来源地址https://www.toymoban.com/news/detail-821740.html

到了这里,关于VLM 系列——中文CLIP——论文解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • CLIP,GLIP论文解读,清晰明了

    CLIP:Contrastive Language-Image Pre-training 论文名称:Learning Transferable Visual Models From Natural Language Supervision 原论文地址:https://arxiv.org/abs/2103.00020 开源预训练模型:https://github.com/OpenAI/CLIP GLIP论文名称:Grounded Language-Image Pre-training 原论文地址: https://arxiv.org/abs/2112.03857 是的没错,开

    2024年02月05日
    浏览(32)
  • CLIP原理解读——大模型论文阅读笔记一

    通过自然语言处理来的一些监督信号,可以去训练一个迁移效果很好的视觉模型。 论文的作者团队收集了一个超级大的图像文本配对的数据集,有400 million个图片文本的配对, 模型最大用了ViT-large,提出了CLIP(Contrastive Language-Image Pre-training),是一种从自然语言监督中学习

    2024年02月08日
    浏览(31)
  • AIGC系列之:CLIP和OpenCLIP

    目录 模型背景 CLIP模型介绍 相关资料 原理和方法 Image Encoder Text Encoder 对比学习 预训练 Zero Shot预测 优势和劣势 总结 OpenClip模型介绍 相关资料 原理 结果 用法 模型总结 Stable Diffusion主要由三个核心模块组成: Text Encoder(文本编码器) Image Information Creator(图像信息生成器)

    2024年02月04日
    浏览(30)
  • 多模态表征—CLIP及中文版Chinese-CLIP:理论讲解、代码微调与论文阅读

    我之前一直在使用CLIP/Chinese-CLIP,但并未进行过系统的疏导。这次正好可以详细解释一下。相比于CLIP模型,Chinese-CLIP更适合我们的应用和微调,因为原始的CLIP模型只支持英文,对于我们的中文应用来说不够友好。Chinese-CLIP很好地弥补了这方面的不足,它使用了大量的中文-文

    2024年03月15日
    浏览(34)
  • AIGC究竟是什么?深度解读人工智能生成内容

    随着科技的飞速发展,人工智能已经不再是遥不可及的未来技术,而是与我们的生活密切相关。从智能手机到自动驾驶汽车,从聊天机器人到医疗诊断系统,人工智能的应用越来越广泛。在这个过程中,AIGC(人工智能生成内容)作为一个新兴的概念,正逐步走进公众的视野。

    2024年02月09日
    浏览(51)
  • 论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

    如何将现有的图像 - 文本多模态大模型(例如 OpenAI CLIP)用于视频内容理解,是一个非常实用且具有前景的研究课题 。它不仅可以充分挖掘图像大模型的潜力,还可以为视频大模型的设计和研究铺平道路。 在视频内容理解领域,为节省计算 / 数据开销,视频模型通常 「微调

    2024年02月02日
    浏览(34)
  • 最近读的AIGC相关论文思路解读

    提示:本博客是作者本人最近对AIGC领域相关论文调研后,临时记录所用,所有观点都是来自作者本人局限理解,以及个人思考,不代表对。如果你也正好看过相关文章,发现作者的想法和思路有问题,欢迎评论区留言指正! 既然是论文阅读分享,首先,你需要有一些AIGC基础

    2024年02月10日
    浏览(26)
  • 何恺明团队12页论文新作剑指AIGC!“新CLIP”只需一个trick,训练速度快3.7倍!性能不降反升...

    杨净 艳艳 发自 凹非寺 量子位 | 公众号 QbitAI 何恺明团队又上新了。 这次,他们的成果围绕当下最火的AIGC背后的CLIP展开。 ——只在该模型的极简结构上,施加了一个简单的mask,就让新模型的速度快了3.7倍。 同时,性能还可以做到 不降反升 。 团队表示,希望他们的工作能

    2024年02月11日
    浏览(43)
  • 论文怎么降低AIGC(人工智能生成内容)的影响?

    大家好,小发猫降重今天来聊聊论文怎么降低AIGC(人工智能生成内容)的影响?,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 论文怎么降低AIGC(人工智能生成内容)的影响? 在学术界,随着人工智能技术

    2024年03月16日
    浏览(52)
  • AIGC系列之:DDPM原理解读(简单易懂版)

    目录 DDPM基本原理 DDPM中的Unet模块 Unet模块介绍 Unet流程示意图 DownBlock和UpBlock MiddleBlock 文生图模型的一般公式 总结         本文部分内容参考文章:https://juejin.cn/post/7251391372394053691,https://zhuanlan.zhihu.com/p/563661713,感谢博主的辛苦工作,本文尽量去繁就简去理解DDPM的原理

    2024年04月17日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包