MiniGPT-4原理解读——大模型论文阅读笔记三

这篇具有很好参考价值的文章主要介绍了MiniGPT-4原理解读——大模型论文阅读笔记三。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文:https://arxiv.org/pdf/2304.10592v1.pdf
代码:https://github.com/vision-cair/minigpt-4

一. 作者动机

GPT-4展示了非凡的多模态能力,比如直接从手写文本生成网站,以及识别图像中的幽默元素。这些特性在以前的视觉语言模型中很少见。我们认为GPT-4具有先进的多模态生成能力的主要原因在于利用了更先进的大型语言模型(LLM)。然而,大语言模型和视觉模型训练起来比较消耗资源,作者提出了MiniGPT-4,它将一个冻结的视觉编码器与一个冻结的LLM(Vicuna)对齐,仅训练一个投影层,达到类似GPT-4的效果。

二. 算法架构

MiniGPT-4原理解读——大模型论文阅读笔记三
图1 大型语言模型的结构示意图:MiniGPT-4由一个具有预训练ViT和Q-Former的视觉编码器、一个线性投影层和一个高级Vicuna大型语言模型组成。MiniGPT-4只需要训练线性投影层,将视觉特征与Vicuna对齐。

三. 训练细节

  1. 预训练阶段
    在初始的预训练阶段,模型旨在从大量对齐的图像文本对中获取视觉语言知识。我们将从注入的投影层输出的结果视为LLM的软提示,促使其生成相应的真实文本。
  2. 微调阶段
    使用筛选出的高质量图像文本对对预训练模型进行微调。在微调过程中,我们使用以下模板中预定义的提示语:
    MiniGPT-4原理解读——大模型论文阅读笔记三
    在这个提示语中, 表示从我们预定义的指令集中随机抽取的指令,包括“详细描述这张图片”或“能否为我描述一下这张图片的内容”等不同形式的指令。需要注意的是,我们不会针对这个特定的文本-图像提示计算回归损失。

四. 论文点评

训练大模型很耗资源,而作者整个训练过程需要约10小时,利用4个A100(80GB)GPU完成。这样给普通人或者研究者提供了方向,降低了训练门槛。

阅读推荐:https://zhuanlan.zhihu.com/p/626206324文章来源地址https://www.toymoban.com/news/detail-503859.html

到了这里,关于MiniGPT-4原理解读——大模型论文阅读笔记三的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Chatgpt论文笔记——MiNiGPT4解读

    代码地址:https://github.com/Vision-CAIR/MiniGPT-4 摘要写的就很简单了,标黄的是重点,可以看到这个方法很简单,就是拿了一个视觉的encoder(Blip-2)以及拿了一个文本的encoder(Vicuna),最后外加上一个projection层就构成了MiniGPT4,并且在训练的时候视觉和文本的encoder都是冻结参数

    2024年02月12日
    浏览(35)
  • 【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读

    论文地址:https://arxiv.org/pdf/1910.13302.pdf 代码地址:GitHub - ZFTurbo/Weighted-Boxes-Fusion: Set of methods to ensemble boxes from different object detection models, including implementation of \\\"Weighted boxes fusion (WBF)\\\" method. 【 原理 】 (1)将所有获得的候选框按得分进行降序排列; (2)选取得分最高的候选框

    2024年02月10日
    浏览(43)
  • [论文阅读笔记18] DiffusionDet论文笔记与代码解读

    扩散模型近期在图像生成领域很火, 没想到很快就被用在了检测上. 打算对这篇论文做一个笔记. 论文地址: 论文 代码: 代码 首先介绍什么是扩散模型. 我们考虑生成任务, 即encoder-decoder形式的模型, encoder提取输入的抽象信息, 并尝试在decoder中恢复出来. 扩散模型就是这一类中的

    2023年04月08日
    浏览(64)
  • 万字长文解读图像超分辨率 Real-ESRGAN 论文笔记+代码阅读

    目录 一、介绍 二、重点创新 1.ESRGAN  2.Real-ESRGAN 三、生成器结构 1.整体结构 2.RRDB结构 四、判别器结构 五、高阶退化模型 六、损失函数 1.生成模型损失函数 2.判别模型损失函数         超分辨率(Super-Resolution)指通过硬件或软件的方法提高原有图像的分辨率,通过一系列低

    2024年02月14日
    浏览(36)
  • 【模型压缩】 LPPN论文阅读笔记

    LPPN: A Lightweight Network for Fast Phase Picking  深度学习模型的问题在于计算复杂度较高,在实际数据处理中需要面临较高的处理代价,且需要专用的加速处理设备,如GPU。随着数据累积,迫切需要设计一种能够保证精度的轻量化高速震相拾取模型,以提高处理海量数据的效率,这

    2024年02月16日
    浏览(38)
  • 【论文阅读笔记】Mamba模型代码理解

    官方实现:state-spaces/mamba (github.com) 最简化实现:johnma2006/mamba-minimal: Simple, minimal implementation of the Mamba SSM in one file of PyTorch. (github.com) 直接实现:alxndrTL/mamba.py: A simple and efficient Mamba implementation in PyTorch and MLX. (github.com) 官方代码做了大量优化,目录层级较多,对于理解模型含

    2024年04月13日
    浏览(66)
  • 多模态大模型-CogVLm 论文阅读笔记

    论文地址 :https://arxiv.org/pdf/2311.03079.pdf code地址 : https://github.com/THUDM/CogVLM 时间 : 2023-11 机构 : zhipuai,tsinghua : visual language model 效果:(2023-11) :CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W,

    2024年02月03日
    浏览(50)
  • 中英双语大模型ChatGLM论文阅读笔记

    论文传送门: [1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling [2] Glm-130b: An open bilingual pre-trained model Github链接: THUDM/ChatGLM-6B GLM-130B 和 GPT-3 175B(davinci) 相比,参数量减少,但性能提升了。 INT4 quantization without post training INT4量化是一种将模型的权重和激活从使用

    2024年02月02日
    浏览(43)
  • 论文阅读笔记AI篇 —— Transformer模型理论+实战 (二)

    资源地址 Attention is all you need.pdf(0积分) - CSDN 图1——Transformer结构图 图2——Attention结构图 Background 中说,ByteNet和ConvS2S都使用了CNN结构作为基础模块去计算input和output之间的潜在联系,其中,关联来自两个任意输入或输出位置的信号所需的计算量,伴随着distance的增长而增长,

    2024年01月16日
    浏览(43)
  • 论文阅读笔记AI篇 —— Transformer模型理论+实战 (一)

    资源地址 Attention is all you need.pdf(0积分) - CSDN Abstract 中强调 Transformer摒弃了循环和卷积网络结构 ,在English-to-German翻译任务中,BLEU得分为28.4, 在English-to-French的翻译任务中的BLEU得分为41.0,用8张GPU训练了3.5天,与各文献中的best models相比,这是非常小的训练成本。 Introductio

    2024年01月18日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包