Visual ChatGPT原理解读——大模型论文阅读笔记四

这篇具有很好参考价值的文章主要介绍了Visual ChatGPT原理解读——大模型论文阅读笔记四。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文:https://arxiv.org/abs/2303.04671
代码:https://github.com/microsoft/TaskMatrix

一. 整体框架

Visual ChatGPT原理解读——大模型论文阅读笔记四
如图所示,用户上传一张黄花的图像并输入一个复杂的语言指令“请根据该图像的预测深度生成一朵红花,然后逐步使其像卡通一样”。
在交互管理器的帮助下,Visual ChatGPT 开始了相关视觉基础模型的执行链。 在示例条件下,它首先应用深度估计模型来检测深度信息,然后利用深度到图像模型生成带有深度信息的红色花朵图形,最后利用基于稳定扩散模型的风格迁移VFM来改变这个形象的风格变成了卡通。
在上述管道中,交互管理器作为ChatGPT的调度器,提供视觉格式类型并记录信息转换过程。
最后,当Visual ChatGPT从交互管理器获得“卡通”提示时,它将结束执行管道并显示最终结果。

整个系统流程是

  1. 明确告诉 ChatGPT 每个 VFM 的能力并指定输入输出格式;
    2)将不同的视觉信息,例如pngimages,深度图像和mask矩阵,转换为语言格式以帮助ChatGPT理解;
  2. 处理不同视觉基础模型的历史、优先级和冲突。
    在交互管理器的帮助下,ChatGPT可以利用这些VFMs并以迭代的方式接收他们的反馈,直到它满足用户的要求或达到结束条件。

二. 流程示例

Visual ChatGPT原理解读——大模型论文阅读笔记四
上图是Visual ChatGPT的框架图,左边展示了3轮对话;中间部分展示了Visual ChatGPT如何迭代地调用Visual Foundation Models并提供答案;右侧展示了QA的详细流程。文章来源地址https://www.toymoban.com/news/detail-493070.html

到了这里,关于Visual ChatGPT原理解读——大模型论文阅读笔记四的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】Weighted Boxes Fusion(WBF)模型融合原理解读

    论文地址:https://arxiv.org/pdf/1910.13302.pdf 代码地址:GitHub - ZFTurbo/Weighted-Boxes-Fusion: Set of methods to ensemble boxes from different object detection models, including implementation of \\\"Weighted boxes fusion (WBF)\\\" method. 【 原理 】 (1)将所有获得的候选框按得分进行降序排列; (2)选取得分最高的候选框

    2024年02月10日
    浏览(49)
  • VL 模型 Open-Set Domain Adaptation with Visual-Language Foundation Models 论文阅读笔记

    写在前面   又是一周周末,在家的时间感觉过得很快呀,下周就能回学校啦~ 论文地址:Open-Set Domain Adaptation with Visual-Language Foundation Models 代码地址:当前版本暂未提供代码地址 预计提交于:CVPR 2024 Ps:2023 年每周一篇博文阅读笔记,主页 更多干货,欢迎关注呀,期待 5

    2024年02月14日
    浏览(45)
  • [论文阅读笔记18] DiffusionDet论文笔记与代码解读

    扩散模型近期在图像生成领域很火, 没想到很快就被用在了检测上. 打算对这篇论文做一个笔记. 论文地址: 论文 代码: 代码 首先介绍什么是扩散模型. 我们考虑生成任务, 即encoder-decoder形式的模型, encoder提取输入的抽象信息, 并尝试在decoder中恢复出来. 扩散模型就是这一类中的

    2023年04月08日
    浏览(66)
  • 论文阅读:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

    目录 摘要 引言 相关工作 Visual ChatGPT Prompt Managing of Sysytem Principles M(P) Prompt Managing of Foundation Models M(F) Prompt Managing of User Querie M(Qi) Prompt Managing of Foundation Model Out-puts M(F(A(j)i )) 实验 实验设置  Visual ChatGPT的作用: 1、不仅可以发送和接收语言,也可以发送和接收图像; 2、提供

    2024年02月09日
    浏览(67)
  • 多模态大语言模型 LlaVA 论文解读:Visual Instruction Tuning

    代码:https://github.com/haotian-liu/LLaVA 在这篇论文中,作者首次尝试使用 纯语言 GPT-4 生成多模态语言图像指令遵循数据 (insruction-following data)。 通过对此类生成数据进行指令调整,推出了 大型语言和视觉助手 (Large Language and Vision Assistant, LLaVA )。一种端到端训练的大型多

    2024年02月11日
    浏览(41)
  • REC 系列 Visual Grounding with Transformers 论文阅读笔记

    写在前面   Hello,马上又是一周过去了,快要开学了,不知道小伙伴们状态都调整过来了吗?加油噢~   这同样是一篇关于 REC 的文章,文章时间比较早了,但也是属于那种入门必看的文章。 论文地址:VISUAL GROUNDING WITH TRANSFORMERS 代码地址:https://github.com/usr922/vgtr 收录于

    2024年02月12日
    浏览(35)
  • Chatgpt论文笔记——MiNiGPT4解读

    代码地址:https://github.com/Vision-CAIR/MiniGPT-4 摘要写的就很简单了,标黄的是重点,可以看到这个方法很简单,就是拿了一个视觉的encoder(Blip-2)以及拿了一个文本的encoder(Vicuna),最后外加上一个projection层就构成了MiniGPT4,并且在训练的时候视觉和文本的encoder都是冻结参数

    2024年02月12日
    浏览(38)
  • 万字长文解读图像超分辨率 Real-ESRGAN 论文笔记+代码阅读

    目录 一、介绍 二、重点创新 1.ESRGAN  2.Real-ESRGAN 三、生成器结构 1.整体结构 2.RRDB结构 四、判别器结构 五、高阶退化模型 六、损失函数 1.生成模型损失函数 2.判别模型损失函数         超分辨率(Super-Resolution)指通过硬件或软件的方法提高原有图像的分辨率,通过一系列低

    2024年02月14日
    浏览(40)
  • 【模型压缩】 LPPN论文阅读笔记

    LPPN: A Lightweight Network for Fast Phase Picking  深度学习模型的问题在于计算复杂度较高,在实际数据处理中需要面临较高的处理代价,且需要专用的加速处理设备,如GPU。随着数据累积,迫切需要设计一种能够保证精度的轻量化高速震相拾取模型,以提高处理海量数据的效率,这

    2024年02月16日
    浏览(42)
  • 【论文阅读笔记】Mamba模型代码理解

    官方实现:state-spaces/mamba (github.com) 最简化实现:johnma2006/mamba-minimal: Simple, minimal implementation of the Mamba SSM in one file of PyTorch. (github.com) 直接实现:alxndrTL/mamba.py: A simple and efficient Mamba implementation in PyTorch and MLX. (github.com) 官方代码做了大量优化,目录层级较多,对于理解模型含

    2024年04月13日
    浏览(70)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包