Visual ChatGPT原理解读——大模型论文阅读笔记四-Toy模板网

这篇具有很好参考价值的文章主要介绍了Visual ChatGPT原理解读——大模型论文阅读笔记四。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

论文：https://arxiv.org/abs/2303.04671
代码：https://github.com/microsoft/TaskMatrix

一. 整体框架

Visual ChatGPT原理解读——大模型论文阅读笔记四
如图所示，用户上传一张黄花的图像并输入一个复杂的语言指令“请根据该图像的预测深度生成一朵红花，然后逐步使其像卡通一样”。
在交互管理器的帮助下，Visual ChatGPT 开始了相关视觉基础模型的执行链。在示例条件下，它首先应用深度估计模型来检测深度信息，然后利用深度到图像模型生成带有深度信息的红色花朵图形，最后利用基于稳定扩散模型的风格迁移VFM来改变这个形象的风格变成了卡通。
在上述管道中，交互管理器作为ChatGPT的调度器，提供视觉格式类型并记录信息转换过程。
最后，当Visual ChatGPT从交互管理器获得“卡通”提示时，它将结束执行管道并显示最终结果。

整个系统流程是

明确告诉 ChatGPT 每个 VFM 的能力并指定输入输出格式；
2）将不同的视觉信息，例如pngimages，深度图像和mask矩阵，转换为语言格式以帮助ChatGPT理解；
处理不同视觉基础模型的历史、优先级和冲突。
在交互管理器的帮助下，ChatGPT可以利用这些VFMs并以迭代的方式接收他们的反馈，直到它满足用户的要求或达到结束条件。

二. 流程示例

Visual ChatGPT原理解读——大模型论文阅读笔记四
上图是Visual ChatGPT的框架图，左边展示了3轮对话；中间部分展示了Visual ChatGPT如何迭代地调用Visual Foundation Models并提供答案；右侧展示了QA的详细流程。文章来源地址https://www.toymoban.com/news/detail-493070.html