GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

这篇具有很好参考价值的文章主要介绍了GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

  • 项目地址:https://minigpt-4.github.io/ 

  • 论文链接:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

  • 代码:https://github.com/Vision-CAIR/MiniGPT-4

  • 视频:https://youtu.be/__tftoxpBAw

  • 数据集:https://drive.google.com/file/d/1nJXhoEcy3KTExr17I7BXqY5Y9Lx_-n-9/view

  • Demo地址:https://6b89c70eb5e14dca33.gradio.live/

  • Demo备选地址1:https://b2517615b965687635.gradio.live/

  • Demo备选地址2:https://c8de8ff74b6a6c6a9b.gradio.live/

  • Demo备选地址3:https://0a111504e072685259.gradio.live/

  • Demo备选地址4:https://90bc0bac96e6457e8f.gradio.live/

Demo界面如下

GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

MiniGPT-4介绍

阿卜杜拉国王科技大学的研究团队,提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——MiniGPT-4,并将其开源

MiniGPT-4 由一个带有预训练的 ViT(与BLIP-2一样) 和 Q-Former 的视觉编码器、一个单一的线性投影层和一个 Vicuna 大语言模型组成,只训练线性投影层,视觉编码器和Vicuna的参数冻结。模型结构如下图所示:

GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

实验发现,MiniGPT-4 具有出色的多模态能力,如从手写草稿创建网站、生成详细的图像描述、根据图像创作故事和诗歌、为图像中描述的问题提供解决方案,以及根据食物照片教对话对象如何烹饪一道美味的菜品等

MiniGPT-4两阶段fine-tuning

作者采用两阶段fine-tuningMiniGPT-4,第一阶段是在公开数据上微调,第二阶段是构建高质量的对话数据再微调。

First pretraining stage

MiniGPT-4使用一个线性投影层来对齐Vicuna语言编码器和视觉特征。刚开始,使用4个A100GPU以batch大小为256训练了20k个step(训练了10小时),训练数据是LAION,Conceptual Captions和SBU(总共5M数据),数据格式如下所示:

GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

<ImageFeature> 表示是线性投影层得到的视觉特征。

如果生成的句子不够80个tokens,那么就在后面pad ###Human: Continue ###Assistant:

构建第二阶段微调所需要的数据

从Conceptual Caption数据集中随机选择5000个样本,这些样本可能会有噪声或者有错误,使用ChatGPT进行修复这些错误,Prompt如下:

GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

最终人工进行检查,最后整理符合要求的样本有3500个,这些样本将用于第二阶段微调。

Second pretraining stage

第二阶段微调的Prompt数据格式如下:

GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

<Instruction> 是从预定义好的instruction集中随机采样的,比如“Describe this image in detail”或“Could you describe the contents of this image for me”

Note:在计算回归损失函数的时候不计算<Instruction> 这个特殊的Prompt。

这个阶段使用一个A100GPU在batch大小为12的时候,训练400个step,仅仅训练了7分钟。

MiniGPT-4示例

GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源文章来源地址https://www.toymoban.com/news/detail-462648.html

到了这里,关于GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包