GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

这篇具有很好参考价值的文章主要介绍了GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

来源 | 新智元  微信号:AI-era

先是ChatGPT的发布给世界带来了一点小小的NLP震撼,随后发布的GPT-4更是破圈计算机视觉,展现了非凡的多模态能力。

不光能读懂人类的梗,给个手绘草图甚至可以直接写出网站的代码,彻底颠覆了对语言模型、视觉模型能力边界的认知。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

GPT-4:图里的这个「Lighting充电线」,看起来就是个又大又过气的VGA接口,插在这个又小又现代的智能手机上,反差强烈。

不过像GPT-4这么好的模型,CloseAI选择闭源,让广大AI从业者实在是又爱又恨。

最近,来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队开源了GPT-4的平民版MiniGPT-4,从效果上看已经基本具备GPT-4所展现出的多个功能,包括手写网页示意图生成代码、解读图像中的梗等。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

论文链接:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

项目链接:https://minigpt-4.github.io/

代码链接:https://github.com/Vision-CAIR/MiniGPT-4

想要本地部署,一行代码即可搞定!

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

默认加载选项为8bit Vicuna模型以节省GPU内存,beam search的宽度为1,大约需要23G显存。

为了实现有效的MiniGPT-4,研究人员提出了一个两阶段的训练方法,先在大量对齐的图像-文本对上对模型进行预训练以获得视觉语言知识,然后用一个较小但高质量的图像-文本数据集和一个设计好的对话模板对预训练的模型进行微调,以提高模型生成的可靠性和可用性。

文中的研究结果表明,MiniGPT-4具有许多与 GPT-4类似的能力,如通过手写草稿生成详细的图像描述和创建网站;还可以观察到 MiniGPT-4的其他新功能,包括根据给定的图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片烹饪等。

论文作者朱德尧来自泉州,目前是阿卜杜拉国王科技大学(KAUST)的博士生,主要研究方向包括多模态大语言模型、预测模型和强化学习。

论文共同一作Jun Chen目前是阿卜杜拉国王科技大学 Vision-CAIR 研究小组的博士生,主要研究方向为多模态学习、自监督学习和大规模预训练模型。

MiniGPT-4模型架构

研究人员认为,「GPT-4强大的多模态生成能力主要来自于更强的语言模型」。

为了验证这点,研究人员选择固定住语言模型和视觉模型的参数,然后只用投影层将二者对齐:MiniGPT-4的语言解码器使用Vicuna(基于LLaMA构建),视觉感知部分使用与BLIP-2相同的视觉编码器。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

1. 预训练阶段

为了从大量对齐的图像-文本对中获取视觉-语言知识,研究人员把注入投影层的输出看作是对语言模型的软提示(soft prompt),促使它生成相应的ground-truth文本;并且预训练的视觉编码器和视觉编码器在预训练阶段始终保持参数不变,只训练线性投影层。

训练数据集包括Conceptual Caption, SBU和LAION,使用4张A100(共80GB显存) GPU以256的batch size训练了20000步,覆盖了大约500万个图像-文本对。

虽然在预训练后,MiniGPT-4已经展现了丰富的知识,并能够对人类的query提供合理的回复。

不过还是可以观察到MiniGPT-4仍然很难生成连贯的语言输出,比如经常会生成重复的词或句子、零散的句子或不相关的内容,这些问题也阻碍了MiniGPT-4与人类进行流畅的视觉对话的能力。

还可以注意到GPT-3也存在类似的问题:即便在大量的语言数据集上进行了预训练,GPT-3还是不能直接生成符合用户意图的语言输出;但通过指令微调和从人类反馈中进行强化学习的过程后,GPT-3就成功蜕变为了GPT-3.5,并能够生成对人类更友好的输出。

所以只对MiniGPT-4进行预训练是不够的。

2. 高质量的视觉-语言对齐数据集

虽然在自然语言处理领域,指令微调数据集和对话相关数据集很容易获得,但对于视觉语言领域来说,并不存在对应的数据集,所以为了让MiniGPT-4在生成文本时更自然、更有用,还需要设计一个高质量的、对齐的图像-文本数据集。

在初始阶段,使用预训练后得到的模型来生成对给定图像的描述,为了使模型能够生成更详细的图像描述,研究人员还设计了一个符合Vicuna语言模型的对话格式的提示符。

###Human: <Img><ImageFeature></Img> Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:

其中<ImageFeature>表示线性投影层生成的视觉特征,如果生成的描述不足80个tokens,就添加额外的提示符「#Human:Continue#Assistant:」继续生成。

最后从Conceptual Caption中随机选择了5000幅图像,并生成对应的描述。

数据后处理

目前生成的图像描述仍然包含许多噪音和错误,如重复的单词、不连贯的句子等,研究人员使用ChatGPT来完善描述。

Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

修正给定段落中的错误。删除重复的句子、无意义的字符、不是英语的句子等等。删除不必要的重复。重写不完整的句子。直接返回结果,无需解释。如果输入的段落已经正确,则直接返回,无需解释。

最后为了保证数据质量,手动验证每个图像描述的正确性,并得到了3500个图像-文本对。

3. 微调阶段

研究人员使用预定义的模板提示来优化预训练模型。

###Human: <Img><ImageFeature></Img> <Instruction> ###Assistant

其中<Instruction>表示从预定义指令集中随机抽样的指令,包含各种形式的指令,例如「详细描述此图像」或「您能为我描述此图像的内容吗」等。

需要注意的是,微调阶段没有计算特定文本-图像提示的回归损失,所以可以生成更自然、可靠的回复。

MiniGPT-4的微调过程非常高效,batch size为12的话,只需要400个训练步,使用单个A100 GPU训练7分钟即可。

示例

MiniGPT-4表现出了与GPT-4类似的多模态能力。

给一张图片,可以让模型生成非常详细的图像描述。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

识别图像中的梗,比如解释「一到周一,人就像图里的小狗一样,一周中最令人恐惧的一天」。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

还可以发现图像中不寻常的内容,比如「狼和小羊在同一片草地」。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

还可以根据手绘图生成一个网站的代码。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

MiniGPT-4还可以识别图像中的问题并提供解决方案,比如「洗衣机冒出了大量泡泡」是因为过载等原因,可以检查洗衣液是不是放多了、清理一下排水管或是看看洗衣机是不是坏了。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

创作以图像为主题的诗歌或说唱歌曲。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

编写图像背后的故事。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

为图像中的产品写广告词。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

甚至还可以知道换头表情包里的人是Tesla和Space X的CEO马斯克。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

提供一些有深度的图像评论。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

检索与图像相关的事实,比如给个《教父》的截图就可以让模型检索到对应的电影信息。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

甚至给个食物的照片,可以让模型输出一份菜谱。

GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

更多强大的功能等你解锁!

参考资料:

https://minigpt-4.github.io/文章来源地址https://www.toymoban.com/news/detail-428708.html

到了这里,关于GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ChatGPT/GPT4开源“平替”汇总

    寻找那些ChatGPT/GPT4开源“平替”们。 ChatGPT爆火出圈,国内很多高校、研究机构和企业都发出类似ChatGPT的发布计划。ChatGPT没有开源,复现难度极大,即使到现在GPT3的完全能力也没有任何一个单位或者企业进行了复现。刚刚,OpenAI又官宣发布了图文多模态的GPT4模型,能力相对

    2023年04月16日
    浏览(28)
  • 9个已开源的GPT4平替分享(附开源代码+论文)

    资料整理自网络,有误欢迎指正 对于想要研究大模型的同学来说,目前ChatGPT无疑是最好的学习对象,但等它开源估计是不太可能了,所以学姐今天整理了一些开源的类GPT模型,帮助大家更好的理解大模型背后的机理。 PS:有的功能还不错,也可以上手玩耍玩耍。 开源链接都

    2024年02月09日
    浏览(35)
  • 高效微调技术QLoRA实战,基于LLaMA-65B微调仅需48G显存,真香

    目录 环境搭建 数据集准备 模型权重格式转换 模型微调 模型权重合并

    2024年02月11日
    浏览(34)
  • 全球最强开源AI大模型来了!Databricks称DBRX吊打Llama 2和GPT-3.5

    美国AI初创公司Databricks公布,在语言理解、编程和数学方面,其将开源的模型DBRX的测试得分均高于GPT-3.5、Mixtral、Meta的Llama 2-70B、马斯克旗下xAI的Grok-1。作为混合专家模型,DBRX的输出token速度高Llama 2一筹。 全球最强大的开源人工智能大语言模型将要易主 美国AI初创公司Data

    2024年04月12日
    浏览(38)
  • 4G显存玩转AI绘画!Stable Diffusion WebUI Forge来了!

    经常使用Stable Diffusion WebUI的同学可能都被显存的问题困扰过,其运行时需要巨大的显存空间,跑着跑着显存可能就爆了,不得不重新启动。不过现在这个问题解决了,因为Stable Diffusion WebUI Forge来了。 相较于原版的SD WebUI(针对1024像素分辨率下的SDXL图片生成),可以获取以下

    2024年04月29日
    浏览(34)
  • ChatGPT 平替天花板:HuggingFace 版 ChatGPT 来了,无需魔法无需等待直接起飞 ~

    二话不说上链接 https://huggingface.co/chat/ 请直接问中文问题,要是返回英文直接上浏览器翻译同步没毛病。 如果体验过了,且听我分(jiao)说(bian)一下,HuggingFace 版 ChatGPT 如何能当得起 ChatGPT 平替天花板 。 我们先来看看背后的公司HuggingFace 是干啥的? HuggingFace 是一个非常

    2024年02月01日
    浏览(46)
  • MiniGPT4,开源了。

    大家好,我是 Jack。   一个月前,我发布过一篇文章,讲解了 GPT4 的发布会。 ChatGPT 的对话能力,想必大家也早已体验过了,无论是文本生成能力,还是写代码的能力,甚至是上下文的关联对话能力,无不一次又一次地震撼着我们。 你还记不记得发布会上,GPT4 的多模态能力

    2023年04月26日
    浏览(24)
  • MiniGPT4,开源了

    MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型 (LLM) 对齐。 具体来说,在文本方面,作者利用 Vicuna 作为语言解码器,在视觉感知方面,使用了与BLIP-2相同的视觉编码器,并且语言和视觉模型都是开源的。本文的主要目标就是使用线性映射层来弥合视

    2023年04月23日
    浏览(28)
  • MiniGPT-4,开源了!

    上个月GPT-4发布时,我曾写过一篇文章分享过有关GPT-4的几个关键信息。 当时的分享就提到了GPT-4的一个重要特性,那就是 多模态能力 。 比如发布会上演示的,输入一幅图(手套掉下去会怎么样?)。 GPT-4可以理解并输出给到:它会掉到木板上,并且球会被弹飞。 再比如给

    2024年02月01日
    浏览(27)
  • AI看图说话,MiniGPT-4已经开源

    MiniGPT-4 是一个人工智能工具,​最大的飞跃是增加了识图能力,​并且回答准确性也得到显著提高。​它可以识别图片并回答关于图片的问题,​例如图片内容、​颜色等等。 ​此外,​它还可以进行图像对话,​即通过图片和文本进行对话。 ​MiniGPT-4 在多个专业和学术基

    2023年04月26日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包