Chatgpt论文笔记——MiNiGPT4解读

这篇具有很好参考价值的文章主要介绍了Chatgpt论文笔记——MiNiGPT4解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

代码地址:https://github.com/Vision-CAIR/MiniGPT-4

摘要

Chatgpt论文笔记——MiNiGPT4解读,ChatGPT系列论文解读,chatgpt,论文阅读,人工智能
摘要写的就很简单了,标黄的是重点,可以看到这个方法很简单,就是拿了一个视觉的encoder(Blip-2)以及拿了一个文本的encoder(Vicuna),最后外加上一个projection层就构成了MiniGPT4,并且在训练的时候视觉和文本的encoder都是冻结参数的,所以相当于只是拿视觉和文本的编码器来用,训练只训外加的projection层。

方法

Chatgpt论文笔记——MiNiGPT4解读,ChatGPT系列论文解读,chatgpt,论文阅读,人工智能
方法就是说了视觉编码器用的Blip-2,他是由vit+q-former构成的。文本用的是vicuna,基于LLaMA设计的。就当作文本和图像的backbone就好了,具体细节可以不看,基本就是transformer的结构。
然后就介绍了训练的细节,训练分了两个阶段,第一阶段预训练用的是500w的图文对训模型,并且视觉和文本的encoder都是冻结参数的,第二阶段用精修的数据集3500条图文对精调模型参数。

第一阶段预训练

Chatgpt论文笔记——MiNiGPT4解读,ChatGPT系列论文解读,chatgpt,论文阅读,人工智能
没啥可说的,介绍了下训练的参数,用了4张A100训500w图文对的数据,训了10个小时。第一阶段训练完作者测试模型发现模型生成的文本有很多重复的,不完整的,没有逻辑的句子,对人类来说阅读是十分不友好的,所以有了第二阶段的精调。

第二阶段训练

数据构建

第二阶段的主要目的是用高质量的图文对数据来消除视觉和语言的领域差异,通俗点说就是让模型说的话更加的人类可读。
构建精修数据集的具体做法如下:

  • 一:从Conceptual Caption dataset随机选择了5000个数据
  • 二:用一阶段训练的模型对这些数据做提问生成答案。
    • 提问的prompt:###Human: Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:
    • 如果回答的内容少于80个单词(论文写的token感觉应该差不多意思),就追问,追问的prompt是:###Human: Continue ###Assistant:
    • 然后拼接得到最后的回答,这个回答是详细的图像的描述。
  • 三:这样生成的描述还是存在噪声以及错误的回答(重复的回答,不连贯的回答),接下来用chatgpt来修正这些回答:
    • 输入给chatgpt的提示词为:Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.
  • 四:人工验证图像描述的正确性并且有些chatgpt无法检测的冗余句子也人工修正。最后从5000里面精挑了3500条。

fintune

Chatgpt论文笔记——MiNiGPT4解读,ChatGPT系列论文解读,chatgpt,论文阅读,人工智能
finetune就比较简单了,拿3500条精修的数据直接finetune就好了,输入的模版是###Human: ###Assistant:
训练的机器是一张A100,batch size12,跑了400个step。

最后

MiNiGPT4安装记录:MiNiGPT4安装记录文章来源地址https://www.toymoban.com/news/detail-653967.html

到了这里,关于Chatgpt论文笔记——MiNiGPT4解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [论文笔记] chatgpt系列 2.1 DeepSpeed-chat 简介

    DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub 🐕 DeepSpeed-Chat:简单,快速和负担得起的RLHF训练的类chatgpt模型 🐕 一个快速、经济、可扩展和开放的系统框架,用于实现端到端的强化学习人类反馈(RLHF)训练体验,以在所有尺度上生成高质量的类chat

    2024年02月09日
    浏览(238)
  • MiniGPT4,开源了

    MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型 (LLM) 对齐。 具体来说,在文本方面,作者利用 Vicuna 作为语言解码器,在视觉感知方面,使用了与BLIP-2相同的视觉编码器,并且语言和视觉模型都是开源的。本文的主要目标就是使用线性映射层来弥合视

    2023年04月23日
    浏览(39)
  • MiniGPT4,开源了。

    大家好,我是 Jack。   一个月前,我发布过一篇文章,讲解了 GPT4 的发布会。 ChatGPT 的对话能力,想必大家也早已体验过了,无论是文本生成能力,还是写代码的能力,甚至是上下文的关联对话能力,无不一次又一次地震撼着我们。 你还记不记得发布会上,GPT4 的多模态能力

    2023年04月26日
    浏览(32)
  • [论文笔记] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)

    Proximal Policy Optimization (PPO)         避免较多的策略更新。 根据经验,训练期间较小的策略更新更有可能收敛到最优解决方案。 在策略更新中,太大的一步可能会导致“掉下悬崖”(得到一个糟糕的策略),并且有很长时间甚至没有可能恢复。         所以在PPO中,我们

    2024年02月03日
    浏览(52)
  • minigpt4搭建过程记录,简单体验图文识别乐趣

    从3月开始,aigc进入了疯狂的开端,正如4月12日无界 AI直播 在《探索 AIGC 与人类合作的无限可能》中关于梳理的时间线一样,aigc的各种产品如雨后春笋般进入了不可逆的态势,里面有句话很形象,人间一日,AIGC十年。这产变革像是有计划性的沧海桑田,让每个参与者亦或者

    2024年02月05日
    浏览(56)
  • MiniGPT4 在RTX-3090 Ubuntu服务器部署步骤详解

    MiniGPT4系列之一部署篇:在RTX-3090 Ubuntu服务器部署步骤详解_seaside2003的博客-CSDN博客 MiniGPT4系列之二推理篇命令行方式:在RTX-3090 Ubuntu服务器推理详解_seaside2003的博客-CSDN博客 MiniGPT4系列之三模型推理 (Web UI):在RTX-3090 Ubuntu服务器推理_seaside2003的博客-CSDN博客 主要参考知乎帖子

    2024年02月15日
    浏览(47)
  • 让chatgpt解读自己--(GPT1/2/3/4)论文解读

    用chatgpt解释chagpt自己的实现原理和机制,是一种什么体验? 这篇文章的Abstract部分主要介绍了Generative Pre-Training方法的研究背景、目标和贡献。具体来说,Abstract部分包括以下几个方面: 研究背景:首先,Abstract部分介绍了自然语言理解领域中的一个重要问题,即如何在缺乏

    2024年02月01日
    浏览(61)
  • ChatGPT2论文解读《Language Models are Unsupervised Multitask Learners》(2019)

    以下是我阅读完整篇论文做的个人总结,包含了ChatGPT-2文章的主要内容,可以仅看【论文总结】章节。 数据集 自制了一个网页爬虫,被抓取的网页部分来自于社交平台,这些网页由人工进行过滤。最终生成 WebText数据集 ,包含45000000个链接。另一部分来自于新闻网站,数据截

    2024年02月08日
    浏览(51)
  • 手搓GPT系列之 - chatgpt + langchain 实现一个书本解读机器人

    ChatGPT已经威名远播,关于如何使用大模型来构建应用还处于十分前期的探索阶段。各种基于大模型的应用技术也层出不穷。本文将给大家介绍一款基于大模型的应用框架:langchain。langchain集成了做一个基于大模型应用所需的一切。熟悉java web应用的同学们应该十分熟悉spring

    2024年02月05日
    浏览(46)
  • 【YOLO系列】YOLOv3论文超详细解读(翻译 +学习笔记)

    YOLOv3(《Yolov3:An incremental improvement》)是Joseph Redmon大佬关于YOLO系列的最后一篇,由于他反对将YOLO用于军事和隐私窥探,2020年2月宣布停止更新YOLO。  YOLOv3在YOLOv2的基础上改良了网络的主干,利用多尺度特征图进行检测,改进了多个独立的Logistic regression分类器来取代softmax来

    2024年02月07日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包