MiniGPT-4,开源了!

这篇具有很好参考价值的文章主要介绍了MiniGPT-4,开源了!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

上个月GPT-4发布时,我曾写过一篇文章分享过有关GPT-4的几个关键信息。

当时的分享就提到了GPT-4的一个重要特性,那就是多模态能力

比如发布会上演示的,输入一幅图(手套掉下去会怎么样?)。

MiniGPT-4,开源了!

GPT-4可以理解并输出给到:它会掉到木板上,并且球会被弹飞。

再比如给GPT-4一张长相奇怪的充电器图片,问为什么这很可笑?

MiniGPT-4,开源了!

GPT-4回答道,VGA 线充 iPhone。

用户甚至还可以直接画一个网站草图拍照丢给GPT-4,它就可以立马帮助生成代码。

MiniGPT-4,开源了!

MiniGPT-4,开源了!

但是时间过去了这么久,GPT-4像这样的识图功能也迟迟没有开放。

就在大家都在等待这个功能开放的时候,一个名为MiniGPT-4的开源项目悄悄做了这件事情。

https://github.com/Vision-CAIR/MiniGPT-4

MiniGPT-4,开源了!

没错,就是为了增强视觉语言理解。

MiniGPT-4背后团队来自KAUST(沙特阿卜杜拉国王科技大学),是几位博士开发的。

MiniGPT-4,开源了!

项目除了是开源的之外,而且还提供了网页版的demo,用户可以直接进去体验。

MiniGPT-4,开源了!

MiniGPT-4也是基于一些开源大模型来训练得到的。

团队把图像编码器与开源语言模型Vicuna(小羊驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。

训练分为两个阶段。

传统预训练阶段,在4张A100上使用500万图文对,10个小时内就可以完成,此时训练出来的Vicuna已能够理解图像,但生成能力有限。

然后在第二个调优阶段再用一些小的高质量数据集进行训练。这时候的计算效率很高,单卡A100只需要7分钟。

MiniGPT-4,开源了!

并且团队正在准备一个更轻量级的版本,部署起来只需要23GB显存,这也就意味着未来可以在一些消费级的显卡中或许就可以进行本地训练了。

这里也给大家看几个例子。

比如丢一张食物的照片进去来获得菜谱。

MiniGPT-4,开源了!

或者给出一张商品的照片来让其帮忙写一篇文案。

MiniGPT-4,开源了!

当然也可以像之前GPT-4发布会上演示的那样,画出一个网页,让其帮忙生成代码。

MiniGPT-4,开源了!

可以说,GPT-4发布会上演示过的功能,MiniGPT-4基本也都有。

这一点可以说非常amazing了!

可能由于目前使用的人比较多,在MiniGPT-4网页demo上试用时会遇到排队的情况,需要在队列中等待。

MiniGPT-4,开源了!

但是用户也可以自行本地部署服务,过程并不复杂。

首先是下载项目&准备环境:

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

然后下载预训练模型:

MiniGPT-4,开源了!

最后在本地启动Demo:

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

通过这个项目我们也再一次看出大模型在视觉领域的可行性,未来在图像、音频、视频等方面的应用前景应该也是非常不错的,我们可以期待一下。

好了,今天的分享就到这里了,感谢大家的收看,我们下期见。

注:本文在GitHub开源仓库「编程之路」 https://github.com/rd2coding/Road2Coding 中已经收录,里面有我整理的6大编程方向(岗位)的自学路线+知识点大梳理、面试考点、我的简历、几本硬核pdf笔记,以及程序员生活和感悟,欢迎star。文章来源地址https://www.toymoban.com/news/detail-427407.html

到了这里,关于MiniGPT-4,开源了!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MiniGPT4,开源了。

    大家好,我是 Jack。   一个月前,我发布过一篇文章,讲解了 GPT4 的发布会。 ChatGPT 的对话能力,想必大家也早已体验过了,无论是文本生成能力,还是写代码的能力,甚至是上下文的关联对话能力,无不一次又一次地震撼着我们。 你还记不记得发布会上,GPT4 的多模态能力

    2023年04月26日
    浏览(32)
  • AI看图说话,MiniGPT-4已经开源

    MiniGPT-4 是一个人工智能工具,​最大的飞跃是增加了识图能力,​并且回答准确性也得到显著提高。​它可以识别图片并回答关于图片的问题,​例如图片内容、​颜色等等。 ​此外,​它还可以进行图像对话,​即通过图片和文本进行对话。 ​MiniGPT-4 在多个专业和学术基

    2023年04月26日
    浏览(37)
  • MiniGPT-4开源了:看图聊天、教学、创作、搭网站

    一个月前,OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力,如从手写文本直接生成网站和识别图像中的幽默元素等。 尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力,但具有多模态能力的视觉语言模型令人充满了想象力。 近日,来自阿卜杜拉国王科技大学的研

    2024年02月01日
    浏览(47)
  • MiniGPT-4开源了,史无前例的AI图片内容分析,甚至能用于逻辑验证码推理识别

    https://github.com/Vision-CAIR/MiniGPT-4 https://minigpt-4.github.io/ 出结果较慢,建议图片小一点,并且提示文字尽可能简短 The man in the image is wearing a white tank top and shorts. He is standing on a rocky cliff overlooking a body of water with mountains in the background. The man is holding a cell phone in his hand and appears to

    2024年02月08日
    浏览(42)
  • 微软和OpenAI正在开发AI芯片, 并计划下个月发布

            今年初,Chat**引起了无数网友关注,一度成为了热门话题。这是由人工智能研究实验室OpenAI开发的一款聊天机器人模型,也称为一种人工智能(AI)技术驱动的自然语言处理工具。能够通过学习和理解人类的语言来进行对话,还能根据上下文进行互动,甚至可以完

    2024年02月08日
    浏览(44)
  • 最新ChatGPT GPT-4 NLU实战之智能多轮对话机器人(附ipynb与python源码及视频)——开源DataWhale发布入门ChatGPT技术新手从0到1必备使用指南手册(七)

    智能多轮对话机器人 是一种可以自主进行多轮对话的机器人系统,具有高度的交互性和可用性。智能多轮对话机器人旨在通过模拟人类对话方法来实现与用户之间更加自然和有效的沟通。然而,由于自然语言的复杂性和多变性,使得该技术面临巨大的挑战。 当前,基于大预

    2024年02月12日
    浏览(55)
  • 从零入门 AI 视觉:历时 3 个月,我的代码仓库开源了

    去年 11 月的时候,给自己了一个目标,希望在未来的 3个月时间里,写满100篇关于从零入门AI视觉的算法、代码文字。 历经 3 个月,终于在今天 100 篇文章写完了,代码也全部调试完成,上传到 github 上开源给大家,有想要学习或入门 AI 的可以看看,地址:https://github.com/don

    2024年03月21日
    浏览(33)
  • 耗时6个月,我做了一款干净、免费、开源的AI数据库管理工具

    在消失的这段时间,我和小伙伴们做了一款集成了AI的数据库管理工具Chat2DB。 他是数据库也集成了AIGC的能力,能够将自然语言转换为SQL,也可以将SQL转换为自然语言,还可以给出SQL的优化建议,可以极大提升效率。 GitHub地址:https://github.com/chat2db/chat2db 官网地址:https://ch

    2024年02月13日
    浏览(64)
  • 耗时6个月,我们做了一款干净、免费、开源的AI数据库管理工具

    在消失的这段时间,我和小伙伴们做了一款集成了AI的数据库管理工具Chat2DB。 他是数据库也集成了AIGC的能力,能够将自然语言转换为SQL,也可以将SQL转换为自然语言,还可以给出SQL的优化建议,可以极大提升效率。 GitHub地址:https://github.com/chat2db/chat2db 官网地址:https://ch

    2024年02月13日
    浏览(66)
  • 文心一言发布前一天,GPT-4震撼发布

    要说近期科技圈最火的是什么,那一定非chatgpt莫属了,chatgpt去年其实就已经发布了,当时已经热一阵了,但是当时热度时间不长,再加上国内春节放假,热度过后就没人再提了,但是年后回来,新的热度再度袭来,这次炒作比刚发布时更猛烈,几乎大大小小媒体,各行各业

    2024年02月08日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包