AI看图说话,MiniGPT-4已经开源

这篇具有很好参考价值的文章主要介绍了AI看图说话,MiniGPT-4已经开源。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

MiniGPT-4 是一个人工智能工具,​最大的飞跃是增加了识图能力,​并且回答准确性也得到显著提高。​它可以识别图片并回答关于图片的问题,​例如图片内容、​颜色等等。

​此外,​它还可以进行图像对话,​即通过图片和文本进行对话。

​MiniGPT-4 在多个专业和学术基准测试中展现出令人印象深刻的表现,​有时甚至达到了人类水平。​MiniGPT-4 是开源且免费的,​支持中文。

​它可以根据给定的图像创作故事和诗歌,​提供解决图像中显示的问题的解决方案,​根据食品照片教用户如何烹饪等。

​它是一个华人团队开发的模型,​可以使用高级大型语言模型增强视觉语言理解。​MiniGPT-4 的训练过程包括两个阶段,​第一个阶段使用大约5百万对齐的图像文本对进行传统的预训练,​第二个阶段使用高级大型语言模型进行微调。​

MiniGPT-4是一个高效的视觉-语言模型,​由视觉编码器、​单个线性投影层和先进的Vicuna大型语言模型组成。​该模型仅需要训练线性层以将视觉特征与Vicuna对齐,​使用约500万对图像和文本进行训练。​MiniGPT-4的架构基于预训练的ViTQ-Former,​可提高视觉-语言理解的整体可用性。

开源地址在github上。

更多的工具,可以参考 AiBard123

MiniGPT-4 上的例子有很多,比如这个是根据图片生成诗歌。
AI看图说话,MiniGPT-4已经开源
真的看上去挺美的。

MiniGPT-4 还能在线免费体验,地址在https://c9cd51f7cae3c9fec1.gradio.live/,或者在github的官网上点demo进去。

AI看图说话,MiniGPT-4已经开源
给了一张千与千寻的宣传图片,我们问MiniGPT-4 这是哪部电影,MiniGPT-4 答得非常的完美。

说吧说吧!最新的大模型语言GPT4是不是很🔥?未来只要应用基于这些大模型,图像、声音、视频等领域的效果应该都不会太差!别说我没告诉你,这个项目还证明了大语言模型在图像领域很✅!下一步嘛,有很多想搭顺风车的开发者都拔腿疯狂加入大模型阵营,把GPT4的能力扩展至音频、视频等领域,让我们再看到更多有趣、🤯的AI应用程序吧!文章来源地址https://www.toymoban.com/news/detail-425665.html

到了这里,关于AI看图说话,MiniGPT-4已经开源的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI新工具 又一个开源大模型DBRX击败GPT3.5;根据音频和图像输入生成会说话、唱歌的动态视频

    ✨ 1: AniPortrait 腾讯开源:根据音频和图像输入生成会说话、唱歌的动态视频 AniPortrait 是个先进的框架,专门用来生成高质量的、由音频和参考肖像图片驱动的动画。如果你有视频,也可以用来实现面部的再现(Face reenactment)。 地址:https://github.com/Zejun-Yang/AniPortrait ✨ 2: D

    2024年04月17日
    浏览(41)
  • suno有了新对手udio炸裂音乐圈;又一个开源AI Devin 程序员;完全开源轻量级的文本到语音可生成特定说话者的风格

    ✨ 1: udio 由音乐和科技界重量级人物支持的强大 AI 音乐生成器,被称为音乐界的另一个 ChatGPT。 Udio 由前 Google DeepMind的研究院和工程师创立,得到了a16z的支持,总部在伦敦和纽约。 目前是一个免费的V1测试版产品,每个人每个月可以生成最多 1200 首歌曲。 Udio是一个强大的

    2024年04月26日
    浏览(42)
  • MiniGPT-4,开源了!

    上个月GPT-4发布时,我曾写过一篇文章分享过有关GPT-4的几个关键信息。 当时的分享就提到了GPT-4的一个重要特性,那就是 多模态能力 。 比如发布会上演示的,输入一幅图(手套掉下去会怎么样?)。 GPT-4可以理解并输出给到:它会掉到木板上,并且球会被弹飞。 再比如给

    2024年02月01日
    浏览(42)
  • MiniGPT4,开源了

    MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型 (LLM) 对齐。 具体来说,在文本方面,作者利用 Vicuna 作为语言解码器,在视觉感知方面,使用了与BLIP-2相同的视觉编码器,并且语言和视觉模型都是开源的。本文的主要目标就是使用线性映射层来弥合视

    2023年04月23日
    浏览(39)
  • MiniGPT4,开源了。

    大家好,我是 Jack。   一个月前,我发布过一篇文章,讲解了 GPT4 的发布会。 ChatGPT 的对话能力,想必大家也早已体验过了,无论是文本生成能力,还是写代码的能力,甚至是上下文的关联对话能力,无不一次又一次地震撼着我们。 你还记不记得发布会上,GPT4 的多模态能力

    2023年04月26日
    浏览(32)
  • GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

    项目地址 :https://minigpt-4.github.io/  论文链接 :https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf 代码 :https://github.com/Vision-CAIR/MiniGPT-4 视频 :https://youtu.be/__tftoxpBAw 数据集 :https://drive.google.com/file/d/1nJXhoEcy3KTExr17I7BXqY5Y9Lx_-n-9/view Demo地址 :https://6b89c70eb5e14dca33.gradio.live/ Demo备

    2024年02月06日
    浏览(109)
  • GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

    来源 | 新智元  微信号:AI-era 先是ChatGPT的发布给世界带来了一点小小的NLP震撼,随后发布的GPT-4更是破圈计算机视觉,展现了非凡的多模态能力。 不光能读懂人类的梗,给个手绘草图甚至可以直接写出网站的代码,彻底颠覆了对语言模型、视觉模型能力边界的认知。 GPT-

    2024年02月01日
    浏览(45)
  • 【文心一言】使用飞桨 AI Studio 快速搭建,看图识猜成语应用

    在大模型时代,人人都能成为大模型开发者! 飞桨星河社区是百度飞桨和文心大模型的生态社区,为开发者和生态合作伙伴提供算力、模型、数据、工具链、社区交流等全方位服务。开发者可以通过星河社区提供的开发工具集ERNIE Bot SDK,调用领先的文心4.0大模型能力,高效

    2024年02月05日
    浏览(53)
  • AI数字人:sadtalker让照片开口说话

            西安交通大学也开源了人工智能SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。         论文地址:Learning Realistic 3D Motion Coefficients        通过人脸图像和一段语音音频

    2024年02月13日
    浏览(36)
  • 【AI工具】使用 Whisper ASR 和 Pyannote 进行说话人分类

    目录 前言 什么是说话人二值化? 什么是扬声器嵌入? 扬声器嵌入的关键作用 说话人分类系统的工作原理 执行

    2024年02月02日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包