多模态应用展望——看图聊天、BLIP2

这篇具有很好参考价值的文章主要介绍了多模态应用展望——看图聊天、BLIP2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

看图聊天

BLIP2 是 salesforce 公司开源的多模态模型,其大致的原理,可以类比看图写作,当前 AI 在文生图模式之外,也支持图生文模式,可以将照片中的核心元素识别出来。然后把这些元素作为上下文,交给 ChatGPT 类似的大语言模型进行扩展写作和对话。

BLIP2 在线试用地址为:https://huggingface.co/spaces/Salesforce/BLIP2,在线 demo 使用 BLIP2-OPT-6.7B 模型来获取图片信息,使用 BLIP2-FlanT5xxl 模型来支持文本聊天。

我们用两个实际的小任务,来测试一下 BLIP2 的能力,也顺带通过任务过程,介绍它的原理。

PPT 修改建议

某天,小辛很苦恼,在制作 PPT 时觉得 ChatGPT 只能提供内容建议,不能帮助格式优化。而他又很难把格式优化的需求通过纯文本的方式描述清楚。小辛更想直接手指着屏幕说:"这个地方和这个地方怎么对不齐啊?"

这其实就是一个多模态的内容理解和生成。我们把过程拆解一下:

  1. 要从截图中识别出来这是一个 PPT,并且其中有若干个挂件。
  2. 要从问题文本中理解出来问的是两个挂件和对齐。
  3. 要把两个模态的信息关联起来:问的是截图里 PPT 的哪两个挂件的对齐。
  4. 从 PPT 知识中推理出最终回答。

这里第一步是 CV 的图像识别能力,第二步是 NLP 的语义分析能力,第四步是 LLM 的对话能力,只要第三步能合理的生成 LLM 的 prompt,就可以构建出完整的多模态能力。

我们在 BLIP2 的在线 demo 上做一次实验。我把自己一份 PPT 截图,上传到 demo 上,开始询问PPT 上两个图表是否对齐?BLIP2 回答:没有。再第二轮问答,询问:应该如何让图表对齐呢?BLIP2 回答:把左边的图表往下挪。

多模态应用展望——看图聊天、BLIP2

全过程如截图所示,可以说表现非常惊艳。如果加强第四步,引入 ChatGPT 能力,没准还能具体介绍 PPT 操作中,左边的图表往下挪时,出现红色对齐线就算真正对齐了吧。

竞争情报分析

第二个例子,我们用一个更实际的场景。作为产品经理,竞对分析和市场情报收集是非常重要的工作。某天,我们发现友商公众号上,发布了他们公司年会的全员大合影。数出来全体员工的数量,将有助于我们推断友商的竞争投入力度。

人脸识别其实是已经非常完善的领域,直接在微信平台中,我们都能找到现成的"帮你数"小程序完成这次统计。不过这次,用完"帮你数"以后,我们打算再考验一次 BLIP2 的水准:

多模态应用展望——看图聊天、BLIP2

有趣的现象发生了:多次重复运行,BLIP2 面对"图中有多少人"这种直接询问时,都只能给出"大于 100 人"这种模糊的回答。

这到底是是 CV 阶段的问题,还是 Chat 阶段的问题?我们引入 CLIP Interrogator 这个目前最主流的图生文工具来看看。CLIP Interrogator 在主流的 stable-diffusion webui 里有内置页面可用,也可以直接使用在线 demo:https://huggingface.co/spaces/pharma/CLIP-Interrogator。将图片加载到 CLIP Interrogator 中,得到的图像是:

看起来确实不会数数?

我们换一个思路,这次给 BLIP2 的新问题是:"图中的人数是否大于 125",BLIP2 却很直接表示:NO。再问:"图中人数是否大于 120",BLIP2 也很直接表示:YES!

我们可以看到,BLIP2 实际上获取了比 CLIP-interrogator 输出更丰富的信息,但需要一定的文本输入引导,才会正确的说出来。

可惜的是,T5 是谷歌开源的上一代大语言模型,文本生成对话能力和 ChatGPT 有较大差距。让我们期待 ChatGPT 接入图生文能力的那天吧。到时候,甚至我们可以想象,让 ChatGPT 把对话再转换成 DallE2 prompt,然后自动生成应答图片。人机之间,愉快的斗图~文章来源地址https://www.toymoban.com/news/detail-464476.html

到了这里,关于多模态应用展望——看图聊天、BLIP2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 多模态大模型系列论文(ALBEF、BLIP、BLIP-2)

     视觉-文本 融合任务,如图文检索、视觉问答、NLVR (natural language vision reasoning)等 1)没有对齐视觉的 tokens 和 文字的 tokens, 因此给 多模编码器进行图文交互学习时带来挑战 2)训练多模模型,利用到了互联网上爬取的数据,这些数据中往往存在大量噪声,传统的图文特征

    2024年02月08日
    浏览(45)
  • 多模态论文阅读之BLIP

    BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have

    2024年02月06日
    浏览(42)
  • 看图角色扮演聊天ui

    该程序是一个聊天机器人的界面程序,主要功能是让用户输入文本,调用聊天机器人的模型或API,返回机器人的回复,并显示在界面上。 下面从以下几个方面讲解此程序的创新和功能。 GUI功能:程序使用了Python内置库 tkinter 作为GUI框架,实现了对话记录、文字输入、发送按

    2024年02月11日
    浏览(44)
  • [BLIP]-多模态Language-Image预训练模型

    论文:https://arxiv.org/pdf/2201.12086.pdf  代码:GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation demo:BLIP - a Hugging Face Space by akhaliq motivation: 从模型角度来看,大多数方法要么采用基于编码器的模型,要么采用编码器

    2024年02月05日
    浏览(49)
  • MiniGPT-4开源了:看图聊天、教学、创作、搭网站

    一个月前,OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力,如从手写文本直接生成网站和识别图像中的幽默元素等。 尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力,但具有多模态能力的视觉语言模型令人充满了想象力。 近日,来自阿卜杜拉国王科技大学的研

    2024年02月01日
    浏览(48)
  • 基于LLMs的多模态大模型(Flamingo, BLIP-2,KOSMOS-1,ScienceQA)

    前一篇博客已经整理了不训练视觉模型的文章们: 基于LLMs的多模态大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC) 本篇文章将介绍一些需要训练视觉编码器来适配多模态大模型的工作们,这也是目前最为流行的研究思路。 其实早在2021年DeepMind发表Frozen的时候就已经有了few-shot甚至

    2024年02月06日
    浏览(46)
  • 【多模态】5、BLIP | 统一理解与生成任务 为图像生成更高质量的文本描述

    论文:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 代码:https://github.com/salesforce/BLIP 线上体验:https://huggingface.co/spaces/Salesforce/BLIP 出处:ICML 2022 | Salesforce Research 时间:2022.02 贡献: 提出了一个可以联合训练理解和生成任务的多模态混合模

    2024年02月16日
    浏览(53)
  • CV多模态和AIGC的原理解析:从CLIP、BLIP到Stable Diffusion、Midjourney

    终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时间错不开 去年11月底ChatGPT出来后,我今年1月初开始写ChatGPT背后的技术原理,而今年2月份

    2024年02月13日
    浏览(50)
  • CV多模态和AIGC原理解析:从CLIP、BLIP到DALLE 3、Stable Diffusion、MDJ

    终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时间错不开 去年11月底ChatGPT出来后,我今年1月初开始写ChatGPT背后的技术原理,而今年2月份

    2024年02月06日
    浏览(46)
  • 【多模态】6、BLIP-2 | 使用 Q-Former 连接冻结的图像和语言模型 实现高效图文预训练

    论文:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 代码:https://github.com/salesforce/LAVIS/tree/main/projects/blip2 在线体验:https://huggingface.co/Salesforce/blip2-opt-2.7b 出处:Salesforce Research | 和 BLIP 是同一团队 时间:2023.01 线上体验示例:将图拖拽至此即可

    2024年02月16日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包