Shikra:新一代多模态大语言模型,理解指向,说出坐标

这篇具有很好参考价值的文章主要介绍了Shikra:新一代多模态大语言模型,理解指向,说出坐标。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

“ Shikra:解锁多模态语言模型参考对话的魔法”

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

Shikra和用户的对话案例

在人类的日常交流中,经常会关注场景中的不同区域或物体,双方都可以通过说话并指向这些区域来进行高效的信息交换。我们将这种对话模式称为参考对话(Referential Dialogue)💬;

如果多模态大语言模型(MLLM) 擅长这项技能,它将带来许多令人兴奋的应用。例如,将其应用到 Apple Vision Pro 等混合现实 (XR) 眼镜中,用户可以使用视线注视指示任何内容与AI对话。同时AI也可以通过高亮等形式来提示某些区域,实现与用户的高效交流;

本工作提出了 Shikra 模型,赋予了MLLM这样的参考对话的魔法,既可以理解位置输入,也可以产生位置输出

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

论文链接:http://arxiv.org/abs/2306.15195
代码链接:GitHub - shikras/shikra

01 工作亮点

  1. Shikra 能够理解用户输入的 Point/Box,并支持 Point/Box 的输出,可以和人类无缝地进行参考对话;

  2. Shikra 设计简单统一,采用非拼接式设计,直接使用数字表示坐标,不需要额外的位置编码器、前/后目标检测器或外部插件模块,甚至不需要额外的词汇表。

02 模型效果

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

比如上图,用户指着右边的女生问 Shikra:“这个人[bbox]的感受如何?” Shikra 回复说:“这个人[bbox]感觉到惊喜和高兴。我们可以根据:她用手[bbox]捂着脸,看着这个男人[bbox]送她一束花[bbox]推断出来。” Shikra 不仅推理正确,并且在提到关键视觉线索的时候还会提供在图上的坐标,这让沟通更加准确高效;

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

我们来看来自GPT4论文中的网红图片。相比GPT4的回复,Shikra 的回复不光 Get 到了图片的诙谐之处,还更确切地指出了每个需要被关注的目标的具体位置。作为对比,下面是GPT4的回答:

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

我们在下面再展示几个例子,更多的例子可以查阅 Paper。

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

比如 Shikra 会拼拼图,知道用户指出的拼图块应该拼到哪里。

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

用户指出两个区域, Shikra 会分辨出哪一个是镜像,哪一个是真身。

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

问 Shikra 这是不是兔兔🐰,她也不会上当,会指出这是一个小柴,只是穿着带着兔兔耳朵的衣服,在反驳时,Shikra 会一个一个指给你看

03 Box/Point 都行

对于输入输出模型还支持使用点(Point) 的形式,无论是电脑上的鼠标点击,还是Vision Pro的注视点,都用起来更加方便。下面是在PointQA数据集上的例子:

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

当然 Shikra 也支持Point的输出,比如Visual-7W中的例子,从诸多框中选择一个作为答案:

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

04 传统任务

参考对话(RD)是很多视觉-语言(VL)跨模态任务的超集,因此 Shikra 天然可以适配到不同的任务上,比如下面的表达式生成任务(REG),要为用户指定的区域生成图片中图一无二的描述:

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

这难不倒 Shikra,她正确地说出了这是一个坐着三个人的长凳。

另外我们可以看下VL领域经典的表达式定位任务(REC),要求模型定位出用户给出的表达式:

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

定位出背景中的人,定位出风筝的线,都没有问题。示例看的不过瘾?可以看看的在REC上的定量指标,Shikra 取得了很不错的成绩:

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

Shikra 也有一定的OCR能力,尽管没有专门在相关的数据上训练:

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

还有本工作定义的新任务,Spotting Captioning 任务,模型需要边描述图片边写出提到的物体的坐标,效果就像这样:

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

在最经典的 VQA 和 Image Captioning 的定量评价上,Shikra也取得了 promising 的结果:

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

在最新的POPE评价指标上,Shikra 也表现不错,取得和InstrcutBLIP相当的结果,并远超近期其他MLLMs:

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

05 Shikra 原理

模型架构采用CLIP ViT-L/14 作为视觉主干,Vicuna-7/13B 作为语言基模型,使用一层线性映射连接CLIP和Vicuna的特征空间。

Shikra 直接使用自然语言中的数字来表示物体位置,使用[xmin, ymin, xmax, ymax] 表示边界框,使用[xcenter, ycenter]表示中心点,xy 坐标根据图像大小进行归一化,每个数字默认保留 3 位小数,这些坐标可以出现在模型的输入和输出序列中的任何位置,记录坐标的方括号也自然地出现在句子中。在论文中,本工作也尝试使用其他方式进行数值表示,并做了定量的对比实验,感兴趣的朋友可以查看论文。

06新思维链形式

思想链(CoT),旨在通过在最终答案前添加推理过程以帮助LLM回答复杂的QA问题。这一技术已被广泛应用到自然语言处理的各种任务中。目前的MLLM还存在严重的幻视问题,CoT也经常会产生幻觉,影响最终答案的正确性。通过在合成数据集CLEVR上的实验,本工作发现,使用带有位置信息的CoT时,可以提升模型回答的准确率。

Shikra:新一代多模态大语言模型,理解指向,说出坐标,技术文章,语言模型,人工智能,自然语言处理

如果只用纯文本的CoT,模型性能反而会降低,甚至不如不用CoT的结果。但是在CoT中包含坐标信息,性能得到了提升,我们将这种新的 CoT 方式称为 Grounding-CoT(GCoT)。不过该探究仍然比较初步,仍是值得去论证的方向。

07 总结

本工作介绍了一种名为 Shikra 的简单且统一的多模态大语言模型,以自然语言的方式理解与输出空间坐标,为MLLM增加了类似于人类的参考对话能力,无需引入额外的词汇表、位置编码器或外部插件;Demo、代码、模型、数据均开源在:GitHub - shikras/shikra 。后续会继续加入更有意思的特性,也会开放Demo试玩,感兴趣的朋友可以 Star ⭐️ 关注一下。


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习Al前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区文章来源地址https://www.toymoban.com/news/detail-598414.html

到了这里,关于Shikra:新一代多模态大语言模型,理解指向,说出坐标的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 百度CTO王海峰:全栈AI技术加持,打造新一代大语言模型文心一言

    3月16日,百度在北京总部召开新闻发布会,百度创始人、董事长兼首席执行官李彦宏和百度首席技术官王海峰出席,李彦宏展示了新一代知识增强大语言模型文心一言在文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五个使用场景中的综合能力,王海峰解读

    2024年02月09日
    浏览(66)
  • ES|QL:Elasticsearch的 新一代查询语言

    作者:李捷 “ 学会选择很难。学会正确选择更难。而在一个充满无限可能的世界里学会正确选择则更难,也许是太难了。 ” 巴里-施瓦茨(Barry Schwartz)在《选择的悖论--多就是少》(The Paradox of Choice -More is Less)一书中的一段话概括了为什么灵活性和可定制性过高会让用户

    2024年02月08日
    浏览(40)
  • 新一代图像合成模型:Stable Diffusion XL(SDXL)上线!

    几个使用Stable Diffusion XL 1.0生成的图像示例。 新的SDXL 1.0发布允许在本地计算机上运行的高分辨率人工智能图像合成。 周三,Stability AI发布了其下一代开源权重人工智能图像合成模型Stable Diffusion XL 1.0(SDXL)。它可以根据文本描述生成新颖的图像,并生成比之前版本的Stable

    2024年02月11日
    浏览(47)
  • 腾讯安全周斌:用模型对抗,构建新一代业务风控免疫力

    6月13日,腾讯安全联合IDC发布“数字安全免疫力”模型框架,主张将守护企业数据和数字业务两大资产作为企业安全建设的核心目标。腾讯安全副总裁周斌出席研讨论坛并发表主题演讲,他表示, 在新技术的趋势影响下,黑灰产的攻击行为会进一步模拟真人行为,传统基于过

    2024年02月09日
    浏览(36)
  • 一周AIGC丨Meta 发布新一代开源大模型 Llama 2,大模型裁员潮不远了?

    人们把Meta发布免费可商用版本 Llama 2比作“安卓时刻”,OpenAI护城河似乎一下子荡然无存,整个大模型市场格局面临巨变。据媒体报道,在以往,中国大模型公司可以靠商业授权赚钱利润,随着Llama 2开始允许商用,中国大模型公司的这一优势现在也没有了。傅盛更是发出预警

    2024年02月11日
    浏览(43)
  • 智谱AI技术开放日:新一代基座大模型GLM-4及GLMs的发布

    2024年1月16日,智谱AI举行了一次重要的技术开放日,发布了新一代基座大模型GLM-4和定制化的大模型GLMs。此次发布标志着智谱AI在人工智能领域的新一轮突破,进一步提升了大模型的性能,并降低了使用门槛,使得更多的人能够参与到AI的广泛应用中来。 GLM-4模型是智谱AI全自

    2024年01月16日
    浏览(49)
  • 1.5 新一代信息技术

    战略性新兴产业是以重大技术突破和重大发展需求为基础,对经济社会全局和长远发展具有重大引领带动作用,知识技术密集、物质资源消耗少、成长潜力大、综合效益好的产业。 依据《国务院关于加快培育和发展战略性新兴产业的决定》(国发(2010) 32号),七个战略性新兴产

    2023年04月08日
    浏览(59)
  • 云计算:新一代的技术革命

    云计算,作为21世纪的一项重要技术革命,已在全球范围内引发了深远的影响。它改变了我们存储和处理数据的方式,使得企业无需再建设和维护昂贵的本地服务器和数据中心。本文将深入探讨云计算的基本概念,类型,主要优点,以及它在未来可能的发展趋势。 云计算的基

    2024年02月12日
    浏览(49)
  • No.14新一代信息技术

    新一代信息技术产业包括:加快建设宽带、泛在、融合、安全的信息忘了基础设施,推动新一代移动通信、下一代互联网核心设备和智能终端的研发及产业化,加快推进三网融合,促进物联网、云计算的研发和示范应用。 大数据、云计算、互联网+、物联网、智慧城市等是新

    2024年02月09日
    浏览(44)
  • 新一代硬件安全:第一章-简介

    Chapter 1 Introduction 1.1 Fundamentals of Hardware Security In our modern age of omnipresent and highly interconnected information technology, cybersecurity becomes ever more challenged. For example, with the rise of the Internet of Things (IoT), most such equipment is connected to the internet in some way, often inscrutable to the regular customers. This f

    2024年02月12日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包