Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

这篇具有很好参考价值的文章主要介绍了Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大开眼界?探索多模态模型种视觉编码器的缺陷。
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs,多模态
论文中指出,上面这些VQA问题,人类可以瞬间给出正确的答案,但是多模态给出的结果却是错误的。是哪个环节出了问题呢?视觉编码器的问题?大语言模型出现了幻觉?还是视觉特征与语言模型间的特征没有对齐?
作者将上述问题分成了9个类别(通过将涉及的问题和选项提供chatgpt,让chatgpt将这些问题归类)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs,多模态

  • 通过实验发现,增加模型规模/训练数据的数量,多模态模型仅在颜色/外观任务和物体状态/状况这两项任务上的表现有提升。
  • 通过实验发现,两张很相似的图片(如下图的两只蝴蝶),视觉编码器(CLIP)给出两张图片的相似度很高,但是自编码器(DINO)给出的相似度不是很高,作者定义这两幅图片为CLIP-blind pairs
    Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs,多模态
    clip和多模态模型在这9项任务上的表现
    Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs,多模态

通过增加自监督特征,多模态模型的能力有了提升
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs,多模态
上图种左边是目前的多模态结构,中间部分是两部分特征线性相加,右边是交错混合的方式。
为了评价多模态模型在这些任务上的表现,建立了MMVP-VLM的测试集。
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs,多模态
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs,多模态

MMVP-VLM的建立过程
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs,多模态文章来源地址https://www.toymoban.com/news/detail-821192.html

到了这里,关于Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包