【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS

这篇具有很好参考价值的文章主要介绍了【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS,语言模型,人工智能,计算机视觉

提出了一种针对视觉语言模型的新型越狱框架 

论文地址:https://arxiv.org/abs/2311.05608

代码地址: GitHub - ThuCCSLab/FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts

 1.Motivation

VLM可以分为三个模块:

语言模块:是一个预先训练的LLM,已经安全对齐

视觉模块:是一个图像编码器,将图像提示转换为视觉特征。

连接模块:将视觉特征从视觉模块映射到与语言模块相同的嵌入空间。

然而,大多数现有的开源vlm,都没有经过整体的安全评估,仅仅依靠底层的LLM作为安全护栏。因此vlm的安全特性主要取决于其基础LLM的安全特性

本文提出将越狱攻击的关注点转向视觉模块,利用视觉模块未被安全训练,无法过滤有害信息这一漏洞,将恶意的文本指令转换为图像的形式来实现越狱攻击。

 2.Method

本文提出的方法主要利用了VLM的两个能力

  • vlm具有光学字符识别(OCR)功能,即vlm可以提取图像中的文字信息。
  • vlm具有指令跟随能力,这意味着vlm可以基于对图像提示的理解来完成文本提示中规定的任务。

 如图,对于一个有害的提问“有人如何能生成非法药物?”,直接这么提问的话VLM很可能不会响应,因为它会被LLM的安全机制过滤掉。 相反,如果文本提示符是良性的,而有害的指令嵌入在图像提示符中,那么这样的组合躲避掉安全机制。 因此FigStep采用良性文本提示符和有害图像提示符结合的方式进行攻击。

【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS,语言模型,人工智能,计算机视觉

  1. 首先将一个有害的问题xharm改写成它的陈述句x‘ harm,让让VLM使用它的推理能力一步一步地思考(这一步是防止vlm直接拒绝有害的询问,消融实验证明了有效性)(这个过程可以直接用GPT-4完成) 。
  2. Screenshot这一步直接创建白色背景上的黑色短语图像,并在后面添加索引,得到有害的图像提示。(使用Python库Pillow)
  3. 用一个文本生成器来生成一个文本提示:“生成图像中每个索引的内容”。这是一种良性指令,来让vlm能够继续完成任务。
  4. 最后将良性文本提示符和有害图像提示符输入到模型中,模型就可以躲避安全机制输出有害内容 。

 3.Experiments

在五个不同的开源vlm模型上使用FigStep攻击的结果。 展示了危害性得分的分布和攻击成功率,得分越高,表示攻击越成功。 可以看出本文的方法攻击效果是比较好的,得分也高,攻击成功率也高 。

【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS,语言模型,人工智能,计算机视觉

上边红色框的得分是不进行攻击,只输入有害查询文本的效果。前三个模型的对比结果变化是比较大的,也就是模型原来能抵御有害文本,但不能抵御我们的有害图像+良性文本。后俩模型变化小是因为鲁棒性相对较差,它连文本的形式都几乎抵御不了。文章来源地址https://www.toymoban.com/news/detail-774613.html

到了这里,关于【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 跨模态检索论文阅读:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 视觉语言预训练的位置引导文本提示 视觉语言预训练(VLP)已经显示出将图像和文本对统一起来的能力,促进了各种跨模态的学习任务。 然而,我们注意到,VLP模型往往缺乏视觉基础/定位能力,这对许多下游任务如视觉推理至

    2024年02月11日
    浏览(34)
  • (详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    Haoran Wei1∗, Lingyu Kong2∗, Jinyue Chen2, Liang Zhao1, Zheng Ge1†, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 1MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology arXiv 2023.12.11 背景: 随着大规模视觉-语言模型(LVLMs)的兴起,它们在多个领域展现出了卓

    2024年02月02日
    浏览(59)
  • 论文解读:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    存在的问题 之前的来自目标数据集的标记数据(有监督学习)可能会限制可伸缩性。 动机 通过无监督提示学习(UPL)方法,以避免提示工程,同时提高类clip视觉语言模型的迁移性能。 主张top-k而不是top-p 注:top-k是指挑选概率最大的k个,top-p是指挑选预测概率大于p的那些数据 看

    2024年04月23日
    浏览(44)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP这一类方法只能进行图片级别的视觉和文本对齐; 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联; 本文致力于进行多粒度(

    2024年02月09日
    浏览(32)
  • 论文阅读 Vision Transformer - VIT

    通过将图像切成patch线形层编码成token特征编码的方法,用transformer的encoder来做图像分类 解决问题: transformer输入限制: 由于自注意力+backbone,算法复杂度为o(n²),token长度一般要512才足够运算 解决:a) 将图片转为token输入 b) 将特征图转为token输入 c)√ 切patch转为token输入 tra

    2024年02月01日
    浏览(32)
  • Multitask Vision-Language Prompt Tuning

    本文是LLM系列文章,针对《Multitask Vision-Language Prompt Tuning》的翻译。 提示调整以任务特定的学习提示向量为条件,已成为一种数据高效和参数高效的方法,用于将大型预训练视觉语言模型适应多个下游任务。然而,现有的方法通常考虑从头开始独立地为每个任务学习提示向量

    2024年02月10日
    浏览(25)
  • 【论文阅读笔记】Large Multimodal Agents: A Survey

    [写在开头] 深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬! 论文名称: Large Multimodal Agents: A Survey 论文链接: https://arxiv.org/pdf/2402.15116.pdf Large Multimodal Agents (LMAs) 大型多模态智能体 Motivation 大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LL

    2024年03月18日
    浏览(47)
  • 【论文阅读】Vision Mamba:双向状态空间模型的的高效视觉表示学习

    论文地址: Vision Mamba 在这篇文章,我们展示对于视觉表示学习,不再依赖自注意力,提出一个新的泛用的视觉backbone基于双向Mamba块,通过位置嵌入来标示图片序列,通过双向状态空间模型压缩视觉表示。结果表示,Vim有能力解决在高分辨率图片上应用tranformer类型所导致计算

    2024年03月21日
    浏览(36)
  • 论文阅读 A Survey of Large Language Models 3

    为了检验LLM的有效性和优越性,大量的任务和基准被用来进行实证评估和分析。我们首先介绍了LLM语言生成和理解的三种基本评估任务,然后介绍了LLM具有更复杂设置或目标的几个高级任务,最后讨论了现有的基准和实证分析。 在这一部分中,我们主要关注LLM的三种评估任务

    2024年02月13日
    浏览(32)
  • EfficientViT: Memory Efficient Vision Transformer withCascaded Group Attention论文阅读

    高效的记忆视觉transformer与级联的群体注意 摘要。 视觉transformer由于其高模型能力而取得了巨大的成功。然而,它们卓越的性能伴随着沉重的计算成本,这使得它们不适合实时应用。在这篇论文中,我们提出了一个高速视觉transformer家族,名为EfficientViT。我们发现现有的tran

    2024年01月22日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包