提出了一种针对视觉语言模型的新型越狱框架
论文地址:https://arxiv.org/abs/2311.05608
代码地址: GitHub - ThuCCSLab/FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts
1.Motivation
VLM可以分为三个模块:
语言模块:是一个预先训练的LLM,已经安全对齐 。
视觉模块:是一个图像编码器,将图像提示转换为视觉特征。
连接模块:将视觉特征从视觉模块映射到与语言模块相同的嵌入空间。
然而,大多数现有的开源vlm,都没有经过整体的安全评估,仅仅依靠底层的LLM作为安全护栏。因此vlm的安全特性主要取决于其基础LLM的安全特性。
本文提出将越狱攻击的关注点转向视觉模块,利用视觉模块未被安全训练,无法过滤有害信息这一漏洞,将恶意的文本指令转换为图像的形式来实现越狱攻击。
2.Method
本文提出的方法主要利用了VLM的两个能力
- vlm具有光学字符识别(OCR)功能,即vlm可以提取图像中的文字信息。
- vlm具有指令跟随能力,这意味着vlm可以基于对图像提示的理解来完成文本提示中规定的任务。
如图,对于一个有害的提问“有人如何能生成非法药物?”,直接这么提问的话VLM很可能不会响应,因为它会被LLM的安全机制过滤掉。 相反,如果文本提示符是良性的,而有害的指令嵌入在图像提示符中,那么这样的组合躲避掉安全机制。 因此FigStep采用良性文本提示符和有害图像提示符结合的方式进行攻击。
- 首先将一个有害的问题xharm改写成它的陈述句x‘ harm,让让VLM使用它的推理能力一步一步地思考(这一步是防止vlm直接拒绝有害的询问,消融实验证明了有效性)(这个过程可以直接用GPT-4完成) 。
- Screenshot这一步直接创建白色背景上的黑色短语图像,并在后面添加索引,得到有害的图像提示。(使用Python库Pillow)
- 用一个文本生成器来生成一个文本提示:“生成图像中每个索引的内容”。这是一种良性指令,来让vlm能够继续完成任务。
- 最后将良性文本提示符和有害图像提示符输入到模型中,模型就可以躲避安全机制输出有害内容 。
3.Experiments
在五个不同的开源vlm模型上使用FigStep攻击的结果。 展示了危害性得分的分布和攻击成功率,得分越高,表示攻击越成功。 可以看出本文的方法攻击效果是比较好的,得分也高,攻击成功率也高 。
文章来源:https://www.toymoban.com/news/detail-774613.html
上边红色框的得分是不进行攻击,只输入有害查询文本的效果。前三个模型的对比结果变化是比较大的,也就是模型原来能抵御有害文本,但不能抵御我们的有害图像+良性文本。后俩模型变化小是因为鲁棒性相对较差,它连文本的形式都几乎抵御不了。文章来源地址https://www.toymoban.com/news/detail-774613.html
到了这里,关于【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!