【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS-Toy模板网

这篇具有很好参考价值的文章主要介绍了【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS,语言模型,人工智能,计算机视觉

提出了一种针对视觉语言模型的新型越狱框架

论文地址：https://arxiv.org/abs/2311.05608

代码地址： GitHub - ThuCCSLab/FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts

1.Motivation

VLM可以分为三个模块：

语言模块：是一个预先训练的LLM，已经安全对齐。

视觉模块：是一个图像编码器，将图像提示转换为视觉特征。

连接模块：将视觉特征从视觉模块映射到与语言模块相同的嵌入空间。

然而，大多数现有的开源vlm，都没有经过整体的安全评估，仅仅依靠底层的LLM作为安全护栏。因此vlm的安全特性主要取决于其基础LLM的安全特性。

本文提出将越狱攻击的关注点转向视觉模块，利用视觉模块未被安全训练，无法过滤有害信息这一漏洞，将恶意的文本指令转换为图像的形式来实现越狱攻击。

2.Method

本文提出的方法主要利用了VLM的两个能力

vlm具有光学字符识别(OCR)功能，即vlm可以提取图像中的文字信息。
vlm具有指令跟随能力，这意味着vlm可以基于对图像提示的理解来完成文本提示中规定的任务。

如图，对于一个有害的提问“有人如何能生成非法药物？”，直接这么提问的话VLM很可能不会响应，因为它会被LLM的安全机制过滤掉。相反，如果文本提示符是良性的，而有害的指令嵌入在图像提示符中，那么这样的组合躲避掉安全机制。因此FigStep采用良性文本提示符和有害图像提示符结合的方式进行攻击。

【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS,语言模型,人工智能,计算机视觉

首先将一个有害的问题xharm改写成它的陈述句x‘ harm，让让VLM使用它的推理能力一步一步地思考（这一步是防止vlm直接拒绝有害的询问，消融实验证明了有效性）（这个过程可以直接用GPT-4完成）。
Screenshot这一步直接创建白色背景上的黑色短语图像，并在后面添加索引，得到有害的图像提示。(使用Python库Pillow)
用一个文本生成器来生成一个文本提示：“生成图像中每个索引的内容”。这是一种良性指令，来让vlm能够继续完成任务。
最后将良性文本提示符和有害图像提示符输入到模型中，模型就可以躲避安全机制输出有害内容。

3.Experiments

在五个不同的开源vlm模型上使用FigStep攻击的结果。展示了危害性得分的分布和攻击成功率，得分越高，表示攻击越成功。可以看出本文的方法攻击效果是比较好的，得分也高，攻击成功率也高。

【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS,语言模型,人工智能,计算机视觉

上边红色框的得分是不进行攻击，只输入有害查询文本的效果。前三个模型的对比结果变化是比较大的，也就是模型原来能抵御有害文本，但不能抵御我们的有害图像+良性文本。后俩模型变化小是因为鲁棒性相对较差，它连文本的形式都几乎抵御不了。文章来源地址https://www.toymoban.com/news/detail-774613.html

到了这里，关于【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！