【论文阅读】Jailbreak and Guard Aligned Language Modelswith Only Few In-Context Demonstrations

这篇具有很好参考价值的文章主要介绍了【论文阅读】Jailbreak and Guard Aligned Language Modelswith Only Few In-Context Demonstrations。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

jailbreak and guard aligned,论文阅读,语言模型,人工智能,机器学习,计算机视觉

 对齐语言模型的通用和可迁移对抗攻击

 论文地址:https://arxiv.org/abs/2310.06387

1.Motivation

  • 之前的越狱攻击方法可以通过对有害请求添加对抗前缀或后缀来破解对齐的LLM,以产生有害的答案。然而,由于这些前/后缀的不自然性,这些对抗性prompt可以通过简单的困惑检测器轻松防御。
  • 本文提出是否可以利用LLM的上下文学习(ICL)能力来使用自然语言越狱LLMs。利用模型的上下文学习能力,我们可以通过首先向LLM展示另一个有害的查询-答案演示来诱导LLM生成所需的内容。
  • 此外,由于这个对抗演示也使用自然语言,因此上下文攻击也更加隐蔽,更难被发现

jailbreak and guard aligned,论文阅读,语言模型,人工智能,机器学习,计算机视觉

2. Method

In-Context Attack

上下文攻击的方法很简单:就是在输入提示中添加对抗性演示来诱导模型完成有害指令 。

首先收集一些其他有害提示{x_i}及其相应的有害答案{y_i}作为上下文攻击演示 。

然后,将提示[x_1,y_1,···,x_k,y_k]与目标攻击提示x串联起来,得到最终的攻击提示P_attack。

jailbreak and guard aligned,论文阅读,语言模型,人工智能,机器学习,计算机视觉

jailbreak and guard aligned,论文阅读,语言模型,人工智能,机器学习,计算机视觉

 In-Context Defense

除了攻击,本文还提出了一种上下文防御(ICD)方法,对于之前的攻击方法,比如下图这种添加对抗后缀的方法,上下文防御通过添加一个安全的上下文演示来提醒模型不要生成有害输出。(防御的是其他文章的方法)。

jailbreak and guard aligned,论文阅读,语言模型,人工智能,机器学习,计算机视觉

 具体算法:

首先收集一些其他有害提示{x_i}及其相应的安全输出{y_i}作为上下文安全演示 。

然后,将提示[x_1,y_1,···,x_k,y_k] 串联起来,得到一个更安全的语言模型。

当这个安全演示与对抗指令一起输入时,这个对抗指令就会失效,不再输出有害内容。

jailbreak and guard aligned,论文阅读,语言模型,人工智能,机器学习,计算机视觉

3. Experiments

表1展示了不同上下文演示样本数下ICA的攻击成功率和基于优化的越狱方法的比较,所有这些方法都需要优化500步的提示 。

Individual:针对一个有害行为设计的对抗提示,multiple:根据多个有害行为设计的通用对抗提示

从表1的比较来看,我们的ICA攻击效果优于一些基于优化的方法,包括GBDA和PEZ。 虽然上一篇的GCG的攻击成功率非常高,但它生成的对抗后缀很容易被检测机制防御,如表2,经过过滤防御后攻击完全失效。 而本文的方法因为用到的对抗演示是自然语言形式,所以可以绕过防御检测。

jailbreak and guard aligned,论文阅读,语言模型,人工智能,机器学习,计算机视觉
表1

 

jailbreak and guard aligned,论文阅读,语言模型,人工智能,机器学习,计算机视觉
表2

表3展示了防御GCG越狱方法的效果(ASR) 分别在这俩个模型上进行了实验,可以看到原本高攻击成功率的GCG,在应用一次防御演示后攻击成功率下降非常大,应用两次时基本为0了。说明这个基于上下文学习的防御方法很有效。 文章来源地址https://www.toymoban.com/news/detail-790927.html

jailbreak and guard aligned,论文阅读,语言模型,人工智能,机器学习,计算机视觉
表3

到了这里,关于【论文阅读】Jailbreak and Guard Aligned Language Modelswith Only Few In-Context Demonstrations的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 论文阅读笔记

    写在前面   又是一周周末,可惜今天运气不咋好,上午被小汽车撞自行车后座上了,手臂皮外伤,所幸人没事。下午继续淦论文吧。 论文地址:Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation 代码地址:原论文未提供 预计投稿于:CVPR 2

    2024年02月03日
    浏览(28)
  • 文献阅读:LLaMA: Open and Efficient Foundation Language Models

    文献阅读:LLaMA: Open and Efficient Foundation Language Models 1. 文章简介 2. 模型训练 1. 训练数据 2. 模型结构 3. 模型训练 1. Optimizer 2. 效率优化 3. 效果评估 1. 经典任务下效果 1. Commen Sense Reasoning 2. Closed-book Question Answering 3. Reading Comprehension 4. Mathematical reasoning 5. Code generation 6. Massive M

    2024年02月09日
    浏览(75)
  • 论文阅读 Interpretable Unified Language Checking

    本文提出了一种新的方法来解决多种自然语言处理任务中的问题,包括公平性检查、事实检查、虚假新闻检测和对抗攻击检测等。该方法基于大型语言模型和少量人类标注的提示信息,通过在模型中引入相应的提示,来提高模型的性能和可解释性。该论文的实际意义非常重大

    2024年02月11日
    浏览(29)
  • 论文笔记--LLaMA: Open and Efficient Foundation Language Models

    标题:LLaMA: Open and Efficient Foundation Language Models 作者:Touvron, Hugo, et al. 日期:2023 期刊:arxiv preprint   文章利用公开数据集训练并发布了一系列大语言模型LLaMA,在多个NLP下游任务中性能超过了GPT-3和PALM等模型。 English CommonCrawl(67%): 训练集的大部分构成为2017~2020年间的Com

    2024年02月09日
    浏览(43)
  • LLaMA(Open and Efficient Foundation Language Models )论文解读(二)

    此篇博客主题:LLAMA模型数据、训练时长、功耗及碳排放量 LLaMA: Open and Efficient Foundation Language Models paper https://arxiv.org/pdf/2302.13971v1.pdf Overall, our entire training dataset contains roughly 1.4T tokens after tokenization. For most of our training data, each token is used only once during training, with the exception of t

    2024年02月16日
    浏览(35)
  • ChatGLM基座:GLM(General Language Model)论文阅读笔记

    现在有很多Pretrain model 的架构, 如Bert、GPT、T5等,但是当时没有一种模型能在NLU、有条件文本生成、无条件文本生成都有很好的表现。 一般预训练模型架构分为三种:自回归(GPT系列)、自编码(Bert系列)、编码器-解码器(T5)。 作者概述了它们目前存在的问题·: GPT:单

    2024年02月02日
    浏览(30)
  • 论文阅读:LSeg: LANGUAGE-DRIVEN SEMANTIC SEGMENTATION

    可以直接bryanyzhu的讲解:CLIP 改进工作串讲(上)【论文精读·42】_哔哩哔哩_bilibili 这里是详细的翻译工作 原文链接 https://arxiv.org/pdf/2201.03546.pdf ICLR 2022 我们提出了一种新的语言驱动的 语义图像分割模型LSeg 。LSeg使用一个 文本编码器来计算描述性输入标签 (例如,“草”或“

    2024年02月04日
    浏览(35)
  • 【论文阅读】Scaling Laws for Neural Language Models

    本文简要介绍 Scaling law 的主要结论 原文地址:Scaling Laws for Neural Language Models 个人认为不需要特别关注公式内各种符号的具体数值,而更应该关注不同因素之间的关系,比例等 Performance depends strongly on scale, weakly on model shape scale: 参数量 N N N , 数据量 D D D , 计算量 C C C shape: 模

    2024年02月16日
    浏览(33)
  • 论文阅读 A Survey of Large Language Models 3

    为了检验LLM的有效性和优越性,大量的任务和基准被用来进行实证评估和分析。我们首先介绍了LLM语言生成和理解的三种基本评估任务,然后介绍了LLM具有更复杂设置或目标的几个高级任务,最后讨论了现有的基准和实证分析。 在这一部分中,我们主要关注LLM的三种评估任务

    2024年02月13日
    浏览(32)
  • 【论文笔记】Unifying Large Language Models and Knowledge Graphs:A Roadmap

    (后续更新完善) 以往将KGs集成到大型语言模型的工作主要分为三个部分:1)将KGs集成到训练目标中,2)将KGs集成到LLM输入中,3)将KGs集成到附加的融合模块中。 2.1.1 Integrating KGs into Training Objective 这一类的研究工作集中在设计新的知识感知训练目标,一个直观的想法是在预训练

    2024年02月07日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包