论文阅读- 人工智能安全 TEXTBUGGER: Generating Adversarial Text Against Real-world Applications

这篇具有很好参考价值的文章主要介绍了论文阅读- 人工智能安全 TEXTBUGGER: Generating Adversarial Text Against Real-world Applications。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 背景:

 Deep Learning-based Text Understanding (DLTU)简介:

基于深度学习的文本理解(DLTU)广泛运用于问答、机器翻译和文本分类,情感分析(eg 电影评论分类)、有害内容检测(讽刺、讽刺、侮辱、骚扰和辱骂内容)等安全敏感应用中。

DLTU天生容易受到对抗性文本攻击,在对抗性文本攻击中,恶意制作的文本会触发目标DLTU系统和服务行为不当。

本文的target:

提出TEXTBUGGER,一种用于生成对抗性文本(对抗攻击,是一种攻击,不是对攻击进行对抗)的通用攻击框架。并且本文进一步讨论了缓解此类攻击的可能防御机制以及攻击者的潜在对策,为进一步的研究指明了方向。

过往技术的局限性:

现有的对抗样本研究工作主要在图像领域,特别在图像分类领域成功率很高,扰动通常可以使人类的感知几乎无法察觉。文本领域的对抗攻击会更加复杂,在文本领域,微小的扰动通常是清晰可见的,替换单个单词可能会彻底改变句子的语义。现有的针对图像的攻击算法不能直接应用于文本,需要研究新的攻击技术和相应的防御方法。

过往的生成对抗文本机制:

通过用词汇表外的单词替换单词来生成对抗性文本 

局限性 :(i)计算效率不高,(ii)它们是在白盒环境下设计的,(iii)它们需要人工干预,和/或(iv)它们针对特定的NLP模型设计的,没有进行全面评估。

  常见对机器学习模型的攻击:

·causative attacks:   manipulate the training data to mislead the classfier

·exploratory attacks:craft malicious testing instances (adversarial examples) so as to

evade a given classifier. 

本文的TEXTBUGGER算法原理:

·TEXTBUGGER可以在白盒和黑盒设置下有效和高效地生成保留效用(即对人类读者保持其原始含义)的对抗文本的框架。

· 我们要对抗攻击一个分类器,这个分类器是一个文本分类器,我们的目的是要干扰它,让他生成一个错误的分类结果。

·下面的白盒和黑盒攻击最大的不同是因为黑盒攻击,我们无法得知分类器的内部结构,在计算单词重要性的时候,在不知道分类模型参数和结构,我们要克服这个困难,所以在白盒的算法上我们的黑盒算法做了变化。

1.白盒算法
       

·通过计算分类器的雅可比矩阵找到重要的单词

论文阅读- 人工智能安全 TEXTBUGGER: Generating Adversarial Text Against Real-world Applications,机器学习,论文阅读,人工智能,人工智能安全,深度学习,安全

 注:x为给定文本x = (x1, x2, · · · , xN ),N表示输入文本中的单词总数,xi是单词i th(第i个单词) ,j 为1.....k, k为分类器预测的类别总数

 ·bug生成

我们要求生成的对抗句子在视觉和语义上与原始句子相似,以便人类理解。因此,我们考虑了两种扰动

        ·字符级扰动

如果我们故意拼错了重要的单词,我们可以很容易地将这些重要的单词转换为“未知”(即不在字典中的单词)。在深度学习建模中,未登录的单词将被映射到“未知”的嵌入向量,这种简单的策略可以有效地迫使文本分类模型表现错误。

        ·单词级的扰动

通过在嵌入空间中搜索最近邻得到的几个单词,替换后可以愚弄分类器。并且,我们发现在一些词嵌入模型(如word2vec)中,语义相反的词(如“最差”和“更好”)在文本中具有高度的语法相似度,因此“更好”将被认为是“最差”的最近邻居。然而,将‘worst ‘改为‘better ‘将完全改变输入文本的情感。

        ·TEXTBUGGER提出了5种bug生成方法: (1)插入:在单词3中插入一个空格。一般来说,英语中的单词是用空格分割的。因此,我们可以通过在单词中插入空格来欺骗分类器。(2)删除:随机删除除单词的首尾字符外的一个字符。(3)交换:随机交换单词中相邻的两个字母,但不改变第一个或最后一个字母4。这在快速输入时很常见,而且很容易实现。(4) substitution - c (SubC):用视觉上相似的字符替换(例如,用‘0 ‘替换‘o ‘,用‘1‘替换‘l ‘,用‘@ ‘替换‘a ‘)或键盘上相邻的字符(例如,用‘n‘替换‘m ‘)。(5) Substitute-W (Sub-W):在上下文感知的词向量空间中,将一个词替换为其近邻topk。在Table I中给出了几个替代示例。

·根据置信度的变化情况选择最优的bug

即选择对真实类置信度降低幅度最大的bug。

·判断

我们将单词替换为最优bug以获得新的文本x ′ 。如果分类器给新文本一个不同的标签(即:Fl(x ′ ) = y),同时保留语义相似度,就找到了对抗性文本。如果没有,我们重复上面的步骤来替换下一个单词 直到我们找到解决方案或无法找到保持语义的对抗样本。

2.黑盒算法

注:与白盒攻击中我们可以直接基于梯度信息选择重要单词不同,在黑盒攻击中,我们首先找到重要的句子,然后找到其中的重要单词

·找出重要的句子

设输入文档x = (s1, s2, · · · , sn),其中si表示位于i th位置的句子。

我们使用spaCy库5将每个文档分割为句子。然后,我们过滤掉与原始文档标签具有不同预测标签的句子(即,过滤掉Fl(si) = y)。然后,根据重要句子的重要性得分进行倒序排序; 句子si的重要性分数用预测类别Fy的置信度表示,即Csi = Fy(si)。

·找到重要单词

使用评分函数来确定每个单词对于分类结果的重要性(能够在不知道分类模型参数和结构的情况下计算单词得分,并根据其得分对单词进行排序。直接衡量删除i th单词的效果,因为比较删除单词前后的预测可以反映出该单词如何影响分类结果

Cwj =Fy(w1, w2, · · ·, wm) −Fy(w1, · · ·, wj−1, wj+1, · · ·, wm)

每个单词的贡献度是新的置信度分数与原始置信度分数之间的差。

·选择bug

这一步与白盒设置中的步骤类似。

利用bug选择算法对已选词进行修改。

研究本文提出的方法在情感分析中的效用:

 情感分析是指使用NLP、统计学或机器学习方法来提取、识别或描述文本单元的情感内容。它被广泛应用于通过监测在线对话来帮助企业了解其产品或服务的社会情绪。

研究本文提出的方法在有毒内容检测中的效用:略

本文提出的对么TEXTBUGGER的潜在防御方法:

·拼写检查(SC):

使用了微软Azure11提供的上下文感知拼写检查服务,纠正了拼写错误的单词。但TEXTBUGGER在纠正了拼写错误的单词后,在多个在线平台上的成功率仍然高于DeepWordBug。因为5种bug,最 容 易 纠 正 的 错 误 分 别是IMDB和Kaggle的插入和删除。最难修正的bug是Sub-W(临近替换为一个正确的单词,单词纠正无法发挥作用)。

·对抗性训练(AT):

是指用生成的对抗样本训练模型,该方法可以提高机器学习模型对对抗样本的鲁棒性

 攻击者可以改进的方法:

法1:攻击者可以增加Sub-W的比例,因为它几乎无法通过拼写检查来纠正。

法2:攻击者可以调整不同平台间不同策略的比例。例如,当攻

击者针对Perspective和Aylien API时,可以增加Kaggle数据

集上的交换(swap)比例,因为只有不到40%的交换修改被纠正

论文阅读- 人工智能安全 TEXTBUGGER: Generating Adversarial Text Against Real-world Applications,机器学习,论文阅读,人工智能,人工智能安全,深度学习,安全

法3:攻击者还可以保持对抗攻击策略的私密性,并经常改变攻击参数以规避防御。

 conclusion:

研究了在白盒和黑盒设置下针对最先进的情感分析和有毒内容检测模型/平台的对抗性攻击。广泛的实验结果表明,TEXTBUGGER对于生成有针对性的对抗性NLP是有效和高效的。这些例子的可迁移性暗示了许多实际应用中的潜在漏洞,包括文本过滤系统(例如,种族主义、色情、恐怖主义和骚乱)、在线推荐系统等。研究结果还表明,拼写检查和对抗性训练在防御此类攻击方面具有可能性可以进一步探索基于语言或结构感知的防御系统集成,以提高鲁棒性。

 文章来源地址https://www.toymoban.com/news/detail-815778.html

到了这里,关于论文阅读- 人工智能安全 TEXTBUGGER: Generating Adversarial Text Against Real-world Applications的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读,ProtoGen: Automatically Generating Directory Cache Coherence Protocols(三)

    目录 一、Article:文献出处(方便再次搜索) (1)作者 (2)文献题目 (3)文献时间 (4)引用 二、Data:文献数据(总结归纳,方便理解) (1)背景介绍 (2)目的 (3)结论 (4)主要实现手段 4.1 系统模型和定义 4.2 ProtoGen概述 4.3 ProtoGen的输入,输出和限制 4.4 ProtoGen示例

    2024年02月19日
    浏览(37)
  • 【SciSpace】人工智能太强大了!文献阅读版ChatGPT,一站式科研文献阅读工具 - 知识点目录

    首先需要上传PDF 网站支持中文问答 Explain math table - 可以询问表格或者公式信息

    2024年02月16日
    浏览(49)
  • 探索人工智能:深度学习、人工智能安全和人工智能编程(文末送书)

    人工智能知识对于当今的互联网技术人来说已经是刚需。但人工智能的概念、流派、技术纷繁复杂,选择哪本书入门最适合呢? 这部被誉为人工智能“百科全书”的《人工智能(第3版)》,可以作为每个技术人进入 AI 世界的第一本书。 购书链接,限时特惠5折 这本书是美国

    2024年02月03日
    浏览(118)
  • 物联网,人工智能专业毕业论文选题推荐

    实现一个智能家居系统需要以下内容: 感知子系统:感知子系统是智能家居系统的核心,它能够感知环境中的温度、湿度、光线、声音、人体活动等信息,并将这些信息转换成数字信号传输到控制中心。常用的感知设备包括温湿度传感器、光线传感器、声音传感器、红外传感

    2024年02月08日
    浏览(51)
  • 人工智能安全:利用人工智能自动化攻击防御

    作者:禅与计算机程序设计艺术 引言 1.1. 背景介绍 随着人工智能技术的快速发展,大量的个人数据、敏感信息存储在互联网上,人工智能攻击日益猖獗。为了保护个人隐私与数据安全,人工智能安全技术应运而生。人工智能安全技术主要通过模拟人类思维,检测和防御人工

    2024年02月16日
    浏览(68)
  • 人工智能与人类智能的未来:人工智能在安全领域的挑战

    人工智能(Artificial Intelligence, AI)是一门研究如何让计算机自主地完成人类常见任务的科学。人工智能的发展历程可以分为以下几个阶段: 人工智能的诞生:1950年代,人工智能诞生于美国伯克利大学的阿尔弗雷德·图灵(Alan Turing)和亨利·阿兹朗(Herbert A. Simon)的脑海中。他们提出

    2024年02月19日
    浏览(70)
  • 最全攻略之人工智能顶会论文发表

    人工智能领域的顶级会议是学术界最重要和备受关注的论坛,聚集了来自世界各地的顶尖研究人员、工程师和学生,共同交流和展示他们在人工智能领域的最新研究成果和创新想法。 这些人工智能顶级会议不仅提供了一个学术交流的平台,还扮演着推动人工智能领域发展的重

    2024年02月12日
    浏览(44)
  • 论文怎么降低AIGC(人工智能生成内容)的影响?

    大家好,小发猫降重今天来聊聊论文怎么降低AIGC(人工智能生成内容)的影响?,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 论文怎么降低AIGC(人工智能生成内容)的影响? 在学术界,随着人工智能技术

    2024年03月16日
    浏览(75)
  • 人工智能安全:利用人工智能的可视化分析技术

    作者:禅与计算机程序设计艺术 人工智能带来的商业变革已经席卷全球,如今人工智能模型已能产生伤害性结果。而AI模型的安全性目前也备受关注,各类公司纷纷投入研发相关的安全防护措施来保障用户数据的隐私安全。在本文中,我们将通过可视化分析的方法对人工智能

    2024年02月02日
    浏览(78)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包