大模型集体失控!南洋理工新型攻击,主流AI无一幸免

这篇具有很好参考价值的文章主要介绍了大模型集体失控!南洋理工新型攻击,主流AI无一幸免。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

西风 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

业界最领先的大模型们,竟然集体“越狱”了!

不止是GPT-4,就连平时不咋出错的Bard、Bing Chat也全线失控,有的要黑掉网站,有的甚至扬言要设计恶意软件入侵银行系统:

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

这并非危言耸听,而是南洋理工大学等四所高校提出的一种大模型“越狱”新方法MasterKey

用上它,大模型“越狱”成功率从平均7.3%直接暴涨至21.5%

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

研究中,诱骗GPT-4、Bard和Bing等大模型“越狱”的,竟然也是大模型——

只需要利用大模型的学习能力、让它掌握各种“诈骗剧本”,就能自动编写提示词诱导其它大模型“伤天害理”。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

所以,相比其他大模型越狱方法,MasterKey究竟有什么不一样的地方?

我们和论文作者之一,南洋理工大学计算机教授、MetaTrust联合创始人刘杨聊了聊,了解了一下这项研究的具体细节,以及大模型安全的现状。

摸清防御机制“对症下药”

先来看看,MasterKey究竟是如何成功让大模型“越狱”的。

这个过程分为两部分:找出弱点,对症下药。

第一部分,“找出弱点”,摸清大模型们的防御机制。

这部分会对已有的主流大模型做逆向工程,由内而外地掌握不同大模型的防御手段:有的防御机制只查输入,有的则check输出;有的只查关键词,但也有整句话意思都查的,等等。

例如,作者们检查后发现,相比ChatGPT,Bing Chat和Bard的防御机制,会对大模型输出结果进行检查。

相比“花样百出”的输入攻击手段,直接对输出内容进行审核更直接、出bug的可能性也更小。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

此外,它们还会动态监测全周期生成状态,同时既有关键词匹配、也具备语义分析能力。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

了解了大模型们的防御手段后,就是想办法攻击它们了。

第二部分,“对症下药”,微调一个诈骗大模型,诱导其他大模型“越狱”。

这部分具体又可以分成三步。

首先,收集市面上大模型已有的成功“越狱”案例,如著名的奶奶漏洞(攻击方假扮成奶奶,打感情牌要求大模型提供违法操作思路),做出一套“越狱”数据集

然后,基于这个数据集,持续训练+任务导向,有目的地微调一个“诈骗”大模型,让它自动生成诱导提示词。

最后,进一步优化模型,让它能灵活地生成各种类型的提示词,来绕过不同主流模型的防御机制。

事实证明,MasterKey效果挺不错,平均“诈骗”成功率达到21.58%(输入100次提示词,平均21次都能让其他大模型成功“越狱”),在一系列模型中表现最好:

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

此前未能被系统性攻破的谷歌Bard和微软Bing Chat两个大模型,也沦陷在这种方法之下,被迫“越狱”。

对此,刘杨教授认为:

安全是一个0和1的事情,只有“有”或者“没有”。无论概率是多少,只要针对大模型进行了任何一次成功的攻击,其潜在的后果都不可估量。

不过,此前业界也有不少用AI让AI越狱的方法,如DeepMind的red team和宾大的PAIR等,都是用AI生成提示词,让模型“说错话”。

为何MasterKey能取得这样的效果?

刘杨教授用了一个有意思的比喻:

让大模型诱导大模型越狱,本质上有点像是《孤注一掷》电影里面的人搞电信诈骗。相比通过一句话来诈骗对方,真正需要掌握的,其实是诈骗的剧本,也就是套路。

我们通过收集各种各样的“越狱”剧本,让大模型学会它,以此融会贯通,掌握更多样化的攻击手段。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

简单来说,相比不少越狱研究让AI随机生成提示词,MasterKey能快速学会最新的越狱套路,并举一反三用在提示词里。

这样一来,封掉一个奶奶漏洞,还能利用姥姥漏洞继续骗大模型“越狱”。(手动狗头)

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

不过,MasterKey所代表的提示词攻击,并非业界唯一的大模型研究。

针对大模型本身,还有乱码攻击、以及模型架构攻击等方法。

这些研究分别适用于怎样的模型?为何MasterKey的提示词攻击专门选择了GPT-4、Bing Chat和Bard这类商用大模型,而非开源大模型?

刘杨教授简单介绍了一下当前“攻击”大模型的几种方法。

当前,大模型的攻击手段主要分为两种,偏白盒的攻击和黑盒攻击。

白盒攻击需要掌握模型本身的结构和数据(通常只有从开源大模型才能得到),攻击条件更高,实施过程也更复杂;

黑盒攻击则通过输入输出对大模型进行试探,相对来说手段更直接,也不需要掌握模型内部的细节,一个API就能搞定。

这其中,黑盒攻击又主要包括提示词攻击和tokens攻击两种,也是针对商用大模型最直接的攻击手段。

tokens攻击是通过输入乱码或是大量对话来“攻陷”大模型,本质还是探讨大模型自身和结构的脆弱性。

提示词攻击则是更常见的一种大模型使用方式,基于不同提示词来让大模型输出可能有害的内容,来探讨大模型自身的逻辑问题。

总结来说,包括MasterKey在内的提示词攻击,是最常见的商用大模型攻击手段,也是最可能触发这类大模型逻辑bug的方式。

当然,有攻就有防。

主流商用大模型,肯定也做了不少防御措施,例如英伟达前段时间搞的大模型“护栏”相关研究。

这类护栏一面能将有毒输入隔绝在外,一面又能避免有害输出,看似是保护大模型安全的有效手段。但从攻击者的角度来看,究竟是否有效?

换言之,对于当前的大模型“攻方”而言,已有的防御机制究竟好不好使?

给大模型安排“动态”护栏

我们将这个问题问题抛给刘杨教授,得到了这样的答案:

现有防御机制的迭代速度,是跟不上攻击的变化的。

以大模型“护栏”类研究为例,当前大部分的大模型护栏,还属于静态护栏的类型。

还是以奶奶漏洞为例。即使静态护栏能防住奶奶漏洞,但一旦换个人设,例如姥姥、爷爷或是其他“感情牌”,这类护栏就可能会失效。

层出不穷的攻击手段,单靠静态护栏难以防御。

这也是团队让MasterKey直接学习一系列“诈骗剧本”的原因——

看似更加防不胜防,但实际上如果反过来利用的话,也能成为更安全的一种防御机制,换言之就是一种“动态”护栏,直接拿着剧本,识破一整套攻击手段。

不过,虽然MasterKey的目的是让大模型变得更安全,但也不排除在厂商解决这类攻击手段之前,有被不法分子恶意利用的可能性。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

是否有必要因此暂停大模型的研究,先把安全问题搞定,也是行业一直在激辩的话题。

对于这个观点,刘杨教授认为“没有必要”。

首先,对于大模型自身研究而言,目前的发展还是可控的:

大模型本身只是一把枪,确实有其双面性,但关键还是看使用的人和目的。

我们要让它的能力更多地用在好的方面,而不是用来做坏事。

除非有一天AI真的产生了意识,“从一把枪变成了主动用枪的人,就是另外一回事儿了”。

为了避免这种情况出现,在发展AI的同时也确保其安全性是必要的。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

其次,大模型和安全的发展,本就是相辅相成的:

这是一个鸡和蛋的问题。正如大模型本身,如果不继续研究大模型,就不知道它潜在的能力如何;

同理,如果不做大模型攻击研究,也就不知道如何引导大模型往更安全的方向发展。安全和大模型本身的发展是相辅相成的。

换言之,大模型发展中的安全机制其实可以通过“攻击”研究来完善,这也是攻击研究的一种落地方式。

当然,大模型要落地必须要先做好安全准备。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

目前,刘杨教授团队也在探索如何在安全性的基础上,进一步挖掘包括文本、多模态、代码在内不同大模型的潜力。

例如在写代码这块,研究团队正在打造一个应用安全Copilot。

这个应用安全Copilot相当于给程序员旁边放个安全专家,随时盯着写代码(手动狗头),主要能做三件事:

一是用大模型做代码开发,自动化做代码生成、代码补全;二是用大模型检测修补漏洞,做代码的检测、定位、修复;三是安全运营,把漏洞和开源数据做自动化的安全运维。

其中,在Copilot的安全性这块,就会用到这篇MasterKey的研究。

换言之,所有的安全研究最终都会落地,将大模型做得更好。

论文链接:
https://arxiv.org/abs/2307.08715

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免,人工智能

点这里👇关注我,记得标星哦~文章来源地址https://www.toymoban.com/news/detail-770915.html

到了这里,关于大模型集体失控!南洋理工新型攻击,主流AI无一幸免的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder

    Stability AI又有新动作!程序员又有危机了? 3月26日,Stability AI推出了先进的代码语言模型Stable Code Instruct 3B,该模型是在Stable Code 3B的基础上进行指令调优的Code LM。 Stability AI 表示,Stable Code Instruct 3B 在代码完成准确性、对自然语言指令的理解以及处理多种编程语言方面都优

    2024年04月22日
    浏览(37)
  • 麻省理工最新开发AI模型,让机器人实现自主规划路线

    文 | BFT机器人  麻省理工学院的研究人员独具匠心地应用了人工智能来解决仓库中的机器人路径规划问题,以此缓解交通拥堵的难题。据该学院介绍,他们的团队开发了一种深度学习模型,其效率比传统的强随机搜索方法 高出近四倍 ,极大地提升了机器人路径规划的流畅性

    2024年03月21日
    浏览(45)
  • 体验文心一言AI大模型生成淄博和山东理工大学简介

    淄博,简称“淄”,位于中国华东地区、山东省中部,北纬35°55′20″~37°17′14″,东经117°32′15″~118°31′00″,市域面积为5965平方公里。淄博市地处黄河三角洲高效生态经济区、山东半岛蓝色经济区两大国家战略经济区与山东省会城市群经济圈交汇处,南依沂蒙山区与

    2024年02月15日
    浏览(41)
  • 国内主流AI大模型盘点

    今年年初,轰动科技圈的大事就是ChatGPT的面世,它的到来打响了AI智能时代的第一枪,同时展开了一场别开生面的智能科技革命。 随着ChatGPT迅速走红,国内各大企业纷纷发力认知大模型领域。经过一段时间的酝酿,国内的AI领域也开启了“内卷”模式,各种大模型纷纷出现在

    2024年02月08日
    浏览(53)
  • 《花雕学AI》06:ChatGPT,一种新型的对话生成模型的机遇、挑战与评估

    37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里准备逐一动手尝试系列实验,不管成功(程序走通)

    2024年02月02日
    浏览(38)
  • 麻省理工学院与Meta AI共同开发StreamingLLM框架,实现语言模型无限处理长度

    🦉 AI新闻 🚀 麻省理工学院与Meta AI共同开发StreamingLLM框架,实现语言模型无限处理长度 摘要 :麻省理工学院与Meta AI的研究人员联合研发了一款名为StreamingLLM的框架,解决了大语言模型在RAM与泛化问题上的挑战,使其能够处理无限长度的文本内容。该框架采用了注意力下沉

    2024年02月07日
    浏览(35)
  • 10种新型网络安全威胁和攻击手法

    2023年,网络威胁领域呈现出一些新的发展趋势,攻击类型趋于多样化,例如:从MOVEit攻击可以看出勒索攻击者开始抛弃基于加密的勒索软件,转向窃取数据进行勒索;同时,攻击者们还减少了对传统恶意软件的依赖,转向利用远程监控和管理(RMM)等合法工具;此外,为了绕

    2024年02月07日
    浏览(47)
  • 体验百度文心一言AI大模型生产生成河南大学、太原理工大学、哈尔滨工程大学和青岛大学简介

    河南大学(Henan University),简称“河大”,坐落于中国河南省,是河南省人民政府与中华人民共和国教育部共建高校,国家“双一流”建设高校,入选国家“111计划”、中西部高校基础能力建设工程、卓越医生教育培养计划、卓越法律人才教育培养计划、卓越教师培养计划、

    2024年02月11日
    浏览(49)
  • 智安网络|新型恶意软件攻击:持续威胁网络安全

    当今数字化时代,恶意软件已经成为网络安全领域中的一项巨大威胁。随着技术的不断进步,恶意软件的攻击方式也在不断演变和发展。 以下是一些目前比较常见的新型恶意软件攻击: **1.勒索软件:**勒索软件是一种恶意软件,它会加密受害者的文件,然后勒索赎金以恢复

    2024年02月13日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包