斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断

这篇具有很好参考价值的文章主要介绍了斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文链接:https://www.techbeat.net/article-info?id=4583
作者:seven_

随着以ChatGPT等大型语言模型(large language models,LLMs)的爆火,学界和工业界目前已经开始重视这些模型的安全性,由于ChatGPT强大的知识存储和推理能力,其目前可以针对各种各样的用户输入来产生非常流畅和完整的回答,甚至在一些专业领域以及公共讨论话题中,它也可以从容应对。例如,一些学生可能会使用LLMs来帮助他们完成书面作业,使老师无法准确的判断学生的学习效果,这也的的确确是LLMs带来的负面影响。
斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断

论文链接:
https://arxiv.org/abs/2301.11305
项目主页:
https://ericmitchell.ai/detectgpt/

近日,来自斯坦福大学的研究团队发布了一个名为DetectGPT的检测模型来判断一个文本段落是否是由机器生成的。作者首先观察了LLMs的运行机制,他们发现LLM生成的文本往往占据模型的对数概率函数的负曲率区域。根据这一现象,作者提出想法,能够基于概率函数的曲率标准来对文本进行判定呢

实验结果表明,这种想法完全可行,DetectGPT不需要专门训练一个单独的分类器,也不需要额外收集真实场景中或者机器生成的文本段落数据,它只需要对当前模型计算其对数概率并与另外一个通用的预训练语言模型(例如T5)的段落随机扰动进行比较,即可得出结论。作者发现DetectGPT比现有的zero-shot文本检测方法更具有鉴别能力

一、 引言

如果我们仔细推敲ChatGPT等LLMs生成出的文本回答,会发现它们的答案仍然有明显的机器翻译痕迹。但是这种生成技术确实在一些领域能够以假乱真,甚至取代人工劳动,特别是在学生的论文写作和记者的新闻写作中,这都会带来很大的风险,例如影响学生的学习积极性,也有可能会因为虚假新闻导致公众获得错误的信息。但是幸运的是,目前机器模型生成的文本与人类编写出的文字相比仍然有不小的差距,这使得我们及时开发文本检测方法和工具成为可能。之前已经有很多工作将机器生成的文本检测任务看做是一个二分类问题[1],具体来说,这些方法的目标是对一个候选文本段落的来源进行分类,其中这些文本来源是预定义的类别。但是这种方法有几个明显的缺点,例如它们会非常倾向于参与训练的那些文本来源,并且不具备增量学习功能,如果想要使模型能够识别未知来源的文本,就需要对模型整体重新训练。因此考虑开发具有zero-shot功能的模型才更符合现实场景,即根据文本源模型本身来进行开发,不进行任何形式的微调或适应,来检测它自己生成的样本

zero-shot文本检测任务最常见的方法就是对生成文本的平均token对数概率进行评估,并设置阈值进行判断。本文作者针对此提出了一个简单的假设:机器对自己生成的文本进行改动时往往会比原始样本的对数概率低,而人类对自己所写文本的改动会远超过原本文本的对数概率。换句话说,与人类写的文本不同,模型生成的文本往往位于对数概率函数具有负曲率的区域(例如,对数概率的局部最大值),如下图所示。
斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断
作者基于这一假设设计了DetectGPT,为了测试一个段落是否来自一个源模型 p θ p_{\theta} pθ ,DetectGPT将与 p θ p_{\theta} pθ 相关候选段落的对数概率与对 p θ p_{\theta} pθ 进行随机扰动生成的段落的平均对数概率(例如用T5参与扰动)进行比较。如果被扰动的段落的平均对数概率比原始段落低一些,那么候选段落很可能来自于 p θ p_{\theta} pθ , 这一过程的具体运行如下图所示。
斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断

二、本文方法

对于机器生成的zero-shot文本检测任务设置,即检测一段文本或候选段落 x x x 是否是源模型 p θ p_{\theta} pθ 的样本,在模型训练时无需加入外部数据,其呈现“白盒设置”的特点,模型中的检测器可以评估当前样本对 p θ p_{\theta} pθ 的对数概率情况。此外“白盒设置”也不限制对模型架构和参数规模的选择,因此作者在对DetectGPT的性能评估中也选用了目前通用的预训练Masked模型,用来生成与当前段落比较接近的候选文本,但是这些段落的生成不会经过任何形式的微调和域适应。

2.1 模型扰动假设

上文提到,DetectGPT基于这样一个假设:来自源模型 p θ p_{\theta} pθ 的样本通常位于 p θ p_{\theta} pθ 的对数概率函数的负曲率区域。如果我们对一段话 x ∼ p θ x \sim p_{\theta} xpθ 施加一个小的扰动,产生 x ~ \tilde{x} x~ ,那么与人类编写的文本相比,机器生成的样本的对数值 log ⁡ p θ ( x ) − log ⁡ p θ ( x ~ ) \log p_{\theta}(x)-\log p_{\theta}(\tilde{x}) logpθ(x)logpθ(x~) 应该是比较大的。基于这一假设,作者首先考虑了一个扰动函数 q ( ⋅ ∣ x ) q(\cdot \mid x) q(x) ,它会先在 x ~ \tilde{x} x~ 上给出一个分布,代表意义相近的略微修改过的 x x x 的版本。使用扰动函数的概念,我们可以q轻松的定义出扰动差异指标 d ( x , p θ , q ) \mathbf{d}\left(x, p_{\theta}, q\right) d(x,pθ,q)
斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断
对上述假设更为正式的定义如下:如果 q q q 在数据流形分布上产生样本,对于样本 x ∼ p θ x \sim p_{\theta} xpθ 来说, d ( x , p θ , q ) \mathbf{d}\left(x, p_{\theta}, q\right) d(x,pθ,q) 大概率为正,而对于人类编写文本, d ( x , p θ , q ) \mathbf{d}\left(x, p_{\theta}, q\right) d(x,pθ,q) 对所有 x x x 都趋向于0

如果此时将扰动函数 q ( ⋅ ∣ x ) q(\cdot \mid x) q(x) 定义为来自T5等预训练模型生成的扰动样本,而不是人类改写的样本,就可以以一种自动的、可扩展的方式对上述假设进行经验性测试。对于机器生成样本,这里作者使用了四个不同的LLM进行输出,例如使用T5-3B模型来产生扰动,对于给定样本,按照2个字的跨度进行随机扰动,直到文本中15%的字被覆盖。随后使用经过T5处理的100个样本按照假设进行近似计算,发现扰动差异的分布对于人类编写文本和机器生成样本是明显不同的,机器样本往往有较大的扰动差异
斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断
上图展示了来自GPT-2、GPT-Neo-2.7B、GPT-J和GPT-NeoX 四个模型与人类样本扰动后的分布对比,其中蓝色区域为人类编写文本的分布,橙色为机器生成文本的分布。

2.2 将扰动差异解释为曲率

通过上图,只能看出扰动差异在鉴别文本是否来自人类还是机器方面是有效的,但是其衡量的理论指标还不够清晰。因而作者进一步为扰动差异寻找到了理论依据,作者表明扰动差异近似于候选段落附近对数概率函数的局部曲率的度量,更具体地说,它与对数概率函数的Hessian 矩阵的负迹成正比。为了处理离散数据的不可微性,作者在这里仅考虑了在潜在语义空间中的候选段落,其中的小扰动对应于保留与原始相似含义的文本编辑过程。因为本文选用的扰动函数 (T5) 是经过大量自然文本语料预训练的,所以这里的扰动可以被粗略地认为是对原始段落的有效修改,而不是随意编辑

作者首先利用Hutchinson提出的迹估计器[3]给出矩阵 A A A 迹的无偏估计:
斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断
随后使用有限差分来近似这个表达式:
斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断
联立上述两式子并使用 h = 1 h = 1 h=1 进行简化,就可以得到负Hessian矩阵的迹估计:
斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断
作者观察到上式其实对应于扰动差异 d ( x , p θ , q ) \mathbf{d}\left(x, p_{\theta}, q\right) d(x,pθ,q) ,其中扰动函数 q ( ⋅ ∣ x ) q(\cdot \mid x) q(x) 可以使用Hutchinson迹估计器中使用的分布 q z ( z ) q_{z}(z) qz(z) 代替。这里, x ~ \tilde{x} x~ 是一个高维的token序列,而 q z q_{z} qz 是一个嵌入语义空间中的向量。由于扰动文本模型生成的句子与 x x x 相似,语义变化较小,因此可以将扰动文本模型视为与当前采样相似的语义嵌入 ( z ~ ∼ q z ) \left(\tilde{z} \sim q_{z}\right) (z~qz) ,然后将其映射到token序列中 ( z ~ ↦ x ~ ) (\tilde{z} \mapsto \tilde{x}) (z~x~) 。 这样做,可以保证语义空间中的采样都保持在数据流形附近,当随机扰动发生后,对数概率就会产生明显下降,这样就可以将扰动差异解释为近似限制在数据流形上的曲率。

三、实验效果

本文的实验部分作者使用了六个数据集,涵盖了各种日常领域,例如使用XSum数据集中的新闻文章来进行假新闻检测实验,使用SQuAD上下文中的维基百科段落来表示机器编写的学术论文,以及使用Reddit WritingPrompts数据集来表示机器生成的创意写作。此外,为了评估分布变化的稳健性,作者还使用了WMT16的英语和德语部分以及人类专家在PubMedQA数据集中编写的标准答案。

作者首先对DetectGPT的zero-shot文本检测能力进行评估,实验结果如下表所示,可以看出,DetectGPT在所有15种数据集和模型组合中的14种实验组合上都得到了最准确的检测性能。尤其是DetectGPT最大程度地提高了XSum数据集的平均检测精度(0.1 AUROC 改进),在SQuAD维基百科上下文数据集上也有明显的性能提升(0.05 AUROC 改进)。
斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断
此外,作者还选取了一部分监督学习训练的检测器进行对比。作者着重探索了几个领域,或者说几种语境,对比结果如下图所示。例如在英语新闻数据上,监督检测器可以达到与 DetectGPT 接近的检测性能,但在英语科学写作数据下,其性能明显低于本文方法。而在德语写作中监督学习方法会完全失败。相比之下,以DetectGPT为代表的零样本方法更容易泛化到新的语言和领域中
斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断

四、总结

随着LLMs的不断发展和改进,我们应该一方面对它们在越来越多的领域中减轻人类工作者的创作压力感到高兴,另一方面也更应该同步发展针对它们的安全检测技术,这对于这一领域未来的健康发展至关重要。本文从这些大模型本身的运行机制出发设计了DetectGPT方法,DetectGPT通过一个简单的数据分布特点即可判断出文本的来源,此外作者还对本文方法进行了详尽的理论推导,这使得DetectGPT具有更高的可信度和可解释性。此外DetectGPT的zero-shot特性使它相比那些使用数百万数据样本定制训练的检测模型更具有竞争力。此外作者在文章的最后还谈到了DetectGPT的未来计划,他们会进一步探索对数概率曲率属性是否在其他领域(音频、视频或图像)的生成模型中也能起到很好的检测作用,这一方向也具有非常重要的现实意义,让我们一起期待吧。

参考文献

[1] Jawahar, G., Abdul-Mageed, M., and Lakshmanan, L. V. S. Automatic detection of machine generated text: A critical survey. In International Conference on Computational Linguistics, 2020.
[2] Narayan, S., Cohen, S. B., and Lapata, M. Don’t give me the details, just the summary! Topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018.
[3] Hutchinson, M. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines. Communications in Statistics - Simulation and Computation, 19(2):433–450, 1990. doi: 10.1080/ 03610919008812866. URL https://doi.org/10. 1080/03610919008812866.

Illustration by Bittu Designs from IconScout

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com文章来源地址https://www.toymoban.com/news/detail-493887.html

到了这里,关于斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 十分钟读完「斯坦福提出的革新AI训练的新算法DPO」论文

    引言:探索无监督语言模型的可控性挑战 在人工智能领域,无监督语言模型(Language Models, LMs)的发展已经达到了令人惊叹的水平,这些模型能够在广泛的数据集上进行预训练,学习到丰富的世界知识和一定的推理能力。然而,如何精确控制这些模型的行为,使其按照人类的

    2024年02月20日
    浏览(33)
  • 上海交大 AI4S 团队提出「智能化科学设施」构想,建立跨学科 AI 科研助手

    作者:李宝珠 编辑:三羊 上海交大人工智能研究院 AI for Science 团队杨小康教授等人,提出一种智能化科学设施的建设构想,形成科学领域大模型、生成式模拟与反演、自主智能无人实验及大规模可信科研协作等创新功能。 近年来,人工智能在科研中的应用持续向纵深发展,

    2024年02月22日
    浏览(53)
  • 如何去推动自己团队所提出的需求

    自己团队所提出的需求是指性能优化、技术栈升级、架构调整等需求,偏向于技术范畴。 要推动这类需求,除了自己团队的努力之外,还需要一些外在的辅助因素。 对于我们自己团队内部就能消化的需求,主要的问题就是人员,只要人员充足,那么就能慢慢推进。 而对于那

    2023年04月10日
    浏览(40)
  • 斯坦福联合Meta提出多模态模型RA-CM3,检索增强机制或成文本图像领域新制胜法宝

    原文链接:https://www.techbeat.net/article-info?id=4403 作者:seven_ 论文链接: https://arxiv.org/abs/2211.12561 相信目前很多AI大模型研究者都会遇到一个非常困难的问题,那就是 很难控制的模型参数和容量 ,由于参与模型训练的数据量非常庞大,如果模型参数太少会导致过拟合,参数量过

    2024年02月09日
    浏览(41)
  • Dynamic Routing Between Capsules——黄海波团队的论文,提出了一个胶囊网络的改进

    作者:禅与计算机程序设计艺术 在深度学习领域,神经网络(NN)已经成为一个非常有效、普遍且广泛应用的机器学习技术。而最近,随着大数据、计算能力的提升以及深度学习模型的性能指标的提高,神经网络已逐渐成为解决各种各样的问题的利器。近年来,胶囊网络(CapsNe

    2024年02月08日
    浏览(41)
  • 小鹏团队提出Anything in Any Scene,超真实的视频模拟框架,图像增强的未来?

    你能找出哪个物体是假的么? 项目demo效果非常惊艳,仔细看了之后又发现工作量很大,Pipeline很复杂,即使Supplementary Material中补充了很多信息,但具体细节估计需要详细看代码才能清楚了。看文章的排版和挂到arxiv的时间,应该是投CVPR2024了,可以期待一下完整代码。 摘要

    2024年02月20日
    浏览(35)
  • 体验百度文心一言AI大模型生产生成河南大学、太原理工大学、哈尔滨工程大学和青岛大学简介

    河南大学(Henan University),简称“河大”,坐落于中国河南省,是河南省人民政府与中华人民共和国教育部共建高校,国家“双一流”建设高校,入选国家“111计划”、中西部高校基础能力建设工程、卓越医生教育培养计划、卓越法律人才教育培养计划、卓越教师培养计划、

    2024年02月11日
    浏览(49)
  • NIPS2022|南京大学提出基于点击后行为的广义延迟反馈模型

    Generalized Delayed Feedback Model with Post-Click Information in Recommender Systems Jia-Qi Yang De-Chuan Zhan Nanjing University https://proceedings.neurips.cc/paper_files/paper/2022/file/a7f90da65dd41d699d00e95700e6fa1e-Paper-Conference.pdf 转化率预估(比如预测某个用户购买某个商品的概率)在机器学习推荐系统中是一个基本问

    2024年02月05日
    浏览(45)
  • 体验文心一言AI大模型生成伊利诺伊大学香槟分校、复旦大学、上海交通大学、东南大学和加州伯克利大学简介

    UIUC(University of Illinois at Urbana-Champaign)是美国伊利诺伊大学香槟分校的简称。该学校成立于1868年,位于美国伊利诺伊州香槟市,是一所公立研究型大学。UIUC是美国著名的常春藤盟校之一,在多个学科领域享有声誉,包括工程、商科、建筑、心理学、法学、医学、农学等。

    2024年02月11日
    浏览(61)
  • 体验文心一言AI大模型生成淄博和山东理工大学简介

    淄博,简称“淄”,位于中国华东地区、山东省中部,北纬35°55′20″~37°17′14″,东经117°32′15″~118°31′00″,市域面积为5965平方公里。淄博市地处黄河三角洲高效生态经济区、山东半岛蓝色经济区两大国家战略经济区与山东省会城市群经济圈交汇处,南依沂蒙山区与

    2024年02月15日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包