1. 文章简介
- 标题:DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature
- 作者:Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn
- 日期:2023
- 期刊:arxiv preprint
2. 文章概括
文章提出了一种检测语料是否为LLM生成的无监督方法“DetectGPT”,该方法属于一种基于LLM的log-proba进行分析的白盒方法,无需提供额外标注数据、无需重新训练模型,就可以得出结论。
文章整体框架如下
3 文章重点技术
3.1 Perturbation Discrepancy Gap(PDG) Hypothesis
DetectGPT基于PDG假设,通俗来说就是:给定一条模型生成的文本段,对该文本进行轻微的扰动(尽量不改变语义且保持文本的通顺度),模型对加了干扰的文本倾向于给出更高的分数,即模型生成的文本呈负曲率曲线(下图左);另一方面,给定一条人类自己写的文本段,对该文本作轻微的扰动之后,模型对干扰后的文本和原文本的打分无明显倾向,即干扰后的文本可能得到更高分或更低分(下图右)。
3.2 DetectGPT
基于上述假设,文章给出了一种判定文本是否为LLM生成的方法。给定文本段
x
x
x,对它进行轻微的扰动
q
(
⋅
∣
x
)
q(\cdot|x)
q(⋅∣x)得到
x
~
i
,
i
=
1
,
…
,
k
\tilde{x}_i, i=1, \dots, k
x~i,i=1,…,k(可以人工修改也可以通过基于掩码的模型自动生成扰动),定义扰动差异(perturbation discrepancy,PD)如下:
d
(
x
,
p
θ
,
q
)
:
=
log
p
θ
(
x
)
−
E
x
~
∼
q
(
⋅
∣
x
)
log
p
θ
(
x
~
)
d(x, p_{\theta}, q) := \log p_{\theta} (x) - \mathbb{E}_{\tilde{x} \sim q(\cdot|x)} \log p_\theta (\tilde{x})
d(x,pθ,q):=logpθ(x)−Ex~∼q(⋅∣x)logpθ(x~).基于上述PDG假设,模型对机器生成的文本扰动更敏感,即机器生成的
x
x
x的PD更大,人类手写的
x
x
x的PD更小。从而我们可以通过设置PD的阈值来区分文本是否由机器产生。
具体实验如下:
- 人类生成的数据:文章采用500条XSum的新闻作为真实的人类生产的数据
- 模型生成的数据:文章采用上述新闻每条前30个token作为prompt,输入LLM中得到模型生成的文本段。
- 扰动生成:为了批量生成扰动,文章选择采用基于掩码的T5模型[1]来生成扰动,即随机替换原是文本中的token为[MASK],然后用T5模型预测掩码位置的token。基于该方法对上述人类、机器生成的每条数据分别增加
k
=
100
k=100
k=100个扰动。
按照上述方法,文章得到两组数据的PD分布如下,可以明显看到,人类生成数据的PD值更小,机器生成的PD值更大。二者可通过选择PD阈值 0.1 0.1 0.1进行区分。
4. 文章亮点
文章提出了DetectGPT,无需重新训练模型,只需提供待检测模型的log-proba,即可预测文本是否为该模型产生。
5. 原文传送门
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature文章来源:https://www.toymoban.com/news/detail-756982.html
6. References
[1] 论文笔记–Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer文章来源地址https://www.toymoban.com/news/detail-756982.html
到了这里,关于论文笔记--DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!