1. 文章简介
- 标题:Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
- 作者:John Joon Young Chung, Ece Kamar, Saleema Amershi
- 日期:2023
2. 文章概括
文章给出了一种基于LLM自动生成训练数据的方法,且通过不同的实验设置尝试增加生成数据的多样性而又不降低数据质量,并且文章提出通过LR和OOSF来增加生成数据的准确性。
3 文章重点技术
3.1 数据多样性
首先,文章通过下述prompt尝试生成训练数据。
为了增加生成数据的多样性,文章考虑的第一种方法是Logit Suppression(LS),即通过修改logits权重,降低已经生成的数据集中频繁出现的token的生成概率,从而增加token的多样性。
其次,文章尝试通过不同的temperature来增加生成结果的不确定性,从而增加数据的多样性。
在实验阶段,文章尝试了example seeding方法来影响生成数据。具体来说,文章首先从oracle训练集中(各个任务的原始训练集)抽取18个样本作为demonstrations来初始化第一轮的prompt,接下来将第一轮的生成结果按照不同类别进行均匀采样(每个类别一个)来得到下一轮的demonstrations。与之相对的是通过0样本来初始化prompt,即zero-shot。
数值实验结果表明,LS可以增加数据集的多样性而不影响label accuracy以及数据与oracle数据的相似度;温度越高,生成数据的多样性越高,但是label准确率会降低;example seeding会提升model和label的accuracy,且轻微地提升多样性。
3.2 Human Interventions
为了生成更高质量的数据,文章尝试通过两种人工干预的手段提升生成的数据集质量:
- LR: Label Replacement。文章尝试两种LR方法:1)通过基于oracle的标注器对全部生成的数据集进行标注,用标注的结果替代生成的标签2)对生成数据集进行抽样,通过基于oracle的标注起对抽样的数据进行标注,再基于标注的数据训练多个proxy models,每个model可预测文本是否属于某一类标签。基于该proxy model生成一个置信分数 S p , i S_{p, i} Sp,i,最终得到每个样本的分数如下: S f , i = S s , i ∗ w + S p , i ∗ ( 1 − w ) S_{f, i} = S_{s, i} * w + S_{p, i} * (1-w) Sf,i=Ss,i∗w+Sp,i∗(1−w),其中 S s , i S_{s, i} Ss,i表示生成该样本的prompt是否指定生成该类别,如当前i=positive,prompt_i=“XXX,elements: positive”,则 S s , i = 1 S_{s, i} =1 Ss,i=1,否则 S s , i = 0 S_{s, i}=0 Ss,i=0,该参数旨在防止模型指定正确的标签被proxy model修改; w = . 3 w=.3 w=.3为权重。当 S f , i S_{f, i} Sf,i高于某个阈值时,模型将样本替换为该标签。
- OOSF: Out-of-Scope Filtering。文章提出的另一种方法是通过二分类模型判断该样本是否是感兴趣的领域的文本,具体方法类似LR。
数值实验表明,LR可以提升模型和label的准确率,OOSF不能明显提升任务表现。
4. 文章亮点
文章提出了一种基于LLM自动生成训练数据的方法。实验表明,通过提升数据的多样性+人工干预修正错误标签,基于该训练数据训练的分类模型表现可超过GPT(zero-shot)的表现,从而降低标注和推理开销。文章来源:https://www.toymoban.com/news/detail-773365.html
5. 原文传送门
Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions文章来源地址https://www.toymoban.com/news/detail-773365.html
到了这里,关于论文笔记--Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Mode的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!