论文笔记--Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Mode

这篇具有很好参考价值的文章主要介绍了论文笔记--Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Mode。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 文章简介

  • 标题:Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions
  • 作者:John Joon Young Chung, Ece Kamar, Saleema Amershi
  • 日期:2023

2. 文章概括

  文章给出了一种基于LLM自动生成训练数据的方法,且通过不同的实验设置尝试增加生成数据的多样性而又不降低数据质量,并且文章提出通过LR和OOSF来增加生成数据的准确性。

3 文章重点技术

3.1 数据多样性

  首先,文章通过下述prompt尝试生成训练数据。
论文笔记--Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Mode,论文阅读,论文阅读,语言模型,gpt-3,自然语言处理,bert
  为了增加生成数据的多样性,文章考虑的第一种方法是Logit Suppression(LS),即通过修改logits权重,降低已经生成的数据集中频繁出现的token的生成概率,从而增加token的多样性。
  其次,文章尝试通过不同的temperature来增加生成结果的不确定性,从而增加数据的多样性。
  在实验阶段,文章尝试了example seeding方法来影响生成数据。具体来说,文章首先从oracle训练集中(各个任务的原始训练集)抽取18个样本作为demonstrations来初始化第一轮的prompt,接下来将第一轮的生成结果按照不同类别进行均匀采样(每个类别一个)来得到下一轮的demonstrations。与之相对的是通过0样本来初始化prompt,即zero-shot。
  数值实验结果表明,LS可以增加数据集的多样性而不影响label accuracy以及数据与oracle数据的相似度;温度越高,生成数据的多样性越高,但是label准确率会降低;example seeding会提升model和label的accuracy,且轻微地提升多样性。

3.2 Human Interventions

  为了生成更高质量的数据,文章尝试通过两种人工干预的手段提升生成的数据集质量:

  • LR: Label Replacement。文章尝试两种LR方法:1)通过基于oracle的标注器对全部生成的数据集进行标注,用标注的结果替代生成的标签2)对生成数据集进行抽样,通过基于oracle的标注起对抽样的数据进行标注,再基于标注的数据训练多个proxy models,每个model可预测文本是否属于某一类标签。基于该proxy model生成一个置信分数 S p , i S_{p, i} Sp,i,最终得到每个样本的分数如下: S f , i = S s , i ∗ w + S p , i ∗ ( 1 − w ) S_{f, i} = S_{s, i} * w + S_{p, i} * (1-w) Sf,i=Ss,iw+Sp,i(1w),其中 S s , i S_{s, i} Ss,i表示生成该样本的prompt是否指定生成该类别,如当前i=positive,prompt_i=“XXX,elements: positive”,则 S s , i = 1 S_{s, i} =1 Ss,i=1,否则 S s , i = 0 S_{s, i}=0 Ss,i=0,该参数旨在防止模型指定正确的标签被proxy model修改; w = . 3 w=.3 w=.3为权重。当 S f , i S_{f, i} Sf,i高于某个阈值时,模型将样本替换为该标签。
  • OOSF: Out-of-Scope Filtering。文章提出的另一种方法是通过二分类模型判断该样本是否是感兴趣的领域的文本,具体方法类似LR。
      数值实验表明,LR可以提升模型和label的准确率,OOSF不能明显提升任务表现。

4. 文章亮点

  文章提出了一种基于LLM自动生成训练数据的方法。实验表明,通过提升数据的多样性+人工干预修正错误标签,基于该训练数据训练的分类模型表现可超过GPT(zero-shot)的表现,从而降低标注和推理开销。

5. 原文传送门

Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions文章来源地址https://www.toymoban.com/news/detail-773365.html

到了这里,关于论文笔记--Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Mode的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【NLP】Label prompt for multi-label text classification论文阅读笔记

            写于来XXXX公司实习的最后一个月,预祝自己实习顺利结束~ Paper address: Label prompt for multi-label text classification | Applied Intelligence ( Applied Intelligence 2023)          在多标签分类任务中,在复杂且未知的标签空间中直接对标签之间的相关性进行建模是相当具有挑战性的。

    2024年02月02日
    浏览(51)
  • 【论文阅读】S3: Increasing GPU Utilization during Generative Inference for Higher Throughput

    原文链接: https://arxiv.org/pdf/2306.06000.pdf 名字: s cheduling s equences with s peculation 除了已经很大的模型参数之外,保存序列中先前标记信息的键/值 (KV) 缓存可能会变得比模型本身还要大。 它为KV缓存保留了内存的最大序列长度,以保证在不知道输出序列长度的情况下生成完整的

    2024年04月12日
    浏览(37)
  • Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

    本文发表于CVPR 2023 论文地址:CVPR 2023 Open Access Repository (thecvf.com) Github官方代码地址: github.com 最近的文本到图像模型能够根据文本提示生成高质量的图像,可以覆盖广泛的物体、风格和场景。尽管这些模型具有多样的通用功能,但用户通常希望从他们自己的个人生活中综合

    2024年01月22日
    浏览(47)
  • Adding Conditional Control to Text-to-Image Diffusion Models——【论文笔记】

    本文发表于ICCV2023  论文地址:ICCV 2023 Open Access Repository (thecvf.com) 官方实现代码:lllyasviel/ControlNet: Let us control diffusion models! (github.com)  论文提出了一种神经网络架构ControlNet,可以将空间条件控制添加到大型的预训练文本到图像扩散模型中。ControlNet将预训练好的大型扩散模型

    2024年02月01日
    浏览(41)
  • RIS 系列 See-Through-Text Grouping for Referring Image Segmentation 论文阅读笔记

    写在前面   最近 Arxiv 没啥新东西了,找篇老的文章读读,看看它们之间的区别在哪里。 论文地址:See-Through-Text Grouping for Referring Image Segmentation 代码地址:源文未提供 收录于:ICCV 2019 Ps:2023 年的最后一篇博文阅读笔记,我今年的 flag 也实现啦。主页 更多干货,欢迎关注

    2024年02月03日
    浏览(49)
  • 【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV、NLP 论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 论文链接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    浏览(56)
  • 论文笔记--DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

    标题:DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature 作者:Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn 日期:2023 期刊:arxiv preprint   文章提出了一种检测语料是否为LLM生成的无监督方法“DetectGPT”,该方法属于一种基于LLM的log-proba进行

    2024年02月04日
    浏览(42)
  • Zero-shot RIS SOTA:Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 论文阅读笔记

    写在前面   好久没看到有做 Zero-shot RIS 的文章了,看到 arxiv 上面更新了这篇,特意拿出来学习一下。 论文地址:Zero-shot RIS SOTA:Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 代码地址:原文未提供 预计投稿于:AAAI 等顶会 Ps:2023 年每周一篇博文阅读笔记,主页 更

    2024年02月19日
    浏览(48)
  • Maintaining Performance with Less Data(待补)

    hh 为了降低神经网络模型的训练成本, 我们提出了一种用于图像分类的神经网络训练的新方法,动态地减少输入数据 。随着深度学习任务变得越来越流行,它们的计算复杂性也在增加,从而导致更复杂的算法和模型,这些算法和模型的运行时间更长,需要更多的输入数据。

    2024年01月24日
    浏览(35)
  • [个人笔记] SQL笔记-While语法

    MySQL while语法 MSSQL while语法-案例1 MSSQL while语法-案例2 无

    2024年02月16日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包