论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati

这篇具有很好参考价值的文章主要介绍了论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 文章简介

  • 标题:Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction
  • 作者:Martin Josifoski, Marija Sakota, Maxime Peyrard, Robert West
  • 日期:2023
  • 期刊:arxiv preprint

2. 文章概括

  文章提出了一种利用LLM反向生成数据集的方法,并在此基础上提出了SynthIE模型,模型在信息抽取领域表现较SOTA的micro-f1高出57个点,macro-f1高出79个点。
  文章总体思路如下
论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati,论文阅读,论文阅读,语言模型,知识抽取,命名实体识别,数据生成

3 文章重点技术

3.1 REBEL数据集

  文章整体基于当前最大的可用的关系提取数据集REBEL进行优化的。REBEL数据集包含text(x)-label(y)数据对,其中每个label为一个实体-关系-实体三元组。REBEL数据集存在以下问题

  • 噪音:在REBEL数据中,存在一些y不包含与其对应的x中的事实,或者说y中的实体/关系是不正确的。
  • 偏移:REBEL的分布是不均匀的,很多关系在数据集中出现次数非常少,从而可能造成模型在该不平衡数据集训练后预测结果有偏。

3.2 知识图谱(KG)构建

  为了构建一个更干净、更均匀的数据集,文章仅考虑REBEL中在WikidataKG中出现的实体 E \mathcal{E} E(共2.7M)和关系 R \mathcal{R} R (共888个),这样每个KG中的实体都可以对应一个唯一的英文维基百科页标题,每个关系都可以对应一个唯一的维基标签,后续可用来进行文本标识。

3.3 采样三元组集合

  为了更均匀、更连贯地采样三元组,文章采用了如下策略

  • 首先,如果直接从KG中采样三元组可能得到不连贯的三元组(不能构成主谓宾关系),为此文章提出基于随机游走的采样策略。具体来说,我们维护一个采样过的三元组集合 T T T,给定KG中一个开始的点/边,迭代的采样一个 s u b j e c t subject subject开始一个新的三元组,或者采样一个 o b j e c t object object使得其与当前的 s u b j e c t subject subject相邻,并将 s u b j e c t , e d g e ( s u b j e c t , o b j e c t ) , o b j e c t subject, edge(subject, object), object subject,edge(subject,object),object加入 T T T,直至 T T T的大小达到需要采样的数量则停止采样。注意如果新增加的实体没有在 T T T中出现过,则以概率为1将其进行采样;如果新增的实体在 T T T中已经出现过,且在 T T T中rank为 r r r(出现次数排序?),则对其按照大小为 ( N + 1 − r ) b f (N+1-r)^{bf} (N+1r)bf的概率进行采样,其中 b f bf bf表示bias factor。
  • 其次,为了保证采样的数据足够均匀,文章提出一种"reweighting"方法:每采样 K K K个样本集之后,文章重新计算当前的关系和实体分布 D E S , D R S \mathbb{D}_{\mathcal{E}}^S,\mathbb{D}_{\mathcal{R}}^S DES,DRS,并令新一轮的采样概率与当前的实体/关系频率成反比,从而可以让当前出现少的关系/实体以更高的概率被采样
  • 最后,为了保证采样的数据有较高的覆盖率,文章提出以下策略
    • Entity-centric: 每次随机游走的开始点为 D E S \mathbb{D}_{\mathcal{E}}^S DES中分布较少的实体
    • Relation-centric:每次随机游走的开始点为 D R S \mathbb{D}_{\mathcal{R}}^S DRS中分布较少的关系,然后按照 D E S \mathbb{D}_{\mathcal{E}}^S DES对该关系连接的实体中分布较少的实体进行采样。

3.4 文本生成

  接下来文章基于上述triplets生成对应的文本。为此,文章选定OpenAI的code-davinci-002和text-davinci-003作为LLM,分别在两个API上面进行zero-shot和few-shot query,得到Wiki-CIE Code和Wiki-CIEText两个数据集,数据集的统计数据见下表。可以看到,原始的REBEL数据分布偏移较为严重,少量元素占有大部分的数据样本。而Wiki-cIE的数据分布较REBEL更为平均。
论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati,论文阅读,论文阅读,语言模型,知识抽取,命名实体识别,数据生成

3.5 人类评估

  为了评估数据集的质量,文章从Wiki-cIE Code, Wiki-cIE Text和REBEL分别抽取50条测试样本,并人工进行三元组提取,将得到的结果与对应的三元组进行比对。如果比对成功,说明生成的文本数据可以支撑三元组提取。比对结果如下表,其中SDG表示Synthetic Data Generation,可以看到,自动生成的数据集质量更高。
论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati,论文阅读,论文阅读,语言模型,知识抽取,命名实体识别,数据生成

3.6 模型

  基于上述SDG数据,文章基于FLAN-T5模型进行训练,得到模型SynthIE,可通过上述数据集中的x自动自回归式的生成y。模型的条件概率为 p θ ( y ∣ x ) = ∏ i = 1 ∣ y ∣ p θ ( y i ∣ y < i , x ) p_{\theta} (y|x) = \prod_{i=1}^{|y|} p_\theta (y_i|y_{<i}, x) pθ(yx)=i=1ypθ(yiy<i,x)。其中,文章对y进行了两种形式的编码:1) FE(Fully Expanded),即将所有的三元组进行完整拼接 2)SC(Subject-Collapsed),将所有结果三元组按照subject进行group,然后将o-r进行拼接,即s-o1-r1-[e]-o2-r2…这种格式,其中[e]为分隔token。

4. 文章亮点

  文章提出了一种基于三元组反向生成数据集的方案,得到了更加clean和uniform的数据集。基于该数据集进行训练的模型SynthIE表现远超SOTA。该方法也可作为一种反向数据生成的思路,供给不限于知识抽取领域的其它NLP任务使用。

5. 原文传送门

Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction文章来源地址https://www.toymoban.com/news/detail-768908.html

到了这里,关于论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】Know Your Surroundings: Exploiting Scene Information for Object Tracking

    发表时间 :2020 期刊会议 :ECCV 方向分类 : 目标跟踪 做了什么: 本文提出了一个能够在视频序列中传播目标附近场景信息的跟踪结构,这种场景信息被用来实现提高目标预测的场景感知能力。 解决了什么问题: 已存在的跟踪器只依靠外观来跟踪,没有利用任何周围场景中

    2024年04月23日
    浏览(41)
  • 论文笔记:AugGPT: Leveraging ChatGPT for Text Data Augmentation

    文本数据增强是克服许多自然语言处理(NLP)任务中样本量有限的挑战的有效策略。这一挑战在小样本学习场景中尤为突出,其中目标域中的数据通常更加稀缺且质量较低。缓解此类挑战的一种自然且广泛使用的策略是执行数据增强,以更好地捕获数据不变性并增加样本量。

    2024年02月11日
    浏览(33)
  • 什么是合成数据 (Synthetic Data)?

    企业在部署人工智能时,往往会遇到数据获取困难、成本高昂,或采集的数据根本不可用等挑战。研究人员在2018年曾发现,顶尖的面部识别软件在识别肤色较深的人时,错误率高达34%。原因就在于用于训练这些模型的数据缺少一整个种群的子集。在这种情况下,合成数据可以

    2024年02月08日
    浏览(32)
  • 论文笔记:Accurate Map Matching Method for Mobile Phone Signaling Data Under Spatio-Temporal Uncertainty

    IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS 2023 1.1.1 GPS、CDR与MSD数据 之前的地图匹配主要是针对GPS数据 GPS数据在全球范围内可用且在定位上相对精确 然而, GPS也存在一些局限性 作为主动生成的数据,GPS耗能大 由于需要主动收集,GPS可能无法随时随地获得 ——以上两点都限

    2024年01月18日
    浏览(36)
  • 【论文阅读】One For All: Toward Training One Graph Model for All Classification Tasks

    会议: 2024-ICLR-UNDER_REVIEW 评分:6,6,6,10 作者:Anonymous authors 文章链接:ONE FOR ALL: TOWARDS TRAINING ONE GRAPHMODEL FOR ALL CLASSIFICATION TASKS 代码链接:ONE FOR ALL: TOWARDS TRAINING ONE GRAPHMODEL FOR ALL CLASSIFICATION TASKS  设计一个能够解决多个任务的模型是人工智能长期发展的一个目标。最近,

    2024年01月18日
    浏览(34)
  • 论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》

    论文标题:Adversarial training methods for semi-supervised text classification 论文作者:Taekyung Kim 论文来源:ICLR 2017 论文地址:download  论文代码:download 视屏讲解:click 通过对输入进行小扰动创建的实例,可显著增加机器学习模型所引起的损失 对抗性实例的存在暴露了机器学习模型的

    2023年04月12日
    浏览(35)
  • Training-Time-Friendly Network for Real-Time Object Detection 论文学习

    目前的目标检测器很少能做到快速训练、快速推理,并同时保持准确率。直觉上,推理越快的检测器应该训练也很快,但大多数的实时检测器反而需要更长的训练时间。准确率高的检测器大致可分为两类:推理时间久的的训练时间久的。 推理时间久的检测器一般依赖于复杂的

    2024年02月15日
    浏览(33)
  • 【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然语言处理(Natural Language Processing,NLP)领域内的 预训练语言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。

    2024年02月14日
    浏览(42)
  • DETRs with Collaborative Hybrid Assignments Training论文笔记

    Title:[DETRs with Collaborative Hybrid Assignments Training Code 当前的DETR检测器中,为了实现端到端的检测,使用的标签分配策略是二分匹配,使得一个ground-truth只能分配到一个正样本。分配为正样本的queries太少,从而导致对encoder的输出监督过于稀疏(sparse)。 与二分匹配相反,在传

    2024年02月11日
    浏览(34)
  • 论文笔记:ViTGAN: Training GANs with Vision Transformers

    2021 论文研究的问题是:ViT是否可以在不使用卷积或池化的情况下完成图像生成任务 即不用CNN,而使用ViT来完成图像生成任务 将ViT架构集成到GAN中,发现现有的GAN正则化方法与self-attention机制的交互很差,导致训练过程中严重的不稳定 ——引入了新的正则化技术来训练带有

    2024年02月07日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包