论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati

这篇具有很好参考价值的文章主要介绍了论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 文章简介

  • 标题:Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction
  • 作者:Martin Josifoski, Marija Sakota, Maxime Peyrard, Robert West
  • 日期:2023
  • 期刊:arxiv preprint

2. 文章概括

  文章提出了一种利用LLM反向生成数据集的方法,并在此基础上提出了SynthIE模型,模型在信息抽取领域表现较SOTA的micro-f1高出57个点,macro-f1高出79个点。
  文章总体思路如下
论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati,论文阅读,论文阅读,语言模型,知识抽取,命名实体识别,数据生成

3 文章重点技术

3.1 REBEL数据集

  文章整体基于当前最大的可用的关系提取数据集REBEL进行优化的。REBEL数据集包含text(x)-label(y)数据对,其中每个label为一个实体-关系-实体三元组。REBEL数据集存在以下问题

  • 噪音:在REBEL数据中,存在一些y不包含与其对应的x中的事实,或者说y中的实体/关系是不正确的。
  • 偏移:REBEL的分布是不均匀的,很多关系在数据集中出现次数非常少,从而可能造成模型在该不平衡数据集训练后预测结果有偏。

3.2 知识图谱(KG)构建

  为了构建一个更干净、更均匀的数据集,文章仅考虑REBEL中在WikidataKG中出现的实体 E \mathcal{E} E(共2.7M)和关系 R \mathcal{R} R (共888个),这样每个KG中的实体都可以对应一个唯一的英文维基百科页标题,每个关系都可以对应一个唯一的维基标签,后续可用来进行文本标识。

3.3 采样三元组集合

  为了更均匀、更连贯地采样三元组,文章采用了如下策略

  • 首先,如果直接从KG中采样三元组可能得到不连贯的三元组(不能构成主谓宾关系),为此文章提出基于随机游走的采样策略。具体来说,我们维护一个采样过的三元组集合 T T T,给定KG中一个开始的点/边,迭代的采样一个 s u b j e c t subject subject开始一个新的三元组,或者采样一个 o b j e c t object object使得其与当前的 s u b j e c t subject subject相邻,并将 s u b j e c t , e d g e ( s u b j e c t , o b j e c t ) , o b j e c t subject, edge(subject, object), object subject,edge(subject,object),object加入 T T T,直至 T T T的大小达到需要采样的数量则停止采样。注意如果新增加的实体没有在 T T T中出现过,则以概率为1将其进行采样;如果新增的实体在 T T T中已经出现过,且在 T T T中rank为 r r r(出现次数排序?),则对其按照大小为 ( N + 1 − r ) b f (N+1-r)^{bf} (N+1r)bf的概率进行采样,其中 b f bf bf表示bias factor。
  • 其次,为了保证采样的数据足够均匀,文章提出一种"reweighting"方法:每采样 K K K个样本集之后,文章重新计算当前的关系和实体分布 D E S , D R S \mathbb{D}_{\mathcal{E}}^S,\mathbb{D}_{\mathcal{R}}^S DES,DRS,并令新一轮的采样概率与当前的实体/关系频率成反比,从而可以让当前出现少的关系/实体以更高的概率被采样
  • 最后,为了保证采样的数据有较高的覆盖率,文章提出以下策略
    • Entity-centric: 每次随机游走的开始点为 D E S \mathbb{D}_{\mathcal{E}}^S DES中分布较少的实体
    • Relation-centric:每次随机游走的开始点为 D R S \mathbb{D}_{\mathcal{R}}^S DRS中分布较少的关系,然后按照 D E S \mathbb{D}_{\mathcal{E}}^S DES对该关系连接的实体中分布较少的实体进行采样。

3.4 文本生成

  接下来文章基于上述triplets生成对应的文本。为此,文章选定OpenAI的code-davinci-002和text-davinci-003作为LLM,分别在两个API上面进行zero-shot和few-shot query,得到Wiki-CIE Code和Wiki-CIEText两个数据集,数据集的统计数据见下表。可以看到,原始的REBEL数据分布偏移较为严重,少量元素占有大部分的数据样本。而Wiki-cIE的数据分布较REBEL更为平均。
论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati,论文阅读,论文阅读,语言模型,知识抽取,命名实体识别,数据生成

3.5 人类评估

  为了评估数据集的质量,文章从Wiki-cIE Code, Wiki-cIE Text和REBEL分别抽取50条测试样本,并人工进行三元组提取,将得到的结果与对应的三元组进行比对。如果比对成功,说明生成的文本数据可以支撑三元组提取。比对结果如下表,其中SDG表示Synthetic Data Generation,可以看到,自动生成的数据集质量更高。
论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati,论文阅读,论文阅读,语言模型,知识抽取,命名实体识别,数据生成

3.6 模型

  基于上述SDG数据,文章基于FLAN-T5模型进行训练,得到模型SynthIE,可通过上述数据集中的x自动自回归式的生成y。模型的条件概率为 p θ ( y ∣ x ) = ∏ i = 1 ∣ y ∣ p θ ( y i ∣ y < i , x ) p_{\theta} (y|x) = \prod_{i=1}^{|y|} p_\theta (y_i|y_{<i}, x) pθ(yx)=i=1ypθ(yiy<i,x)。其中,文章对y进行了两种形式的编码:1) FE(Fully Expanded),即将所有的三元组进行完整拼接 2)SC(Subject-Collapsed),将所有结果三元组按照subject进行group,然后将o-r进行拼接,即s-o1-r1-[e]-o2-r2…这种格式,其中[e]为分隔token。

4. 文章亮点

  文章提出了一种基于三元组反向生成数据集的方案,得到了更加clean和uniform的数据集。基于该数据集进行训练的模型SynthIE表现远超SOTA。该方法也可作为一种反向数据生成的思路,供给不限于知识抽取领域的其它NLP任务使用。

5. 原文传送门

Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction文章来源地址https://www.toymoban.com/news/detail-768908.html

到了这里,关于论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Exploiting Proximity-Aware Tasks for Embodied Social Navigation 论文阅读

    题目 :Exploiting Proximity-Aware Tasks for Embodied Social Navigation 作者 :Enrico Cancelli, Tommaso Campari 来源 :arXiv 时间 :2023 学习如何在封闭且空间受限的室内环境中在人类之间导航,是体现主体融入我们社会所需的关键能力。 在本文中,我们提出了一种端到端架构,该架构利用邻近感

    2024年02月12日
    浏览(42)
  • 论文笔记:AugGPT: Leveraging ChatGPT for Text Data Augmentation

    文本数据增强是克服许多自然语言处理(NLP)任务中样本量有限的挑战的有效策略。这一挑战在小样本学习场景中尤为突出,其中目标域中的数据通常更加稀缺且质量较低。缓解此类挑战的一种自然且广泛使用的策略是执行数据增强,以更好地捕获数据不变性并增加样本量。

    2024年02月11日
    浏览(43)
  • 什么是合成数据 (Synthetic Data)?

    企业在部署人工智能时,往往会遇到数据获取困难、成本高昂,或采集的数据根本不可用等挑战。研究人员在2018年曾发现,顶尖的面部识别软件在识别肤色较深的人时,错误率高达34%。原因就在于用于训练这些模型的数据缺少一整个种群的子集。在这种情况下,合成数据可以

    2024年02月08日
    浏览(44)
  • 论文笔记:Accurate Map Matching Method for Mobile Phone Signaling Data Under Spatio-Temporal Uncertainty

    IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS 2023 1.1.1 GPS、CDR与MSD数据 之前的地图匹配主要是针对GPS数据 GPS数据在全球范围内可用且在定位上相对精确 然而, GPS也存在一些局限性 作为主动生成的数据,GPS耗能大 由于需要主动收集,GPS可能无法随时随地获得 ——以上两点都限

    2024年01月18日
    浏览(47)
  • 【论文阅读】One For All: Toward Training One Graph Model for All Classification Tasks

    会议: 2024-ICLR-UNDER_REVIEW 评分:6,6,6,10 作者:Anonymous authors 文章链接:ONE FOR ALL: TOWARDS TRAINING ONE GRAPHMODEL FOR ALL CLASSIFICATION TASKS 代码链接:ONE FOR ALL: TOWARDS TRAINING ONE GRAPHMODEL FOR ALL CLASSIFICATION TASKS  设计一个能够解决多个任务的模型是人工智能长期发展的一个目标。最近,

    2024年01月18日
    浏览(52)
  • 论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》

    论文标题:Adversarial training methods for semi-supervised text classification 论文作者:Taekyung Kim 论文来源:ICLR 2017 论文地址:download  论文代码:download 视屏讲解:click 通过对输入进行小扰动创建的实例,可显著增加机器学习模型所引起的损失 对抗性实例的存在暴露了机器学习模型的

    2023年04月12日
    浏览(49)
  • 【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然语言处理(Natural Language Processing,NLP)领域内的 预训练语言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。

    2024年02月14日
    浏览(78)
  • Training-Time-Friendly Network for Real-Time Object Detection 论文学习

    目前的目标检测器很少能做到快速训练、快速推理,并同时保持准确率。直觉上,推理越快的检测器应该训练也很快,但大多数的实时检测器反而需要更长的训练时间。准确率高的检测器大致可分为两类:推理时间久的的训练时间久的。 推理时间久的检测器一般依赖于复杂的

    2024年02月15日
    浏览(45)
  • DETRs with Collaborative Hybrid Assignments Training论文笔记

    Title:[DETRs with Collaborative Hybrid Assignments Training Code 当前的DETR检测器中,为了实现端到端的检测,使用的标签分配策略是二分匹配,使得一个ground-truth只能分配到一个正样本。分配为正样本的queries太少,从而导致对encoder的输出监督过于稀疏(sparse)。 与二分匹配相反,在传

    2024年02月11日
    浏览(50)
  • 论文笔记:ViTGAN: Training GANs with Vision Transformers

    2021 论文研究的问题是:ViT是否可以在不使用卷积或池化的情况下完成图像生成任务 即不用CNN,而使用ViT来完成图像生成任务 将ViT架构集成到GAN中,发现现有的GAN正则化方法与self-attention机制的交互很差,导致训练过程中严重的不稳定 ——引入了新的正则化技术来训练带有

    2024年02月07日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包