1. 文章简介
- 标题:Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction
- 作者:Martin Josifoski, Marija Sakota, Maxime Peyrard, Robert West
- 日期:2023
- 期刊:arxiv preprint
2. 文章概括
文章提出了一种利用LLM反向生成数据集的方法,并在此基础上提出了SynthIE模型,模型在信息抽取领域表现较SOTA的micro-f1高出57个点,macro-f1高出79个点。
文章总体思路如下
3 文章重点技术
3.1 REBEL数据集
文章整体基于当前最大的可用的关系提取数据集REBEL进行优化的。REBEL数据集包含text(x)-label(y)数据对,其中每个label为一个实体-关系-实体三元组。REBEL数据集存在以下问题
- 噪音:在REBEL数据中,存在一些y不包含与其对应的x中的事实,或者说y中的实体/关系是不正确的。
- 偏移:REBEL的分布是不均匀的,很多关系在数据集中出现次数非常少,从而可能造成模型在该不平衡数据集训练后预测结果有偏。
3.2 知识图谱(KG)构建
为了构建一个更干净、更均匀的数据集,文章仅考虑REBEL中在WikidataKG中出现的实体 E \mathcal{E} E(共2.7M)和关系 R \mathcal{R} R (共888个),这样每个KG中的实体都可以对应一个唯一的英文维基百科页标题,每个关系都可以对应一个唯一的维基标签,后续可用来进行文本标识。
3.3 采样三元组集合
为了更均匀、更连贯地采样三元组,文章采用了如下策略
- 首先,如果直接从KG中采样三元组可能得到不连贯的三元组(不能构成主谓宾关系),为此文章提出基于随机游走的采样策略。具体来说,我们维护一个采样过的三元组集合 T T T,给定KG中一个开始的点/边,迭代的采样一个 s u b j e c t subject subject开始一个新的三元组,或者采样一个 o b j e c t object object使得其与当前的 s u b j e c t subject subject相邻,并将 s u b j e c t , e d g e ( s u b j e c t , o b j e c t ) , o b j e c t subject, edge(subject, object), object subject,edge(subject,object),object加入 T T T,直至 T T T的大小达到需要采样的数量则停止采样。注意如果新增加的实体没有在 T T T中出现过,则以概率为1将其进行采样;如果新增的实体在 T T T中已经出现过,且在 T T T中rank为 r r r(出现次数排序?),则对其按照大小为 ( N + 1 − r ) b f (N+1-r)^{bf} (N+1−r)bf的概率进行采样,其中 b f bf bf表示bias factor。
- 其次,为了保证采样的数据足够均匀,文章提出一种"reweighting"方法:每采样 K K K个样本集之后,文章重新计算当前的关系和实体分布 D E S , D R S \mathbb{D}_{\mathcal{E}}^S,\mathbb{D}_{\mathcal{R}}^S DES,DRS,并令新一轮的采样概率与当前的实体/关系频率成反比,从而可以让当前出现少的关系/实体以更高的概率被采样
- 最后,为了保证采样的数据有较高的覆盖率,文章提出以下策略
- Entity-centric: 每次随机游走的开始点为 D E S \mathbb{D}_{\mathcal{E}}^S DES中分布较少的实体
- Relation-centric:每次随机游走的开始点为 D R S \mathbb{D}_{\mathcal{R}}^S DRS中分布较少的关系,然后按照 D E S \mathbb{D}_{\mathcal{E}}^S DES对该关系连接的实体中分布较少的实体进行采样。
3.4 文本生成
接下来文章基于上述triplets生成对应的文本。为此,文章选定OpenAI的code-davinci-002和text-davinci-003作为LLM,分别在两个API上面进行zero-shot和few-shot query,得到Wiki-CIE Code和Wiki-CIEText两个数据集,数据集的统计数据见下表。可以看到,原始的REBEL数据分布偏移较为严重,少量元素占有大部分的数据样本。而Wiki-cIE的数据分布较REBEL更为平均。
3.5 人类评估
为了评估数据集的质量,文章从Wiki-cIE Code, Wiki-cIE Text和REBEL分别抽取50条测试样本,并人工进行三元组提取,将得到的结果与对应的三元组进行比对。如果比对成功,说明生成的文本数据可以支撑三元组提取。比对结果如下表,其中SDG表示Synthetic Data Generation,可以看到,自动生成的数据集质量更高。
3.6 模型
基于上述SDG数据,文章基于FLAN-T5模型进行训练,得到模型SynthIE,可通过上述数据集中的x自动自回归式的生成y。模型的条件概率为 p θ ( y ∣ x ) = ∏ i = 1 ∣ y ∣ p θ ( y i ∣ y < i , x ) p_{\theta} (y|x) = \prod_{i=1}^{|y|} p_\theta (y_i|y_{<i}, x) pθ(y∣x)=∏i=1∣y∣pθ(yi∣y<i,x)。其中,文章对y进行了两种形式的编码:1) FE(Fully Expanded),即将所有的三元组进行完整拼接 2)SC(Subject-Collapsed),将所有结果三元组按照subject进行group,然后将o-r进行拼接,即s-o1-r1-[e]-o2-r2…这种格式,其中[e]为分隔token。
4. 文章亮点
文章提出了一种基于三元组反向生成数据集的方案,得到了更加clean和uniform的数据集。基于该数据集进行训练的模型SynthIE表现远超SOTA。该方法也可作为一种反向数据生成的思路,供给不限于知识抽取领域的其它NLP任务使用。文章来源:https://www.toymoban.com/news/detail-768908.html
5. 原文传送门
Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction文章来源地址https://www.toymoban.com/news/detail-768908.html
到了这里,关于论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!