论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati

这篇具有很好参考价值的文章主要介绍了论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. 文章简介

标题：Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction
作者：Martin Josifoski, Marija Sakota, Maxime Peyrard, Robert West
日期：2023
期刊：arxiv preprint

2. 文章概括

文章提出了一种利用LLM反向生成数据集的方法，并在此基础上提出了SynthIE模型，模型在信息抽取领域表现较SOTA的micro-f1高出57个点，macro-f1高出79个点。
文章总体思路如下
论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati,论文阅读,论文阅读,语言模型,知识抽取,命名实体识别,数据生成

3 文章重点技术

3.1 REBEL数据集

文章整体基于当前最大的可用的关系提取数据集REBEL进行优化的。REBEL数据集包含text(x)-label(y)数据对，其中每个label为一个实体-关系-实体三元组。REBEL数据集存在以下问题

噪音：在REBEL数据中，存在一些y不包含与其对应的x中的事实，或者说y中的实体/关系是不正确的。
偏移：REBEL的分布是不均匀的，很多关系在数据集中出现次数非常少，从而可能造成模型在该不平衡数据集训练后预测结果有偏。

3.2 知识图谱(KG)构建

为了构建一个更干净、更均匀的数据集，文章仅考虑REBEL中在WikidataKG中出现的实体 $\mathcal{E}$ （共2.7M）和关系 $\mathcal{R}$ （共888个），这样每个KG中的实体都可以对应一个唯一的英文维基百科页标题，每个关系都可以对应一个唯一的维基标签，后续可用来进行文本标识。

3.3 采样三元组集合

为了更均匀、更连贯地采样三元组，文章采用了如下策略

首先，如果直接从KG中采样三元组可能得到不连贯的三元组（不能构成主谓宾关系），为此文章提出基于随机游走的采样策略。具体来说，我们维护一个采样过的三元组集合 $T$ ，给定KG中一个开始的点/边，迭代的采样一个 $s u bj ec t$ 开始一个新的三元组，或者采样一个 $o bj ec t$ 使得其与当前的 $s u bj ec t$ 相邻，并将 $s u bj ec t, e d g e (s u bj ec t, o bj ec t), o bj ec t$ 加入 $T$ ，直至 $T$ 的大小达到需要采样的数量则停止采样。注意如果新增加的实体没有在 $T$ 中出现过，则以概率为1将其进行采样；如果新增的实体在 $T$ 中已经出现过，且在 $T$ 中rank为 $r$ （出现次数排序？），则对其按照大小为 $N+1-r)^{bf}$ 的概率进行采样，其中 $b f$ 表示bias factor。
其次，为了保证采样的数据足够均匀，文章提出一种"reweighting"方法：每采样 $K$ 个样本集之后，文章重新计算当前的关系和实体分布 $\mathbb{D}_{\mathcal{E}}^S,\mathbb{D}_{\mathcal{R}}^S$ ，并令新一轮的采样概率与当前的实体/关系频率成反比，从而可以让当前出现少的关系/实体以更高的概率被采样
最后，为了保证采样的数据有较高的覆盖率，文章提出以下策略
- Entity-centric: 每次随机游走的开始点为 $\mathbb{D}_{\mathcal{E}}^S$ 中分布较少的实体
- Relation-centric：每次随机游走的开始点为 $\mathbb{D}_{\mathcal{R}}^S$ 中分布较少的关系，然后按照 $\mathbb{D}_{\mathcal{E}}^S$ 对该关系连接的实体中分布较少的实体进行采样。

3.4 文本生成

接下来文章基于上述triplets生成对应的文本。为此，文章选定OpenAI的code-davinci-002和text-davinci-003作为LLM，分别在两个API上面进行zero-shot和few-shot query，得到Wiki-CIE Code和Wiki-CIEText两个数据集，数据集的统计数据见下表。可以看到，原始的REBEL数据分布偏移较为严重，少量元素占有大部分的数据样本。而Wiki-cIE的数据分布较REBEL更为平均。
论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati,论文阅读,论文阅读,语言模型,知识抽取,命名实体识别,数据生成

3.5 人类评估

为了评估数据集的质量，文章从Wiki-cIE Code, Wiki-cIE Text和REBEL分别抽取50条测试样本，并人工进行三元组提取，将得到的结果与对应的三元组进行比对。如果比对成功，说明生成的文本数据可以支撑三元组提取。比对结果如下表，其中SDG表示Synthetic Data Generation，可以看到，自动生成的数据集质量更高。
论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati,论文阅读,论文阅读,语言模型,知识抽取,命名实体识别,数据生成

3.6 模型

基于上述SDG数据，文章基于FLAN-T5模型进行训练，得到模型SynthIE，可通过上述数据集中的x自动自回归式的生成y。模型的条件概率为 $p_{\theta} (y|x) = \prod_{i=1}^{|y|} p_\theta (y_i|y_{<i}, x)$ 。其中，文章对y进行了两种形式的编码：1) FE(Fully Expanded)，即将所有的三元组进行完整拼接 2)SC(Subject-Collapsed)，将所有结果三元组按照subject进行group，然后将o-r进行拼接，即s-o1-r1-[e]-o2-r2…这种格式，其中[e]为分隔token。

4. 文章亮点

文章提出了一种基于三元组反向生成数据集的方案，得到了更加clean和uniform的数据集。基于该数据集进行训练的模型SynthIE表现远超SOTA。该方法也可作为一种反向数据生成的思路，供给不限于知识抽取领域的其它NLP任务使用。

5. 原文传送门

Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction文章来源地址https://www.toymoban.com/news/detail-768908.html

到了这里，关于论文笔记--Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Informati的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！