ACE2005数据集介绍、预处理及事件抽取

这篇具有很好参考价值的文章主要介绍了ACE2005数据集介绍、预处理及事件抽取。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ACE2005数据集介绍、预处理及事件抽取

参考链接:https://www.jianshu.com/p/71ed0d780210(感谢作者鲜芋牛奶西米爱solo,这篇博客介绍的非常详细)
https://zhuanlan.zhihu.com/p/89297862
ACE语料库的获取链接:https://catalog.ldc.upenn.edu/LDC2006T06(收费)
有关ACE英文语料库注释准则的详细内容可参考:https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/english-events-guidelines-v5.4.3.pdf(该路径的上一目录下也可查看到其他语言的注释规则解释)。
ACE2005数据集预处理的参考代码链接:
(1)英文:https://github.com/nlpcl-lab/ace2005-preprocessing
(2)中文:https://github.com/ll0ruc/ace2005chinese_preprocess
https://github.com/yujunhuics/ace2005_Chinese_Processing
使用预训练模型对Ace2005数据集进行事件抽取的参考代码链接:
(1)https://github.com/nlpcl-lab/bert-event-extraction
(2)https://github.com/Hanlard/Transformer-based-pretrained-model-for-event-extraction

1、介绍

     ACE2005语料库是语言数据联盟(LDC)发布的由实体,关系和事件注释组成的各种类型的数据,包括英语,阿拉伯语和中文培训数据,目标是开发自动内容提取技术,支持以文本形式自动处理人类语言。ACE语料解决了五个子任务的识别:entities、values、temporal expressions、relations and events。这些任务要求系统处理文档中的语言数据,然后为每个文档输出有关其中提到或讨论的实体,值,时间表达式,关系和事件的信息。

2、ACE2005数据集目录结构如下:

ace_2005_td_v7/
├── data
	├── Arabic
    ├── bn
    	├── adj
      	├── NTV20001002.1530.0534.ag.xml
      	├── NTV20001002.1530.0534.apf.xml
      	├── NTV20001002.1530.0534.sgm
      	├── NTV20001002.1530.0534.tab
      	├── ......
    	├── fp1
      	├── NTV20001002.1530.0534.ag.xml
      	├── NTV20001002.1530.0534.apf.xml
      	├── NTV20001002.1530.0534.sgm
      	├── NTV20001002.1530.0534.tab
      	├── ......
    	├── fp2
      	├── NTV20001002.1530.0534.ag.xml
      	├── NTV20001002.1530.0534.apf.xml
      	├── NTV20001002.1530.0534.sgm
      	├── NTV20001002.1530.0534.tab
      	├── ......
    	├── FileList
  	├── nw
  	├── wl
	├── Chinese
  	├── bn
    	├── adj
        ├── CBS20001001.1000.0041.ag.xml
      	├── CBS20001001.1000.0041.apf.xml
      	├── CBS20001001.1000.0041.sgm
      	├── CBS20001001.1000.0041.tab
      	├── ......
    	├── fp1
        ├── CBS20001001.1000.0041.ag.xml
      	├── CBS20001001.1000.0041.apf.xml
      	├── CBS20001001.1000.0041.sgm
      	├── CBS20001001.1000.0041.tab
      	├── ......
    	├── fp2
        ├── CBS20001001.1000.0041.ag.xml
      	├── CBS20001001.1000.0041.apf.xml
      	├── CBS20001001.1000.0041.sgm
      	├── CBS20001001.1000.0041.tab
      	├── ......
    	├── FileList
  	├── nw
  	├── wl
	├── English
  	├── bc
    	├── adj
        ├── CNN_CF_20030303.1900.00.ag.xml
      	├── CNN_CF_20030303.1900.00.apf.xml
      	├── CNN_CF_20030303.1900.00.apf.xml.score
      	├── CNN_CF_20030303.1900.00.sgm
      	├── CNN_CF_20030303.1900.00.tab
      	├── ......
    	├── fp1
    	├── fp2
    	├── timex2norm
        ├── CNN_CF_20030303.1900.00.ag.xml
      	├── CNN_CF_20030303.1900.00.apf.xml
      	├── CNN_CF_20030303.1900.00.sgm
      	├── CNN_CF_20030303.1900.00.tab
      	├── ......
    	├── FileList
  	├── bn
  	├── cts
  	├── nw
  	├── un
    ├── wl
├── docs
	├── file.tbl
	├── README
├── dtd
	├── ace-source-sgml.v1.0.2.dtd
	├── ag-1.1.dtd
	├── apf.v5.1.1.dtd
└── index.html

    以ace_2005_td_v7\data\Chinese\bn\adj\目录下的内容为例,说明其文件格式。
    每个注释文件对应四个版本:

(1)原文本文件(.sgm):

    所有源文件(包括中文文件)都以UTF-8编码,这些文件使用UNIX样式的行尾。 仅评估开始文本标记 和结束文本标记</ TEXT>之间的文本。此规则的一个例外是,一个TIMEX2注释放在和</ DATETIME>标记之间,即使它们出现在TEXT标记之外。

(2)ACE程序格式(APF)文件(.apf.xml):

    采用官方ACE注释文件格式;ACE Pilot格式是XML对齐注释的一种形式。有关ACE程序格式的定义链接已失效,若需查找更多相关内容可查看:http://xml.coverpages.org/acePilot.html。

(3)AG 文件(.ag.xml):

    LDC注释图格式, LDC的ACE内部注释文件格式,可以使用LDC注释工具包创建的注释文件。

(4)TABLE文件(.tab):

    存储以ID识别的ag.xml文件及其对应的apf.xml文件之间映射表。

3、ACE2005的训练集和测试集的详细统计数据:

    可以对照第二节中目录结构 ace_2005_td_v7/data/ 进行了解。
ACE2005数据集介绍、预处理及事件抽取
ACE2005数据集介绍、预处理及事件抽取
    简单查看一下在ace_2005_td_v7\data\Chinese下的数据来源情况:可以看到只有NW、BN以及WL有数据,而BC、UN、CTD没有数据。
ACE2005数据集介绍、预处理及事件抽取
    所有的训练数据文件由两个独立的注释器完成双重注释。第一遍完整注释产生fp1,双重第一遍完整注释产生dual(也就是fp2)。单个注释器完成文件的所有任务(实体,值,关系和事件)。之后,由注释人裁定每个文件的fp1和fp2版本之间的差异,产生高质量的黄金标准文件,称为adj。判定后,以TIMEX2值进行标准化(在此只针对英语语料,Chinese和Arabic下没有),称为timex2norm。该流程可描述为如下:
ACE2005数据集介绍、预处理及事件抽取
    以英语版本为例,目录下对应的文件名称分别为bc,bn,cts,nw,un,wl。这些数据源继而被分类成adj,fp1(即第一遍注释的1p),fp2(即dual),timex2norm。英语数据源的注释状态:
ACE2005数据集介绍、预处理及事件抽取

4、ACE数据集任务目标

    ACE注释任务对应于三个研究目标:实体检测和跟踪(EDT),关系检测和表征(RDC)以及事件检测和表征(EDC)。第四个注释任务,实体链接(LNK),将对单个实体及其所有属性的所有引用分组到一个复合实体中。

(1)实体检测和跟踪(EDT)

    核心注释任务,为所有剩余任务提供基础。后来的ACE任务确定了七种类型的实体:人员,组织,位置,设施,武器,车辆和地缘政治实体(GPE)。每种类型进一步分为子类型(例如,组织子类型包括政府,商业,教育,非营利,其他)。注释器标记了文档中每个实体的所有提及,无论是命名,名义还是代名词。对于每一次提及,注释器都识别出代表实体的字符串的最大范围,并标记每个提及的头部。嵌套提及也被捕获。每个实体根据其类型和子类型进行分类,并根据其特定类别,通用,属性,负面量化或未指定类别进一步标记。在LNK注释任务期间,注释器审查整个文档,以便将同一实体的提及分组在一起; 他们还标记了转喻的案例,其中一个实体的名称用于指代与其相关的另一个实体。

(2)关系检测和表征(RDC)

    涉及实体之间关系的识别。此任务已添加到ACE的第2阶段。RDC针对物理关系,包括位置,近处和部分整体; 社会/个人关系,包括商业,家庭和其他; 一系列的就业或会员关系; 工件与代理商之间的关系(包括所有权); 从属关系,如种族; 人与GPE之间的关系,如公民身份; 最后是话语关系。对于每个关系,注释器都识别出两个主要参数(即,链接的两个ACE实体)以及关系的时间属性。由明确的文本证据支持的关系与那些依赖于读者的语境推理的关系不同。

(3)事件检测和表征(EDC)

    在EDC中,注释器识别并描述了EDT实体参与的五种类型的事件。目标类型包括交互,移动,转移,创建和销毁事件。注释器为每个事件标记文本提及或锚点,并按类型和子类型对其进行分类。他们根据特定类型的模板进一步确定了事件参数(代理,对象,源和目标)和属性(时间,位置以及其他类似工具或目的)。

5、ACE数据集任务详细介绍

(1)实体检测与识别

    实体提及的每个文档都需要实体输出。此输出包括实体的属性和提及的信息。实体属性当前仅限于实体类型,实体子类型,实体类以及用于引用实体的名称。每个实体提及的输出包括提及类型,其头部的位置和范围,以及可选的提及角色和提及风格(文字或转喻,该属性以apf文件格式编码为名为“metonymy_mention”,为true表示“转喻风格”的引用,false表示“文字”引用,默认为文字),table1与table2列出了ACE实体类型,子类型和类。table3列出了提及类型。
ACE2005数据集介绍、预处理及事件抽取
ACE2005数据集介绍、预处理及事件抽取
ACE2005数据集介绍、预处理及事件抽取

(2)时间检测与识别

    ACE时间表达识别和规范化任务(TERN)根据“TIDES 2005标准的时间表达注释”来检测和识别源语言数据中提到的某些时间表达式(以时间x2格式)。要识别的时间表达包括绝对表达式和相对表达式。 此外,还要识别持续时间,事件锚定表达式和时间集。 此信息包含在timex2属性集中。 表5列出了2005年要评估的ACE timex2属性。
ACE2005数据集介绍、预处理及事件抽取

(3)关系检测与识别

    ACE关系检测和识别任务(RDR)要求检测源语言数据中提到的某些指定类型的关系,并且识别关于这些关系的所选信息并将其合并为每个检测到的关系的统一表示。
    关系提及的输出包括有关关系属性,关系参数和关系提及的信息。 关系属性是关系类型,子类型,模态和时态。关系参数由唯一ID和角色标识。相关的两个实体的角色是“Arg-1”和“Arg-2”,除了对称关系(表6中标识)之外,将这些角色正确分配给它们各自的参数是很重要的。可能只有一个Arg-1实体和一个Arg-2实体。除了两个主要实体参数之外,还可能存在一个或多个temporal(timex2)参数,并且在关系中包含这些参数以便为关系接收完整值。关系提及是表达关系的句子或短语,必须包含两个相关实体的提及。表6中列出了2005年的ACE关系类型和子类型。关系可能只有一种类型和一种子类型。
ACE2005数据集介绍、预处理及事件抽取

(4) 事件检测与识别

    ACE事件检测和识别任务(VDR)要求检测源语言数据中提到的某些指定类型的事件,并且识别关于这些事件的所选信息并将其合并为每个检测到的事件的统一表示。
    提及事件的每个文档都需要事件输出。此输出包括有关事件属性,事件参数和事件提及的信息。事件属性是事件类型,子类型,模态,极性,通用性和时态。table7中列出了2005年的ACE事件类型和子类型。事件可能只有一种类型和一种子类型。
ACE2005数据集介绍、预处理及事件抽取    每个事件参数由唯一ID和角色标识。与仅允许Arg-1和Arg-2角色中的一个参数的关系不同,事件允许同一角色中的多个参数。事件提及是提及事件的句子或短语,事件提及的范围被定义为提及事件的整个句子。虽然未评估事件提及的识别,但它是允许系统输出事件映射到参考事件的方式之一。因此,正确识别事件提及可能有助于评估。文章来源地址https://www.toymoban.com/news/detail-488793.html

到了这里,关于ACE2005数据集介绍、预处理及事件抽取的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据采集技术与预处理学习一:大数据概念、数据预处理、网络数据采集

    目录 大数据概念: 1.数据采集过程中会采集哪些类型的数据? 2.非结构化数据采集的特点是什么? 3.请阐述传统的数据采集与大数据采集的区别? ​​​​​​​ ​​​​​​​4.大数据采集的数据源有哪些?针对不同的数据源,我们可以采用哪些不同的方法和工具? 数据

    2024年01月25日
    浏览(40)
  • 数据预处理之数据规约

    目录 一、前言 二、PCA的主要参数: 三、数据归约任务1 四、数据规约任务2 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构

    2024年02月12日
    浏览(32)
  • 数据分析--数据预处理

    本文主要是个人的学习笔记总结,数据预处理的基本思路和方法,包括一些方法的使用示例和参数解释,具体的数据预处理案例case详见其他文章。如有错误之处还请指正! 目录 数据的质量评定 数据处理步骤 缺失值的处理 标记缺失值 删除 缺失值 填充 缺失值 重复值处理 异

    2024年02月04日
    浏览(46)
  • C语言中程序的编译(预处理操作)+链接详解(详细介绍程序预编译过程)

    今天我们来学习C语言中程序的编译和链接是如何进行的。 在ANSI C的任何一种实现中,存在两个不同的环境。 第1种是翻译环境,在这个环境中源代码被转换为可执行的机器指令。 第2种是执行环境,它用于实际执行代码。 本文主要是介绍预编译阶段的相关知识。 1.组成一个程

    2023年04月09日
    浏览(28)
  • 十七、数据预处理(一)

    一、缺失值处理 缺失值就是由某些原因导致部分数据为空,对于为空的这部分数据我们一般有两种处理方式,一种是删除,即把含有缺失值的数据删除,另一种是填充,即把确实的那部分数据用某个值代替。 1、缺失值查看 对缺失值进行处理,首先要把缺失值找出来,也就是

    2024年02月11日
    浏览(38)
  • 数据清洗和预处理

    预计更新 一、 爬虫技术概述 1.1 什么是爬虫技术 1.2 爬虫技术的应用领域 1.3 爬虫技术的工作原理 二、 网络协议和HTTP协议 2.1 网络协议概述 2.2 HTTP协议介绍 2.3 HTTP请求和响应 三、 Python基础 3.1 Python语言概述 3.2 Python的基本数据类型 3.3 Python的流程控制语句 3.4 Python的函数和模

    2024年02月07日
    浏览(39)
  • python数据预处理

    输出结果如下: 观察可知,【销量】存在一个缺失值,本例将缺失值所在行进行删除处理 输出结果如下: 输出结果如下: 观察可知,箱线图上下边缘存在异常值,本例通过四分位法对异常值进行处理,即:超出上边缘的异常值让其落在上边缘,低于下边缘的异常值让其落在

    2024年02月13日
    浏览(30)
  • 数据预处理matlab

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月07日
    浏览(41)
  • 数据挖掘(2)数据预处理

    数据预处理的重要性 杂乱性:如命名规则。 重复性:同一客观事再 不完整性: 噪声数据:数据中存在错误或异常的现象。 数据预处理的常见方法 数据清洗:去掉数据中的噪声,纠正不一致。 数据集成:将多个数据源合成一致的数据存储 数据变换(转换):对数据的格式

    2024年02月07日
    浏览(32)
  • 头歌:数据预处理之数据清洗

    本关任务:完成泰坦尼克号遇难数据的清洗。   案例背景 泰坦尼克号遭遇的灾难震惊世界,如何避免灾难甚至预测灾难呢? 要实现首先要做好泰坦尼克号的损失数据统计,才能为数据分析打下基础。 编程要求 根据提示,你需要完成: 缺失值填充 离群点检测

    2024年02月11日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包