TextMining Day3 基于信息抽取的文本挖掘

这篇具有很好参考价值的文章主要介绍了TextMining Day3 基于信息抽取的文本挖掘。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 简介

图1:基于IE(信息抽取)的文本挖掘框架概述

TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理

本文报告了计算机相关职位招聘领域的实验,证明了将KDD应用于抽取的数据库中获得的预测规则可以用于提高信息抽取的召回率。

2. 背景:文本挖掘与信息提取

“文本挖掘”是用来描述数据挖掘技术在自动从非结构化文本中发现有用或有趣知识方面的应用。

一些技术已经被提出用于文本挖掘,包括概念结构、关联规则挖掘、情节规则挖掘、决策树和规则归纳方法。此外,信息检索(IR)技术已广泛使用“词袋”模型来完成文档匹配、排序和聚类等任务。

要提取的数据通常由一个模板给出,该模板指定了一列槽,这些槽将由从文档中获取的子字符串填充。TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理图2显示了一个(缩短了的)文档及其填充的模板,用于职位发布域中的信息抽取任务。该模板包含由直接从文档中获取的字符串填充的槽。在编程语言、平台、应用程序和领域中,几个职位可能会有多个职位空缺。

IE 已经被证明在各种各样的其他应用中是有用的,例如研讨会公告,餐厅指南,大学网页,公寓租赁广告,以及企业收购的新闻文章

3. 数据挖掘与信息提取相结合

在本节中,我们将讨论我们提出的文本挖掘框架DISCOTEX(从文本提取中发现)的细节。我们考虑的任务,首先构建一个数据库,应用一个学习的信息提取系统到一个自然语言的语料库。然后,我们将标准的数据挖掘技术应用于提取的数据,发现可以用于许多任务的知识,包括提高信息提取的准确性。

3.1 DISCOTEX系统

在本文提出的文本挖掘框架中,IE发挥了重要作用,它对文本文档的语料库进行预处理,以便将提取的条目传递给数据挖掘模块。在我们的实现中,我们使用了两个最先进的学习信息提取器系统,RAPIER(鲁棒自动生成信息提取规则)和BWI(增强包装诱导)。通过对用模板标注的文档语料库进行训练,他们获得了可以在新文档上测试的抽取规则知识库。RAPIER and BWI已被证明在实际应用中表现良好,如USENET招聘公告和研讨会公告。

我们将提取的数据库中的每个槽值对视为一个独特的二进制特征,例如“graphics∈area”,并学习从所有其他特征中预测每个特征的规则。

类似的槽填充物首先被折叠成一个预先确定的标准术语。例如,“Windows XP”是平台插槽的常用填充词,但它经常以“WinXP”、“WinXP”、“MS WinXP”等形式出现。在从数据中挖掘规则之前,这些术语被压缩为唯一的槽值。在实验中,我们使用了一个有111个条目的人工构造的同义词词典。表1显示了字典的前10个条目。

TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理

我们已经应用了C4.5RULES来从产生的二进制数据中发现有趣的规则。从USENET新闻组austin中提取的600个作业的数据库中挖掘的规则示例。带有RAPIER和C4.5RULES的作业如图3所示TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理

我们还应用RIPPERAPRIORI从提取的数据中发现有趣的规则。APRIORI是一种标准的关联规则挖掘算法,它发现所有支持度和置信度大于用户指定的最小支持度和最小置信度的关联规则。TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理图4显示了BWI从USENET新闻组misc.jobs.resumes中提取的600份简历数据库中的示例规则。前3条规则由RIPPER归纳,其余3条规则由APRIORI发现。TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理

图5显示了从在线Amazon.com书店的1,500个科幻小说(SF)图书描述集合中挖掘的示例关联规则。从语料库中确定作者、标题、主题、相关书籍和平均客户评分等插槽。

3.2 评价

发现的知识只有在准确的情况下才是有用的 。因此,在独立的测试数据上测量发现的知识的准确性是很重要的。

在这个数据集中,奥斯汀新闻组招聘了600个计算机科学职位。作业被收集并使用正确的提取模板手工标注。使用十倍交叉验证来生成训练集和测试集。使用RAPIER学习IE组件,使用RIPPER作为KDD组件。我们归纳了预测语言、平台、应用程序和区域插槽的填充符的规则,因为这些填充符通常由多个离散值填充符填充,并且它们的值之间有明显的潜在关系。

为了测试所发现的规则的准确性,它们被用来预测用户标签示例数据库中的信息。对于每个测试文档,每个可能的槽值被预测为存在或不存在,给出了所有其他槽值的信息。然后计算所有特征和所有测试示例的平均性能。预测槽槽填充物缺失或存在的分类精度并不是一个特别有信息的性能指标,因为只要简单地假设每个槽槽填充物缺失,就可以实现高精度。

我们有意在一个相对较小的语料库上训练RAPIER,以证明只标注相对较少的文档就可以得到一组很好的提取规则,这些规则能够构建一个数据库,从中发现准确的知识。因为在DISCOTEX中使用了两个不同的训练阶段,所以存在一个问题,即IE的训练集是否也应该用于训练规则挖掘者。为了清楚地说明挖掘人标记数据和IE标记数据之间的区别,一旦IE训练数据被用于训练RAPIER,就会扔掉它们,并对其余540个示例执行10倍交叉验证,以评估数据挖掘部分。TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理

两个KDD系统都提供了相同的一组训练示例,但它们之间的唯一区别是,在对60个用户标记的不相交的示例集进行训练后,由RAPIER自动提取DISCOTEX的训练数据。最终系统的总体架构如图6所示。

TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理

图7显示了两个系统的精度、召回率和F-measure的学习曲线,以及作为基线的随机猜测策略。随机猜测方法根据slotvalue在训练数据中的出现频率来预测slotvalue。即使使用少量用户标记的数据,结果表明,DISCOTEX的性能与在人工构建的数据库上训练的规则挖掘器相当。

4. 使用挖掘规则改进IE

在对抽取的数据进行知识挖掘后,DISCOTEX可以利用发现的规则预测先前抽取过程中遗漏的信息。在本节中,我们将讨论如何利用从抽取数据中挖掘出的知识来辅助信息抽取本身。

4.1 算法

精度和召回率定义为:TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理

首先,我们在图8中显示规则挖掘阶段的伪代码。图中显示的最后一步是过滤在训练数据和一组不相连的标签验证数据上发现的规则,以便只保留最准确的归纳规则。目前,对训练或验证提取的模板做出不正确预测的规则被丢弃。由于关联规则不像分类规则那样作为一个集合使用,因此我们将重点放在挖掘预测规则上。TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理

图9总结了试图通过使用挖掘的规则来提高召回率的提取算法。请注意,是否提取预测填充符的最终决定取决于该填充符(或其任何同义词)是否以子字符串的形式出现在文档中。如果在文本中发现了填充物,提取器认为它的预测得到了确认,然后提取填充物

TextMining Day3 基于信息抽取的文本挖掘,文本挖掘,自然语言处理

在DISCOTEX中,所有前置条件为负数的规则都首先应用。这种订购策略试图通过做出尽可能多的可确认的预测来最大限度地增加回忆。

总之,用户用抽取的信息标注的文档,以及初始IE系统处理的非监督数据(RAPIER从监督数据中了解到),都是用来创建数据库的。然后,规则挖掘器处理该数据库,以构建用于预测槽值的规则知识库。然后,在测试过程中使用这些预测规则来提高现有IE系统的召回率,方法是提出额外的插槽填充,在将它们添加到最终的提取模板之前,这些插槽填充在文档中被确认。

4.2 评价

为了测试整个系统,奥斯丁新闻组发布了600个手工标注的计算机科学职位。乔布斯被收集起来。使用10倍交叉验证来生成训练集和测试集。此外,还收集了4000个未加注释的文档,作为文本挖掘器的附加可选输入。归纳出预测语言、平台、应用程序和区域槽填充的规则

7. 结论

本文给出了集成IE和KDD的初步结果,证明了这两种优势。文本挖掘是自然语言处理、机器学习、数据挖掘和信息检索相结合的一个相对较新的研究领域。通过适当地整合来自这些学科的技术,可以开发出从大型文本语料库中发现知识的有用新方法。特别是,计算语言学和机器学习之间日益增长的相互作用对有效的文本挖掘系统的开发至关重要。文章来源地址https://www.toymoban.com/news/detail-548665.html

到了这里,关于TextMining Day3 基于信息抽取的文本挖掘的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 自然语言处理 Paddle NLP - 基于预训练模型完成实体关系抽取

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月10日
    浏览(50)
  • 超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用

    随着 ChatGPT 和 GPT-4 等强大生成模型出现,自然语言处理任务方式正在逐步发生改变。鉴于大模型强大的任务处理能力,未来我们或将不再为每一个具体任务去 finetune 一个模型,而是使用同一个大模型,对不同任务设计其独有的 prompt,以解决不同的任务问题。在该实验中,我

    2024年02月11日
    浏览(45)
  • 【自然语言处理】第3部分:识别文本中的个人身份信息

    做一个简单介绍, 酒架 年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师酒馆】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。 企业架构师需要

    2024年02月03日
    浏览(50)
  • 【自然语言处理】用Python从文本中删除个人信息-第二部分

    做一个简单介绍, 酒架 年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师酒馆】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。 企业架构师需要

    2024年02月04日
    浏览(47)
  • day3:基于UDP模型的简单文件下载

    思维导图 tftp文件下载客户端实现

    2024年01月17日
    浏览(36)
  • 自然语言处理14-基于文本向量和欧氏距离相似度的文本匹配,用于找到与查询语句最相似的文本

    大家好,我是微学AI,今天给大家介绍一下自然语言处理实战项目14-基于文本向量和欧氏距离相似度的文本匹配,用于找到与查询语句最相似的文本。NLP中的文本匹配是指通过计算文本之间的相似度来找到与查询语句最相似的文本。其中一种常用的方法是基于文本向量和欧氏

    2024年02月15日
    浏览(51)
  • 【自然语言处理(NLP)】基于ERNIE语言模型的文本语义匹配

    作者简介 :在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPCC)志愿者,以及编程爱好者,期待和大家一起学习,一起进步~ . 博客主页 : ぃ灵彧が的学习日志

    2024年02月10日
    浏览(63)
  • 【自然语言处理】关系抽取 —— SpeechRE

    论文信息 标题:Towards Relation Extraction From Speech 作者:Tongtong Wu, Guitao Wang, Jinming Zhao, Zhaoran Liu, Guilin Qi, Yuan-Fang Li, Gholamreza Haffari 期刊:EMNLP 2022 发布时间与更新时间: 2022.10.17 主题:自然语言处理、关系抽取、口语理解、SpeechRE、SLU arXiv:[2210.08759] Towards Relation Extraction From S

    2024年02月07日
    浏览(43)
  • 【自然语言处理】关系抽取 —— PMGAN

    论文信息 标题:Position Enhanced Mention Graph Attention Network for Dialogue Relation Extraction 作者:Xinwei Long 期刊:SIGIR 2021 short paper 发布时间与更新时间: 2021 主题:自然语言处理、关系抽取、对话场景、BERT、GCN、Attention 一般地,mention 翻译为“提及”,是实体(entity)的文本表现形式

    2024年02月10日
    浏览(35)
  • 【自然语言处理】关系抽取 —— DialogRE

    论文信息 标题:Dialogue-Based Relation Extraction 作者:Dian Yu, Kai Sun, Claire Cardie, Dong Yu 期刊:ACL 2020 发布时间与更新时间: 2020.04.17 主题:自然语言处理、关系抽取、对话场景、跨语句、DialogRE arXiv:[2004.08056] Dialogue-Based Relation Extraction (arxiv.org) 代码:(公开了数据集)DialogRE: T

    2024年02月11日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包