【自然语言处理】:实验4答案,预训练语言模型实现与应用

这篇具有很好参考价值的文章主要介绍了【自然语言处理】:实验4答案,预训练语言模型实现与应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能

代码和报告均为本人自己实现(实验满分),只展示主要任务实验结果,如果需要详细的实验报告或者代码可以私聊博主,接实验技术指导1对1

实验要求布置请看

运行模型,测试模型在有 100% / 50% / 10% training data(通过随机 sample 原 training set 一部分的数据,10%代表低资源的设定)的情况下模型在 dev set 上的效果

BERT 模型

这里使用原代码 100%数据运行 200 轮训练,结果如下

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能

从图中可以看出在 200 轮训练完成后在 dev set 上的 F1 结果是 0.5472,AUC 结
果为 0.5049

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能

然后我运行 test.py 进行 testset 的文件输出,这里设置的是预测准确率大于0.2 的实体关系对才会被输出,最终提交到网站上结果如下所示

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能 通过查看训练过程我发现,在训练到 130 轮的时候的结果已经和 200 轮的结果是差不多的,F1 的值和 AUC 值都是很小的差距了,所以在后面只使用原数据的 50% 和 10%进行训练的时候我都调整为 130 轮进行训练。修改读取数据时候的代码即可实现随机从原数据抽出 50%和 10%进行训练测试

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能

BERT 模型使用原数据 50%进行训练,结果如下 

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能

从结果来看和使用 100%数据训练 130 轮的时候在 devset 测试出的 F1 值和 AUC 差距很小,大约是 0.03 左右,我猜测造成这样的原因是因为模型鲁棒性, BERT等预训练模型已经在大规模数据上进行了预训练,在训练过程中已经获得了对各种语言和任务的普遍表示能力。这种普适性可能使得模型对于即使使用只有原来一半数据量的时候,泛化能力也相对较好。

 BERT 模型使用原数据 10%进行训练,结果如下

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能

从结果来看出在 bert 模型上只使用原数据 10%进行训练的时候,模型性能显著下降,在 devset 测试出的 F1 值只有 0.254038,AUC 值为 0.11,明显能看出结果变差了很多,我猜测造成这样主要原因是因为数据缺失,因为 BERT 模型是在大型语料库上进行训练的,这使得它可以捕捉到广泛的语言特性和模式。这里只使用了原始数据的 10%,可能会失去一些重要的数据,导致模型在测试时表现不佳。

RoBERTa 模型

这里使用 RoBERTa 模型 100%数据运行 200 轮训练,结果如下

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能

从结果 devset 的 F1 值和 AUC 值来看都要比 BERT 模型 200 轮的结果要更高
Bert 模型 200 轮在 devset 上的结果:F1 值 0.5472 AUC 值 0.5049
RoBerta 模型 200 轮在 devset 上的结果:F1 值 0.5606 AUC 值 0.5284
F1 值提高了 0.0134,AUC 值提高了 0.0235
我认为性能提升的主要原因就是 RoBERTa 采用了更长的训练时间和更大的数据集来进行预训练,这有助于模型更好地学习语言的表示。这使得 RoBERTa 在一些任务上能够更好地捕捉语义和上下文信息。然后我运行 test.py 文件把结果提交到网站上,结果如图所示

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能 对比使用 bert 模型输出的结果,score 提升 0.017 左右,显然确实性能有提升。

RoBERTa 模型使用原数据 50%进行训练,结果如下 

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能

从 devset 上的测试结果来看,F1 和 AUC 显著下降,对比于 100%数据训练下 

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能

 F1 值只有原来的 69%达到 0.3806,AUC 值只有原来的 58%达到 0.3042。再对比于 同样 50%数据训练下的 bert 模型,RoBERTa 模型训练出的结果也低很多,说明 RoBERTa 模型受数据大小对于结果的影响相比于 bert 模型更大

RoBERTa 模型使用原数据 10%进行训练,结果如下 

【自然语言处理】:实验4答案,预训练语言模型实现与应用,自然语言处理,自然语言处理,语言模型,人工智能文章来源地址https://www.toymoban.com/news/detail-836042.html

这里发现结果相对于 50%数据训练下的结果反而不大了,F1 值为 0.23,AUC 值为 0.1342。这个时候和 bert 模型在 10%数据训练下的结果几乎一样,我认为造成这样的主要原因是数据量不足 10% 的数据实在太少,以至于两个模型都无法充分利用其潜在的能力。在这种情况下,两个模型可能都没有充分学习到任务的特征,导致它们在 devset 上表现相似。

到了这里,关于【自然语言处理】:实验4答案,预训练语言模型实现与应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 自然语言处理实战9-大语言模型的训练与文本生成过程

    大家好,我是微学AI,今天给大家介绍一下自然语言处理实战项目9-大语言模型的训练与文本生成过程,详细步骤介绍。大语言模型的训练是通过深度学习技术实现的。首先,需要准备一个庞大的文本数据集作为训练样本,这些文本可以是网页、书籍、新闻等大量的非结构化文

    2024年02月07日
    浏览(47)
  • 自然语言处理从入门到应用——动态词向量预训练:双向语言模型

    分类目录:《自然语言处理从入门到应用》总目录 对于给定的一段输入文本 w 1 w 2 ⋯ w n w_1w_2cdots w_n w 1 ​ w 2 ​ ⋯ w n ​ ,双向语言模型从前向(从左到右)和后向(从右到左)两个方向同时建立语言模型。这样做的好处在于,对于文本中任一时刻的词 w t w_t w t ​ ,可以

    2024年02月10日
    浏览(43)
  • 2023年!自然语言处理(NLP)10 大预训练模型

    来源: AINLPer 公众号 (每日干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2022-10-23 语言模型是构建NLP应用程序的关键。现在人们普遍相信基于预训练模型来构建NLP语言模型是切实有效的方法。随着疫情阴霾的散去,相信NLP技术会继续渗透到众多行业中。在此过程中,肯定有很

    2024年02月16日
    浏览(52)
  • 自然语言处理实战项目11-阅读理解项目的数据处理与训练详细讲解,实验结果与分析

    大家好,我是微学AI,今天给大家介绍一下自然语言处理实战项目11-阅读理解项目的数据处理与训练详细讲解,阅读理解任务目标是让计算机从给定的文章中理解并回答问题。为了完成这个任务,我们需要对给定的数据进行处理和训练。该任务是一个涉及多个步骤和技术的复

    2024年02月09日
    浏览(50)
  • 自然语言处理 Paddle NLP - 基于预训练模型完成实体关系抽取

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月10日
    浏览(43)
  • 自然语言处理从入门到应用——预训练模型总览:两大任务类型

    分类目录:《自然语言处理从入门到应用》总目录 相关文章: · 预训练模型总览:从宏观视角了解预训练模型 · 预训练模型总览:词嵌入的两大范式 · 预训练模型总览:两大任务类型 · 预训练模型总览:预训练模型的拓展 · 预训练模型总览:迁移学习与微调 · 预训练模型

    2024年02月12日
    浏览(44)
  • 【自然语言处理】【大模型】CodeGeeX:用于代码生成的多语言预训练模型

    CodeGeeX:用于代码生成的多语言预训练模型 《CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X》 论文地址:https://arxiv.org/pdf/2303.17568.pdf 相关博客 【自然语言处理】【大模型】RWKV:基于RNN的LLM 【自然语言处理】【大模型】CodeGen:一个用于多轮程序合成

    2024年02月06日
    浏览(38)
  • 7个顶级开源数据集来训练自然语言处理(NLP)和文本模型

    推荐:使用 NSDT场景编辑器快速助你搭建可二次编辑的3D应用场景 NLP现在是一个令人兴奋的领域,特别是在像AutoNLP这样的用例中,但很难掌握。开始使用NLP的主要问题是缺乏适当的指导和该领域的过度广度。很容易迷失在各种论文和代码中,试图吸收所有内容。 要意识到的是

    2024年02月13日
    浏览(51)
  • 自然语言处理实战项目16- 基于CPU的大语言模型的实战训练全流程指导,模型调优与评估

    大家好,我是微学AI,今天给大家介绍一下自然语言处理实战项目16- 基于CPU的生成式大语言模型的实战训练全流程详细讲解,模型调优与评估。该流程涵盖了数据准备、数据预处理、词表构建、模型选择与配置、模型训练、模型调优和模型评估等步骤。通过不断迭代和优化,

    2024年02月10日
    浏览(59)
  • 自然语言处理从入门到应用——预训练模型总览:词嵌入的两大范式

    分类目录:《自然语言处理从入门到应用》总目录 相关文章: · 预训练模型总览:从宏观视角了解预训练模型 · 预训练模型总览:词嵌入的两大范式 · 预训练模型总览:两大任务类型 · 预训练模型总览:预训练模型的拓展 · 预训练模型总览:迁移学习与微调 · 预训练模型

    2024年02月11日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包