A Survey on Knowledge-Enhanced Pre-trained Language Models

这篇具有很好参考价值的文章主要介绍了A Survey on Knowledge-Enhanced Pre-trained Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘要

自然语言处理(NLP)已经通过使用BERT等预训练语言模型(plm)发生了革命性的变化。尽管几乎在每个NLP任务中都创造了新的记录,但plm仍然面临许多挑战,包括可解释性差,推理能力弱,以及在应用于下游任务时需要大量昂贵的注释数据。通过将外部知识集成到plm中,知识增强预训练语言模型(keplm)具有克服上述限制的潜力。本文通过一系列的研究,对KEPLMs进行了系统的考察。具体而言,我们概述了KEPLMs中常见的知识类型和不同的知识格式,详细介绍了现有的构建和评估KEPLMs的方法,介绍了KEPLMs在下游任务中的应用,并讨论了未来的研究方向。研究人员将从这项调查中受益,获得该领域最新发展的快速和全面的概述。

1.介绍

重新训练的语言模型(plm)首先在一个大数据集上进行训练,然后直接转移到下游任务,或者在另一个小数据集上进一步微调以用于特定的NLP任务。早期的plm,如Skip-Gram[1]和GloVe[2],是浅层神经网络,它们的词嵌入(从窗口大小的上下文中学习)是静态语义向量,这使得它们无法处理动态环境中的多义词问题。随着深度学习的发展,研究人员试图利用深度神经网络通过动态语义嵌入来提高任务的性能。起初,人们仍然局限于监督学习的范式,认为如果没有足够的标记数据,就很难释放深度学习的潜力。然而,随着自监督学习的出现,BERT[3]等大型语言模型可以通过预测预先被掩盖的标记,从大规模未标记的文本数据中学习到大量知识。因此,他们在一些下游NLP任务上取得了突破性进展。此后,许多大型模型开始采用Transformer[4]结构和自监督学习来解决NLP问题,plm逐渐进入快速发展阶段。plm的最新成功是OpenAI的ChatGPT1。</文章来源地址https://www.toymoban.com/news/detail-672581.html

到了这里,关于A Survey on Knowledge-Enhanced Pre-trained Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入理解深度学习——GPT(Generative Pre-Trained Transformer):基础知识

    分类目录:《深入理解深度学习》总目录 相关文章: · GPT(Generative Pre-Trained Transformer):基础知识 · GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

    2024年02月10日
    浏览(44)
  • Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models

    论文链接:https://arxiv.org/abs/2211.10655 GitHub链接:https://github.com/HJ-harry/DiffusionMBIR 【score-MRI作者】 扩散模型已成为具有高质量样本的新的艺术生成模型,具有模式覆盖和高灵活性等有趣的特性。它们也被证明是有效的逆问题求解器,充当分布的先验,而正演模型的信息可以在采

    2024年02月09日
    浏览(33)
  • [ACL2023] Exploring Lottery Prompts for Pre-trained Language Models

    文章链接 清深的工作,比较有意思的一篇。作者先给出假设,对于分类问题,在有限的语料空间内总能找到一个prompt让这个问题分类正确,作者称之为lottery prompt。为此,作者组织了一个prompt集合,每个prompt的组成都很简单,名词+动词+介词/形容词/副词+MASK,语料都是从常用

    2024年02月11日
    浏览(28)
  • 深入理解深度学习——GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT

    分类目录:《自然语言处理从入门到应用》总目录 相关文章: · GPT(Generative Pre-Trained Transformer):基础知识 · GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3与Few-s

    2024年02月10日
    浏览(35)
  • Pre-trained Language Models Can be Fully Zero-Shot Learners

    本文是LLM系列文章,针对《Pre-trained Language Models Can be Fully Zero-Shot Learners》的翻译。 在没有标记或额外的未标记数据的情况下,我们如何将预先训练的模型扩展到许多语言理解任务?经过预训练的语言模型(PLM)对于广泛的NLP任务是有效的。然而,现有的方法要么需要对下游

    2024年02月07日
    浏览(33)
  • 2023知识追踪最新综述来自顶刊!!!——《Knowledge Tracing:A Survey》

    论文在2023年2月收录于ACM Computing Surveys(IF好像有14) https://dl.acm.org/doi/pdf/10.1145/3569576 后文里,我用技能一词 来 代替原文中的KC - knowledge component = 其他文献的知识点 教学是促进知识转移的重要活动 新冠促进 教育系统的数字化转型 目前的挑战 每个题目可能对应多个技能 技能

    2024年02月16日
    浏览(26)
  • 【论文阅读24】Better Few-Shot Text Classification with Pre-trained Language Model

    论文标题:Label prompt for multi-label text classification(基于预训练模型对少样本进行文本分类) 发表时间:2021 领域:多标签文本分类 发表期刊:ICANN(顶级会议) 相关代码:无 数据集:无 最近,预先训练过的语言模型在许多基准测试上都取得了非凡的性能。通过从一个大型的

    2024年02月14日
    浏览(31)
  • 深入理解深度学习——GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

    分类目录:《深入理解深度学习》总目录 相关文章: · GPT(Generative Pre-Trained Transformer):基础知识 · GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

    2024年02月10日
    浏览(32)
  • 深入理解深度学习——GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning

    分类目录:《深入理解深度学习》总目录 相关文章: · GPT(Generative Pre-Trained Transformer):基础知识 · GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

    2024年02月10日
    浏览(34)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP这一类方法只能进行图片级别的视觉和文本对齐; 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联; 本文致力于进行多粒度(

    2024年02月09日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包