2023年!自然语言处理(NLP)10 大预训练模型

这篇具有很好参考价值的文章主要介绍了2023年!自然语言处理(NLP)10 大预训练模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

来源: AINLPer 公众号(每日干货分享!!)
编辑: ShuYini
校稿: ShuYini
时间: 2022-10-23

引言

语言模型是构建NLP应用程序的关键。现在人们普遍相信基于预训练模型来构建NLP语言模型是切实有效的方法。随着疫情阴霾的散去,相信NLP技术会继续渗透到众多行业中。在此过程中,肯定有很多同学会用到NLP预训练模型,为此作者整理了目前2023年NLP的十大预训练模型及论文。

BERT模型

nlp训练模型,自然语言处理,人工智能,深度学习
 BERT模型(Bidirectional Encoder Representations from Transformers)是由谷歌在2018年研究发布的一款NLP预训练模型,一经发布在当年的火热程度不亚于目前ChatGPT。

 它采用独特的神经网络架构Transformer(现在看来已经不新鲜了)进行语言理解。该模型适用于语音识别(ASR)、文本到语音(TTS)以及序列到序列(Sequence To Sequence)的任何任务。利用BERT模型它可以有效的应对11个NLP任务,其中Google搜索就是采用BERT模型的最好例子,Google的其它应用案例,例如Google文档、Google邮件辅助编写等都应用了BERT模型的文本预测能力。

论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
https://arxiv.org/pdf/1810.04805.pdf

GPT-2模型

nlp训练模型,自然语言处理,人工智能,深度学习
 GPT-2模型(Generative Pre-trained Transformer ,即生成式预训练Transformer)是OpenAI于2019年2月发布的开源模型,并于同年年11月发布了GPT-2语言模型的完整版本(有15亿个参数)。

 GPT-2在文本翻译、QA问答、文章总结、文本生成等NLP任务上可以达到人类的水平。但是但在生成长文章时,会变得重复或无意义。GPT-2是一个通用模型,针对上述任务,它并且没有接受过专门的训练,这得益于它独特的泛化延申能力,即可以在任意序列中准确合成下一项。GPT-2是OpenAI 2018年GPT模型的“直接放大”,其参数计数和训练数据集的大小都增加了10倍。GPT的模型也是基于Transformer建立的,它使用Attention来取代之前RNN和CNN的架构,进而让模型有选择地关注它预测的最相关的输入文本片段。

论文:Language Models are Unsupervised Multitask Learners
https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

GPT-3模型

nlp训练模型,自然语言处理,人工智能,深度学习
 GPT-3模型(Generative Pre-trained Transformer ,即生成式预训练Transformer)是一个自回归语言模型,它由OpenAI于2020年发布,它使用深度学习来生成类似人类的文本。即给定一个作为提示的初始文本,它会继续生成后面的文本。GPT-3生成的文本质量非常高,以至于很难确定它是否是由人类编写的,这既有好处也有风险。(目前爆火的chatGPT就是基于GPT-3.5训练得到的)

 GPT-3架构只存在解码器的Transformer网络,具有2048个Token长的上下文以及1750亿个参数,需要存储800GB。采用生成性预训练对模型进行训练;经过训练,它可以根据前一个Token预测下一个Token是什么。该模型在零样本和小样本学习任务上表现出了强大的学习能力。

论文:GPT3
https://arxiv.org/pdf/2005.14165.pdf

RoBERTa

nlp训练模型,自然语言处理,人工智能,深度学习
 RoBERTa模型(Robustly Optimized BERT Pretraining Approach)是由Meta AI在2019年7月份发布的,它基于BERT模型优化得到的。该模型通过学习和预测故意掩膜的文本部分,在BERT的语言掩蔽策略上建立它的语言模型,并使用更大的小批量和学习率进行训练。与BERT相比,这使得RoBERTa可以改进掩码语言建模目标,并产生更好的下游任务性能。
 RoBERTa是一个预训练模型,它在GLUE或通用语言理解评估上表现出色。
论文:RoBERTa: A Robustly Optimized BERT Pretraining Approach
https://arxiv.org/pdf/1907.11692.pdf

ALBERT

nlp训练模型,自然语言处理,人工智能,深度学习
 ALBERT模型(A Little Bert)是BERT模型的精简版本,由谷歌在2020年初发布。该模型主要用于解决模型规模增加导致训练时间变慢的问题。该语言模型采用了因子嵌入和跨层参数共享两种参数简化方法,即在Factorized embedding中,隐藏层和词汇嵌入是分开测量的。然而,跨层参数共享可防止参数数量随着网络的增长而增加。
 ALBERT的成功证明了识别模型的各个方面的重要性,这些方面会产生强大的上下文表示。通过将改进工作集中在模型架构的这些方面,可以大大提高模型在各种NLP任务上的效率和性能。
论文:ALBERT
https://arxiv.org/pdf/1909.11942.pdf

XLNet

nlp训练模型,自然语言处理,人工智能,深度学习
 XLNet是一个类似BERT的模型,而不是完全不同的模型。总之,XLNet是一种通用的自回归预训练方法。它是CMU和Google Brain团队在2019年6月份发布的模型,XLNet在20个任务上超过了BERT的表现,并在18个任务上取得了当前最佳效果(state-of-the-art),包括机器问答、自然语言推断、情感分析和文档排序。

 BERT模型基于去噪自编码器的预训练模型可以很好地建模双向语境信息,性能优于基于自回归语言模型的预训练方法。然而,由于需要mask一部分输入,BERT忽略了被mask位置之间的依赖关系,因此出现预训练和微调效果的差异(pretrain-finetune discrepancy),基于以上问题,一种泛化的自回归预训练模型XLNet应运而生。
论文:XLNet
https://arxiv.org/pdf/1906.08237.pdf

T5

nlp训练模型,自然语言处理,人工智能,深度学习
 T5模型(Transfer Text-to-Text Transformer,即文本到文本传输转换)是Google在2020年7月份发布的一款强大的统一模型,它将所有NLP任务都转化成文本到文本任务,由此可以方便地评估在阅读理解、摘要生成、文本分类等一系列NLP任务上,不同的模型结构,预训练目标函数,无标签数据集等的影响。

 谷歌提出了一种统一的NLP迁移学习方法,开创了该领域的新局面。该模型使用网络抓取数据进行训练,在几个NLP任务上得到了最先进的结果。
论文:T5
https://arxiv.org/pdf/1910.10683.pdf

ELECTRA

nlp训练模型,自然语言处理,人工智能,深度学习
$emsp;ELECTRA模型(Efficiently Learning an Encoder that Classifies Token Replacements Accurately),该模型以1/4的算力就达到了RoBERTa的效果。该模型借鉴了对抗网络的思想,共训练两个神经网络模型,其中生成器Generator,随机屏蔽原始文本中的单词,进行预测学习;判别器Discriminator判定单词是否与原始文本一致,如果一致则为真,如果不同则为假。采用联合训练的方法,但与对抗网络不同的时,参数不在生成器和判别器中反向传播,只共享embedding。embedding大小和判别器的隐层一致。
论文:ELECTRA
https://openreview.net/pdf?id=r1xMH1BtvB

DeBERTa

nlp训练模型,自然语言处理,人工智能,深度学习
DeBERTa模型(Decoding-enhanced BERT with Disentangled Attention),是微软在2021年初发布。目前该模型其实已经迭代了三个版本。DeBERTa 模型使用了两种新技术(注意力解耦机制、增强的掩码解码器)改进了 BERT和RoBERTa模型,同时还引入了一种新的微调方法(虚拟对抗训练方法)以提高模型的泛化能力。结果表明以上技术和方法,提高了模型预训练的效率以及自然语言理解(NLU)和自然语言生成(NLG)下游任务的性能。
论文:DeBERTa
https://arxiv.org/pdf/2006.03654.pdf

StructBERT

nlp训练模型,自然语言处理,人工智能,深度学习
StructBERT模型是一个预训练的语言模型,由阿里巴巴达摩院2019年提出的NLP预训练模型。它是基于BERT模型的改进,与其最大区别在于:StructBERT增加了两个预训练任务和目标,可以最大限度地利用单词和句子的顺序,分别在单词和句子级别利用语言结构。因此,新模型适用于下游任务所需的不同水平的语言理解。

论文:StructBERT
https://arxiv.org/pdf/1908.04577.pdf

推荐阅读

[1] EMNLP2022 | 带有实体内存(Entity Memory)的统一编解码框架 (美国圣母大学)

[2] NeurIPS2022 | 训练缺少数据?你还有“零样本学习(zero-shot Learning)”(香槟分校)

[3] 一文了解EMNLP国际顶会 && 历年EMNLP论文下载 && 含EMNLP2022

[4]【历年NeurIPS论文下载】一文带你看懂NeurIPS国际顶会(内含NeurIPS2022)文章来源地址https://www.toymoban.com/news/detail-587790.html

到了这里,关于2023年!自然语言处理(NLP)10 大预训练模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解

    Bert模型的输入 context 张量需要满足以下要求: 张量形状: context 应为二维张量,形状为 [batch_size, sequence_length] ,其中 batch_size 是输入样本的批量大小, sequence_length 是输入序列的长度。 数据类型: context 的数据类型应为整数类型,如 torch.LongTensor 。 值范围: context 中的值应

    2024年02月11日
    浏览(31)
  • 【AI视野·今日NLP 自然语言处理论文速览 第四十六期】Tue, 3 Oct 2023

    AI视野 ·今日CS.NLP 自然语言处理论文速览 Tue, 3 Oct 2023 (showing first 100 of 110 entries) Totally 100 papers 👉 上期速览 ✈更多精彩请移步主页 It\\\'s MBR All the Way Down: Modern Generation Techniques Through the Lens of Minimum Bayes Risk Authors Amanda Bertsch, Alex Xie, Graham Neubig, Matthew R. Gormley 最小贝叶斯风险 M

    2024年02月08日
    浏览(38)
  • 【AI视野·今日NLP 自然语言处理论文速览 第三十六期】Tue, 19 Sep 2023

    AI视野 ·今日CS.NLP 自然语言处理论文速览 Tue, 19 Sep 2023 (showing first 100 of 106 entries) Totally 106 papers 👉 上期速览 ✈更多精彩请移步主页 Speaker attribution in German parliamentary debates with QLoRA-adapted large language models Authors Tobias Bornheim, Niklas Grieger, Patrick Gustav Blaneck, Stephan Bialonski 不断增长

    2024年02月07日
    浏览(38)
  • 【AI视野·今日NLP 自然语言处理论文速览 第五十三期】Thu, 12 Oct 2023

    AI视野 ·今日CS.NLP 自然语言处理论文速览 Thu, 12 Oct 2023 Totally 69 papers 👉 上期速览 ✈更多精彩请移步主页 To Build Our Future, We Must Know Our Past: Contextualizing Paradigm Shifts in Natural Language Processing Authors Sireesh Gururaja, Amanda Bertsch, Clara Na, David Gray Widder, Emma Strubell NLP 正处于一个颠覆性变

    2024年02月07日
    浏览(29)
  • 【AI视野·今日NLP 自然语言处理论文速览 第五十四期】Fri, 13 Oct 2023

    AI视野 ·今日CS.NLP 自然语言处理论文速览 Fri, 13 Oct 2023 Totally 75 papers 👉 上期速览 ✈更多精彩请移步主页 Tree-Planner: Efficient Close-loop Task Planning with Large Language Models Authors Mengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo 本文研究闭环任务规

    2024年02月07日
    浏览(31)
  • 基于Bert+Attention+LSTM智能校园知识图谱问答推荐系统——NLP自然语言处理算法应用(含Python全部工程源码及训练模型)+数据集

    这个项目充分利用了Google的Bert模型,这是一种基于Attention的大规模语料预训练模型,以及LSTM命名实体识别网络。项目的目标是设计一套通用的问答系统处理逻辑,以实现智能问答任务。 首先,我们采用了Bert模型,这是一种在自然语言处理领域非常强大的预训练模型。它具备

    2024年02月09日
    浏览(44)
  • 【自然语言处理】自然语言处理 --- NLP入门指南

    NLP的全称是 Natuarl Language Processing ,中文意思是自然语言处理,是人工智能领域的一个重要方向 自然语言处理(NLP)的一个最伟大的方面是跨越多个领域的计算研究,从人工智能到计算语言学的多个计算研究领域都在研究计算机与人类语言之间的相互作用。它主要关注计算机

    2024年02月03日
    浏览(41)
  • 自然语言处理-NLP

    目录 自然语言处理-NLP 致命密码:一场关于语言的较量 自然语言处理的发展历程 兴起时期 符号主义时期 连接主义时期 深度学习时期 自然语言处理技术面临的挑战 语言学角度 同义词问题 情感倾向问题 歧义性问题 对话/篇章等长文本处理问题 探索自然语言理解的本质问题

    2024年02月11日
    浏览(59)
  • 自然语言处理(NLP)

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月08日
    浏览(34)
  • NLP(自然语言处理)

     一、NLP是什么 自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究

    2024年02月02日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包