Pre-trained Language Models Can be Fully Zero-Shot Learners

这篇具有很好参考价值的文章主要介绍了Pre-trained Language Models Can be Fully Zero-Shot Learners。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章,针对《Pre-trained Language Models Can be Fully Zero-Shot Learners》的翻译。

摘要

在没有标记或额外的未标记数据的情况下,我们如何将预先训练的模型扩展到许多语言理解任务?经过预训练的语言模型(PLM)对于广泛的NLP任务是有效的。然而,现有的方法要么需要对下游标记的数据集进行微调,要么需要手动构建适当的提示。在本文中,我们提出了非参数提示PLM(NPPrompt)来完全理解零样本语言。与以前的方法不同,NPPrompt只使用预先训练的语言模型,不需要任何标记数据或额外的原始语料库来进行进一步的微调,也不依赖于人类来构建一组全面的提示标签词。在不同的NLP任务中,我们将NPPrompt与以前的主要小样本和零样本学习方法进行比较:文本分类、文本蕴涵、相似文本检索、转述和多选问题回答。实验结果表明,我们的NPPrompt在很大程度上优于以前最好的完全零样本方法,在文本分类上的准确率和在GLUE基准上的准确度分别提高了12.8%和15.6%。我们的源代码可在https://github.com/Xuandong Zhao/NPPrompt。

1 引言

2 相关工作

3 背景:PLMs基于提示的调整

4 提出的方法:NPPrompt

5 实验

6 讨论

7 结论

在这篇文章中,我们提出了NPPrompt,这是一种新颖而有效的方法,可以通过预先训练的语言模型来实现完全零样本学习。我们使用PLM的初始单词嵌入来自动查找类别名称的相关单词,这使我们能够在没有手动设计或未标记语料库的情况下构建动词化器。实验结果表明,NPPrompt在很大程度上优于以前的零样本方法。

局限性

对于那些没有语义的标签名称,NPPrompt仍然需要几个关键字才能正常工作。此外,本研究仅关注零样本设置。然而,在实际应用中普遍存在的小样本场景中也有潜在的探索途径。NPPrompt是否适用于其他任务,如排名和关系提取,仍不确定,需要进一步调查。设计一种细化方法来联合搜索标签词和模板可能是未来研究的一个很有前途的方向。文章来源地址https://www.toymoban.com/news/detail-722421.html

到了这里,关于Pre-trained Language Models Can be Fully Zero-Shot Learners的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models

    论文链接:https://arxiv.org/abs/2211.10655 GitHub链接:https://github.com/HJ-harry/DiffusionMBIR 【score-MRI作者】 扩散模型已成为具有高质量样本的新的艺术生成模型,具有模式覆盖和高灵活性等有趣的特性。它们也被证明是有效的逆问题求解器,充当分布的先验,而正演模型的信息可以在采

    2024年02月09日
    浏览(46)
  • 【论文阅读24】Better Few-Shot Text Classification with Pre-trained Language Model

    论文标题:Label prompt for multi-label text classification(基于预训练模型对少样本进行文本分类) 发表时间:2021 领域:多标签文本分类 发表期刊:ICANN(顶级会议) 相关代码:无 数据集:无 最近,预先训练过的语言模型在许多基准测试上都取得了非凡的性能。通过从一个大型的

    2024年02月14日
    浏览(45)
  • LLM预训练大型语言模型Pre-training large language models

    在上一个视频中,您被介绍到了生成性AI项目的生命周期。 如您所见,在您开始启动您的生成性AI应用的有趣部分之前,有几个步骤需要完成。一旦您确定了您的用例范围,并确定了您需要LLM在您的应用程序中的工作方式,您的下一步就是选择一个要使用的模型。 您首先的选

    2024年02月11日
    浏览(47)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP这一类方法只能进行图片级别的视觉和文本对齐; 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联; 本文致力于进行多粒度(

    2024年02月09日
    浏览(43)
  • Generative Pre-trained Transformer(GPT)模型技术初探

    2017年,Google在论文 Attention is All you need 中提出了 Transformer 模型,其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。相比 RNN 网络结构,其最大的优点是可以并行计算。Transformer 的整体模型架构如下图所示 首先,让我们先将Transformer模型视为一个黑盒,如下图所

    2023年04月14日
    浏览(85)
  • AIGC实战——GPT(Generative Pre-trained Transformer)

    注意力机制能够用于构建先进的文本生成模型, Transformer 是用于序列建模的强大神经网络,该神经网络不需要复杂的循环或卷积架构,而只依赖于注意力机制。这种方法克服了循环神经网络 ( Recurrent Neural Network , RNN ) 方法难以并行化的缺陷( RNN 必须逐符号处理序列)。 Transf

    2024年03月12日
    浏览(44)
  • 【论文阅读笔记】Pre-trained Universal Medical Image Transformer

    Luo L, Chen X, Tang B, et al. Pre-trained Universal Medical Image Transformer[J]. arXiv preprint arXiv:2312.07630, 2023.【代码开源】 【论文概述】 本文介绍了一种名为“预训练通用医学图像变换器(Pre-trained Universal Medical Image Transformer,简称PUMIT)”的新型算法,该算法旨在解决标记医学图像数据稀缺

    2024年02月04日
    浏览(47)
  • 深入理解深度学习——GPT(Generative Pre-Trained Transformer):基础知识

    分类目录:《深入理解深度学习》总目录 相关文章: · GPT(Generative Pre-Trained Transformer):基础知识 · GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

    2024年02月10日
    浏览(60)
  • 深入理解深度学习——GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT

    分类目录:《自然语言处理从入门到应用》总目录 相关文章: · GPT(Generative Pre-Trained Transformer):基础知识 · GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3与Few-s

    2024年02月10日
    浏览(50)
  • 深入理解深度学习——GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

    分类目录:《深入理解深度学习》总目录 相关文章: · GPT(Generative Pre-Trained Transformer):基础知识 · GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning

    2024年02月10日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包