引言
今天带来第四篇大模型微调的论文笔记GPT Understands, Too。
本篇工作提出的方法是P-tuning,使用可训练的连续提示嵌入,使GPT在NLU上表现比传统的全量微调的GPT更好的效果。P-tuning还提高了BERT在少样本和监督设定下的性能,大幅减少了提示工程的需求。
总体介绍
根据训练目标,预训练语言模型可被分为三类:单向语言模型(GPT)用于自然语言生成(NLG);双向语言模型(BERT)用于自然语言理解(NLU);以及混合(hybrid)语言模型(XLNet和UniLM)结合了前面两种做法。
一直以来,人们注意到GPT类的模型基于微调的情况下也在NLU上表现不好,因此认为它们本质上并不适合NLU任务。
GPT-3以其在少样本学习和零样本学习上的性能,尤其是在手工设置提示的情况下,已经席卷了机器学习社区。这个模型在使用人工设计的提示时表现出色,引起了广泛的关注和讨论。它表明了大规模单向语言模型集合适合的手工提示可能也能用于NLU任务。然而手工设置提示非常麻烦,需要进行大量的验证。后面有些学者尝试利用离散的提示,但因为神经网络本质上是连续的,离散的提示是次优的。
在这篇工作中,作者提出了新的方法——P-tuning,用于在连续空间自动搜索提示填补了GPT和NLU应用的差距。P-tuning使用少量连续自由的参数用作输入到预训练语言模型的提示。文章来源:https://www.toymoban.com/news/detail-731200.html
简单的P-tuning方法为GPTs带来了显著的改进。文章来源地址https://www.toymoban.com/news/detail-731200.html
到了这里,关于[论文笔记]P-tuning的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!