[论文阅读笔记76]GPT Understands, Too(P-tuning)

这篇具有很好参考价值的文章主要介绍了[论文阅读笔记76]GPT Understands, Too(P-tuning)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 基本信息

题目 论文作者与单位 来源 年份
GPT Understands, Too 清华大学

Citations, References

论文链接:https://arxiv.org/pdf/2103.10385.pdf

论文代码:

2. 要点

研究主题 问题背景 核心方法流程 亮点 数据集 结论 论文类型 关键字
微调大模型 采用传统微调的gpt在自然语言理解(NLU)方面未能取得良好的效果,所以提出了P-tuning. LAMA,SuperGlue P-tuning在少样本上,在bert,gpt都取得不错的效果。

3. 模型(核心内容)

3.1 模型例子

[论文阅读笔记76]GPT Understands, Too(P-tuning)

这里的模型思想是例如有一个模板T:The capital of [X] is [Y], 这里的X定义为上下文,Y定义为目标,其它字符表示prompt.

对于离散型,每一个prompt提示词都可以在V词典中查到,然后都可以经过预模型模型进行编码。

*** T = {*****[P_0:i ], x, *****[P_*****i+1:m], y}, [P_i ] *****∈ V, ***

[论文阅读笔记76]GPT Understands, Too(P-tuning)

在p-tuning中p_i被看成是一个伪token,对应用的模板应该是这样的:

[论文阅读笔记76]GPT Understands, Too(P-tuning)

这里的h_i是可以训练的的,通过训练可以获得列准确的prompt,这个prompt将会超过当前的prompt.

最后的损失函数为:

[论文阅读笔记76]GPT Understands, Too(P-tuning)

其它这个跟之前几篇思想是一样的。直接把离散的代替成了连续的。

优化时面临两个挑战:

Discreteness

如果h用随机分布初始化,优化器很容易落入局部极小值。

Association

嵌入的h应该是相互联系的,并不是独立的,在设计时应该把h的相关作用加入去。

解决这个方法: 把h隐变量建立成一个序列,采用一prompt编码器来进行编码,这个编码器采用小而轻的神经网络的完成。实际的实践中采用了lstm来完成。

[论文阅读笔记76]GPT Understands, Too(P-tuning)

4. 实验与分析

4.1 实验

任务1:LAMA (Petroni et al., 2019) knowledge probing

把三元组 (Dante, born-in, Florence) 变成cloze的句子:“Dante was born in [MASK].”,作为原始的样本。

[论文阅读笔记76]GPT Understands, Too(P-tuning)

1) Manual Prompt(MP):使用LAMA的原始手工提示;

2)Fine-tuning(FT):通过主语与微调模型去预测宾语;

3) Manual Prompt with Fine-tuning(MP+FT):使用手工提示数据来微调语言模型;

4)P-tuning:使用连接提示(固定语言模型的参数)。

另外发现,LAMA-29k数据集中P-tuning比fine tuning还要好。

任务2:SuperGlue (Wang et al., 2019b)

BERT-base-case,GPT2-base,BERT-large-cased, GPT2-medium, 从这些实验结果来看,基本上是超过Fine-tuning的效果的。

[论文阅读笔记76]GPT Understands, Too(P-tuning)

[论文阅读笔记76]GPT Understands, Too(P-tuning)

few shot中的提示的语义、格式、语法没有明显的相关性,其次,手动提示中的微小变化会导致巨大的性能差异。

[论文阅读笔记76]GPT Understands, Too(P-tuning)

5. 总结

思想与之前的两篇的差不多,这篇也做了很多实验,效果大部分可与fine tuning进行比较了。挺好的。

7. 知识整理(知识点,要读的文献,摘取原文)

8. 参考文献

made by happyprince文章来源地址https://www.toymoban.com/news/detail-491257.html

到了这里,关于[论文阅读笔记76]GPT Understands, Too(P-tuning)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记--Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

    标题:Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks 作者:Tiedong Liu, Bryan Kian Hsiang Low 日期:2023 期刊:arxiv preprint   文章给出了一种可高精度完成基本数学运算的大模型Goat(Good at Arithmetic Tasks),相比于GPT-4,Goat在多位数字的基本运算(加减乘除)上有大幅的精度提升。  

    2024年02月12日
    浏览(33)
  • Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》阅读笔记

    继2023年2月开源Llama之后,2023年7月Meta又开源了模型参数从70 亿到 700 亿不等的Llama 2,并同时开源了针对对话场景优化的LLaMA2-CHAT。LLama2 论文描述了微调和提高LLM安全性的方法以及在模型开发过程中的一些的观察。 论文摘要翻译:在这项工作中,我们开发并开源了 Llama 2,这是

    2024年02月09日
    浏览(48)
  • GPT-3 论文阅读笔记

    GPT-3模型出自论文《Language Models are Few-Shot Learners》是OpenAI在2020年5月发布的。 论文摘要翻译 :最近的工作表明,通过对大量文本进行预训练,然后对特定任务进行微调(fine-tuning),在许多NLP任务和基准测试上取得了实质性的进展。虽然这种方法在架构上通常与任务无关,但它

    2024年02月12日
    浏览(39)
  • LLM微调 | Prefix-Tuning, Prompt-Tuning, P-tuning, P-tuning-v2

    🔥 下面我只是分析讲解下这些方法的原理以及具体代码是怎么实现的,不对效果进行评价,毕竟不同任务不同数据集效果差别还是挺大的。 hard prompt (离散):即人类写的自然语言式的prompt。 soft prompt (连续):可训练的权重,可以理解为伪prompt。【毕竟nn是连续的模型,在连续

    2024年02月14日
    浏览(42)
  • ChatGLM-6B的P-Tuning微调详细步骤及结果验证

    ChatGLM-6B 仓库地址:https://github.com/THUDM/ChatGLM-6B ChatGLM-6B/P-Tuning 仓库地址:https://github.com/THUDM/ChatGLM-6B/tree/main/ptuning 1.1 P-Tuning v2简介 P-Tuning 是一种较新的模型微调方法,它采用了参数剪枝的技术,可以将微调的参数量减少到原来的0.1%。具体来说, P-Tuning v2 是基于 P-Tuning v1 的

    2024年02月06日
    浏览(46)
  • 第七篇-Tesla P40+ChatGLM2+P-Tuning

    https://huggingface.co/THUDM/chatglm2-6b 下载模型相关文件到自己目录 我的是/models/chatglm2-6b 创建环境安 一定注意数据中格式,符号中英文等等 train_loss 要小,如果1,2这种未调出的效果很差 如果调整了数据集,要清理缓存,缓存目录如下 /root/.cache/huggingface/datasets output/adgen-chatglm2-6b

    2024年02月13日
    浏览(44)
  • ChatGLM-6B 部署与 P-Tuning 微调实战-使用Pycharm实战

    ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优

    2024年02月15日
    浏览(44)
  • 基于 P-Tuning v2 进行 ChatGLM2-6B 微调实践

    1. SFT监督微调:适用于在源任务中具有较高性能的模型进行微调,学习率较小。常见任务包括中文实体识别、语言模型训练、UIE模型微调。优点是可以快速适应目标任务,但缺点是可能需要较长的训练时间和大量数据。 2. LoRA微调:通过高阶矩阵秩的分解减少微调参数量,不

    2024年02月08日
    浏览(57)
  • 手把手带你实现ChatGLM2-6B的P-Tuning微调

    参考文献:chatglm2ptuning 注意问题1:AttributeError: ‘Seq2SeqTrainer’ object has no attribute \\\'is_deepspeed_enabl torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 可能是版本太高,可以参考chatglm2的环境 1. ChatGLM2-6B的P-Tuning微调 ChatGLM2-6B :https://github.com/THUDM/ChatGLM2-6B 模型地址 :https://hug

    2024年02月17日
    浏览(52)
  • 论文阅读——GPT3

    来自论文:Language Models are Few-Shot Learners Arxiv:https://arxiv.org/abs/2005.14165v2 记录下一些概念等。,没有太多细节。 预训练LM尽管任务无关,但是要达到好的效果仍然需要在特定数据集或任务上微调。因此需要消除这个限制。解决这些问题的一个潜在途径是元学习——在语言模型

    2024年02月08日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包