[论文阅读笔记76]GPT Understands, Too(P-tuning)

10月前作者：happyprince 分类：Toy博客阅读(53) 违法举报

这篇具有很好参考价值的文章主要介绍了[论文阅读笔记76]GPT Understands, Too(P-tuning)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. 基本信息

题目	论文作者与单位	来源	年份
GPT Understands, Too	清华大学

Citations, References

论文链接：https://arxiv.org/pdf/2103.10385.pdf

论文代码：

2. 要点

研究主题	问题背景	核心方法流程	亮点	数据集	结论	论文类型	关键字
微调大模型	采用传统微调的gpt在自然语言理解（NLU）方面未能取得良好的效果，所以提出了P-tuning.			LAMA，SuperGlue	P-tuning在少样本上，在bert，gpt都取得不错的效果。

3. 模型(核心内容)

3.1 模型例子

[论文阅读笔记76]GPT Understands, Too(P-tuning)

这里的模型思想是例如有一个模板T：The capital of [X] is [Y], 这里的X定义为上下文，Y定义为目标，其它字符表示prompt.

对于离散型，每一个prompt提示词都可以在V词典中查到，然后都可以经过预模型模型进行编码。

*** T = {*****[P_0:i ], x, *****[P_*****i+1:m], y}, [P_i ] *****∈ V, ***

[论文阅读笔记76]GPT Understands, Too(P-tuning)

在p-tuning中p_i被看成是一个伪token,对应用的模板应该是这样的：

[论文阅读笔记76]GPT Understands, Too(P-tuning)

这里的h_i是可以训练的的，通过训练可以获得列准确的prompt，这个prompt将会超过当前的prompt.

最后的损失函数为：

[论文阅读笔记76]GPT Understands, Too(P-tuning)

其它这个跟之前几篇思想是一样的。直接把离散的代替成了连续的。

优化时面临两个挑战：

Discreteness

如果h用随机分布初始化，优化器很容易落入局部极小值。

Association

嵌入的h应该是相互联系的，并不是独立的，在设计时应该把h的相关作用加入去。

解决这个方法：把h隐变量建立成一个序列，采用一prompt编码器来进行编码，这个编码器采用小而轻的神经网络的完成。实际的实践中采用了lstm来完成。

[论文阅读笔记76]GPT Understands, Too(P-tuning)

4. 实验与分析

4.1 实验

任务1：LAMA (Petroni et al., 2019) knowledge probing

把三元组 (Dante, born-in, Florence) 变成cloze的句子：“Dante was born in [MASK].”,作为原始的样本。

[论文阅读笔记76]GPT Understands, Too(P-tuning)

1) Manual Prompt（MP）：使用LAMA的原始手工提示；

2）Fine-tuning（FT）：通过主语与微调模型去预测宾语；

3) Manual Prompt with Fine-tuning（MP+FT）：使用手工提示数据来微调语言模型；

4)P-tuning：使用连接提示（固定语言模型的参数）。

另外发现，LAMA-29k数据集中P-tuning比fine tuning还要好。

任务2：SuperGlue (Wang et al., 2019b)

BERT-base-case,GPT2-base,BERT-large-cased, GPT2-medium, 从这些实验结果来看，基本上是超过Fine-tuning的效果的。

[论文阅读笔记76]GPT Understands, Too(P-tuning)

[论文阅读笔记76]GPT Understands, Too(P-tuning)

few shot中的提示的语义、格式、语法没有明显的相关性，其次，手动提示中的微小变化会导致巨大的性能差异。

[论文阅读笔记76]GPT Understands, Too(P-tuning)

5. 总结

思想与之前的两篇的差不多，这篇也做了很多实验，效果大部分可与fine tuning进行比较了。挺好的。

7. 知识整理（知识点，要读的文献，摘取原文）

8. 参考文献

made by happyprince文章来源地址https://www.toymoban.com/news/detail-491257.html

到了这里，关于[论文阅读笔记76]GPT Understands, Too(P-tuning)的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

论文笔记--Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

标题：Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks 作者：Tiedong Liu, Bryan Kian Hsiang Low 日期：2023 期刊：arxiv preprint 文章给出了一种可高精度完成基本数学运算的大模型Goat(Good at Arithmetic Tasks)，相比于GPT-4，Goat在多位数字的基本运算（加减乘除）上有大幅的精度提升。

2024年02月12日
浏览(34)
Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》阅读笔记

继2023年2月开源Llama之后，2023年7月Meta又开源了模型参数从70 亿到 700 亿不等的Llama 2，并同时开源了针对对话场景优化的LLaMA2-CHAT。LLama2 论文描述了微调和提高LLM安全性的方法以及在模型开发过程中的一些的观察。论文摘要翻译：在这项工作中，我们开发并开源了 Llama 2，这是

2024年02月09日
浏览(51)
GPT-3 论文阅读笔记

GPT-3模型出自论文《Language Models are Few-Shot Learners》是OpenAI在2020年5月发布的。论文摘要翻译：最近的工作表明，通过对大量文本进行预训练，然后对特定任务进行微调（fine-tuning)，在许多NLP任务和基准测试上取得了实质性的进展。虽然这种方法在架构上通常与任务无关，但它

2024年02月12日
浏览(41)
LLM微调 | Prefix-Tuning, Prompt-Tuning, P-tuning, P-tuning-v2

🔥 下面我只是分析讲解下这些方法的原理以及具体代码是怎么实现的，不对效果进行评价，毕竟不同任务不同数据集效果差别还是挺大的。 hard prompt (离散)：即人类写的自然语言式的prompt。 soft prompt (连续)：可训练的权重，可以理解为伪prompt。【毕竟nn是连续的模型，在连续

2024年02月14日
浏览(46)
ChatGLM-6B的P-Tuning微调详细步骤及结果验证

ChatGLM-6B 仓库地址：https://github.com/THUDM/ChatGLM-6B ChatGLM-6B/P-Tuning 仓库地址：https://github.com/THUDM/ChatGLM-6B/tree/main/ptuning 1.1 P-Tuning v2简介 P-Tuning 是一种较新的模型微调方法，它采用了参数剪枝的技术，可以将微调的参数量减少到原来的0.1%。具体来说， P-Tuning v2 是基于 P-Tuning v1 的

2024年02月06日
浏览(47)
基于 P-Tuning v2 进行 ChatGLM2-6B 微调实践

1. SFT监督微调：适用于在源任务中具有较高性能的模型进行微调，学习率较小。常见任务包括中文实体识别、语言模型训练、UIE模型微调。优点是可以快速适应目标任务，但缺点是可能需要较长的训练时间和大量数据。 2. LoRA微调：通过高阶矩阵秩的分解减少微调参数量，不

2024年02月08日
浏览(60)
第七篇-Tesla P40+ChatGLM2+P-Tuning

https://huggingface.co/THUDM/chatglm2-6b 下载模型相关文件到自己目录我的是/models/chatglm2-6b 创建环境安一定注意数据中格式，符号中英文等等 train_loss 要小，如果1,2这种未调出的效果很差如果调整了数据集，要清理缓存，缓存目录如下 /root/.cache/huggingface/datasets output/adgen-chatglm2-6b

2024年02月13日
浏览(47)
ChatGLM-6B 部署与 P-Tuning 微调实战-使用Pycharm实战

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优

2024年02月15日
浏览(45)
手把手带你实现ChatGLM2-6B的P-Tuning微调

参考文献：chatglm2ptuning 注意问题1：AttributeError: ‘Seq2SeqTrainer’ object has no attribute \\\'is_deepspeed_enabl torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 可能是版本太高，可以参考chatglm2的环境 1. ChatGLM2-6B的P-Tuning微调 ChatGLM2-6B ：https://github.com/THUDM/ChatGLM2-6B 模型地址：https://hug

2024年02月17日
浏览(57)
论文阅读——GPT3

来自论文：Language Models are Few-Shot Learners Arxiv：https://arxiv.org/abs/2005.14165v2 记录下一些概念等。，没有太多细节。预训练LM尽管任务无关，但是要达到好的效果仍然需要在特定数据集或任务上微调。因此需要消除这个限制。解决这些问题的一个潜在途径是元学习——在语言模型

2024年02月08日
浏览(39)