大模型学习笔记07——大模型之Adaptation-Toy模板网

这篇具有很好参考价值的文章主要介绍了大模型学习笔记07——大模型之Adaptation。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大模型学习笔记07——大模型之Adaptation

语言模型是在大量知识文本上训练出来的通用知识模型，没有单独对某特定任务进行优化。被设计为能够捕捉到语言的通用特性和结构，以便可以用于许多不同的下游任务。这种方法的优点是灵活性和广泛适用性，相同的模型可以用于各种各样的的应用。
因为通用模型可能在特定任务上不如专门为该任务训练的模型表现出色，因此为了在不同的应用场景中实现最佳性能，需要对基座模型进行适配
由于各类下游任务与语言模型的预训练方式不同，可能存在一些问题
1. 格式不同
  - 自然语言推理：涉及两个句子的比较以产生单一的二进制输出。这与语言模型通常用于生成下一个标记或填充MASK标记的任务截然不同
  - BERT训练与MASK标记: BERT训练过程中使用了MASK标记，而许多下游任务可能并不使用这些标记。这种不同可能导致在针对具体任务时需要对模型进行显著的调整。
2. 主题转变
  - 特定领域的需求：如医学
  - 广泛主题的灵活性：新的或非常独特的领域
3. 时间转变
  - 新知识的需求
  - 非公开信息的需求

Probing（探针）策略：具体来说，对于一个在训练在主任务上的大型神经网络，Probe是一个插入在其中间层的浅层神经网络，通常是一个分类器层2。Probe有助于探查不同层捕获的信息。使用辅助任务对Probe进行训练和验证，以发现是否捕获了此类辅助信息
Fine-tuning：微调，通过特定任务数据对基座模型参数进行部分调整，以达到对特定任务上更好的表现。其中包括全量微调与轻量微调，以下有几种轻量微调的方法
- 提示调整（prompt tuning）：通过对输入的提示词进行调整，在没有修改模型参数的情况下，完成对模型输出的影响，已达到调整模型的目的
- 前缀调整（prefix tuning）：前缀调整通过在注意力机制的键和值部分添加可学习的权重，为模型提供了一种强大的微调手段。这种方法允许模型更好地捕捉任务特定的模式，并与提示调整等其他技术相辅相成，提供了一种灵活和强大的任务特定优化手段。
- 适配器调整（Adapter tuning）：适配器调整是通过在模型的隐藏层之间插入可训练的“适配器”模块来微调模型的一种方法。这些适配器模块允许模型在不改变原始预训练参数的情况下进行微调，从而降低了存储和计算的需求。