【论文精读】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

这篇具有很好参考价值的文章主要介绍了【论文精读】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

一篇大规模语言模型的指南，指南介绍详细且会随着大模型的发展不断更新，相信初入大模型的朋友一定能有所收获。

Abstract

本文为LLM的从业者或者其下游任务用户提供了一个全面而实用的指南。首先对现有的LLM进行介绍和总结，其次讨论了预训练数据、训练数据和测试数据的影响，最重要的是，讨论了LLM在各种NLP任务下的使用条件，试图理解数据的重要性和不同NLP任务的具体挑战。定期更新的指南见https://github.com/Mooler0410/LLMsPracticalGuide。

INTRODUCTION

LLM的快速发展在各种NLP任务上表现了巨大的潜力，然而如何高效利用这些模型需要对它们的能力和局限性以及涉及的数据和任务有具体的了解。在某个任务场景下使用什么LLM，需要考虑到模型大小、计算需求以及特定的领域训练模型等因素。
为了分析大语言模型的能力，作者将它们和微调模型进行对比。二者的定义分别为：LLMs是在大规模数据集上预训练的巨大的语言模型，不需要针对特定任务对数据进行调整，微调模型通常规模较小，会在小的特定任务数据集上进行微调，优化其在该任务上的性能。
本文总结了LLM以下主要实践指南：

自然语言理解：利用LLMs在面对非分布数据或极少训练数据时的超常泛化能力；
自然语言生成：利用LLMs为各种应用生成高质量文本；
知识密集型任务：对于特定领域知识或者通用知识，利用LLM存储的广泛知识；
推理能力：理解并利用LLMs的推理能力解决问题或改善决策。

PRACTICAL GUIDE FOR MODELS

LLM模型可以分为两类：

编码器-解码器模型或者仅编码器模型
仅解码器语言模型

上图展示了语言模型的演化过程，可以从中得到如下观察：

Decoder-Only模型已经逐渐成为主流，encoder-Only模型逐渐淡出；
OpenAI始终处于LLM领域的领导地位；
Meta为开源LLM做出了巨大的贡献；
LLMs表现出逐渐封闭的趋势，基于API的研究可能成为主流；
Encoder-decoder模型仍然很有前途，但是灵活性和通用性受到限制。

下表是LLM的总结。

BERT-style Language Models: Encoder-Decoder or Encoder-only

由于自然语言现成可用，并且无监督训练范式可以更好利用超大规模数据集，这激发了自然语言的无监督学习。一种普遍的方法是预测句子中mask的单词，这种训练范式称为MLM，它可以让模型更深入理解单词之间的关系以及上下文。代表的模型有BERT、RoBERTa和T5。

GPT-style Language Models: Decoder-only

语言模型显著提高了小样本和零样本的性能。最成功的的模型是自回归语言模型，它通过给定一个单词的序列生成下一个单词来训练。这些模型已被广泛应用于文本生成、问答等下游任务。代表的模型有GPT-3、OPT、PALM和BLOOM。GPT-3首次使用prompt和上下文学习展示了小样本场景的性能。

PRACTICAL GUIDE FOR DATA

数据对模型有效性的影响从预训练开始一直到训练和推理阶段。
这里有三点注意的地方：

LLMs在面对对抗样本、域迁移等分布外数据的泛化性能要比微调模型好；
LLMs在处理有限的注释数据时优于微调模型；
预训练模型最好选择和下游任务接近的模型。

Pretraining data

预训练数据在LLM发展过程中举足轻重。预训练数据的质量、数量和多样性都显著影响LLMs的性能。预训练数据的重要性在于它能够为语言模型提供对单词知识、语法、句法和语义的丰富理解，以及识别上下文和生成连贯回复的能力。

Finetuning data

将模型用于下游任务时，要考虑三个主要场景：零样本，小样本，大量样本。
**零注释数据：**使用LLM在零样本场景被证实是最合适的方法，此外没有参数更新过程避免灾难性遗忘。
**少注释数据：**小样本数据和输入的prompt直接合并作为上下文学习，可以高效引导LLMs泛化到任务上，这种方法比元学习或者迁移学习的小模型相比性能更好，不容易过拟合。
**大量标注数据：**该场景下，微调模型或使用LLMs都可以，微调的模型可以更好拟合数据，这主要基于任务的类型。
总的来说，LLMs更适合通用场景，微调模型需要大规模标注数据。

Test data/user data

部署LLMs处理下游任务时，经常面临测试数据和训练数据分布差异带来的挑战，如域迁移、分布外差异甚至对抗样本，这些挑战阻碍了微调模式的有效性，但是LLMs可以有很好表现，因为没有明确拟合过程。此外，人类反馈强化学习（RLHF）方法显著增强了LLM的泛化能力。

PRACTICAL GUIDE FOR NLP TASKS

Traditional NLU tasks

传统的NLU任务包括文本分类，命名实体识别，蕴含预测等，这些任务很多是用于大型人工智能系统的中间步骤。

No use case

在大多数自然语言理解任务中，如果任务包含丰富标注数据，测试集数据也保持相同的分布，微调模型仍然具有很好的性能。
在文本分类任务上，LLMs很多时候不如微调过的模型。比如毒性检测，LLMs的表现只比随机选择稍好，这可能由于毒性是由语言表达中细微差别定义的，而大模型无法仅根据提供的输入准确理解。
在自然语言推理或者知识问答任务上，LLMs和微调模型各有千秋。
在信息检索任务中，LLM未得到广泛应用，因为LLM无法将数千个候选文本转换为LLM所需的few/zero-shot形式。
对于一些小样本中间任务如NER，在CoNLL03数据集上微调模型的性能是LLMs性能的两倍，但是这些中间任务可能会消失，因为LLM可以在没有这些中间任务帮助下直接处理上级任务。
总而言之，对于大多数传统NLU任务，微调模型是更好的选择。LLMs规模是微调模型的十倍甚至百倍，但是某些场景性能不如微调模型。LLMs的性能取决于prompt的设计，当然也可以通过扩大规模来弥补差距。

Use case

仍有一些适合LLMs的NLU任务。比如杂项文本分类，用来处理各种各样的主题和分类，这些主题和分类可能没有明确的关系。还有对抗NLI（ANLI），LLMs表现出很好的性能。

Generation tasks

自然语言生成任务包含两大类别：

第一类侧重将输入文本转换为新的符号序列，如翻译任务，摘要任务；
第二类开放式生成，旨在从头开始生成文本匹配输入的描述，如编写邮件，文章等。

Use case

生成模型要求模型对输入的内容有全面的理解，并有一定的创造力。LLMs的生成结果可能不如微调后的模型，但是在连续性、相关性上表现更好。
LLMs特别擅长将一些低资源语言文本翻译成英文文本，并且发现，如果在预训练数据中加入更多的多语言文本，翻译能力能进一步提升。此外LLMs在开放式生成文本方面已经与真实场景无异，对于代码修复也可以表现很好。但是如何在代码中找到细微的错误是代码方面LLM的一个挑战。

No use case

在资源丰富的机器翻译中，微调模型略优于 LLM。在极低资源的翻译任务中，微调模型明显优于LLMs。

Knowledge-intensive tasks

知识密集型NLP任务是指一类高度依赖背景知识、特定领域专业知识的任务。

Use case

通常LLM拥有数十亿训练tokens和参数，比微调模型拥有更多真实世界知识。因此在Closed-book问答任务上和大规模多任务语言理解任务上表现很好，这些都高度依赖现实知识。

No use case

当所需要的知识不是LLM学到的关于现实世界的知识时，这些任务上LLM没有明显优势，比如机器阅读理解，重新定义符号的任务，以及需要知识检索的任务，微调模型只需要很小的size就可以很好利用检索的知识，这种任务可以理解为开卷任务。

Abilities Regarding Scaling

扩大LLMs的规模可以极大增强预训练语言模型的能力，部分指标表明模型的性能和规模成幂律关系。这里有几点需要注意：

随着模型规模指数级增长，LLM特别擅长算数推理和常识推理等推理。
模型涌现出很多其他能力，比如文字处理和逻辑能力。
很多情况下模型性能不会随着扩大规模稳定提升。

Use Case with Reasoning

推理涉及信息理解、做出推论和决定，是人类智能的重要方面。现有的推理任务可以分为常识推理和算数推理。
算数推理：LLM的算数推理能力极大受益于模型的规模。对于GPT-3，当参数数量超过13B，两位数相加的能力才会变得明显。在没有外部工具帮助的情况下，LLM在执行计算时偶尔会出错，但是思维链（COT）可以显著提高LLM的计算能力。
常识推理：常识推理不仅需要LLM记住事实知识，还需要LLM对事实进行多步骤推理。随着模型规模的增长，常识推理的能力也在逐渐增加。

Use Cases with Emergent Abilities

大规模模型赋予模型一些前所未有的能力，称为涌现能力。涌现能力通常是不可预测的，结果也是令人惊讶的。解决文字操作体现出典型的涌现能力，比如给定模型一个单词的反向拼写，输出原始单词。

No-Use Cases and Understanding

在某些任务上，随着LLM的大小增加，性能开始下降，比如Redefine-math，Into the-unknown，Memo-trap等。此外LLM还会出现U型现象，即模型性能随着模型增加先提升后降低。从某种意义上说，U型现象表明小尺度模型和大尺度模型以不同的内在机制进行预测，从这个角度上分析，U型现象可能是由于模型的涌现能力导致的逆向转变。涌现能力产生的原因有如下假设：

一个任务可能有多个关键步骤，LLM无法处理，直到它大到足够处理每个步骤。
对于逆尺度现象，可能是模型过度依赖先验信息而不是prompt，把简单的问题复杂化了。

Miscellaneous tasks

No use case

由于目标和训练数据的差异，LLMs难以完成某些任务，比如一些回归任务，它涉及预测一个连续的值而不是离散标签。它们表现不佳的主要原因是语言建模目标和回归任务目标之间的内在差异。

Use case

LLMs非常擅长模仿人类，充当聊天机器人并执行各种任务。LLMs可以充当良好的注释工具，也可以充当数据生成器。LLM还可以用于某些NLG任务的质量评估。此外，LLM的一些能力如COT可以带来一定的可解释性。

Real world “tasks”

模型在现实世界中面临三个方面的挑战：

噪声/非结构化输入： 现实世界的输入数据可能包含拼写错误、口语化、混合语言等问题。
学术界未正式定义任务： 现实世界某些任务定义不明确，且可能同时存在多任务。
遵循用户指示： 模型需要了解用户意图并提供符合这些意图的输出。

本质上，现实世界中这些挑战来自于用户的请求与为特定任务设计的数据集有着不同的分布。公共NLP数据集并不能反应模型的使用方式。
处理此类真实场景任务需要解决消歧、理解上下文并处理嘈杂的输入。与经过微调的模型相比，LLM在这方便做得更好。并且经过指令微调和人工对齐调整，这些进一步提升了LLM的能力，帮助LLM更好理解和遵循用户指令。
真实场景的一个主要问题是如何评估模型的性能，在没有任何形式化任务或者指标情况下，模型有效性只能通过人工标注者的反馈。

OTHER CONSIDERATIONS

尽管LLM适用于很多下游任务，其效率和可信度等因素也需要考虑。这里有三点需要注意：

如果对成本敏感或者对延迟有高要求，考虑轻量级微调模型；
零样本学习不能从特定任务的数据中学习捷径，但是LLM仍然有这个问题；
与LLM相关的安全问题需要重视，LLM可能输出有害的或者有偏的输出。

Efficiency

在实际部署中，性能、成本、延迟都是重要的考虑因素，需要平衡效率和有效性之间的关系。

Cost

模型的训练成本很高，训练一次GPT-3 175B的开销需要460万美元，此外电力开销，硬件成本也是非常高昂的。用户使用ChatGPT的API也需要一定的费用，因此，如果无法承担一定的成本，小型模型微调是更好的选择。

Latency

在LLM实际应用中，延迟是一个需要考虑的关键因素。推理时间是衡量延迟的常用指标，它高度依赖于模型大小、架构和token的长度。在不能接收高延迟的场景，大型LLM可能不合适。

Parameter-Efficient Tuning

参数高效微调（PET）是一种有效的技术，可以冻结LLM的大部分参数，只调整或添加一小部分模型参数，这样可以保持模型性能同时大大降低计算和存储成本。

Trustworthiness

由于LLM涉及到医疗、金融、法律等领域，需要确保它们产生可靠的输出。

Robustness and Calibration

LLMs的准确性和鲁棒性有很强的相关性。如果对模型进行微调，可能会导致严重的错误校准，同时模型也容易在zero-shot场景过拟合。因此，当鲁棒性和准确性是关键因素时，微调模型不是最佳选择。人工对齐被发现是增强模型稳健性的潜在方案。

Fairness and Bias

LLMs已经被证实会表现出不同的待遇和影响，使社会偏见长期存在并导致歧视。将模型与人工指令对齐可以提升LLMs的性能。

Spurious Biases

捷径学习问题在预训练和微调范式下的各种自然语言理解任务中都存在，模型高度依赖微调数据中输入和标签之间的虚假相关性进行预测。LLMs会在上下文学习过程中表现出一些捷径，LLMs偏爱从预训练语料库中普遍存在的答案。最近的研究表明可以通过选择合适的prompt来减轻这种位置偏差。

Safety challenges

Hallucinations

LLMs可能产生幻觉，或产生荒谬不真实的内容，在各种应用中对信息的质量和可靠性产生显著负面影响。这会给产生依赖的用户带来虚假的信息，如果是医疗、金融等场景会产生严重的后果。因此RLHF被广泛应用。

Harmful content

由于LLMs生成文本的连续性、可读性，来自LLMs的有害内容会造成重大危害，如仇恨言论、歧视、煽动暴力等。

Privacy

LLMs可能会泄露用户的隐私。

CONCLUSION AND FUTURE CHALLENGES

有效使用LLMs需要了解它们的能力，以及在不同应用场景任务的局限性。本文为LLMs处理下游任务提供了实践指导，首先讨论了LLMs的架构，接着探索LLMs在不同任务上的适用，最后对其效率和可信度进行分析。对LLMs有如下展望：

在真实数据集上对模型进行评估。
模型对齐。确保日益强大的模型与人类价值观和利害保持一致。
安全对齐。模型的安全性是模型构建过程中不可或缺一部分。
规模扩大下的性能预测。可以模拟size对模型性能的影响。

阅读总结

一篇非常全面对LLM介绍的文章，从数据、任务、性能、效率等角度详细阐述了LLMs的适用场景以及未来的发展，特别适合想要对大模型领域有所了解的朋友阅读。当然大模型的发展还不到一年，大模型的应用正如春笋般涌出，对于大模型的调教方法也是此起彼伏，如果本篇指南能够一直更新，相信一定能够进一步帮助未来的相关从业人员的。文章来源地址https://www.toymoban.com/news/detail-447677.html

到了这里，关于【论文精读】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！