LLM技术发展及在垂直领域中如何应用-经验学习大全-Toy模板网

这篇具有很好参考价值的文章主要介绍了LLM技术发展及在垂直领域中如何应用-经验学习大全。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大语言模型综述

前景

语言建模（LM)是提高机器语言智能的主要方法之一。一般来说，LM旨在对词序列的生成概率进行建模，以预测未来tokens的概率。语言建模的研究在文献中受到了广泛关注，可以分为四个主要发展阶段：

统计语言模型（SLM）: 起源于 20世纪90年代。其基本思想是基于马尔可夫假设建立词预测模型，由于需要估计指数级数量的转换概率，因此很难准确估计高阶语言模型。因此需要专门设计平滑策略，如回退估计和古德图灵估计被引入以缓解数据稀疏问题。
神经语言模型（NLM）: 通过神经网络，如循环神经网络（RNN）,来描述单词序列的概率。作为一个显著贡献。工作引入了词的分布式表示这一概念，并在聚合上下文特征的条件下构建词预测函数。有研究开发了一种通用神经网络方法来为各种NLP任务构建统一解决方案。word2vec提出了构建一个简化的浅层神经网络来学习分布式单词表示方法，这些表示在各种NLP任务重被证明非常有效。
预训练语言模型（PLM）: 作为早期尝试，ELMo被提出来通过预训练一个双向LSTM网络来捕捉上下文感知的词表示，然后根据特定的下游任务微调biLSTM网络。进一步，基于自注意力机制的高度并行化Transformer架构，BERT作为双向语言模型，在大规模无标签库上使用专门设计的预训练任务。利用预训练的上下文感知词表示作为通用语义特征非常有效，其极大地提高了NLP任务的性能。
大语言模型（LLM）: 拓展PLM通常会提高下游任务的模型性能。许多研究通过训练越来越大的PLM来探索性能极限。GPT-3通过上下文学习来解决少样本任务，但gpt-2表现不佳。

大模型目前已经具备了开放世界的理解能力。大模型往往也是通用的，而通用是理解领域的前提。一般来说训练语料越广泛而多样，通用大模型能力越强。大模型具备强大的组合创新能力，其能够将任意两种学科组合创新，“举一反三”成为可能。大模型也具备强大的评估评价能力。例如，GPT4其在语义相关任务中具有出色的评估能力，这使得高质量的自动化评估成为可能。基于n-gram的自动评估指标无法聚焦于翻译质量，后续可使用GPT-4类大模型对习语翻译质量打分。大模型对于用户的指令提示高度敏感,能够遵循指令完成任务，大模型的智能本质上是情景化生成能力。基于思维链等技术，大模型初步具备复杂任务的分解能力，具备一定的完成复杂任务所需的动作规划能力。大模型已经具备了常识、符号和逻辑推理等复杂推理能力。大模型在学习语言的过程中捕捉到数据中价值观的共性，并在某些情况下将它们表达出来（价值对齐）。大模型具备了统一的任务形式，所有的任务都可以统一为生成范式。

百亿参数量级别的模型通常需要数百甚至上千个GPU或TPU。例如，GPT_NeoX-20B使用了12个为微服务器，每个服务器配备了8个NVIDIA A100-SXM4-40GB GPU，LLaMA使用了2048个A100-80G GPU。为了准确估计所需的计算资源，还是建议使用衡量涉及计算量的指标，例如计算FLOPS（每秒浮点数运算次数）。

千亿参数量级别的模型通常需要数千个GPU或TPU进行训练。例如，OPT(175B)使用了992个A100-80GB GPU，GLM（130B）使用了96个NVIDIA DGX-A100(8x40G) GPU节点集群。

大语言模型的公共API。当下OpenAI提供了七个主要的 GPT-3系列模型接口：ada、babbage(1B)、curie(6.7B)、davinci（175B）、text-ada-001、text-babbage-001和 text-curie-001。

已有的大模型

LLM技术发展及在垂直领域中如何应用-经验学习大全,学习,人工智能,大模型,语言模型,GPT

GPT-3 [55]
PaLM [56]（将参数规模提升到了破纪录的5400亿）
Galactica [34]
LLaMA(65B)
DeepSpeed和Megatron-LM,为了支持分布式训练，发布了一些优化框架来促进并行算法的实现和部署
GPT-4提出开发特殊的基础设施和优化方法，可靠地预测远小于大模型的小模型的性能；其也采用了类似于InstructGPT的技术，在产生高质量、无害的回答方面表现出很强的对齐能力。
InstructGPT设计了一种有效的微调方法，使LLM与人类价值观保持一直。其中利用了基于人类反馈的强化学习技术（P. F. Christiano, J. Leike, T. B. Brown, M. Martic, S. Legg, and D. Amodei, “Deep reinforcement learning from human preferences,” in Advances in Neural Infor mation Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, I. Guyon, U. von Luxburg, S. Bengio, H. M. Wallach, R. Fergus, S. V. N. Vishwanathan, and R. Garnett, Eds., 2017, pp. 4299–4307）。他将人类纳入训练循环中，采用精心设计的标注策略。
NLLB(最大版本54.5B)
F文章来源地址https://www.toymoban.com/news/detail-612676.html