大语言模型综述
前景
语言建模(LM)是提高机器语言智能的主要方法之一。一般来说,LM旨在对词序列的生成概率进行建模,以预测未来tokens的概率。语言建模的研究在文献中受到了广泛关注,可以分为四个主要发展阶段:
-
统计语言模型(SLM): 起源于 20世纪90年代。其基本思想是基于马尔可夫假设建立词预测模型,由于需要估计指数级数量的转换概率,因此很难准确估计高阶语言模型。因此需要专门设计平滑策略,如回退估计和古德图灵估计被引入以缓解数据稀疏问题。
-
神经语言模型(NLM): 通过神经网络,如循环神经网络(RNN),来描述单词序列 的概率。作为一个显著贡献。工作引入了词的分布式表示这一概念,并在聚合上下文特征的条件下构建词预测函数。有研究开发了一种通用神经网络方法来为各种NLP任务构建统一解决方案。word2vec提出了构建一个简化的浅层神经网络来学习分布式单词表示方法,这些表示在各种NLP任务重被证明非常有效。
-
预训练语言模型(PLM): 作为早期尝试,ELMo被提出来通过预训练一个双向LSTM网络来捕捉上下文感知的词表示,然后根据特定的下游任务微调biLSTM网络。进一步,基于自注意力机制的高度并行化Transformer架构,BERT作为双向 语言模型,在大规模无标签库上使用专门设计的预训练任务。利用预训练的上下文感知词表示作为通用语义特征非常有效,其极大地提高了NLP任务的性能。
-
大语言模型(LLM): 拓展PLM通常会提高下游任务的模型性能。许多研究通过训练越来越大的PLM来探索性能极限。GPT-3通过上下文学习来解决少样本任务,但gpt-2表现不佳。
大模型目前已经具备了开放世界的理解能力。大模型往往也是通用的,而通用是理解领域的前提。一般来说训练语料越广泛而多样,通用大模型能力越强。大模型具备强大的组合创新能力,其能够将任意两种学科组合创新,“举一反三”成为可能。大模型也具备强大的评估评价能力。例如,GPT4其在语义相关任务中具有出色的评估能力,这使得高质量的自动化评估成为可能。基于n-gram的自动评估指标无法聚焦于翻译质量,后续可使用GPT-4类大模型对习语翻译质量打分。大模型对于用户的指令提示高度敏感,能够遵循指令完成任务,大模型的智能本质上是情景化生成能力。基于思维链等技术,大模型初步具备复杂任务的分解能力,具备一定的完成复杂任务所需的动作规划能力。大模型已经具备了常识、符号和逻辑推理等复杂推理能力。大模型在学习语言的过程中捕捉到数据中价值观的共性,并在某些情况下将它们表达出来(价值对齐)。大模型具备了统一的任务形式,所有的任务都可以统一为生成范式。
百亿参数量级别的模型通常需要数百甚至上千个GPU或TPU。例如,GPT_NeoX-20B使用了12个为微服务器,每个服务器配备了8个NVIDIA A100-SXM4-40GB GPU,LLaMA使用了2048个A100-80G GPU。为了准确估计所需的计算资源,还是建议使用衡量涉及计算量的指标,例如计算FLOPS(每秒浮点数运算次数)。
千亿参数量级别的模型通常需要数千个GPU或TPU进行训练。例如,OPT(175B)使用了992个A100-80GB GPU,GLM(130B)使用了96个NVIDIA DGX-A100(8x40G) GPU节点集群。
大语言模型的公共API。当下OpenAI提供了七个主要的 GPT-3系列模型接口:ada、babbage(1B)、curie(6.7B)、davinci(175B)、text-ada-001、text-babbage-001和 text-curie-001。
已有的大模型
-
GPT-3 [55]
-
PaLM [56](将参数规模提升到了破纪录的5400亿)
-
Galactica [34]
-
LLaMA(65B)
-
DeepSpeed和Megatron-LM,为了支持分布式训练,发布了一些优化框架来促进并行算法的实现和部署
-
GPT-4提出开发特殊的基础设施和优化方法,可靠地预测远小于大模型的小模型的性能;其也采用了类似于InstructGPT的技术,在产生高质量、无害的回答方面表现出很强的对齐能力。
-
InstructGPT设计了一种有效的微调方法,使LLM与人类价值观保持一直。其中利用了基于人类反馈的强化学习技术(P. F. Christiano, J. Leike, T. B. Brown, M. Martic, S. Legg, and D. Amodei, “Deep reinforcement learning from human preferences,” in Advances in Neural Infor mation Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, I. Guyon, U. von Luxburg, S. Bengio, H. M. Wallach, R. Fergus, S. V. N. Vishwanathan, and R. Garnett, Eds., 2017, pp. 4299–4307)。他将人类纳入训练循环中,采用精心设计的标注策略。
-
NLLB(最大版本54.5B)文章来源:https://www.toymoban.com/news/detail-612676.html
-
F文章来源地址https://www.toymoban.com/news/detail-612676.html
到了这里,关于LLM技术发展及在垂直领域中如何应用-经验学习大全的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!