大模型 LLM 综述, A Survey of Large Language Models

这篇具有很好参考价值的文章主要介绍了大模型 LLM 综述, A Survey of Large Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大模型 LLM 综述, A Survey of Large Language Models

一、概述

一般认为NLP领域的大模型>=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力);
经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等;

大模型时间线, 图来自A Survey of Large Language Models,下同。
大模型 LLM 综述, A Survey of Large Language Models

二、大模型,新能力

2.1 涌现

涌现, emerge(abilities), 即一般指在大模型中出现而小模型没有的能力。
一般包括上下文学习(ICL)、指令微调(IFT)、思维链(CoT)等。

2.2 指令微调(IFT)

指令微调一般可以分为两类,一种是从已知学术界等数据集构建;另外一种是构建更接近人类的,如大模型收集与手工标注。
一般认为,指令微调是通过自然语言形式给出人类指令,可以提高在未知任务上的效果(zero-shot learning)。
大模型 LLM 综述, A Survey of Large Language Models

2.3 上下文学习(ICL)与思维链(CoT)

上下文学习(ICL)是指不需要微调,只需要少数几个样例作为示例,就能在未知任务上取得不错的效果(提升few-shot能力)。
思维链(CoT)是指在生成回答前,先生成中间过程(思维链),这么做会提升效果,特别是推理生成任务(尤其是数学问题)。
大模型 LLM 综述, A Survey of Large Language Models

三、大模型,架构

3.1 大模型LLM基本情况(2020-2022)

大模型热潮主要时间是在2021-2022这两年,模型参数50-200B的居多,预训练Tokens在300B-1T(1-5TB corpus),GPU需要100-2000个(如A100),训练时间为1-2个月。
大模型 LLM 综述, A Survey of Large Language Models

3.2 大模型LLM架构-1

大模型架构主要有Decode-Only(Causal)、Pre-LN、RoPE、GeGLU、Bais等,
L、H在100左右、d_model在1w左右、Seq大都为2048等,比较宽的模型。
大模型 LLM 综述, A Survey of Large Language Models

3.3 大模型LLM架构-2

大模型LLM架构-2,其中层归一化位置有Post-LN(泛化性更好)、Pre-LN(训练更稳定)、Sandwich-LN(稳定+泛化的结合)。
层归一化方法有LayerNorm(标准LN)、RMSNorm(剔除bais减少参数与计算量)、DeepNorm(层数衰减可构建1k层)。
激活函数有Relu(梯度不会消失、阈值化计算简单)、GELU(处理负数、门控机制非线性处理大数/接近0的数、引入随即正则)、Swish、SwiGLU、GeGLU。
位置编码有Abs(绝对编码, 可训练)、Rel(相对, 展开魔改)、RoPE(相对, 引入复数)、Alibi(操控Attention、复杂)等。
大模型 LLM 综述, A Survey of Large Language Models

3.4 大模型LLM参数配置

大模型LLM的参数配置,批尺寸batch-size从32k-3.2M,学习率lr一般为10^-5级别(衰减consine decay by 10%),优化器opt一般为AdamW/Anam(warmup),
数据类型一般为FP16(或者BF16),梯度裁剪大都为1.0,Dropout大都为0.1。
大模型 LLM 综述, A Survey of Large Language Models

四、大模型,数据

4.1 一些大模型预训练语料构成

一般认为,高质量预训练语料对大模型有益,所以数据清洗就很重要。来自维基百科、代码code、论文paper、书籍book、网页web等的数据。
大模型 LLM 综述, A Survey of Large Language Models

五、大模型RLHF

5.1 训练大模型的方法, RLHF全流程

有监督微调(SFT) --> 奖励模型训练(RMT) --> 强化学习(对齐,基于RM、PPO)
大模型 LLM 综述, A Survey of Large Language Models文章来源地址https://www.toymoban.com/news/detail-479585.html

参考

  • A Survey of Large Language Models
  • ChatGPT的前世今生
  • 2022年NLP突破进展
  • RWKV-LM
  • ChatRWKV
  • PromptCLUE
  • ChatYuan
  • ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习
  • ChatGPT评测观察之对话能力

到了这里,关于大模型 LLM 综述, A Survey of Large Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • A Survey on Evaluation of Large Language Models

    这是LLM相关的系列文章,针对《A Survey on Evaluation of Large Language Models》的翻译。 大型语言模型(LLM)由于其在各种应用中前所未有的性能,在学术界和工业界都越来越受欢迎。随着LLM在研究和日常使用中继续发挥重要作用,其评估变得越来越重要,不仅在任务层面,而且在社

    2024年02月13日
    浏览(29)
  • 【论文笔记】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

    将LLMs应用于医学,以协助医生和病人护理,成为人工智能和临床医学领域的一个有前景的研究方向。为此, 本综述提供了医学中LLMs当前进展、应用和面临挑战的全面概述 。 具体来说,旨在回答以下问题: 1)什么是LLMs,如何构建医学LLMs? 2)医学LLMs的下游表现如何? 3)

    2024年02月03日
    浏览(30)
  • LLM:LoRA: Low-Rank Adaptation of Large Language Models

    随着模型规模的不断扩大,微调模型的所有参数(所谓full fine-tuning)的可行性变得越来越低。以GPT-3的175B参数为例,每增加一个新领域就需要完整微调一个新模型,代价和成本很高。 为解决微调大规模语言模型到不同领域和任务的挑战,已有多种方案,比如部分微调、使用

    2024年02月07日
    浏览(32)
  • LLM微调 | LoRA: Low-Rank Adaptation of Large Language Models

    🔥 发表于论文:(2021) LoRA: Low-Rank Adaptation of Large Language Models 😄 目的:大模型预训练+微调范式,微调成本高。LoRA只微调新增的小部分参数。 adapter增加了模型层数,引入了额外的推理延迟; prefix-tuning比较难训练,效果不如直接finetune。 LoRA不会引入额外的延迟,甚至原文中

    2024年02月17日
    浏览(41)
  • 视频理解大模型调研论文《Video Understanding with Large Language Models: A Survey》简要介绍

    本文是关于综述论文《Video Understanding with Large Language Models: A Survey》的部分介绍。文章调研了将视频理解和大语言模型结合的最新技术,从任务、方法、评价、应用等方面对视频大语言模型进行介绍。本文写于2024年4月。 有关本专栏的更多内容,请参考大语言模型论文调研专

    2024年04月26日
    浏览(37)
  • 大型语言模型(LLM, Large Language Models)基模和 Chat 模型之间的区别

    最近看大模型相关的知识,有看到大模型都有基础模型(base)和对话模型(chat),不太清楚什么时候用到基础模型,什么时候用到对话模型,故有此文。 通过了解,最简单的概述就是基于基础模型会训练出一个对话(Chat)模型,对话模型主要用于对话场景,基础模型主要做

    2024年02月21日
    浏览(27)
  • 21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

    官网  将原始LiDAR数据作为输入,利用LLMs卓越的推理能力,来获得对室外3D场景的全面了解,将3D户外场景认知重构为语言建模问题,如3D captioning, 3D grounding, 3D question answering。  给定LiDAR输入 L ∈ R n × 3 L in R^{n times 3} L ∈ R n × 3 ,n 是点的数量,使用 VoxelNet 获取 LiDAR Fe

    2024年01月21日
    浏览(29)
  • LLM预训练大型语言模型Pre-training large language models

    在上一个视频中,您被介绍到了生成性AI项目的生命周期。 如您所见,在您开始启动您的生成性AI应用的有趣部分之前,有几个步骤需要完成。一旦您确定了您的用例范围,并确定了您需要LLM在您的应用程序中的工作方式,您的下一步就是选择一个要使用的模型。 您首先的选

    2024年02月11日
    浏览(31)
  • [arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

    Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2312.14074 最近,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在 指令跟随 和 2D图像理解

    2024年02月02日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包