大语言模型研究进展综述

这篇具有很好参考价值的文章主要介绍了大语言模型研究进展综述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、历史

       自20世纪50年代图灵测试被提出以来,研究人员一直在探索和开发能够理解并掌握语言的人工智能技术。

      作为重要的研究方向之一,语言模型得到了学术界的广泛研究,从早期的统计语言模型和神经语言模型开始,发展到基于Transformer的预训练语言模型。

2、现状

       近年来,研究者们发现通过扩大预训练语言模型的参数量和数据量,大语言模型(Large Language Model)能够在效果显著提升的同时,展示出许多小模型不具备的特殊能力(如上下文学习能力、逐步推理能力等)。

       最近,作为代表性的大语言模型应用ChatGPT展现出了超强的人机对话能力任务求解能力,对于整个AI研究社区带来了重大影响。

3、鸟瞰

       3.1 大语言模型的定义

       通常来说,大语言模型指的是那些在大规模文本语料上训练、包含百亿级别(或更多)参数的语言模型,例如GPT-3,PaLM,LLaMA等。

       3.2  大语言模型与小模型的区别

       目前的大语言模型采用与小模型类似的Transformer架构和预训练目标(如 Language Modeling),与小模型的主要区别在于增加模型大小、训练数据和计算资源。

        3.3 大语言模型具备“涌现能力”

       大语言模型的表现往往遵循扩展法则,但是对于某些能力,只有当语言模型规模达到某一程度才会显现,这些能力被称为“涌现能力”,代表性的涌现能力包括上下文学习、指令遵循、逐步推理等。

         3.4 大语言模型取得成功的原因

        目前,大语言模型取得如此巨大的成就,我们总结了五方面原因:

               1)模型、数据和计算资源的扩展;

               2)高效稳定的训练手段;

               3)语言模型能力诱导;

               4)对齐训练,将大语言模型与人类偏好对齐;

               5)工具使用(潜在发展方向)。

4、相关资源

大语言模型研究进展综述,语言模型,人工智能,自然语言处理

图1 大语言模型发展时间线

       4.1 开发大语言模型的公开可用资源

        为了帮助大家速览大规模语言模型的发展进程,概要了解模型的训练需求以及总结有助于训练的可用资源。我们简要总结了可以用于开发大语言模型的公开可用资源,包括模型检查点(model checkpoint)或公开接口(API),训练语料库以及代码库。

        4.2  检查点的模型(model checkpoint)

       对于公开检查点的模型,我们根据模型参数量分成两大类,分别是百亿(10B)参数到千亿(100B)参数模型和大于千亿(100B)参数模型。在每一部分介绍时,我们根据模型的预训练语料、任务,或者评测给出研究不同能力时的推荐模型,并且根据模型原论文罗列了预训练硬件配置。

        4.3  公开接口(API)

        对于公开接口,我们重点介绍了OpenAI的GPT系列接口,包括GPT-3系列到当前的GPT-4系列,并简要介绍了部分接口之间的关系。

        4.4  训练语料库

        对于训练语料库,我们简要总结了一列常用于训练大语言模型的公开数据集。我们按照内容将这些数据集分成了六类:书籍类、CommonCrawl类、Reddit link类、维基百科类、代码类和其他。每一类我们都介绍了数据集的内容、大小以及被用于训练的模型。

        4.5  代码库

        对于代码库,我们搜集了一些用于训练的代码库,包括常用模型库和并行算法库。

        项目访问地址:https://github.com/RUCAIBox/LLMSurvey

5、预训练技术

        预训练是大语言模型能力的基础。当语言模型的参数量扩展到超千亿级别时,从头预训练一个大语言模型就成为一件十分困难且有挑战的事情。

(1)在数据层面,如何收集尽可能多的高质量语料对预训练模型的效果十分关键。本章从预训练语料的收集出发,主要探讨了数据的多种来源(如对话、代码等)和预处理(清洗与编码),并分析了预训练数据数量、质量、多样性等方面对模型效果的影响。

(2)在模型层面,最引人关注的问题之一即是,为什么大语言模型往往采用 Decoder-Only 架构?本文从 Transformer 做语言模型的主干架构、具体模块和预训练任务三方面向读者们介绍如今大模型的常用方案,并在最后结合文献讨论大家选用 Decoder-Only 架构的原因。

(3)在训练层面,大参数量的模型非常难以优化。研究人员付出众多努力,提出了若干增加训练稳定性,及提升训练效率的方案。本章对 3D 并行、ZeRO 等被集成于 DeepSpeed 等代码库的相关训练技术进行归纳整理,并在最后对如何稳定、高效地预训练一个大语言模型给出建议。

6、微调技术

       预训练之后,“适配微调”(adaptation tuning)可以进一步增强大语言模型能力并满足人类偏好。本章主要介绍了两种适配微调技术:指令微调与对齐微调。

大语言模型研究进展综述,语言模型,人工智能,自然语言处理

图2 指令格式实例示意图

      指令微调通过收集指令格式的实例(图2)来微调大模型,大大增强了模型遵循人类指令的能力,能够让模型更好地泛化到未知任务。我们展示了两种收集指令格式实例的方法,并讨论了任务数量、实例数量、实例设计等因素对指令微调效果的影响;同时,我们也总结了指令微调过程中常见的数据集合和训练细节,方便研究者训练自己的模型。

大语言模型研究进展综述,语言模型,人工智能,自然语言处理

图3 基于人类反馈的强化学习工作流程

       对齐微调通过收集人类反馈数据,利用强化学习进一步微调大模型,使模型与人类对齐,更加符合人类的偏好。我们首先讨论了三种常见的对齐标准:有用性、诚实性和无害性,接着展示了三种人类反馈收集方式,最后介绍了基于人类反馈的强化学习流程(图3)。

7、使用技术

大语言模型研究进展综述,语言模型,人工智能,自然语言处理

图4 两种使用技术上下文学习(ICL)和思维链提示(CoT)的对比

       本章介绍了大模型完成训练之后的使用方法。其中的代表性技术是上下文学习,它以自然语言文本的形式给大模型提供任务描述和/或任务示例。我们重点总结了如何设计有效的任务示例来增强大模型通过上下文学习完成下游任务的效果,包括示例的选择、格式以及顺序。我们还从预训练和推理两个阶段讨论了大模型上下文学习能力的来源。

        此外,思维链提示也受到广泛关注,它的做法是在提示中添加中间推理步骤来增强大模型在推理任务上的性能。根据提示中是否存在样例,思维链提示的使用场景可以分为少样本和零样本两种情况。我们还讨论了思维链提示的适用场景以及大模型思维链推理能力的来源。

8、评估

为了评估大语言模型的有效性和优越性,研究者在大量任务和评测基准上进行了评测与分析。我们从三个角度总结梳理了大语言模型的相关能力评估。

对于大模型的基础评测,我们主要关注了三类任务,包括语言生成任务知识利用任务复杂推理任务。总体来看,大语言模型在各类基础任务中取得了令人瞩目的效果。但与此同时,大语言模型在一些方面也存在亟待解决的问题,包括可控性、幻觉、知识实时性、一致性等等。

除了上述基础任务外,大模型还表现出了很多高级能力。我们着重讨论了人类对齐、外界环境交互、工具操作三大类高级能力及其对应的评估方法。这三种能力极大地丰富了语言模型的应用场景,使得语言模型能做出符合人类价值观和偏好的行为,对现实世界产生作用,以及利用工具扩展能力边界。

接下来,我们介绍了面向大语言模型的现有综合评测基准以及相关实证分析。研究者提出了许多综合评测基准,用于全面的评测和比较大语言模型。同时,另一大类工作着重于对大语言模型通用能力以及专业领域应用能力的分析。

9、总结

该综述文章系统回顾了大语言模型的最新进展,介绍了重要概念与相关技术,最后总结了大语言模型的若干挑战与未来研究方向:

(1)大模型相关的理论和本质

(2)更优的模型架构;

(3)更有效的训练方法;

(4)更高效的使用策略;

(5)安全性与一致性;

(6)应用与生态。文章来源地址https://www.toymoban.com/news/detail-745451.html

到了这里,关于大语言模型研究进展综述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 5G信道建模研究进展与展望

    信道建模就是通过数学的方式来刻画信道特性, 揭示多径的传播机理 ,探索和掌握信道变化的规律、精确模型和容量机理,为移动通信系统设计与技术优化提供基础。 5G信道建模的研究主要有三个方面:理论框架;测量平台与场景;信道特性分析与建模 信道在传播过程中会

    2024年02月06日
    浏览(28)
  • 文献研读|AIGC溯源场景及研究进展

    前言 :本文介绍关于AIGC生成阶段针对不同溯源场景的几篇相关工作。 如下图所示,在AIGC生成阶段,有4种溯源场景: 1)生成模型溯源训练数据 2)微调模型溯源预训练模型 3)AIGC溯源训练数据/训练概念 4)AIGC溯源生成模型 下面分别对不同溯源场景下的相关工作进行介绍。

    2024年04月17日
    浏览(25)
  • 无线物理层安全技术的研究进展

      第6章 物理层安全技术的研究进展_哔哩哔哩_bilibili https://www.bilibili.com/video/BV15T4y1g7g7/?p=9spm_id_from=333.1007.top_right_bar_window_history.content.clickvd_source=524992047484249a11f3422fce5ccd80 无线物理层技术是一个崭新的技术,目前在信息安全领域是研究的热点 它研究的重点:利用无线通信设备

    2023年04月20日
    浏览(50)
  • 机器人自动轴孔装配研究进展

    【摘 要】 轴孔装配是加工制造业常见的一类操作任务。基于工业机器人研究轴孔自动装配,对于机器人在装配领域的应用具有重要价值。对于高精密和形状复杂的零件,高效可靠的轴孔装配仍然具有很大挑战性。基于此,从控制的角度对机器人自动轴孔装配进行了全面梳理

    2024年01月17日
    浏览(33)
  • 详解信道估计的发展与最新研究进展(MIMO)

    目录 一. MIMO信道估计的重要性 二. 最经典的两种信道估计方法 2.1 最小二乘信道估计(LS) 2.2 最小均方误差信道估计(MMSE)  三. 优化传统的MIMO信道估计技术 四. 介绍压缩感知技术 五. 基于压缩感知的MIMO信道估计 5.1 压缩感知怎么用在MIMO信道估计 5.2 改进压缩感知用在信道估计

    2023年04月09日
    浏览(30)
  • 基于机器视觉的表面缺陷检测方法研究进展(2022最新)

    参考文献:基于机器视觉的表面缺陷检测方法研究进展-赵朗月 此文章仅为作者阅读学习记录,如有错误欢迎指正交流,如果对你有帮助还望点赞支持,谢谢! 给出了缺陷的定义、分类及缺陷检测的一般步骤,阐述传统方法、机器学习、深度学习,并比较和分析了优缺点。

    2024年02月08日
    浏览(31)
  • 区块链在车联网数据共享领域的研究进展

    摘要 车联网中实现高效、安全的共享数据对智慧交通的发展具有重要意义。将区块链技术与车联网相结合,在促进车联网数据共享和隐私保护改善方面都有巨大的潜力,但仍然存在区块链技术如何保证车联网数据安全共享的问题。针对这一问题,对区块链和车联网技术融合的最新

    2024年02月08日
    浏览(37)
  • 时空知识图谱研究进展与展望Spatiotemporal Knowledge Graph

    时空知识图谱研究进展与展望 时空知识图谱研究进展与展望 陆锋1, 2, 4, 5, *,  诸云强1, 2, 4,  张雪英3, 4 作者信息  + Spatiotemporal Knowledge Graph: Advances and Perspectives LU Feng1, 2, 4, 5, *,  ZHU Yunqiang1, 2, 4,  ZHANG Xueying3, 4 Author information  + 文章历史  + 摘要 地理信息 的不断泛

    2024年04月22日
    浏览(32)
  • 内存计算研究进展-针对机器学习的近数据计算架构

        针对机器学习的近数据计算架构代表性工作有: Georgia Institute of Technology的BSSync (bounded staled sync) 和 Neurocube,Advanced Micro Devices 的 CoML,具体如下。 1 BSSync     BSSync指出,在并行实现的机器学习应用中,原子操作用来保障无锁状态下算法的收敛,但带来很大的同步开销,

    2024年02月21日
    浏览(30)
  • 《多智能体博弈学习研究进展--罗俊仁,张万鹏》论文笔记

    目录 一、引言 二、多智能体学习简介 2.1多智能体学习系统组成  2.2 多智能体学习概述  2.3 多智能体学习研究方法分类   三、 多智能体博弈学习框架  3.1 多智能体博弈基础模型及元博弈  3.1.1 多智能体博弈基础模型   3.1.2 元博弈模型 3.2 均衡解概念与博弈动力学 3.2.1 均

    2024年02月02日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包