大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

7月前作者：小怪兽会微笑分类：Toy博客阅读(36) 违法举报

这篇具有很好参考价值的文章主要介绍了大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

返回论文和资料目录

论文地址
项目地址

1.导读

讲得通俗易懂，且格局拉满！基本覆盖了自ChatGPT以来的AI比较火的事件，还多次提到强人工智能AGI（人工通用智能）。对近几年的大型语言模型（ Large Language Models）进行了详细介绍。非常建议感兴趣大模型和强人工智能的读者阅读！！！

2.摘要和引言

从图灵测试开始讲起，人类一直在探索用机器掌握语言智能的方法。

在过去20年，语言模型得到了广泛研究。从统计语言模型到了基于神经网络的语言模型（LSTM等）。

最近这些年，通过在大规模语料库（数据集）上对Transformer模型的预训练，提出了预训练语言模型（PLMs），在解决各种自然语言处理（NLP）任务方面显示出了很强的能力。

近一两年（从20年的GPT-3开始），发现当参数尺度超过一定水平时，这些扩展的语言模型不仅实现了显著的性能提高，而且还表现出一些小规模语言模型（如BERT）中不存在的特殊能力（如上下文学习）。为了区分不同参数尺度下的语言模型，研究界创造了术语大型语言模型（LLM），用于描述具有显著规模的PLM（例如，包含数百亿或数千亿个参数）的PLM。

近半年来，ChatGPT（基于LLM开发的强大的人工智能聊天机器人）的推出，引起了社会的广泛关注。

总的来说，语言模型LM经过了如下4个阶段：

STM（统计语言模型）：例如基于马尔科夫链预测下个词。
NLM（神经语言模型/基于神经网络的语言模型）:例如RNN、LSTM等。
PLM（预训练语言模型）：例如GPT-1，GPT-2，Bert等。与NLM的不同是，将语言模型做成了“一劳永逸”的形式，即一个模型可以做很多事，只要训练了一个模型后，不需要下游任务进行复杂的微调。其中GPT-2将模型做成了Zero-shot的形式大大加强了预训练语言模型的性能。
LLM（大型语言模型）：GPT-3，PALM、ChatGPT、LLaMA、GPT-4等。与PLM最直观的不同是模型大了，训练数据多了。

作者在这给出了LLM出现后的3个情况：

LLM涌现出PLM中未出现的性能。LLM更大GPT-3是第一个将模型大小扩展到千亿参数的模型，其涌现出模型较小时未出现的智能。现在的ChatGPT也是。
已有都是人来选择使用的LM模型来解决具体的任务，现在是人告诉LLM要干嘛，然后LLM根据要求解决问题。
出现了工业界和学业界的划分。以前都基本是学业界引导AI发展，现在出现工业界引导的情况。因为LLM需要大量的资金基础，所以最早的突破来自OpenAI，而非高校。

作者提到了LLM与AGI的联系

OpenAI给出了关于实现AGI的计划。

最近一些研究《Sparks of Artificial General Intelligence: Early experiments with GPT-4》也认为GPT-4已经具备了一定的AGI能力。

作者给出了关于LLM相关文献的回顾，并在github上创建了一个项目

3.回顾

背景

已有的LLM仍然基于Transformer结构。

LLM涌现出的能力

上下文理解
跟随指令
一步一步推理

LLM的关键技术

规模：考虑固定模型规模和数据集规模，如何提升模型性能
训练：如何降低训练成本
能力引出：如何引导出模型已经具备的能力
调优：减少有害的输出
工具使用：例如使用计算器帮助LLM提升计算能力

LLM模型发展脉络
大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

LLM模型汇总
大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

其他方面LLM模型作者写的还没有这篇公众号清楚。

不过作者在github上给出了很多相关论文地址。

数据集
大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

模型使用的数据集分布
大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

数据处理流程
大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models
模型结构

大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

优化设置
大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

4.模型调优

构建指令数流程
大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models
指令数据集

大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

RLHF算法（InstructGPT使用的方法）
大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

5.评估

大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

未完待续文章来源地址https://www.toymoban.com/news/detail-479635.html

到了这里，关于大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

一篇综述洞悉医学大型语言模型的原理，应用和挑战

在过去的一年中，随着 GPT-4、LLaMA、Mistral，PaLM 等先进技术的突飞猛进，大型语言模型（Large Language Models）已经引领全球人工智能进入了一个全新的基础模型时代，这一时代不仅开启了技术创新的新篇章，也彻底重塑了各行各业的运作模式。特别是在医疗领域，这些变革显得

2024年01月18日
浏览(38)
大型语言模型与知识图谱协同研究综述：两大技术优势互补

机器之心报道编辑：杜伟多图综述理清当前研究现状，这篇 29 页的论文值得一读。大型语言模型（LLM）已经很强了，但还可以更强。通过结合知识图谱，LLM 有望解决缺乏事实知识、幻觉和可解释性等诸多问题；而反过来 LLM 也能助益知识图谱，让其具备强大的文本和语言理

2024年02月13日
浏览(51)
【ChatGPT】Web LLM：你的本地的ChatGPT —— 完全在您的浏览器中运行 vicuna-7b 大型语言模型，它非常令人印象深刻

目录 Web LLM—— 完全在您的浏览器中运行 vicuna-7b 大型语言模型，它非常令人印象深刻指示聊天演示链接免责声明 Instructions Chat Demo Links Disclaimer

2024年02月05日
浏览(39)
[论文分享]TSPTM-survey：时间序列预训练模型研究综述

目录 1 概要 1.1 贡献点 2 背景 2.1 时序挖掘(TSM)任务 2.2 时间序列的深度学习模型 2.3 预训练模型优势 3 TS-PTMS 概述 3.1 监督预训练 3.1.1 基于分类的预训练 3.1.1.1 通用编码器 3.1.1.2 对齐编码器 3.1.1.3 模型重编程 3.1.1.4 总结 3.1.2 基于预测的预训练 3.1.2.1 自回归 3.1.2.2 自适应编码器

2024年02月11日
浏览(29)
大模型 LLM 综述, A Survey of Large Language Models

一般认为NLP领域的大模型=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力); 经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等; 大模型时间线, 图来自A Survey of Large Language Models，下同。 2.1 涌现涌现, emerge(abilities), 即一般指在大模型中出现

2024年02月08日
浏览(45)
用于农业格局分析的新型大型航空影像数据库

第一次农业革命发生在大约12，000年前，当时人类定居并开始种植农作物。从那以后，我们极大地改善了农业的艺术和科学，扩大了规模和产量，并在此过程中塑造了人类文明。一场新的、人工智能驱动的农业革命现在开始了吗？人工智能系统已经在帮助农民进行土壤分析、

2024年02月13日
浏览(40)
大型语言模型的推理演算

作者｜kipply 翻译｜杨婷、徐佳渝、贾川 ‍‍ 本文详细阐述了大型语言模型推理性能的几个基本原理，不含任何实验数据或复杂的数学公式，旨在加深读者对相关原理的理解。此外，作者还提出了一种极其简单的推理时延模型，该模型与实证结果拟合度高，可更好地预测和解

2023年04月16日
浏览(35)
浅谈大型语言模型

大型语言模型（Large Language Models，LLMs）是一类强大的人工智能模型，具有出色的自然语言处理能力。它们在许多任务中表现出色，如机器翻译、文本摘要、对话生成和情感分析等。下面我们将介绍大型语言模型的训练和生成过程，以及它们在实际应用中的重要性。 Large Lang

2024年02月12日
浏览(29)
06.构建大型语言模型步骤

在本章中，我们为理解LLMs奠定了基础。在本书的其余部分，我们将从头开始编写一个代码。我们将以 GPT 背后的基本思想为蓝图，分三个阶段解决这个问题，如图 1.9 所示。图 1.9 本书中介绍的构建 LLMs 阶段包括实现 LLM 架构和数据准备过程、预训练以创建基础模型，以及微调

2024年02月03日
浏览(41)
怎么建立大型语言模型

建立大型语言模型通常涉及以下主要步骤：数据收集：收集大规模的文本数据作为模型的训练数据。可以从各种来源获取数据，如互联网、书籍、新闻文章等。数据的质量和多样性对于模型的性能至关重要。数据预处理：对收集到的数据进行预处理和清洗，以确保数据的质

2024年02月14日
浏览(33)