大模型学习笔记03——模型架构

这篇具有很好参考价值的文章主要介绍了大模型学习笔记03——模型架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大模型学习笔记03——模型架构

1、大模型概括

根据输入需求的语言描述(Prompt)生成符合需求的结果(completion)
大模型构建:

  1. 分词(Tokenization):即如何将一个字符串拆分成多个词元。
  2. 模型架构(Model architecture):Transformer架构

2、分词

词元(token)一般在NLP(自然语言处理)中来说,通常指的是一个文本序列中的最小单元,可以是单词、标点符号、数字、符号或其他类型的语言元素。通常,对于NLP任务,文本序列会被分解为一系列的tokens,以便进行分析、理解或处理。在英文中一个"token"可以是一个单词,也可以是一个标点符号。在中文中,通常以字或词作为token。
几种分词方式:

  1. 基于空格的分词
  2. Byte pair encoding(BPE):将每个字符作为词元,并组合经常共同出现的词元。通过使用字符编码进行分词,可以适用于多语言环境,减少低频词汇,提高模型的泛化能力
  3. Unigram model(SentencePiece):定义一个目标函数来捕捉一个好的分词的特征,这种基于目标函数的分词模型可以适应更好分词场景

什么样的是好的分词:

  • 词元不要太多,容易变得难以建模
  • 词元不要太少,单词之间容易无法共享参数
  • 每个词元应该是一个在语言或统计上有意义的单位

3、模型架构

1. endocer-only架构

  • 以BERT为代表,语言模型生成上下文向量表征,但不能直接用于生成文本
  • 常用于分类任务(自然语言理解任务)
  • 该架构的优势是对于文本的上下文信息有更好的理解

2. decoder-only架构

  • 以GPT为代表的自回归语言模型
  • 其优点为能够自然的生成文本
  • 缺点是上下文向量表征只能单向地依赖左侧上下文

3. encoder-decoder架构

  • 优点是上下文向量表征可以双向依赖左右上下文,自由的生成文本
  • 缺点是需要更多的特定训练目标

学习内容地址:添加链接描述文章来源地址https://www.toymoban.com/news/detail-806059.html

到了这里,关于大模型学习笔记03——模型架构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [足式机器人]Part3机构运动微分几何学分析与综合Ch03-1 空间约束曲线与约束曲面微分几何学——【读书笔记】

    本文仅供学习使用 本文参考: 《机构运动微分几何学分析与综合》-王德伦、汪伟 《微分几何》吴大任 连杆机构中的连杆与连架杆构成运动副,该运动副元素的 特征点 或 特征线 在 机架坐标系 中的 运动轨迹曲线或曲面 称为 约束曲线 或 约束曲面 ,是联系刚体运动与机构

    2024年02月11日
    浏览(34)
  • 城市信息模型平台顶层设计与实践-CIM-读书笔记

    GB/T 30317—2013《地理空间框架基本规定》规定地理空间框架为:“地理信息数据及其采集、加工、交换、服务所涉及的政策、法规、标准、技术、设施、机制和人力资源的总称,由基础地理信息数据体系、目录与交换体系、公共服务体系、政策法规与标准体系和组织运行体系

    2024年01月16日
    浏览(43)
  • 西瓜书读书笔记整理(三)—— 第二章 模型评估与选择

    1. 错误率 / 精度 / 误差 错误率(error rate) :分类错误的样本数占样本总数的比例。 精度(accuracy) :分类正确的样本数占样本总数的比例。 误差(error) :学习器的实际预测输出与样本的真实输出质检的差异。 2. 训练误差 / 经验误差 / 泛化误差 **训练误差(training error)

    2024年02月05日
    浏览(38)
  • 【读书笔记】学习突围

    最近在读一本书《学习突围》,作者是常青,知乎大V。对他的一些回答非常认同,受益匪浅,特此买来纸质书籍细细学习一番! 1.【学习心态】(拖延症、自控、执行力、专注力) 2.【学习方法】(搜索力、高效阅读、高效笔记、记忆力、如何写作) 3.【学习习惯】(时间管

    2024年02月02日
    浏览(88)
  • 《区块链原理与技术》学习笔记(四) ——以太坊的基本架构、账户模型和智能合约

    《区块链原理与技术》学习笔记 第四部分 三、以太坊 1. 以太坊简介 1.1 以太坊发展的阶段 1.2 以太坊与比特币对比 2. 以太坊的基本架构及原理 2.1 基本概念 2.2 状态转移 2.3 基本架构 3. 账户模型与转账 3.1 账户模型 4. 智能合约 4.1 合约账户与数据存储 4.2 驱动智能合约 以太坊

    2024年02月13日
    浏览(37)
  • 机器学习笔记 - 基于Python发现最佳计算机视觉模型的神经架构搜索技术NAS

            近年来,随着深度学习技术的兴起,计算机视觉领域取得了巨大进步。事实证明,卷积神经网络 (CNN) 在图像识别任务中异常强大,但针对特定问题设计最佳架构仍然是一项具有挑战性的任务。这就是神经架构搜索(NAS)发挥作用的地方。NAS 是一种尖端技术,可以

    2024年02月14日
    浏览(32)
  • 【白话机器学习的数学】读书笔记(3)学习分类(感知机、逻辑回归)

    1.分类的目的 找到一条线把白点和黑点分开。这条直线是使 权重向量成为法线向量 的直线。(解释见下图) 直线的表达式为: ω ⋅ x = ∑ i = 1 n ω i ⋅ x i = 0 omega·x = sum_{i=1}^nomega_i · x_i = 0 ω ⋅ x = i = 1 ∑ n ​ ω i ​ ⋅ x i ​ = 0 ω omega ω 是权重向量 权重向量就是我们想要知

    2024年01月18日
    浏览(42)
  • 掌握Python 机器学习 读书笔记 9 (流水线 && 算法保存)

    在机器学习里可以看到有一些必要的步骤, 这些步骤是可以作为workflow 自动化的。 而且流水线可以对每个fold来进行处理, 这样很大程度避免了数据泄露。 这也是为什么使用流水线的原因。 使用机器学习的时候很容易落入一个陷阱, 就是泄露你的训练数据到测试数据。 为

    2024年03月09日
    浏览(29)
  • 西瓜书读书笔记整理(十) —— 第十章 降维与度量学习

    10.1.1 什么是 kNN 学习 kNN算法(k-Nearest Neighbors)是一种常用的分类和回归算法。它的基本思想是根据最近邻的样本来预测未知样本的标签或值。 10.1.2 kNN 算法步骤 kNN算法的步骤如下: 计算未知样本与训练集中所有样本的距离(通常使用欧氏距离或其他距离度量方法)。 选取

    2024年01月21日
    浏览(29)
  • 西瓜书读书笔记整理(十一) —— 第十一章 特征选择与稀疏学习

    11.1.1 基本概念 特征(feature) :在机器学习中, 特征 是指从数据中提取的用于描述样本的属性或信息。 相关特征(relevant feature) :对当前学习任务 有用 的属性称为 “ 相关特征 ”。 无关特征(inrelevant feature) :对当前学习任务 无用 的属性称为 “ 无关特征 ”。 冗余特

    2024年01月19日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包