大模型学习笔记03——模型架构-Toy模板网

这篇具有很好参考价值的文章主要介绍了大模型学习笔记03——模型架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大模型学习笔记03——模型架构

1、大模型概括

根据输入需求的语言描述（Prompt）生成符合需求的结果（completion）
大模型构建：

分词（Tokenization）：即如何将一个字符串拆分成多个词元。
模型架构（Model architecture）：Transformer架构

2、分词

词元(token)一般在NLP（自然语言处理）中来说，通常指的是一个文本序列中的最小单元，可以是单词、标点符号、数字、符号或其他类型的语言元素。通常，对于NLP任务，文本序列会被分解为一系列的tokens，以便进行分析、理解或处理。在英文中一个"token"可以是一个单词，也可以是一个标点符号。在中文中，通常以字或词作为token。
几种分词方式：

基于空格的分词
Byte pair encoding（BPE）：将每个字符作为词元，并组合经常共同出现的词元。通过使用字符编码进行分词，可以适用于多语言环境，减少低频词汇，提高模型的泛化能力
Unigram model（SentencePiece）：定义一个目标函数来捕捉一个好的分词的特征，这种基于目标函数的分词模型可以适应更好分词场景

什么样的是好的分词：