大型语言模型的推理演算

这篇具有很好参考价值的文章主要介绍了大型语言模型的推理演算。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大型语言模型的推理演算

作者｜kipply

翻译｜杨婷、徐佳渝、贾川‍‍

本文详细阐述了大型语言模型推理性能的几个基本原理，不含任何实验数据或复杂的数学公式，旨在加深读者对相关原理的理解。此外，作者还提出了一种极其简单的推理时延模型，该模型与实证结果拟合度高，可更好地预测和解释Transformer模型的推理过程。

为了更好地阅读本文，读者需了解一些Transformer模型的相关先验知识，比如《图解Transformer》的大部分内容。另外，了解与本文相关的参数计数文章也能更好地帮助读者理解本文内容。本文主要包括以下内容：

kv 缓存 (kv cache) 解释了在推理过程中缓存自注意力向量所带来的性能优化效果，以及可能导致的权衡（tradeoff）以及容量成本问题。
容量（capacity）考虑了kv缓存的存储成本以及模型权重的存储成本之间的联系，并解释了容量大小对模型性能的影响。
模型并行可帮助我们理解张量并行，以明确通信成本。
时延计算需要从其他概念中获得理解，并创建用于确定推理速度底线（floorline）的方程。
批大小（batch size）对性能的影响以及最优批大小为多少。
通过transformer blocks执行flops（每秒浮点运算次数）计数操作，可以识别对flops速度有实质性贡献的操作。
中间内存成本涵盖了激活（即激活函数的输出结果）占用额外内存，以及一些真实基准测试中的内存带宽成本。
对比真实基准测试是指将计算出的内容与英伟达 FasterTransformer基准测试结果进行对比，并确定其中的差异。

（本文经授权后由OneFlow编译发布，译文转载请联系OneFlow获得授权。原文：https://kipp.ly/blog/transformer-inference-arithmetic/）

kv 缓存

采样时，Transformer模型会以给定的prompt/context作为初始输入进行推理（可以并行处理），随后逐一生成额外的token来继续完善生成的序列（体现了模型的自回归性质）。在采样过程中，Transformer会执行自注意力操作，为此需要给当前序列中的每个项目（无论是prompt/context还是生成的token）提取键值（kv）向量。这些向量存储在一个矩阵中，通常被称为kv缓存或者past缓存（开源GPT-2的实现称其为past缓存）。past缓存通常表示为：[batch, 2, num_heads, seq_len, features]。

大型语言模型的推理演算