GEMM优化、并行优化、算子优化，从BLISlab项目入手！ GEMM重要且典型-Toy模板网

这篇具有很好参考价值的文章主要介绍了GEMM优化、并行优化、算子优化，从BLISlab项目入手！ GEMM重要且典型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

BLISlab是一个开源教学项目，提供了完整的代码范例和测试脚本教人如何一步步优化矩阵乘法。为此，张先轶（中科院博士，OpenBLAS国际知名开源项目发起人）录制了一个公开课系列，基于BLISlab项目给大家系统讲解GEMM优化。

>> 视频三连发，您能不能也三连发？“点赞-->转发-->关注”

【张先轶】BLISlab学习优化矩阵乘。第一课

【张先轶】BLISlab学习优化矩阵乘。第一课_哔哩哔哩_bilibili

【张先轶】BLISlab学习优化矩阵乘。第二课

【张先轶】BLISlab学习优化矩阵乘。第二课_哔哩哔哩_bilibili

【张先轶】BLISlab学习优化矩阵乘。第三课

【张先轶】BLISlab学习优化矩阵乘。第三课_哔哩哔哩_bilibili

GEMM是什么？

将两个输入矩阵乘法在一起，得到一个输出矩阵。

GEMM优化、并行优化、算子优化，从BLISlab项目入手！
GEMM重要且典型

GEMM重要且典型

1. 在深度学习中是十分重要的，全连接层以及卷积层基本上都是通过GEMM来实现的，而网络中大约90%的运算都是在这两层中。而一个良好的GEMM的实现可以充分利用系统的多级存储结构和程序执行的局部性来充分加速运算。

GEMM优化、并行优化、算子优化，从BLISlab项目入手！
GEMM重要且典型

2. 在高性能领域，对于矩阵乘（GEMM）的优化是一个非常重要的课题。GEMM非常广泛地应用于航空航天、流体力学等科学计算领域，即HPC的主要应用场景。

3. 论文也很多。例如Understanding the GPU Microarchitecture、Fast implementation of dgemm on fermi gpu、 Dissecting the NVIDIA Volta GPU Architecture via Microbenchmarking。

GEMM优化、并行优化、算子优化，从BLISlab项目入手！
GEMM重要且典型

GEMM和BLAS（OpenBLAS的关系）

BLAS全称是Basic Linear Algebra Subprograms是规定了一套低级的执行常见线性代数操作的规范。其实现经常针对特殊的机器进行优化，比较著名的·BLAS库有ACML, ATLAS, MKL, OpenBLAS。许多常见的数值软件均采用兼容BLAS规范的实现库来进行线性代数计算，比如Matlab, Numpy, Mathematica`。

其中，Level 1 BLAS主要提供向量操作

GEMM优化、并行优化、算子优化，从BLISlab项目入手！
GEMM重要且典型