原文来自【知乎-高性能计算方向面试问题总结】
🎬个人简介:一个全栈工程师的升级之路!
📋个人专栏:C/C++面试整理
🎀CSDN主页 发狂的小花
🌄人生秘诀:学习的本质就是极致重复!
目录
整体情况简介
高性能计算基础
AI 框架知识
算法题
一些比较零碎的问题
推荐参考资料
整体情况简介
面试中的问题基本上分成以下几类:
- 基础的八股文:C/C++,OS,计算机体系结构等。这一部分略,网上已经有很多总结了。
- 高性能计算基础知识:这一部分是面试的重点,本文章以CUDA为重点。
- 各种AI框架知识:本文章以推理方向为主。
- AI基础知识:对于常见的机器学习算法,以及CV & NLP & 推荐模型有一定了解,了解计算流程以及模型结构即可,重点为了能分析出计算瓶颈在哪里,找出可能优化的方向。本部分略
- 算法题: 手写CUDA kernel和leetcode的比例大约为3:1。手写CUDA kernel的时候一般会结合第2部分一起问,一步一步要求你优化,每一步优化的具体原理,涉及到什么硬件知识等。
高性能计算基础
- CUDA的线程组织结构
- CUDA的存储体系结构,每一种存储的优缺点,该如何合理使用。
- GPU每一代的新特性有了解过吗?应该从哪里去了解详细信息?
- CUDA stream的概念,为什么要使用多个stream?
- GPU和CPU分别适合执行哪些程序?结合它们的硬件架构解释一下为什么它们有各自的优势。
- 说明一下神经网络加速器与CPU、GPU的区别,他们各自有何优势?
- 半精度浮点数FP16各个部分的具体位数,为什么要有半精度浮点数?
- TensorCore的加速原理
- MPI,OpenMP以及CUDA各自适用的加速场景。
- RDMA相关问题。
- 平时如何进行kernel的优化,会用到哪些工具?
- CPU上哪些并行优化方法?
- ARM相关的库有了解过吗?
- PTX有了解过吗?
- roofline模型有什么用?如何确定最优的BLOCK_SIZE。
- GPU资源调度有哪些方法?
- 稀疏矩阵的存储格式有哪些?稀疏矩阵的应用场景?稀疏矩阵计算与稠密矩阵计算有何不同?
- 如何计算CPU指令的吞吐量和时延?
AI 框架知识
这一部分会涉及一些AI框架(训练&推理&编译器)相关的问题,并且会重点根据简历上的项目经历去做一些发散性的提问。
- MLIR有了解过吗?ONNX有了解过吗?
- TVM的整体结构,如何用TVM进行开发?
- 为什么要进行推理优化?直接用tensorflow或者pytorch的推理接口不行吗?
- 模型推理优化的常用方法有哪些?
- 有研究过某一个框架的具体源码吗?
- TensorRT如何进行自定义算子开发?
- TensorRT对模型实现了哪些推理优化?常量折叠,算子融合,量化....
- 算子融合为什么能加速推理,优化了哪一部分?TensorRT用到了哪些算子融合?算子融合在推理框架中是如何实现的?
- 模型量化的加速原理,模型量化带来的精度损失如何解决?
- ONNX Runtime支持在多种硬件上进行推理,说明具体的实现机制。
- 总结一下TensorRT,ONNX Runtime等推理框架的组成架构,如果我们公司自己要为硬件开发一套推理框架,应该重点关注哪些部分?
- 各种推理框架都有何优劣势?它们的性能怎么样?
- 分布式训练中有哪些并行模式?每种模式需要做什么,有什么优缺点?
- 分布式训练中我们重点需要处理的问题有哪些?目前已有哪些解决方案
- MPI如何应用于AI框架中?
- 模型在移动端进行推理优化的框架有了解过吗?移动端和在服务器的推理优化思路有何不同?移动端能用到的加速指令有了解过吗?
- 移动端有哪些加速方法?
- 为什么要将模型一部分推理优化放在移动端,全部放在服务器上不可以吗?
- 自动驾驶上的推理框架有了解过吗?我们重点需要关注的指标有哪些?
- 反向传播的原理,具体实现的源码有了解过吗?
- 你了解哪些推理模型的调度方法?
- 推荐模型的结构有了解过吗?要部署一个大的推荐模型,应该如何将各个部分放在哪种硬件上部署?
- 计算图切分有了解过吗?如何应用于大模型推理?
- TensorFlow和Pytorch都用过吗?它们设计思路有何不同?有何优劣?如何添加自定义算子?
算法题
手写CUDA kernel几乎每场面试都会考,面试官会以写出来的第一个版本为准,一步步问继续优化的方法,在这个期间会结合高性能计算的基础知识来考察,从这个过程中能了解到对体系结构以及优化方法的了解程度。leetcode不一定有,但是遇上了基本上都是hard。两类算法题都要准备。
下面是常见的一些问题:
- 矩阵乘:
- 矩阵转置: 访存密集型算子的处理
- 一维reduce-sum:重点是如何处理bank confict
- 二维reduce-sum
- 卷积
- 将单stream改成多stream
以矩阵乘法为例说明一下一个典型的面试流程,下面以A表示面试官,B表示面试者。
A:写一个矩阵乘法吧,并将main函数中具体调用给写清
B: (写了一个最naive版本的矩阵乘)
A: 目前这个程序有什么问题,能进一步优化吗?
B : 目前访存性能比较低,可以采用矩阵分块并且使用上shared memory优化,并解释一下这样做的原理。
A:可以具体计算一下优化前后的计算访存比,来具体说明这一部分提升了多少。并写一下优化后的程序。
B: 通过计算优化了.....
上述对话会重复几轮,在后面几轮可能面试官不会再要求将每一版程序都写出来了,重点在于讨论优化思路,并且在讨论的过程中发散地问一点CUDA的知识考察理解的深度。
一些比较零碎的问题
- 卷积的三种加速计算方式,im2col+GEMM & Winograd & FFT,各自有何优缺点,cuDNN中有哪些实现?
- 数字信号的采样定理、熵 & 交叉熵 的含义 & 计算公式
- 还记得KKT条件吗?写程序求解一个非线性方程,并说明具体用到的优化方法。
- 脑洞问题:如何从编码的角度进行模型压缩?
- 如何将你研究生阶段的成果应用到我们的产品中?
- 给了一个TF 模型的profile,找出里面的bottle neck,提出如何改进这个模型的性能的方法。
- MIPS流水线有几级?分别是哪些组成部分?
- 说一下transformer的具体结构,如何加速transformer进行推理?
- attention的计算公式,写一下tf里面对应的代码
- 马尔科夫链简单知识
- 一道较难的概率题
推荐参考资料
- 《通用图形处理器设计:GPGPU编程模型与架构原理》:CUDA、GPU体系结构、PTX、TensorCore等GPU知识大杂烩,CUDA相关面试问题标答。对于GPU的硬件体系结构有较深入的介绍,虽然比较难懂,但是这一部读完后会对CUDA编程模型以及为什么要采用一些特定的优化方法有更深入的理解。
- 官方文档《CUDA Programming Guide》 & 《CUDA Best Practice Guide》: 不解释,必读。
- 《大规模并行处理器程序设计》:入门最佳,没有之一。其中第二部分对于CUDA中常见的计算Pattern做了分析,几乎可以应付所有的面试中的kernel编程,至少能答出80%,至于更深入地优化方法需要再花时间去研究。
- 《机器学习系统:设计和实现》:介绍了ML Sys这一领域的所有方面的基础知识,可以从一个整体的层面对机器学习系统的组成部分、每个部分的重点技术有较好的把握。这本书的框架主要以MindSpore为例,所以在整体读完后,需要结合自己比较熟悉的框架进一步仔细理解。该书有在线版本机器学习系统:设计和实现 - 机器学习系统:设计和实现 1.0.0 documentation
- 《深度学习进阶:自然语言处理》:只用numpy实现NLP模型,可以作为阅读深度学习框架源码的first course,会对AI模型中的底层实现细节有很好的理解。
- 《分布式机器学习:理论、算法与实践》:可以对分布式训练有大致的了解
- 《AI编译器开发指南》:深度学习编译器相关的介绍,重点在TVM。
建议: 1 ~ 4必读,这是所有领域的基础知识,5 ~ 7需要根据个人的研究兴趣和方向有选择性地深入阅读。文章来源:https://www.toymoban.com/news/detail-841528.html
🌈我的分享也就到此结束啦🌈
如果我的分享也能对你有帮助,那就太好了!
若有不足,还请大家多多指正,我们一起学习交流!
📢未来的富豪们:点赞👍→收藏⭐→关注🔍,如果能评论下就太惊喜了!
感谢大家的观看和支持!最后,☺祝愿大家每天有钱赚!!!欢迎关注、关注!文章来源地址https://www.toymoban.com/news/detail-841528.html
到了这里,关于算法部署优化工程师面试题整理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!