作者
H. Liao et al., “Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing : Industry Track Paper,” 2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA), Seoul, Korea (South), 2021, pp. 789-801, doi: 10.1109/HPCA51647.2021.00071.
摘要
正文
不同应用场景下的的昇腾计算核
昇腾计算核的加速原理
昇腾计算核(达芬奇)架构
计算核内cube、vector、scaler部件的指令同步
昇腾服务器平台SoC架构
昇腾910包括一个计算die、一个IO die和四个高带宽的HBM。
计算die包括32各Ascend-Max计算核、16个CPU核(ArmV8指令级)、数字视觉预处理器(DVPP)等,通过mesh片上网络连接。
昇腾的片上互联网络
基于4x6的2D mesh网络,相邻节点间通过工作在2GHz下的1024bit的链路连接,总带宽可达256GB/s。
bufferless的架构可以减少芯片面积。
全局的调度策略可以确保QoS。
DNN训练的硬件需求
后端的SGD计算频繁地使用向量单元,使得在unified buffer和向量单元间需要双工数据路径
LLC和外部存储密集的数据访问,要求较高的load/store带宽
昇腾移动平台SoC架构
DNN应用已经应用到移动手机中,场景包括图像识别、修图、生物识别等,这些应用都基于MobileNet、ResNet50等神经网络模型。Ascend-Lite用于支持这些模型的运算。
考虑到移动平台的电池容量,Ascend-Lite计算核可以在标准模式下取得4.6TOPS/W的高能效
动态电压频率比机制可以根据实时的工作负载密度动态调整工作电压,进一步提升系统能效
dynamic voltage and frequency scaling (DVFS)
根据推理时较小的任务粒度选择较小的cube计算单元
推理时,数据一般只有一个批量大小,因此在Ascend-lite中cube核缩小为4x16x16。
当batch size变为1时,更小的m值可以提升cube的MAC使用率。
移动设备的唤醒功能和实时线上人机交互也依赖于AI算法
比如人脸识别和手势推理。
Ascend-lite使用指令压缩技术以减轻NoC的带宽压力
Ascend-lite计算核对DNN模型中的结构稀疏进行了优化
昇腾自动驾驶平台SoC架构
DNN推理计算模型的精度可以在模型精度和计算时间能效比二者中权衡
当前自动驾驶领域流行的趋势是,要求基于多个DNN模型的输出做出全面的判断。
由此,低精度的推理是可行的,因此Ascend core支持int4的计算精度。
SoC需确保合理的外部存储访问延迟,以保证自动驾驶实时性的需求
自动驾驶对响应时间要求较高,SoC需确保驾驶系统能及时的完成所有任务,包括传感、识别、决策和执行。
因此推理性能并不依赖于计算核的并行计算或数据迁移,而依赖于load/store与外部存储的的效率。
一系列的优先级机制被应用到Ascend核和SoC中以确保满足延迟需求
Memory System Resource Partitioning and Monitoring (MPAM),内存系统资源划分和监测机制更细粒度地管理cache容量、NoC带宽和内存带宽。
QoS确保无饥饿。
软件开发栈
通过多级调度框架可以将任务分级调度到不同的Ascend core上并行处理
属于线程级并行
文章来源:https://www.toymoban.com/news/detail-838597.html
参考文献
评
本文主要讲述不同版本昇腾核的DNN加速表现,硬件架构描述不多,主要介绍了不同特定需求平台的硬件需求及其组成,但体系结构方面几乎没有着墨。文章来源地址https://www.toymoban.com/news/detail-838597.html
到了这里,关于论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!