论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing

这篇具有很好参考价值的文章主要介绍了论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作者

H. Liao et al., “Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing : Industry Track Paper,” 2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA), Seoul, Korea (South), 2021, pp. 789-801, doi: 10.1109/HPCA51647.2021.00071.

摘要

正文

不同应用场景下的的昇腾计算核

论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 论文解析,Ascend

昇腾计算核的加速原理

论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 论文解析,Ascend

昇腾计算核(达芬奇)架构

论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 论文解析,Ascend

计算核内cube、vector、scaler部件的指令同步

论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 论文解析,Ascend

昇腾服务器平台SoC架构

昇腾910包括一个计算die、一个IO die和四个高带宽的HBM。
计算die包括32各Ascend-Max计算核、16个CPU核(ArmV8指令级)、数字视觉预处理器(DVPP)等,通过mesh片上网络连接。
论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 论文解析,Ascend

昇腾的片上互联网络

基于4x6的2D mesh网络,相邻节点间通过工作在2GHz下的1024bit的链路连接,总带宽可达256GB/s。
bufferless的架构可以减少芯片面积。
全局的调度策略可以确保QoS。

DNN训练的硬件需求

后端的SGD计算频繁地使用向量单元,使得在unified buffer和向量单元间需要双工数据路径
LLC和外部存储密集的数据访问,要求较高的load/store带宽

昇腾移动平台SoC架构

DNN应用已经应用到移动手机中,场景包括图像识别、修图、生物识别等,这些应用都基于MobileNet、ResNet50等神经网络模型。Ascend-Lite用于支持这些模型的运算。

考虑到移动平台的电池容量,Ascend-Lite计算核可以在标准模式下取得4.6TOPS/W的高能效

动态电压频率比机制可以根据实时的工作负载密度动态调整工作电压,进一步提升系统能效

dynamic voltage and frequency scaling (DVFS)

根据推理时较小的任务粒度选择较小的cube计算单元

推理时,数据一般只有一个批量大小,因此在Ascend-lite中cube核缩小为4x16x16。

当batch size变为1时,更小的m值可以提升cube的MAC使用率。

移动设备的唤醒功能和实时线上人机交互也依赖于AI算法

比如人脸识别和手势推理。

论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 论文解析,Ascend

Ascend-lite使用指令压缩技术以减轻NoC的带宽压力

Ascend-lite计算核对DNN模型中的结构稀疏进行了优化

昇腾自动驾驶平台SoC架构

DNN推理计算模型的精度可以在模型精度和计算时间能效比二者中权衡

当前自动驾驶领域流行的趋势是,要求基于多个DNN模型的输出做出全面的判断。
由此,低精度的推理是可行的,因此Ascend core支持int4的计算精度。

SoC需确保合理的外部存储访问延迟,以保证自动驾驶实时性的需求

自动驾驶对响应时间要求较高,SoC需确保驾驶系统能及时的完成所有任务,包括传感、识别、决策和执行。
因此推理性能并不依赖于计算核的并行计算或数据迁移,而依赖于load/store与外部存储的的效率。

一系列的优先级机制被应用到Ascend核和SoC中以确保满足延迟需求

Memory System Resource Partitioning and Monitoring (MPAM),内存系统资源划分和监测机制更细粒度地管理cache容量、NoC带宽和内存带宽。
QoS确保无饥饿。

论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 论文解析,Ascend

软件开发栈

论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 论文解析,Ascend

通过多级调度框架可以将任务分级调度到不同的Ascend core上并行处理

属于线程级并行
论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 论文解析,Ascend

参考文献

本文主要讲述不同版本昇腾核的DNN加速表现,硬件架构描述不多,主要介绍了不同特定需求平台的硬件需求及其组成,但体系结构方面几乎没有着墨。文章来源地址https://www.toymoban.com/news/detail-838597.html

到了这里,关于论文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • NICE-SLAM: Neural Implicit Scalable Encoding for SLAM论文阅读

    标题 :NICE-SLAM: Neural Implicit Scalable Encoding for SLAM 作者 :Zihan Zhu, Songyou Peng,Viktor Larsson — Zhejiang University 来源 :CVPR 代码 :https://pengsongyou.github.io/nice-slam 时间 :2022 神经隐式(Neural implicit representations)表示最近在同步定位和地图绘制(SLAM)方面有一定的进展,但现有方法

    2024年02月15日
    浏览(53)
  • 论文阅读:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估计

    CVPR2024满分文章,英伟达团队工作。 文章地址:https://arxiv.org/pdf/2312.08344.pdf 代码地址:https://github.com/NVlabs/FoundationPose 提出FoundationPose,能用于6D位姿估计与跟踪,无论模型是否可用都支持。只需要CAD模型或少量参考图像就能进行zero-shot测试,泛化能力依靠大规模训练, LLM 和

    2024年04月29日
    浏览(50)
  • 【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception

    原文链接:https://arxiv.org/pdf/2401.06994.pdf 目前,同时处理基于图像的3D检测任务和占用预测任务还未得到充分探索。3D占用预测需要细粒度信息,多使用体素表达;而3D检测多使用BEV表达,因其更加高效。 本文提出UniVision,同时处理3D检测与占用预测任务的统一网络。网络结构为

    2024年02月19日
    浏览(47)
  • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks)

    2016 KDD 利用graph上的节点相似性,对这些节点进行embedding 同质性:节点和其周围节点的embedding比较相似 蓝色节点和其周围的节点 结构等价性 结构相近的点embedding相近 比如蓝色节点,都处于多个簇的连接处 随机游走是一种自监督学习的embedding方法,不需要利用节点标签也不

    2024年02月09日
    浏览(43)
  • A Survey of IoT Applications in Blockchain Systems Architecture,Consensus,and Traffic Modeling 论文学习

    A Survey of IoT Applications in Blockchain Systems: Architecture, Consensus, and Traffic Modeling ACM Computing Surveys, 2020 LAPHOU LAO, ZECHENG LI, SONGLIN HOU, and BIN XIAO, The Hong Kong Polytechnic University, China SONGTAO GUO, Chongqing University, China YUANYUAN YANG, Stony Brook University, America 本文介绍了使 用区块链技术的物联网应用

    2023年04月12日
    浏览(59)
  • 论文阅读——SMLP4Rec An Efficient All-MLP Architecture for Sequential Recommendations

    SMLP4Rec:用于顺序推荐的高效全 MLP 架构 自注意力模型通过捕获用户-项目交互之间的顺序依赖关系,在顺序推荐系统中实现了最先进的性能。然而,它们依赖于向项目序列添加位置嵌入来保留顺序信息,由于这两种类型的嵌入之间的异质性,这可能会破坏项目嵌入的语义。此

    2024年04月26日
    浏览(40)
  • A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(论文笔记)

    (发现问题): 在基于RRAM的加速器中,自注意力层在收集输入序列信息的过程中,需要所有输入序列词的前一层结果,由于输入实例在不同的时间步上被串行处理。 因此,自注意层一直保持停滞,直到上一层计算的结束。这就是数据危险,增加了在基于RRAM加速器上处理基于

    2024年03月25日
    浏览(58)
  • 【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    这篇文章提出了一个高效的用于文本到图像生成模型架构,整体思路比较直白,在不损失图像生成质量的情况下,相比于现有T2I模型(SD1.4,SD2.1等)大大节约了成本。附录部分给了一些有趣的东西,比如FID的鲁棒性 整篇文章还有点疑惑,比如阶段B的训练,使用的模型;节省

    2024年02月21日
    浏览(47)
  • 【论文笔记】ObjectFormer for Image Manipulation Detection and Localization

    发布于CVPR2022 论文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_ObjectFormer_for_Image_Manipulation_Detection_and_Localization_CVPR_2022_paper.pdf 在本文中,我们提出了ObjectFormer来检测和定位图像操作。 为了捕捉在RGB域中不再可见的细微操作轨迹,我们提取图像的高频特征,并将其与R

    2024年02月04日
    浏览(73)
  • BERT for Coreference Resolution Baselines and Analysis论文阅读

    1.问题 基于前面提出的端到端的共指消解模型,如何在基准数据集上表现更好的效能 2.解决方法 使用Bert来进行改进,在OntoNotes ( + 3.9 F1 )和GAP ( + 11.5 F1 )基准上取得了显著提升 3.摘要 优点:论文采用的Bert-large模型与ELMo和Bert-base相比,在区分相关但不同的实体方面特别好 缺点

    2024年02月05日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包