技术解读倚天 ECS 实例 — Arm 芯片的 Python-AI 算力优化

这篇具有很好参考价值的文章主要介绍了技术解读倚天 ECS 实例 — Arm 芯片的 Python-AI 算力优化。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

深度学习技术在图像识别、搜索推荐等领域得到了广泛应用。近年来各大 CPU 厂商也逐渐把 AI 算力纳入了重点发展方向,通过《Arm 芯片 Python-AI 算力优化》我们将看到龙蜥社区 Arm 架构 SIG(Special Interest Group) 利用最新的 Arm 指令集优化 Python-AI 推理 workload 的性能。

倚天ECS实例的AI推理软件优化

阿里云推出的倚天Arm ECS实例,拥有针对AI场景的推理加速能力,我们将了解加速的原理以及以及相关的软件生态适配。

pytorch arm,人工智能,python,深度学习,阿里云,云计算

卷积神经网络(CNN)在图像和语音领域使用广泛,神经网络算法相比传统的算法消耗了更多算力。为了探索对计算的优化,我们进一步看到AlexNet模型(一种CNN)的推理过程的各个层的计算资源消耗占比。

可以看到名为conv[1-5]的5个卷积层消耗了90%的计算资源,因此优化CNN推理的关键就是优化卷积层的计算。

pytorch arm,人工智能,python,深度学习,阿里云,云计算

我们进一步来看如何对图像应用卷积核:

  1. 使用im2col根据卷积核尺寸,将图像转化为若干块(patch)
  2. 将多个卷积核展开成若干向量
  3. 对由图像块组成的矩阵和由多个卷积核展开组成的矩阵应用矩阵乘法

pytorch arm,人工智能,python,深度学习,阿里云,云计算

上面一页的计算应用了矩阵乘法操作,为什么我们不采用更加直接的迭代计算方式,而是采用需要额外内存的矩阵乘法呢?这里有两个关键因素:

  • 深度学习的卷积计算量很大,典型计算需要涉及5000万次乘法和加法操作,因此对计算的优化十分重要
  • 计算机科学家们已经深入探索了矩阵乘法操作,矩阵乘法操作可以被优化得非常快。

fortran世界中,GEMM(general matrix multiplication)已经成为一个通用操作:

pytorch arm,人工智能,python,深度学习,阿里云,云计算

该操作通过对数据重新排列,精心设计计算过程,利用多线程和向量指令,可以比自己实现的朴素版本快十倍以上。因此使用矩阵运算带来的收益相比额外的开销是值得的。<文章来源地址https://www.toymoban.com/news/detail-800924.html

到了这里,关于技术解读倚天 ECS 实例 — Arm 芯片的 Python-AI 算力优化的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python-Ai绘画-Disco Diffusion参数对照表

    Disco Diffusion完整基础参数对照表 变量名称 描述 默认值 text_prompts 对你希望机器生成的内容进行描述。 N/A image_prompts 可以设置一些参考图片,以对其内容的更多描述(可选) N/A clip_guidance_scale 控制图像与描述语的相似程度。 1000 tv_scale 控制最终输出的平滑度 150 range_scale 控制

    2024年01月17日
    浏览(28)
  • 阿里云ECS U实例评测

    参与ECSU实例评测,申请免费体验机会:https://developer.aliyun.com/mission/review/ecsu u1实例是什么? u1实例本质上还是ecs服务器,但是是阿里云推出的一种新型实例规格族 阿里云根据使用场景和业务场景将ecs划分为不同的实例规格,方便针对场景选购。 u1是u系列(通用算力型)的第

    2024年02月11日
    浏览(28)
  • 阿里云ECS服务器实例挂载数据盘步骤

    1、首先登录阿里云ECS服务器,通过 df -h 命令查看当前磁盘挂载情况,可以发现只有系统盘40G  2、通过 fdisk -l 命令查看磁盘情况,可以发现有两个盘: 系统盘 /dev/vda: 42.9GB, 数据盘 /dev/vdb: 322.1GB 3、运行  fdisk -u /dev/vdb  进入数据盘分区 依次执行下面命令进行数据盘分区:

    2024年02月22日
    浏览(35)
  • 阿里云ECS服务器按量付费实例怎么释放?

      阿里云 按量付费实例如果未启用节省停机模式,停止后所有资源会继续计费, 就算启用了节省停机模式,也只是减少收费, 只有释放后才 会完全 停止计费。 那么如何释放按量付费的阿里云服务器呢? 方法一:在开通按量付费实例时设置好使用时限,到时间点后会自动释

    2024年02月11日
    浏览(36)
  • 云计算ACP云服务器ECS实例题库(二)

    😘作者简介:一名99年运维岗位员工。 👊宣言:人生就是B(birth)和D(death)之间的C(choise),做好每一个选择。 🙏创作不易,动动小手给个点赞加关注吧,有什么意见评论区告诉我,一起学习。         本篇文章续前篇,继续分享50道云服务器ECS实例的ACP云计算题目

    2024年01月17日
    浏览(38)
  • 云计算ACP云服务器ECS实例题库(一)

    😘作者简介:一名99年运维岗位员工。 👊宣言:人生就是B(birth)和D(death)之间的C(choise),做好每一个选择。 🙏创作不易,动动小手给个点赞加关注吧,有什么意见评论区告诉我,一起学习。         本篇文章,分享50道ECS实例的题库,带有题目和答案解析,供大

    2023年04月08日
    浏览(31)
  • 阿里云GPU服务器ECS实例规格详细说明

    阿里云GPU服务器提供GPU加速计算能力,GPU卡支持A100、V100、T4、P4、P100、A10等,NVIDIA V100,GPU实例规格是什么意思?如搭载NVIDIA V100的ecs.gn6v-c8g1.2xlarge、A10卡ecs.gn7i-c32g1.8xlarge、T4卡ecs.gn6i-c4g1.xlarge、P4卡ecs.gn5i-c2g1.large、P100卡ecs.gn5-c4g1.xlarge等,GPU实例规格中的字母核数字有什么区

    2024年01月21日
    浏览(43)
  • 史上最详细----阿里云创建ECS实例教程(每一步图文结合)

    进入阿里云官网,登录账号 进入控制台页面 打开侧边导航栏,进入云服务器ECS页面 点击创建实例 进入到这个页面(我这里为了方便演示,用的是旧版的页面) 选择付费模式和可用区 选择配置 选择系统镜像和存储服务 完成之后点击下一步 ps:阿里云按需付费购买实例,余额

    2024年02月11日
    浏览(29)
  • 阿里云4核8G服务器ECS u1实例租用优惠价格955元一年

    阿里云4核8G服务器优惠价格955元一年,配置为ECS通用算力型u1实例(ecs.u1-c1m2.xlarge)4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选,CPU采用Intel(R) Xeon(R) Platinum处理器,阿里云活动链接 aliyunfuwuqi.com/go/aliyun 阿里云4核8G服务器优惠价格955元一年 云服务器规格:ECS通用算力

    2024年04月11日
    浏览(38)
  • 阿里云国际版查看云服务器ecs实例系统日志和截图-Unirech

    阿里云国际版云服务器ecs是一个基于云的虚拟化服务,无法接入显示设备或手动截屏,但是云服务器ecs缓存了最后一次启动、重启或关闭时的系统日志,并支持实时捕获实例屏幕截图。用户则可以使用这些功能来分析和排除实例故障,例如诊断无响应的操作系统、异常重启或

    2024年02月09日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包