第三代英特尔 至强 可扩展处理器(Ice Lake)和英特尔 深度学习加速助力阿里巴巴 Transformer 模型性能提升

这篇具有很好参考价值的文章主要介绍了第三代英特尔 至强 可扩展处理器(Ice Lake)和英特尔 深度学习加速助力阿里巴巴 Transformer 模型性能提升。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第三代英特尔® 至强® 可扩展处理器采用了英特尔10 纳米 + 制程技术。相比于第二代英特尔® 至强® 可扩展处理器,该系列处理器内核更多、内存容量和频率更高。阿里巴巴集团和英特尔的技术专家共同探索了这些能力对人工智能应用的意义,特别是在与英特尔® 深度学习加速(英特尔® DL Boost)结合使用时。我们还探索了英特尔® 低精度优化工具(英特尔® LPOT),助力客户在基于英特尔® 至强® 可扩展处理器的平台上快速开发和部署 AI INT8 模型。我们在第三代英特尔® 至强® 可扩展处理器上优化了阿里巴巴 Transformer 模型,并证明了 FP32 和 INT8 推理的性能相较于上一代处理器分别提升了 1.36 倍和 1.42 倍。

技术概览

Transformer 是阿里巴巴端到端AI机器学习平台(PAI)使用的关键模型,它广泛应用于自然语言处理(NLP)任务,并通过阿里巴巴线上服务供全球数百万用户使用。低时延、高吞吐量是 Transformer 成功的关键,而 8 位低精度操作正是有望满足这一要求的理想技术。

英特尔® DL Boost 为 8 位低精度推理的人工智能工作负载提供了强大的支持。依靠英特尔® LPOT 的支持,我们能在提升 8 位推理性能的同时显著降低精度损失。这些能力证明了英特尔在 AI 推理领域的领导地位,也展现了英特尔® DL Boost 和第三代英特尔® 至强® 可扩展处理器的强悍实力。

模型分析

模型结构
图一展示了 Transformer 构造块的子图。

intel至强3代,人工智能,云计算,阿里云

图一  Transformer 构造块的子图(图片来源:Vaswani, et al., 2017)

从此图可以看出,有些操作适用于 INT8 量化,以便更好地发挥采用英特尔® DL Boost 矢量神经网络指令的英特尔® AVX-512(AVX512_VNNI)的作用。我们利用英特尔® LPOT 自动生成一个符合预定义精度损失目标的 INT8 模型。目前,LPOT 支持在 PyTorch 原生 Imperative 路径上进行量化参数搜索调整。我们依靠它来探索所有可能的量化参数组合空间,例如每个可量化算子使用不同的每张量、每通道量化,以及非对称/对称设置,以便获得优化的量化模型。下图显示了使用英特尔® LPOT 生成 Transformer 低精度模型的代码片段。

intel至强3代,人工智能,云计算,阿里云

关于如何使用英特尔® LPOT 启用新的量化模型,更多详情参见 GitHub 的 LPOT 页面

模型配置
阿里巴巴的 Transformer 模型是一个 PyTorch 模型。我们采用 profiling 的方法来分析模型性能。从下图中的 FP32 模型配置日志可以得知,它是一个计算密集型模型,在该模型中,总时间的 70% 均被计算密集型操作占用,如多项式乘(conv)和矩阵相乘(matmul)。从中可知,AVX512_VNNI 指令能为 Transformer 模型带来显著的性能提升,而第三代英特尔® 至强® 可扩展处理器更高的内存带宽和频率也有利于内存密集型操作。

intel至强3代,人工智能,云计算,阿里云

以下是 INT8 模型配置日志,从中可以得知,如果对所有矩阵相乘(matmul)操作进行量化,计算性能可提升 76.644/(20.296 + 6.632) = 2.84 倍。注:对多项式乘(conv)操作进行量化后,计算性能可提升 59.65/11.65 = 5.12 倍,超过了 4 倍理论峰值性能提升。这是因为 FP32 多项式乘(conv)操作在 oneDNN 路径上运行,与 INT8 多项式乘(conv)FBGEMM 操作相比,该路径实际上包括实际多项式乘(conv)计算之前和之后的两个额外 reorder 算子。

intel至强3代,人工智能,云计算,阿里云

性能与验证
我们分别在第二代和第三代英特尔® 至强® 可扩展处理器上测试了 Transformer 模型,均得到了显著的性能提升。FP32 和 INT8 端到端性能提升分别如表一和表二所示。

intel至强3代,人工智能,云计算,阿里云

表一 Transformer 模型 FP32 推理性能提升

intel至强3代,人工智能,云计算,阿里云

表二 Transformer 模型 INT8 推理性能提升

图二以图表形式显示了测试结果。

intel至强3代,人工智能,云计算,阿里云

图二 基于 FP32 和 INT8 数据类型获得的代际性能提升

采用最新的英特尔® DL Boost (INT8) 技术后,性能得到了大幅提升,与 FP32 解决方案相比约提升 3.1 倍;在阿里巴巴定制的第三代英特尔® 至强® 可扩展处理器平台,总吞吐量与第二代英特尔® 至强® 可扩展处理器平台相比提高了约 42%。

精度方面,我们采用客户数据对 INT8 Transformer 模型进行验证,结果显示精度损失为 0.4%,能够满足客户需求。

intel至强3代,人工智能,云计算,阿里云

结论

与第二代英特尔® 至强® 可扩展处理器系列相比,第三代英特尔® 至强® 可扩展处理器提升了内核数量、频率和内存带宽,这令 PyTorch Transformer INT8 模型的性能提升了 1.42 倍,PyTorch Transformer FP32 模型的性能提升了 1.36 倍。阿里巴巴采用英特尔最新处理器和 INT8 量化工具后,可为阿里巴巴 PAI-Blade 推理工具集带来 3.1 倍性能提升。阿里云预计,这将有助于加快 Transformer 任务的运行,并向阿里巴巴数百万客户提供更高效的服务。

配置详情

基于 PyTorch 1.7.1 的阿里巴巴 PAI NLP Transformer 模型在第三代英特尔® 至强® 可扩展处理器上的吞吐量性能

基准配置:英特尔截至 2021 年 3 月 19 日的测试。2 节点,2* 英特尔® 至强® 铂金 8269C 处理器,26 核,超线程开启,睿频开启,总内存192GB (12 插槽/ 16 GB/ 2933 MHz),BIOS:SE5C620.86B.02.01.0013.121520200651(0x4003003),CentOS 8.3,4.18.0-240.1.1.el8_3.x86_64,编译器:gcc 8.3.1,Transformer 模型,深度学习框架:PyTorch 1.7.1,https://download.pytorch.org/whl/cpu/torch-1.7.1%2Bcpu-cp36-cp36m-linux_x86_64.whl,BS=1,客户数据,26 个实例/2 插槽,数据类型:FP32/INT8

新配置:英特尔截至 2021 年 3 月 19 日的测试。2 节点,2* 英特尔® 至强® 铂金 8369B 处理器,32 核,超线程开启,睿频开启,总内存 512 GB (16 插槽/ 32GB/ 3200 MHz),BIOS: WLYDCRB1.SYS.0020.P92.2103170501 (0xd000260),CentOS 8.3,4.18.0-240.1.1.el8_3.x86_64,编译器:gcc 8.3.1,Transformer 模型,深度学习框架:PyTorch 1 . 7 . 1,https://download.pytorch.org/whl/cpu/torch-1.7.1%2Bcpu-cp36-cp36m-linux_x86_64.whl,BS=1,客户数据,32 个实例/2 插槽,数据类型:FP32/INT8

所有性能数据均为实验室环境下测试所得。文章来源地址https://www.toymoban.com/news/detail-597452.html

到了这里,关于第三代英特尔 至强 可扩展处理器(Ice Lake)和英特尔 深度学习加速助力阿里巴巴 Transformer 模型性能提升的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于英特尔开发套件的实时AI图像处理技术的茶叶病害监测物联网系统

    作者: 浙江大学 刘兆隆 文章指导:罗雯,李翊玮 随着茶叶产业的快速发展,茶叶的品质和安全性日益受到人们的关注。茶叶植株在生长过程中容易受到各种病虫害的侵害,这不仅会影响茶叶的产量,还会严重影响茶叶的品质。传统的茶叶病虫害诊断主要依赖于农民的经验判

    2024年04月28日
    浏览(42)
  • 英特尔开始加码封装领域 | 百能云芯

      在积极推进先进制程研发的同时,英特尔正在加大先进封装领域的投入。在这个背景下,该公司正在马来西亚槟城兴建一座全新的封装厂,以加强其在2.5D/3D封装布局领域的实力。据了解,英特尔计划到2025年前,将其最先进的3D Foveros封装产能扩增至目前的四倍,同时还向客

    2024年02月11日
    浏览(33)
  • 英特尔® NUC迷你电脑设置带电自启

    连接电源后英特尔® NUC迷你电脑可以自动启动吗? (intel.cn)    想死的风还是吹到了公司 | 👨‍✈️喂,劳动仲裁吗?这里有人强迫猫咪打工!😿  

    2024年02月07日
    浏览(42)
  • 在英特尔 CPU 上加速 Stable Diffusion 推理

    前一段时间,我们向大家介绍了最新一代的 英特尔至强 CPU (代号 Sapphire Rapids),包括其用于加速深度学习的新硬件特性,以及如何使用它们来加速自然语言 transformer 模型的 分布式微调 和 推理。 英特尔至强处理器: https://www.intel.com/content/www/us/en/products/details/processors/xeon/scal

    2024年02月09日
    浏览(48)
  • AMD出招,英特尔最不想看到的对手来了

    前段时间的CES上,AMD正式发布Ryzen 7000的3D缓存版,对于游戏玩家来说,Ryzen 7000 3D缓存版算是今年最期待的CPU。上一代的Ryzen7 5800X3D凭借超强的游戏性能和性价比,在德国最大的PC硬件零售商的统计中,甚至成为2022年最畅销的高性能处理器。 有着Ryzen 5000 3D缓存版的珠玉在前,

    2024年02月10日
    浏览(51)
  • 在英特尔 CPU 上微调 Stable Diffusion 模型

    扩散模型能够根据文本提示生成逼真的图像,这种能力促进了生成式人工智能的普及。人们已经开始把这些模型用在包括数据合成及内容创建在内的多个应用领域。Hugging Face Hub 包含超过 5 千个预训练的文生图 模型。这些模型与 Diffusers 库 结合使用,使得构建图像生成工作流

    2024年02月15日
    浏览(82)
  • 联手英特尔,释放星飞分布式全闪存储潜能

    近日,英特尔官网发布了与 XSKY 星辰天合联手打造的解决方案,即 XSKY 的新一代全闪分布式存储系统 XINFINI,该存储系统采用英特尔 QAT 加速数据压缩/解压缩,从而大幅度提升存储系统性能。 全闪存储系统面临的解压缩挑战 在存储系统的数据服务层中,通常需要进行一定的压

    2024年02月01日
    浏览(43)
  • 解决英特尔无线网卡WiFi或者蓝牙突然消失问题

    win+R,输入“devmgmt.msc”,检查设备管理器中的无线网卡驱动是否安装好。 访问https://www.intel.cn/content/www/cn/zh/download/19351/windows-10-and-windows-11-wi-fi-drivers-for-intel-wireless-adapters.html下载对应系统版本的英特尔无线网卡WiFi驱动后安装。 访问https://www.intel.cn/content/www/cn/zh/download/18649

    2024年01月17日
    浏览(88)
  • Ubuntu 22.04安装英特尔显卡驱动玩转AIGC

    作者 : 英特尔网路与边缘计算事业部开发者关系经理 李翊玮 本文将介绍如何使用EIV 用5行指令在快速搭建含英特尔显卡及OpenVINO的AI开发环境, 并简洁说明如何使用OpenVINO 及英特尔显卡优化文生图模型Stable Diffusion 的速度。 EIV (Edge Insight Vision) 具有一组预集成组件,专为边缘

    2024年02月06日
    浏览(44)
  • 英特尔和 ARM 将合作开发移动芯片技术,如何看待双方合作?

    最近市场传出Arm要自产芯片,供智能手机与笔电等使用后,外媒指Arm自产芯片将由英特尔晶圆代工部门打造,变成英特尔晶圆代工客户。将采用英特尔18A工艺,可以对标台积电的2纳米。 最近很多小伙伴找我,说想要一些ARM的资料,然后我根据自己从业十年经验,熬夜搞了几

    2024年01月17日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包