2023年Arm最新处理器架构分析——X4、A720和A520

这篇具有很好参考价值的文章主要介绍了2023年Arm最新处理器架构分析——X4、A720和A520。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、引言

上一篇文章我们介绍了Arm的Cortex-X1至Cortex-X3系列处理器,2023年的5月底,Arm如期发布了新一年的处理器架构,分别为超级大核心Cortex-X4,大核心A720和小核心A520。在智能手机行业,Arm始终保持每年一迭代的处理器架构升级节奏,让用户可以不断体验到最先进的产品设计。本文主要介绍了2023年的新处理器架构的变化,重点分析变化较大的Cortex-X4核心,并探讨今年核心处理器架构有哪些值得关注的改变。

2、整体介绍

从Arm的宣传数据可以看出,今年的三款处理机架构侧重点有所不同,Cortex-X4主打性能提升,相比上一代Cortex-X3提升15%的性能,A720和A520则偏重能效改善,相比上一代A715和A520分别改善20%和22%的能效。值得注意的是今年的处理器没有升级工艺,这些数据应该是基于相同工艺计算而来的(例如TSMC 4nm)。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

除了新的处理机架构,Arm在今年还带来了全新的Armv9.2指令集,包括新的QARMA3 PAC算法、浮点能力增加和PMU增强等,最关键的变化是今年Arm计划完全抛弃32bit应用的支持,三个新的核心均不兼容32bit应用。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

今年Arm还更新了DSU120模块,用来更好管理处理器核心之间的数据,并支持最多达14核心和最多32MB的L3缓存设计。从下面这张图可以看出来,今年的处理器设计也有明显变化,去年高通8Gen2处理器采用了1+4+3架构,今年我们会看到更少小核心的1+5+2架构(参考链接3,高通8Gen3处理器),多核心性能有大幅度提升。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

3、Cortex-X4微架构分析

Cortex-X4的代号是Hunter-ELP,下图是X4的微架构图,第一感觉是变“大”了,X4的核心变得越来越大,如果大家看过前几篇文章,应该可以感觉到这个微架构设计越来越像另外一款行业领先处理器,殊途同归,最优秀的设计往往只有一个选择,下面我们会详分析今年的核心改变。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

在前端设计上,X4取消了L0级别的MOP Cache,注意这个变化从大核心A715就开始了,这是一个大的改变,也侧面说明MOP Cache的成本可能真的很高,在先进工艺中不经济。为了弥补取消MOP Cache的影响,X4这次将Decoder的数量从6个增加到了10个。上一代X3,如果从MOP Cache取数据是8-wide,从L1取数据是6-wide,这次的X4则统一是10-wide。在流水线长度上,X3如果从L1取数据是11级,从MOP取数据是9级,这次由于取消了MOP,X4特意优化了流水线,从L1取数据从11级降到了10级。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

在后端设计上这次X4同样变化不少,特别是运算单元,增加了1个新的Branch单元,2个新的ALU单元,并且提供了第二个完整的 MAC ALU单元,这些对于整体性能的提升都有显著帮助。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

为了支撑新增的10个decoder和运算单元,X4的重排序缓冲(ROB)的尺寸也从320提升到384,提升了20%。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

在存储模块方面,Arm重新调整了Load和Store单元的数量,X3有个LS AGU和1个LD AGU,X4则调整为1个 LS AGU,2个LD AGU和1个ST AGU。从3个AGU提升到4个AGU,但是功能稍有差异。此外,像L1的d-TLB,也从48提升到了96,增强了数据的处理能力。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

这次X4核心还有一个特点是支持更大的L2缓存,从X3的最大支持1MB提升到X4最大支持2MB,根据Arm给出的数据显示,2MB的L2缓存可以有效降低每千条指令的重填充和写回率,不过由于增加缓存会增加成本,不一定所有厂商都愿意增加到最大的缓存尺寸。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

从X4的整体性能数据看,Sepcint2K7提升达到了2位数,Geekbench系列的提升在6-8%之间,只有个位数的提升,推测Geekbench对于L2不是很敏感,而对于L2缓存依赖的Sppdometer2这个benchmark提升比较明显,注意这里面的测试数据使用2MB的L2测试得出的。

此外Arm资料显示X4的典型CPU频率可以跑到3.4G左右,虽然厂商实际处理器频率还没有确认,但是从上一代天玑9200+运行在3.35G推测,3.4G应该是4nm能达到的一个比较高的频率水平。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

总结下Cortex-X4的关键改变:

1、取消了MOP Cache;

2、Decoder数量从6个提升到10个;

3、流水线统一为10级;

4、Branch单元从2个提升到3个;

5、ALU单元从6个提升到8个;

6、AGU单元增加了一个且功能有调整;

7、ROB尺寸从320提升到384;

8、L1的d-TLB从48提升到96;

9、最大支持的L2缓存从1MB提升到2MB;

10、不支持32bit。

整体性能上Sepcint2K7参数有13%-14%的提升。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

 资料直通车:Linux内核源码技术学习路线+视频教程内核源码

学习直通车:Linux内核源码内存调优文件系统进程管理设备驱动/网络协议栈

4、A720微架构分析

上一节我们列举了10条X4内核的微架构变化,相比X4的大动作,A720和A520的变化则没有那么大,但也有些值得我们研究和探讨。

首先我们来看下A720,A720的代号叫做Hunter,A720的设计目标是比A715提升20%的能效,在同样的功耗下,A720可以提供更强的性能。

A720的的微架构整体和A715差异不大,Arm并没有增加fetch-decode宽度,也没有增加诸如ROB尺寸之类的优化,而是进一步深入到微架构的细节调整以优化能效。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

在前端设计上,A720持续优化分支预测能力,通俗的说就是走一步看两步的能力。A720的分支预测错误的恢复周期从12降低到11周期,这个优化对于实际用户场景中无法准确预测的案例很有帮助。在分支预测能力上,A710的大核心每周期可以预测2个unconditional分支,A715额外支持了conditional分支,A720则进一步进行了优化了功耗,Arm宣称可以在不影响性能的情况下降低功耗。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

在后端设计上,A720通过管线化排序FDIV\FSQRT单元(除法和开方),提升指令执行能效。同时,A720优化了数据在整型和浮点单元的传输效率,降低数据传输的延迟和存储数据的延迟。A720还改进了发射队列和执行单元,简化网点到AGU的数据传输等。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

A720在存储模块上有一个较为明显的优化是降低了L2访问的延迟,从10个周期降低为9个周期,对于访存多的场景会比较有帮助。另外A720支持的最大L2缓存数量还是512KB。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

最后介绍一个A720在今年最大的变化,今年Arm的A720不是一个人,是一对双胞胎,Arm提供了另外一个A720min(暂时这样叫)的核心。这个核心和A720不同,在面积上做了一定的削减,整体核心面积大小和A78接近,性能上也弱于A720,但是比A78强10%左右。总结,A720min的面积和A78接近(耗电也应该接近),性能比A78强10%,属于A720的一个分支。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

最后简单总结下A720的关键改变:

1、分支预测错误的恢复周期从12降低到11周期;

2、L2访问延迟从10个周期降低为9个周期;

3、提供了一个A720min的选择,面积和A78接近,性能比A78强10%。

5、A520微架构分析

我们来看一下小核心A520,A520小核心的代号叫做Hayes,依然不支持乱序执行,设计相对简单,主打能效改善。A520依然继承了A510的2个小核心拼接在一起共享SIMD单元的设计,这次的A520也是仅支持64bit,不再支持32bit。A520提供了新的QARMA3 PAC算法,旨在将PAC的影响降低到1%以内。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

相比A510,A520为了提升能效还做了减法,主要的变化是减少了一个执行单元的ALU。A510有3个ALU,A520只有2个。当然,Arm说通过全局的优化有将性能的损失弥补回来,从Arm提供的数据上看,A520在相同的性能下,功耗可以降低22%;在相同的功耗下,性能可以提升约8%,我们也会实际测试看看。

可惜,8%的性能提升相比旗舰处理器的需求还是有一定差距,我们看到在今年的旗舰处理器设计上,芯片厂商在继续减少使用A520小核心,甚至有的厂商完全没有使用A520小核心。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

6、DSU120分析

最后我们来看一下用于协调处理器核心和缓存的DSU模块,Arm升级了最新的DSU120模块,可以在一个Cluster内支持最多14个核心,并且支持最多32MB的L3缓存管理。

DSU120提供了一个有价值的功能,随着L3缓存越来越大,静态漏电也成为一个需要考虑的影响因素,会影响手机的待机耗电场景。DSU120提供了一个L3部分关闭的功能,在一些不需要使用那么大缓存的场景,关闭部分L3缓存,可以减少静态漏电。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

7、总结

本文主要分析了Arm公司于2023年最新发布的Cortex-X4、A720和A520等处理器架构。今年是Arm公司发布的第四代X系列处理器,通过前面的分析,我们可以看到Arm在不断提升其核心处理器的计算性能,挑战业内最先进的架构设计。同时,Arm也通过优化A720、A520的能效,给用户提供在芯片能效上更有竞争力的产品组合。

2023年,芯片厂商也不满足传统的核心搭配,开始了减少小核心,增加大核心的架构升级。我们今年可以看到更多的多大核心SOC设计,在多核心性能上有了进一步的提升。无疑,2023年的处理器竞争会更加激烈,多大核心的引入也需要警惕功耗和发热增加的风险,作为芯片和智能设备终端的开发者,需要充分了解处理器架构,通过合理的软硬件调度设计,将芯片的能效优化到最佳,给用户提供最佳且可持续的性能表现。

2023年Arm最新处理器架构分析——X4、A720和A520,arm开发,Linux内核,Arm

 文章来源地址https://www.toymoban.com/news/detail-595371.html

到了这里,关于2023年Arm最新处理器架构分析——X4、A720和A520的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ARM处理器架构的Thumb指令集中关于IT指令的使用

    在ARMv6T2以及ARMv7架构扩展了Thumb指令集,其中加入了 IT 指令,进一步增强了代码的紧凑性。 Thumb中有一个比较有意思的指令—— IT ,这条指令用于根据指定的条件来执行后面相继的四条指令。当然,Thumb-2中大部分算术逻辑指令都含有带条件执行的特征,不过Thumb-2是32位的。

    2024年02月07日
    浏览(53)
  • 【架构】探索计算机处理器的世界:ARM和x86架构解析及指令集

    计算机处理器是数字化时代的核心引擎,而在众多处理器架构中,ARM和x86是备受关注的三个。本文将带您深入探索这三个架构,介绍它们的特点、公司背景以及应用领域。让我们一起揭开计算机处理器的神秘面纱吧! ARM(Advanced RISC Machines)是一种计算机指令集架构(ISA),

    2024年02月11日
    浏览(44)
  • 【软件工具】 Linux 中的 ARM 和 AMD 两种不同的处理器架构简介

    Linux 中的 ARM 和 AMD 两种不同的处理器架构。ARM 和 AMD 架构的主要区别在于它们的设计哲学、性能特性、能效和主要应用场景。以下是一些关键差异: 架构设计 : ARM(Advanced RISC Machine) :ARM 架构基于 RISC(精简指令集计算)原理。它使用更少的指令和简化的指令集,这有助

    2024年04月10日
    浏览(55)
  • RISC-V架构的开源处理器分析

    摘要: RISC-V架构本身面积小、性能较高,最为关键的是这一架构本身功耗较低且作为全新的开源精简指令集,无论是技术还是产品都得到了迅速的发展,效果突出。基于此,本文深入研究RISC-V架构开源处理器内部情况,明确不同模块的功能以及运行方式,并且围绕着实际案例

    2024年02月06日
    浏览(50)
  • 玩客云装新版青龙面板方法首发,2023年亲测,所有的arm32位处理器终于可以装新版青龙了

    先把旧版的青龙面板容器和镜像都删了,没装过的不用删 ssh连接玩客云或其他arm32位机器,先下载这个文件 重启docker  分别一行一行输入,回车 等待5-10分钟后 装青龙最新版

    2024年02月12日
    浏览(170)
  • 2023年最新水果DAW编曲软件fl studio21 macOS - 21.0.3.3036简体中文版免费下载支持苹果M1/M2处理器

    一直梦想制作自己的音乐(无论是作为一名制作人还是艺术家),你可能会想你出生在这个时代是你的幸运星。这个水果圈工作室和上一版之间的改进水平确实令人钦佩。这仅仅是FL Studio 21所提供的皮毛。你的音乐项目的选择真的会让你大吃一惊。你以前从未有过这样的多才多

    2024年02月03日
    浏览(53)
  • ARM处理器概述

    RISC处理器和CISC处理器 首先了解一下两种处理器名字: RISC(Reduced Instruction Set Computer): 精简指令集 处理器 与之相对应的是: CISC(Complex Instruction Set Computer): 复杂指令集 处理器 顾名思义,RISC比CISC更加简单,那么对于处理器来说什么能称为简单呢?可以联想为生活中可

    2024年02月13日
    浏览(57)
  • 除法的效率 arm处理器

    除法的效率 性能结论: 除法:545ms 乘法:93ms 差了3倍 代码: 测试结果 : void fun(Pack1* restrict in, Pack2* restrict out) ; __restrict__ 申明该指针为唯一的访问该内存的指针 优化成果: 时间优化为原来的82% 指令优化为74% cache miss 没有变化 优化对比 测试平台 MTK arm天机 8000

    2024年02月10日
    浏览(59)
  • DP读书:鲲鹏处理器 架构与编程(八)3.1鲲鹏处理器片上系统与Taishan处理器内核架构

    处理器体系结构,是一个偏底层的内容,但这是任一计算机系统的底层。 系统的性能、生态和功能很大程度上都依赖于计算机系统底层——处理器体系结构。任何一个系统程序员、固件设计者、应用程序员 甚至 服务器管理员,如果想要充分利用现代高性能处理器的硬件性能

    2024年02月12日
    浏览(55)
  • [ARM 汇编]进阶篇—异常处理与中断—2.4.2 ARM处理器的异常向量表

    异常向量表简介 在ARM架构中,异常向量表是一组固定位置的内存地址,它们包含了处理器在遇到异常时需要跳转到的处理程序的入口地址。每个异常类型都有一个对应的向量地址。当异常发生时,处理器会自动跳转到对应的向量地址,并开始执行异常处理程序。 异常向量表

    2024年02月09日
    浏览(83)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包