第3章 CPU微架构

这篇具有很好参考价值的文章主要介绍了第3章 CPU微架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

3.1 指令集架构

指令集ISA是软件用来与硬件通信的词汇集合,定义了软件和硬件之间的通信协议。Intel x86、ARM v8、RISC-V是当今广泛使用指令集架构的实例。ISA开发者通常要确保符合规范的软件能在使用该规范构建的任何处理器上执行。广泛部署的ISA组织通常还要保证向后兼容性以便第X代版本处理器编写的代码能够继续在第X+i代上运行。

除了提供标量访存、标量计算和控制指令之外,广泛部署的架构还在继续增强ISA以支持新的计算范式,包括增强的向量处理指令和矩阵/张量指令

随着深度学习领域的快速发展,业界对其他数字格式变量驱动的显著性能提升重新产生了兴趣。研究表明,在使用更少的位来表示变量、节省算力和内存带宽方面,深度学习模型表现同样出色

3.2 流水线

流水线是加快CPU速度的基础技术,其中多条指令在执行过程中可以重叠。简单5段流水线:取指、译码、执行、访存、写回。(寄存器重命名、发射、去操作数、提交)

很多现代CPU都是深度流水线化的。流水线的吞吐量定义为单位时间内完成和退出流水线的指令数。任何给定指令的延迟是指经过流水线所有阶段的总时间。将指令从一个阶段移动到另一个阶段所需的时间定义为CPU的基本时钟周期或时钟。流水线运行的时钟周期数通常由流水线最慢的阶段决定。理想流水线中每条指令的执行时间由下式给出:
        流水化后每条指令的执行时间=非流水情况/流水阶段数

实际中的流水线会引入几个约束:结构冒险、数据冒险和控制冒险。幸运的是,程序员不需要应对流水线冒险,在现代单核CPU中所有类别的冒险都是由硬件控制的。

结构冒险由资源冲突引起,可以通过复制硬件资源(多端口寄存器)来消除,代价是硅面积和功耗方面的成本会很高昂。

数据冒险中WAW和WAR可以通过寄存器重命名来避免,RAW可以通过旁路网络来减轻损失。

控制冒险由程序执行流程的变化而导致的。它们产生于流水线分支指令和其他更改程序流程的指令。决定分支方向的分支条件在流水线的EXE阶段才能见分晓。因此,除非消除控制冒险,否则下一条指令的获取不能被流水线化。不过可以用动态分支预测和投机执行来克服该冒险。

3.3 利用指令级并行

因为程序中大多数指令是独立的,所以适合流水线化和并行执行。

3.3.1 乱序执行

乱序执行主要用于避免因为依赖而引起的流水线停顿。指令的动态调度是通过复杂的硬件结构(记分板)和诸如寄存器重命名之类的技术实现的。记分板的大小决定了硬件在调度此类独立指令时可以提前多长时间进行。

3.3.2 超标量引擎和超长指令字

目前CPU的典型发射宽度为2~6。为了保证恰当的平衡,这种超标量引擎还支持多个执行单元和流水线执行单元。CPU的多发射功能与深度流水线和乱序执行功能相结合,以获取软件给定片段的最大ILP。

Intel Itanium等架构使用VLIW,将调度超标量和多执行单元处理器的负担从硬件转移到编译器。基本原理在于要求编译器选择正确的指令组合使得机器被充分利用,从而简化硬件。因为硬件受制于指令窗口长度的限制,而编译器可以获取全局信息。

3.3.3 投机执行

如果指令在分支条件得到确定之前停顿,控制冒险可能会导致流水线中显著的性能损失。硬件预测分支逻辑是一种避免这种性能损失的技术。

在条件结果得以明确之前,无法提交对机器状态的修改,以确保机器的架构状态永远不受投机执行指令的影响。当预测错误时,投机执行的结果必须被制止和丢弃,即分支预测错误惩罚。

3.4 利用线程级并行

硬件多线程CPU支持专用硬件资源以独立地跟踪CPU中每个线程的状态,目的是线程由于长时延活动(如内存引用)而被阻塞时,以最小的延迟从一个上下文切换到另一个上下文(不会产生保存和恢复线程上下文的成本)。

同步多线程SMT将指令级并行技术和多线程技术相结合,以最大限度地利用硬件资源。来自多个线程的指令在同一时间周期内执行。为了支持SMT,CPU必须复制硬件来存储线程状态(程序计数器、寄存器等),跟踪乱序执行和投机执行的资源可以在线程间复制或分段共享。

3.5 存储器层次

CPU存储器层次划分基于两个基本特性:时间和空间局部性。

3.5.1 高速缓存层次

高速缓存是CPU流水线发出访存时的存储器层次中的第一级。理想情况下,流水线在具有最小访问延迟和无限容量缓存时表现最佳。实际上高速缓存访问时间随容量的增加而增加。因此,高速缓存被组织为最接近执行单元的小型快速存储块的层次结构,且由更大、更慢的块进行备份。

高速缓存由多个确定大小的块(缓存行)组成,典型大小为64字节。L1大小通常在8KB~32KB,而LLC大小通常在64KB~16MB。任何层级的高速缓存的架构都可以由以下4个属性定义:

3.5.1.1 高速缓存中数据的放置

内存访问请求中的地址可以用来访问高速缓存。在直接映射中,内存块的地址只能出现在高速缓存中的一个位置。在全相联中,给定的缓存块可以放在高速缓存的任何位置。在组相联中,给定地址首先映射到一个组中,该地址可以映射在组中的任何位置。

3.5.1.2 在高速缓存中查找数据

                                        address:标签 索引 块偏移量

地址中的最低顺序位定义了块内偏移量,组则是基于索引位来选择,一旦组被选定,就可以使用标签位来与该组中的所有标签进行比较。如果其中一个标签与传入请求的标签匹配并且设置了有效位,则缓存命中。与该块条目相关联的数据被提供给流水线。如果不匹配,则缓存未命中。

3.5.1.3 管理缓存未命中

当发生高速未命中,控制器必须在缓存中选择要替换的块,以分配给导致缓存未命中的地址。直接映射只能分配一个位置,组相连可以分配组内任何位置,全相联可以分配所有位置。不过组相连和全相连一般会使用LRU策略来释放缓存块,为未命中地址腾出缓存空间。

3.5.1.4 管理写操作

CPU设计使用2种基本机制来处理高速缓存中的缓存命中写入操作:
        1. 写直达:命中的数据同时写入缓存块和层次结构中较低的层级。
        2. 写回:命中的数据只写入缓存。因此层次结构较低层级中就会包含过期数据,修改后的缓存行的状态通过标签中的脏标识来追踪。当修改后的缓存行最终被从缓存行中驱逐时,写回操作会强制将缓存行写回层次结构的较低层级中。

写入操作时的高速缓存未命中可以通过2种方式处理:
        1. 写分配:未命中位置的数据从层次结构中较低层级加载到高速缓存中,随后像写入命中情况一样处理剩余写入操作。
        2. 写不分配:未命中事务直接被发送到层次结构中所有的较低层级,并且缓存块不会被加载到高速缓存中。

大多数设计写分配+写回,写不分配+写直达策略。

3.5.1.5 其他高速缓存优化技术

从流水线的角度来说,任何访问请求的延迟都可以由以下公式计算出来:
        平均延迟 = 命中时间 + 未命中比例 * 未命中时间;

未命中比例高度依赖缓存的架构(块大小、关联性)以及运行在机器上的软件。

硬件和软件预取:减少缓存未命中以及后续停顿的方法之一,提前将指令和数据预取到高速缓存层次的不同层级。

硬件预取器观察正在运行的应用程序的行为,并基于重复的高速缓存未命中规律启动预取。硬件预取技术可以自动适应程序行为,并且不需要优化编译器或者剖析功能的支持。另外,硬件预取也不会有额外的地址生成和指令预取开销。

软件预取是对硬件预取的补充,开发者可以通过特定的硬件指令提前指定需要的内存位置。编译器还可以自动将预取指令添加到代码中。预取技术需要平衡实际需求和预取请求,以避免预取流量挤压实际需求流量。

3.5.2 主存

主存使用大容量且成本合适的DRAM技术,主要属性定义为延迟、带宽和容量。延迟包括2部分:
        1. 内存访问时间:请求到数据可用时所消耗的时间。
        2. 内存周期时间:两个连续的内存访问之间所需的最短时间。

历史上,DRAM带宽每一代都得到提升,而延迟保持不变,甚至更高。

新的DRAM技术,GDDR和HBM在需要更大更宽的定制处理器上使用,所以不被DDR接口支持

现代CPU支持多个独立通道的DRAM。一般而言,每一个内存通道的宽度是32位或者64位。

3.6 虚拟内存

虚拟内存是让所有运行在CPU上的进程可以共享属于物理内存的机制。虚拟内存提供一种保护机制,可以限制其他进程对分配给指定进程内存的访问。虚拟内存还提供重定位机制,即能将程序加载到物理内存的任意位置而无需改变程序内寻址方式。

虚拟地址由提供虚拟地址和物理地址之间映射的专用硬件表翻译成物理地址,这些表被称为页表。

                                虚拟地址:虚拟页编号 页偏移量

其中虚拟页编号通过页表被转换为物理地址。如果请求的页不在主存内,则会导致缺页问题

CPU通常使用层级结构的页表格式将虚拟地址位有效地映射到可用的物理内存,缺点是缺页代价很高,需要遍历整个层级结构。为了减少地址翻译时间,CPU支持TLB的硬件结构来缓存最近使用过的翻译。

3.7 SIMD多处理器

向量和矩阵计算都非常适合SIMD架构,因为向量或矩阵的每个元素都需要使用相同的指令进行处理。SIMD多处理器主要用于数据并行并且只需要少量功能和操作的特殊用途任务。MMX-SSE-AVX。起初,新的SIMD指令以汇编的方式编程。后来,引入了特殊的编译器内建函数。

3.9 性能监控单元

现代CPU包含性能检测单元PMU,PMU有一组性能监控计数器PMC,用以收集程序运行过程中发生的各种性能事件。

PMU提供固定功能计数器以及可编程计数器。固定功能计数器总是测量CPU核内的同一事件,而可编程计数器由用户来选择想要测量的事件。通常,每个逻辑核有4个可编程计数器和3个固定功能计数器。固定功能通常被设置为计算核时钟、参考时钟和退休指令。文章来源地址https://www.toymoban.com/news/detail-671313.html

到了这里,关于第3章 CPU微架构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 后端接口性能优化分析

    👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家 📕系列专栏:Spring源码、JUC源码 🔥如果感觉博主的文章还不错的话,请👍三连支持👍一下博主哦 🍂博主正在努力完成2023计划中:源码溯源,一探究竟 📝联系方式:nhs19990716,加我进群

    2024年02月05日
    浏览(48)
  • 性能优化之影响分析

    性能非常重要,而具体反映到我们的业务场景中,可能会有如下影响: 不利于用户留存 站点页面的展现速度非常影响用户体验,很多用户会因等待的不耐而放弃站点。 研究表明,47 % 的消费者希望页面能够在 2s 内打开。 移动端的页面应该在 3 秒钟内完成加载,若超过这个时

    2024年02月06日
    浏览(47)
  • Unity性能优化分析篇

    性能优化是游戏项目开发中一个重要环节。游戏帧率过低,手机发烫, 包体太大,低端机上跑不起来等, 这些都需要来做优化,不管过去,现在,未来,性能优化都是永恒的话题。 而性能优化首先要掌握的是性能分析,通过分析才能发现问题所在。性能分析对于游戏开发是必

    2024年02月03日
    浏览(61)
  • 【万字解析】Webpack 优化构建性能(分析->优化)

    全局安装 webpack-bundle-analyzer 插件 运行 webpack-bundle-analyzer 开始打包,需要获取所有的依赖模块 搜索所有的依赖项,这需要占用一定的时间,即搜索时间,那么就确定了: 需要优化的第一个时间就是 搜索时间 。 解析所有的依赖模块(解析成浏览器可运行的代码) Webpack 根据

    2024年01月21日
    浏览(48)
  • [MySQL] SQL优化之性能分析

    🌈键盘敲烂,年薪30万🌈 目录 一、索引优化 1、索引是什么: 2、索引的数据结构: 3、索引种类: 4、sql分析(回表查询) 二、定位慢查询语句 1、慢查询日志 2、profile详情 3、explain执行计划(重点) 4、查看执行频次   1、索引是什么: 通过一些约束,快速查询到相应字段

    2024年02月05日
    浏览(52)
  • Unity性能优化与分析--GPU

    每一帧,Unity 都需要确定必须渲染哪些对象,然后创建绘制调用。绘制调用是调用图形 API 来绘制对象(如三角形),而批处理是要一起执行的一组绘制调用。 随着项目变得更加复杂,您需要用管线来优化 GPU 的工作负载。 通用渲染管线 (URP) 目前使用单通道前向渲染器将高质

    2024年03月15日
    浏览(54)
  • PyTorch 模型性能分析和优化 - 第 2 部分

    动动发财的小手,点个赞吧! 这是有关分析和优化在 GPU 上运行的 PyTorch 模型主题的系列文章的第二部分。在第一篇文章中,我们演示了使用 PyTorch Profiler 和 TensorBoard 迭代分析和优化 PyTorch 模型的过程以及巨大潜力。在这篇文章中,我们将重点关注 PyTorch 中由于使用急切执行

    2024年02月11日
    浏览(34)
  • PyTorch 模型性能分析和优化 - 第 3 部分

    这 [1] 是关于使用 PyTorch Profiler 和 TensorBoard 分析和优化 PyTorch 模型主题的系列文章的第三部分。我们的目的是强调基于 GPU 的训练工作负载的性能分析和优化的好处及其对训练速度和成本的潜在影响。特别是,我们希望向所有机器学习开发人员展示 PyTorch Profiler 和 TensorBoard 等

    2024年02月10日
    浏览(38)
  • Unreal Engine 虚幻引擎,性能分析,优化(二)

    目录 一、CPU 性能分析 二、GPU性能分析 三、Memory内存使用 一、CPU 性能分析 如渲染线程中出现 CPU 受限,原因可能是绘制调用过多。这是一个常见问题,美术师通常会将绘制调用进行组合,从而减少消耗(如:将多个墙壁组合为一个网格体)。实际消耗存在于多个区域中:

    2024年02月05日
    浏览(61)
  • flutter的setState详细分析以及性能优化

    Flutter的setState()方法是用于更新widget状态的。在Flutter中,widget通常被描述为不可变的对象,当widget的状态发生改变时,Flutter会创建一个新的widget,并将其与之前的widget进行比较,然后进行重建。因此,使用setState()方法可以告诉Flutter重新构建当前widget的子树。 setState()方法的

    2024年02月04日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包