【ARMv8 SIMD和浮点指令编程】NEON 通用数据处理指令——复制、反转、提取、转置...

1年前作者：TYYJ-洪伟分类：Toy博客阅读(10)违法举报

这篇具有很好参考价值的文章主要介绍了【ARMv8 SIMD和浮点指令编程】NEON 通用数据处理指令——复制、反转、提取、转置...。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

NEON 通用数据处理指令包括以下指令（不限于）：

• DUP

将标量复制到向量的所有向量线。

• EXT

提取。

• REV16、REV32、REV64

反转向量中的元素。

• TBL、TBX

向量表查找。

• TRN

向量转置。

• UZP、ZIP

向量交叉存取和反向交叉存取。

1 DUP (element)

将向量元素复制为向量或标量。该指令将源 SIMD&FP 寄存器中指定元素索引处的向量元素复制为标量或向量中的每个元素，并将结果写入目标 SIMD&FP 寄存器。

标量

【ARMv8 SIMD和浮点指令编程】NEON 通用数据处理指令——复制、反转、提取、转置...,NEON,neon,simd,armv8,A64,zip

DUP <V><d>, <Vn>.<T>[<index>]

向量

【ARMv8 SIMD和浮点指令编程】NEON 通用数据处理指令——复制、反转、提取、转置...,NEON,neon,simd,armv8,A64,zip

DUP <Vd>.<T>, <Vn>.<Ts>[<index>]

<T> ：

对于标量变体，是元素宽度说明符，以“imm5”编码：文章来源地址https://www.toymoban.com/news/detail-734460.html

imm5

到了这里，关于【ARMv8 SIMD和浮点指令编程】NEON 通用数据处理指令——复制、反转、提取、转置...的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【ARMv8 SIMD和浮点指令编程】浮点数据转换指令——数据类型互转必备
浮点数据转换指令包括不同的浮点精度数之间的转换，还包括整型和浮点数之间的转化。在了解数据转换指令前，必须学习 IEEE 754 定义的五种舍入规则。前两条规则舍入到最接近的值，其他的称为定向舍入：舍入到最接近的值 Round to nearest, ties to even – rounds to the nearest va
2024年02月02日
浏览(11)
x86平台SIMD编程入门(3)：浮点指令
算术类型函数示例备注加 _mm_add_sd 、 _mm256_add_ps 减 _mm_sub_sd 、 _mm256_sub_ps 乘 _mm_mul_sd 、 _mm256_mul_ps 除 _mm_div_sd 、 _mm256_div_ps 平方根 _mm_sqrt_sd 、 _mm256_sqrt_ps 倒数 _mm_rcp_ss 、 _mm_rcp_ps 、 _mm256_rcp_ps 快速计算32位浮点数的近似倒数(1/x)，最大相对误差小于 (1.5times 2^{-12}) 。倒数
2024年02月06日
浏览(9)
【ARMv8 编程】A64 内存访问指令——内存加载指令
与所有先前的 ARM 处理器一样，ARMv8 架构是一种加载/存储架构。这意味着没有数据处理指令直接对内存中的数据进行操作。数据必须首先被加载到寄存器中，修改，然后存储到内存中。该程序必须指定地址、要传输的数据大小以及源或目标寄存器。有额外的加载和存储指令提
2024年02月02日
浏览(12)
x86平台SIMD编程入门(2)：通用指令
虽然128位的XMM寄存器在硬件上只是256位YMM寄存器的下半部分，但在C++中它们是不同的类型。有一些intrinsic函数可以将它们重新解释为不同的类型，如下表所示，行代表源类型，列代表目标类型。 __m128 __m128d __m128i __m256 __m256d __m256d __m128 = _mm_castps_pd _mm_castps_si128 _mm256_castps128_p
2024年02月06日
浏览(10)
ARMv8 汇编指令
MOV Xd|SP, Xn|SP MOV Xd|SP, #imm16 常用于寄存器之间的搬移和立即数搬移，仅仅支持imm16， 0-4096大小范围的立即数操作 MRS: 状态寄存器 -- 通用寄存器的传送指令。 MSR: 通用寄存器 -- 状态寄存器的传送指令。注意：在ARMv7里通过CP15协处理器方位系统寄存器还可以访问PSTATE寄存器一
2024年04月27日
浏览(14)
ARMv8-A 与异常相关的指令
最近一直在学习 ARMv8-A 的东西，记录一下与异常相关的指令。下面的内容基于AArch64讨论，暂不考虑 AArch32。与异常生成相关的指令如下所示。下面主要学习 SVC 和 HVC 。 1. SVC SVC (Supervisor Call) 产生一个路由到 EL1 的异常，可以调用系统服务这些。此时， ESR_ELx.EC = 0x15 。 2. HVC
2024年02月21日
浏览(8)
【ARM Cortex-M 系列 3 番外篇 -- ARMv6, ARMv7, ARMv8, ARMv9 架构差异及精简指令集与复杂指令集介绍】
上篇文章：ARM Cortex-M 系列 2.1 – RT-Thread Cortex-M7 异常处理及 hardfault 处理分析 ARM架构是一种处理器架构，全称为高级精简指令集计算机（Advanced RISC Machine）。它是英国ARM公司设计的一种精简指令集（ RISC ）处理器架构，和复杂指令集（ CISC ）处理器架构相对。 CISC 与 RISC 差异
2024年02月08日
浏览(13)
DP读书：鲲鹏处理器架构与编程（七）ARMv8-A 体系结构
大家好，我是DP，一名最近开始研究处理器与服务器的小白，以下是我在阅读鲲鹏处理器架构与编程第二章 ARMv8-A体系结构的笔记，希望能加深大家对该种架构的理解，但这是相当底层的原理，也是很多提供云原生的服务器底层架构。 2011年11月，ARM公司发布首个支持64位指
2024年02月12日
浏览(40)
x86平台SIMD编程入门(4)：整型指令
算术类型函数示例加 _mm_add_epi32 、 _mm256_sub_epi16 减 _mm_sub_epi32 、 _mm256_sub_epi16 乘 _mm_mul_epi32 、 _mm_mullo_epi32 除无水平加/减 _mm_hadd_epi16 、 _mm256_hsub_epi32 饱和加/减 _mm_adds_epi8 、 _mm256_subs_epi16 最大/最小值 _mm_max_epu8 、 _mm256_min_epi32 绝对值 _mm_abs_epi16 、 _mm256_abs_epi32 平均值 _mm
2024年02月06日
浏览(12)
2023年的深度学习入门指南(9) - SIMD和通用GPU编程
深度学习从一开始就跟GPU有不解之缘，因为算力是深度学习不可或缺的一部分。时至今日，虽然多任务编程早已经深入人心，但是很多同学还没有接触过CPU上的SIMD指令，更不用说GPGPU的编程。这一篇我们先给SIMD和GPU编程扫个盲，让大家以后用到的时候有个感性认识。从多线
2024年02月02日
浏览(13)