x86平台SIMD编程入门(4):整型指令

这篇具有很好参考价值的文章主要介绍了x86平台SIMD编程入门(4):整型指令。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、算术指令

算术类型 函数示例
_mm_add_epi32_mm256_sub_epi16
_mm_sub_epi32_mm256_sub_epi16
_mm_mul_epi32_mm_mullo_epi32
水平加/减 _mm_hadd_epi16_mm256_hsub_epi32
饱和加/减 _mm_adds_epi8_mm256_subs_epi16
最大/最小值 _mm_max_epu8_mm256_min_epi32
绝对值 _mm_abs_epi16_mm256_abs_epi32
平均值 _mm_avg_epu16_mm256_avg_epu8

没有整数除法的SIMD指令。如果要将所有通道都除以一个编译时常数,可以使用一个小技巧:编写一个函数,将相同类型的标量除以该常数,然后使用Compiler Explorer编译成汇编指令,最后移植成相应SIMD指令。例如,要把uint16_t类型的整数除以11,则上述技巧的操作过程如下:

// STEP1: 写一个计算除法的普通函数
#include <cstdint>
uint16_t div11(uint16_t a)
{
    return a / 11;
}

// STEP2: 将上面的代码复制到Compiler Explorer中,生成对应的汇编代码如下
div11(unsigned short):
        push    rbp
        mov     rbp, rsp
        mov     eax, edi
        mov     WORD PTR [rbp-4], ax
        movzx   eax, WORD PTR [rbp-4]
        movzx   eax, ax
        imul    eax, eax, 47663
        shr     eax, 16
        shr     ax, 3
        pop     rbp
        ret

// STEP3: 参考上述汇编代码中的计算方式,编写对应的SIMD指令
__m128i div_by_11_epu16(__m128i x)
{
    x = _mm_mulhi_epu16(x, _mm_set1_epi16((short)47663));
    return _mm_srli_epi16(x, 3);
}

整数指令中有一类比较“奇怪”指令,是_mm_sad_epu8(SSE2)和_mm256_sad_epu8(AVX2),它们的运算逻辑相当于以下代码:

array<uint64_t, 4> avx2_sad_epu8(array<uint8_t, 32> a, array<uint8_t, 32> b)
{
    array<uint64_t, 4> result;
    for (int i = 0; i < 4; i++)
    {
        uint16_t totalAbsDiff = 0;
        for (int j = 0; j < 8; j++)
        {
            const uint8_t va = a[i * 8 + j];
            const uint8_t vb = b[i * 8 + j];
            const int absDiff = abs((int)va - (int)vb);
            totalAbsDiff += (uint16_t)absDiff;
        }
        result[i] = totalAbsDiff;
    }
    return result;
}

它们可能最初是为了视频编码器设计的,用于估算压缩误差。不过这些指令也可以用来做与视频编码无关的事,例如用它们来计算所有字节的总和就非常快速,只要把_mm_sad_epu8第二个参数设为全零向量,然后使用_mm_add_epi64累加结果即可。

2、比较指令

运算符 函数示例
等于 _mm_cmpeq_epi8_mm256_cmpeq_epi64
大于 _mm_cmpgt_epi8_mm256_cmpgt_epi64
小于 _mm_cmplt_epi8_mm_cmplt_epi16_mm_cmplt_epi32

整数比较指令只有全通道的版本。与浮点数比较指令类似,整数比较结果也会被设置成全0或者全1。全1的有符号整数等于-1,若要统计比较结果为真的数量,一个技巧是使用下面代码所示的整数减法。使用这个技巧时要注意累加器的整数溢出问题,解决这个问题的一种方法是嵌套循环,内循环保证累加器不会溢出,外循环把内循环的累加结果投射到更宽的整数类型上。

const __m128i cmp = _mm_cmpgt_epi32(val, threshold);
acc = _mm_sub_epi32(acc, cmp); // acc是保存计数的累加器

没有小于等于或大于等于的整数比较指令。如果要比较a <= b这样情况,可以使用min(a, b) == a这样的方法来实现。

没有无符号整数的比较指令。如果有需要,可以参考下面的方法手动实现:

__m128i cmpgt_epu16(__m128i a, __m128i b)
{
    const __m128i highBit = _mm_set1_epi16((short)0x8000);
    a = _mm_xor_si128(a, highBit);
    b = _mm_xor_si128(b, highBit);
    return _mm_cmpgt_epi16(a, b);
}

movemask指令只有8位整数的版本。如果想要在通用寄存器中获得32位整数的比较结果,一种变通的方法是先把__m128i重解释转换成__m128然后使用_mm_movemask_ps(对于64位结果则是先转换成__m128d然后使用_mm_movemask_pd)。

3、移位指令

3.1、寄存器移位

函数示例 说明
_mm_slli_si128 __m128i寄存器整体进行左移
_mm_srli_si128 __m128i寄存器整体进行右移
_mm256_slli_si256 __m256i寄存器中的高低两个128位数据分别进行左移(如果要对256位数据整体移位,可以参考这个stackoverflow链接)
_mm256_srli_si256 __m256i寄存器中的高低两个128位数据分别进行右移
_mm_alignr_pi8 将两个__m64输入向量首尾拼接后右移
_mm_alignr_epi8 将两个__m128i输入向量首尾拼接后右移
_mm256_alignr_epi8 将两个__m256i输入向量中的高低128位分别首尾拼接后右移

上表中的最小移位步长都是1字节。

3.2、通道移位

下表所列的函数是对每个通道都做等长的移位操作。例如_mm_srli_epi16(x, 4)会把通道中的0x8015转换为0x0801

函数示例 说明
_mm_slli_epi16_mm_slli_epi32_mm_slli_epi64 __m128i寄存器的每个通道都做等长的左移
_mm_srli_epi16_mm_srli_epi32_mm_srli_epi64 __m128i寄存器的每个通道都做等长的右移
_mm256_slli_epi16_mm256_slli_epi32_mm256_slli_epi64 __m256i寄存器的每个通道都做等长的左移
_mm256_srli_epi16_mm256_srli_epi32_mm256_srli_epi64 __m256i寄存器的每个通道都做等长的右移

还有一类移位函数会保留符号位,它们是_mm_srai_epi16_mm_srai_epi32_mm256_srai_epi16_mm256_srai_epi32。这类函数可能是为了弥补整数除法指令的缺失,例如_mm_srai_epi16(x, 4)会把通道中的0x8015转换为0xF801,它相当于为有符号的int16_t整数做了除法x / 16

AVX2引入了一系列指令来为每个通道分别指定不同的移位长度,它们是_mm_sllv_epi32_mm_sllv_epi64_mm_srlv_epi32_mm_srlv_epi64以及对应的_mm256前缀版本。

4、打包与解包指令

函数示例 说明
_mm_unpacklo_epi32 输入两个向量[a, b, c, d]和[e, f, g, h],返回[a, e, b, f]。
_mm_unpackhi_epi32 输入两个向量[a, b, c, d]和[e, f, g, h],返回[c, g, d, h]
_mm_packs_epi16 输入两个有符号整数向量,使用饱和运算将每个通道打包为位宽减半的类型
_mm_packus_epi16 输入两个无符号整数向量,使用饱和运算将每个通道打包为位宽减半的类型

unpacklo/unpackhi指令的一种用法是:如果第二个输入向量为全0,就可以把无符号整数转换到更宽的类型,例如8位无符号整数变为16位无符号整数。不过,也有指令可以直接实现无符号整数向更宽类型的转换,例如_mm_cvtepu16_epi32_mm256_cvtepu8_epi32等。文章来源地址https://www.toymoban.com/news/detail-741779.html

5、洗牌指令

函数示例 说明 示意图
_mm_shuffle_epi32 右图中,控制常数是0x0D(二进制 00 00 11 01)。输出向量的4个通道分别来自输入向量的0b01、0b11、0b00、0b00号通道。 x86平台SIMD编程入门(4):整型指令
_mm_shufflelo_epi16 对低4个通道进行洗牌,高4个通道直接复制。右图中的控制常数是0x0D。 x86平台SIMD编程入门(4):整型指令
_mm_shufflehi_epi16 对高4个通道进行洗牌,低4个通道直接复制。右图中的控制常数是0x0D。 x86平台SIMD编程入门(4):整型指令
_mm_insert_epi16 插入一个整数。与浮点数插入指令不同的是,插入的整数来自通用寄存器。 x86平台SIMD编程入门(4):整型指令
_mm_blend_epi16 混合两个寄存器的通道。右图中的控制常数是0xB8(二进制 10111000)。 x86平台SIMD编程入门(4):整型指令
_mm_broadcastb_epi8
_mm_broadcastw_epi16
_mm_broadcastd_epi32
_mm_broadcastq_epi64
把最低的通道广播到其它通道,右图是_mm_broadcastd_epi32 x86平台SIMD编程入门(4):整型指令
_mm_blendv_epi8 与blend指令不同的是,混合位掩码不直接编码到指令中,而是使用另一个寄存器。
_mm256_permutevar8x32_epi32 接收一个包含源数据的整数寄存器和一个包含源索引的整数寄存器,根据索引值选择通道。
_mm_shuffle_epi8 与其它类型的shuffle指令不同,这是唯一一条运行时按变量洗牌的指令。

到了这里,关于x86平台SIMD编程入门(4):整型指令的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【ARMv8 SIMD和浮点指令编程】浮点数据转换指令——数据类型互转必备

    浮点数据转换指令包括不同的浮点精度数之间的转换,还包括整型和浮点数之间的转化。 在了解数据转换指令前,必须学习 IEEE 754 定义的五种舍入规则。前两条规则舍入到最接近的值,其他的称为定向舍入: 舍入到最接近的值 Round to nearest, ties to even – rounds to the nearest va

    2024年02月02日
    浏览(54)
  • (汇编) 基于VS的x86汇编基础指令

    visual studio 选择x86运行 示例代码 OV 溢出 超出表示范围为溢出 1,否则 0 UP 增量 1:以递减顺序对数据串处理;0:以递增顺序对数据串处理 EI 允许中断 CPU允许中断1,否则0 PL 正 运算结果为正则为1,否则0 ZR 零 运算结果为0则为1,否则0 AC 辅助进位 低4位向高位进位1,否则0 P

    2024年02月06日
    浏览(43)
  • x86汇编_MUL/IMUL乘法指令_笔记52

    32位模式下整数乘法可以实现32、16或8位的操作,64位下还可以使用64位操作数。MUL执行无符号乘法,IMUL执行有符号乘法。 MUL指令:无符号数乘法 32 位模式下,MUL(无符号数乘法)指令有三种类型: 执行 8 位操作数与 AL 寄存器的乘法; 执行 16 位操作数与 AX 寄存器的乘法;

    2024年02月07日
    浏览(38)
  • 发布 VectorTraits v2.0(支持 x86的Sse系列指令集等)

    目录 支持 x86的Sse系列指令集 为 Vector128/Vector256 补充全部的向量方法 提供CPU型号信息 结果范例1: X86 CPU on Windows 结果范例2: Arm CPU on Linux 结果范例3: Arm CPU on Mac OS 提供所支持的指令集信息 结果范例1: X86 CPU on Windows 结果范例2: Arm CPU on Linux 结果范例3: Arm CPU on Mac OS 新增了向量方

    2024年03月17日
    浏览(34)
  • x86 平台运行 arm 的方法

    参考: https://github.com/multiarch/qemu-user-static 核心是使用 binfmt_misc 设定运行 arm 的默认程序为 qemu-aarch64-static 1.先下载 arm64 即 aarch64 的运行文件 2.设置默认打开方式, 即设置 binfmt_misc 以支持 arm64 程序的运行 # --reset 会删除同名条目后重新设置 3.测试 4.不用映射qemu-*-static也可以使用

    2024年02月12日
    浏览(219)
  • 【ARMv8 SIMD和浮点指令编程】NEON 乘法指令——乘法知多少?

    NEON 乘法指令包括向量乘法、向量乘加和向量乘减,还有和饱和相关的指令。总之,乘法指令是必修课,在我们的实际开发中会经常遇到。 1 MUL (by element) 乘(向量,按元素)。该指令将第一个源 SIMDFP 寄存器中的向量元素乘以第二个源 SIMDFP 寄存器中的指定值,将结果放入向

    2024年02月08日
    浏览(41)
  • docker在x86平台下载arm的镜像

    6、进入该arm版本的详细页面,在该页面的上方有本版本镜像的sha校验值。 7、复制该值,使用如下命令在x86平台上进行下载即可。 docker pull nginx:latest@sha256:687e0e4a235ee770533f6c25fb5791b14d7b6aa603ba4ed724abbd2ed51ee11a 8、完成下载,如图:

    2024年02月12日
    浏览(76)
  • 【架构】探索计算机处理器的世界:ARM和x86架构解析及指令集

    计算机处理器是数字化时代的核心引擎,而在众多处理器架构中,ARM和x86是备受关注的三个。本文将带您深入探索这三个架构,介绍它们的特点、公司背景以及应用领域。让我们一起揭开计算机处理器的神秘面纱吧! ARM(Advanced RISC Machines)是一种计算机指令集架构(ISA),

    2024年02月11日
    浏览(41)
  • 【ARMv8 SIMD和浮点指令编程】浮点加减乘除指令——四则运算

    浮点指令有专门的加减乘除四则运算指令,比如 FADD、FSUB、FMUL、FDIV 等。 1 FADD (scalar) 浮点加法(标量)。该指令将两个源 SIMDFP 寄存器的浮点值相加,并将结果写入目标 SIMDFP 寄存器。 该指令可以产生浮点异常。根据 FPCR 中的设置,异常会导致在 FPSR 中设置标志,或者生成同

    2024年02月05日
    浏览(51)
  • Mac x86 Ollama使用入门

    Mac上可以本地运行大模型,作为Mac x86硬件,比较好的选择是Ollama,但有一些准备工作,需要明确一下,否则坑也会比较多。 1、下载地址: 官网 2、也可以通过安装Docker Desktop(下载: x86 Docker Desktop),再下载Docker官方的Ollama。 3、安装Ollama并运行命令:ollama run gemma 4、安装

    2024年04月26日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包