向量化实现矩阵运算优化(一)

这篇具有很好参考价值的文章主要介绍了向量化实现矩阵运算优化(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

xsimd简介

  xsimd是C++的一个开源simd库,实现了对常见simd指令的封装,从而使得simd的操作更为简单。接下来先从两个简单的例子来入门xsimd。

void average(const std::vector<double>& v1, const std::vector<double>& v2, std::vector<double>& v) {
    int n = v.size();
    int size = xsimd::batch<double, xsimd::avx>::size;
    int loop = n - n % size;

    for (int i = 0; i < loop; i += size) {
        auto a = xsimd::batch<double>::load_unaligned(&v1[i]);
        auto b = xsimd::batch<double>::load_unaligned(&v2[i]);
        auto res = a + b; 
        res.store_unaligned(&v[i]);
    }
    for (int i = loop; i < n; ++i) 
        v[i] = v1[i] + v2[i];
}

  上述demo实现了两个向量相加的操作,由于每次都能从vector当中加载size个数据,因此对剩余的不能进行vectorize的数据进行了分别处理。比如说,有一百个数据,每次处理8个数据,到最后剩下4个数不能凑到8,所以用朴素的迭代方式进行求和。这个demo是非对齐内存的处理方式。

using vector_type = std::vector<double, xsimd::default_allocator<double>>;
std::vector<double> v1(1000000), v2(1000000), v(1000000);
vector_type s1(1000000), s2(1000000), s(1000000);

void average_aligned(const vector_type& s1, const vector_type& s2, vector_type& s) {
    int n = s.size();
    int size = xsimd::batch<double>::size;
    int loop = n - n % size;

    for (int i = 0; i < loop; i += size) {
        auto a = xsimd::batch<double>::load_aligned(&s1[i]);
        auto b = xsimd::batch<double>::load_aligned(&s2[i]);
        auto res = a + b;
        res.store_aligned(&s[i]);
    }

    for (int i = loop; i < n; ++i) 
        s[i] = s1[i] + s2[i];
}

  要实现对齐内存的操作方式,我们必须对vector指定特定的分配器,不然最后运行出来的代码会出现segment fault。

  总之,要记住常用的api,load_aligned, store_aligned, load_unaligned, store_unaligned,它们分别对应了内存对齐与否的处理方式。接下来我们再讲解另外一个demo,并且提供与openmp的性能对比。

auto sum(const std::vector<double>&v) {
    int n = v.size();
    int size = xsimd::batch<int>::size;
    int loop = n - n % size;

    double res{};
    for (int i = 0; i < loop; ++i) {
        auto tmp = xsimd::batch<int>::load_unaligned(&v[i]);
        res += xsimd::hadd(tmp);
    }

    for (int i = loop; i < n; ++i) {
        res += v[i];
    }

    return res;
}

auto aligned_sum(const std::vector<double, xsimd::default_allocator<double>>& v) {
    int n = v.size();
    int size = xsimd::batch<int>::size;
    int loop = n - n % size;

    double res{};
    for (int i = 0; i < loop; ++i) {
        auto tmp = xsimd::batch<int>::load_aligned(&v[i]);
        res += xsimd::hadd(tmp);
    }

    for (int i = loop; i < n; ++i) {
        res += v[i];
    }
    
    return res;
}

  这个例子实现了对向量求和的功能。总体与前面基本一样,这里hadd是一个对向量求和的函数。

  对于openmp的向量化实现,则较为简单,只需要在for循环上面加上特定指令即可。不过需要注意的是,openmp支持C语法,有一些C++的新特性可能并不支持,而且需要把花括号放到下一行,我们来看具体操作。

auto parallel_sum(const std::vector<double>& v) {
    double res{};

    int n = v.size();
    #pragma omp simd
    for (int i = 0; i < n; ++i)
        res += v[i];

    return res;
}

  不要忘记加上编译选项-fopenmp和-march=native,为了性能测试,我开启了O2优化,以下是简单的测试结果,数据规模是一千万。

向量化实现矩阵运算优化(一)

  一般情况下进行了内存对齐都会比没有对齐的要快一些,同时可以看到openmp与xsimd也差了一个量级。当然不同平台的结果可能会有差异,需要用更专业的工具进行测量比较。文章来源地址https://www.toymoban.com/news/detail-710209.html

到了这里,关于向量化实现矩阵运算优化(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 矩阵乘法实现卷积运算

            矩阵根据卷积核的大小进行,从左到右、从上到i 下 的移动,对应数据相乘再相加得到的数据为该区域的值。 ​​​​​​​ ​​​​​​​         原理:根据对于相乘相加的机制,发现通过对卷积核填零构成和输入矩阵大小一致的矩阵,然后展平拼接起来,

    2024年02月12日
    浏览(47)
  • 编程实现矩阵运算

    矩阵运算是很多算法都需要用到的基础运算。为了方便实现各种各样的算法,这里使用python语言,编写了矩阵类,用来实现矩阵各种常用的运算操作。具体的设计方案以及代码实现如下文所示。         矩阵类基于numpy库来实现,这样会让代码的数量大大减少,看起来更简洁

    2024年02月10日
    浏览(32)
  • 用 Golang 实现矩阵运算库

    天下文章一大抄 抄过来的 转载的 别来沾边😅 本来想在网上找一个现成的,没想到一个个都tmd是抄来的 抄还抄个错的 捏麻麻滴 那我就根据网上已有的代码 将错误的地方改掉 写了一个可以使用运行的库 其他博客错的地方: 1、 矩阵相乘是要求 A 矩阵的列数要和 B 矩阵的行

    2024年02月12日
    浏览(29)
  • MATLAB矩阵基本运算的实现(一)

    MATLAB是matrixlaboratory两个词的组合,意为矩阵工厂(矩阵实验室),强大的矩阵运算能力是MATLAB的一个重要的特点,下面我就为大家整理了一下利用MATLAB实现矩阵基本运算的方法。 一、矩阵的加减法 矩阵加减法运算必须保证参与运算的矩阵是同维数,就是在算例中的a和b矩阵,

    2023年04月08日
    浏览(45)
  • 用Python实现矩阵运算【学习笔记】

    Pandas:Python中一个强大的分析结构化数据的工具集,可用于快速实现数据的导入/导出,索引。 Matplotlib:Python基础绘图库,几行代码即可生成绘图,直方图、条形图、散点图等。 NumPy:使用Python进行科学计算的基础软件包。核心:基于N维数组对象ndarray的数组运算。 现有矩阵

    2024年02月11日
    浏览(46)
  • C#简单的矩阵类并实现基本的矩阵运算

    在C#中,你可以通过创建自定义类或使用现有的库(如MathNet.Numerics)来实现矩阵计算。下面是一个简单的例子,说明如何创建一个简单的矩阵类并实现基本的矩阵运算。 首先,我们定义一个 Matrix 类来表示矩阵,并提供基本的矩阵操作,如加法、乘法和转置。 然后,你可以这

    2024年04月17日
    浏览(29)
  • 基于因特尔OneAPI实现矩阵并行乘法运算

    OneAPI介绍 Intel oneAPI 是一个跨行业、开放、基于标准的统一的编程模型,旨在提供一个适用于各类计算架构的统一编程模型和应用程序接口。其核心思想是使开发者只需编写一次代码,便可在跨平台的异构系统上运行,支持的底层硬件架构包括 CPU、GPU、FPGA、神经网络处理器以

    2024年02月04日
    浏览(39)
  • 【DCT变换】Python矩阵运算实现DCT变换

    DCT变换(离散余弦变换) 是数字图像处理过程中广泛采用的一种操作,用于将空域的图像转换为频域表示,从而能够更有效地进行压缩、滤波和特征提取等处理。它在许多应用领域中发挥着重要的作用,尤其在图像和视频压缩中,DCT变换常被用作预处理步骤。 例如在 JPEG压缩

    2024年02月11日
    浏览(42)
  • 【HNU分布式与云计算系统】MPI实现矩阵乘矩阵运算

    实验环境 操作系统:Ubuntu 20.04 编程语言:C++ 实验原理 什么是MPI MPI是一个跨语言的通讯协议,用于编写并行计算机。支持点对点和广播。MPI是一个信息传递应用程序接口,包括协议和和语义说明,他们指明其如何在各种实现中发挥其特性。MPI的目标是高性能,大规模性,和

    2023年04月08日
    浏览(34)
  • 【基础算法】矩阵的几种基本运算 & C++实现

            从线性代数中我们已知,两个矩阵可以进行加减乘运算,但矩阵之间没有除法运算。(下面以3×3矩阵为例):          矩阵的数乘运算类属与两矩阵相乘的一种特殊形式(数乘矩阵的这个数,我们可以将其化为对角线为该数,其余位置都为0的矩阵,再用该对

    2024年02月11日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包