Ascend C 自定义PRelu算子

这篇具有很好参考价值的文章主要介绍了Ascend C 自定义PRelu算子。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文分享自华为云社区《Ascend C 自定义PRelu算子》,作者: jackwangcumt。

1 PRelu算子概述

PReLU是 Parametric Rectified Linear Unit的缩写,首次由何凯明团队提出,和LeakyReLU非常类似,是Relu的改进版本,在几乎没有增加额外参数的前提下既可以提升模型的拟合能力,又能减小过拟合风险。PReLU的数学表达式我们可以参考pytorch中PReLU的描述(https://pytorch.org/docs/2.1/generated/torch.nn.PReLU.html#prelu):

2 Ascend C自定义算子

基于Ascend C进行自定义算子开发之前,需要成功基于昇腾设备安装相关的驱动、固件以及开发者套件。我之前安装的开发者套件版本过低,编译运行官方的Sample部分示例会报错,因此,需要重新安装一个8.0新版本,依次用root执行如下命令:

# 卸载 cann-toolkit_7.0.RC1
root@atlas500ai:/home/kzroot/mysoft# ./Ascend-cann-toolkit_7.0.RC1_linux-aarch64.run --uninstall
# 清空遗留文件
rm -rf /usr/local/Ascend/ascend-toolkit/*
# 安装 cann-toolkit_8.0.RC1.alpha002
./Ascend-cann-toolkit_8.0.RC1.alpha002_linux-aarch64.run --install --install-for-all --quiet
#安装依赖protobuf
pip3 install protobuf==3.20.0

在一个目录下新建单算子工程描述文件 PReluCustom.json ,内容参考如下:

[
    {
        "op": "PReluCustom",
        "language": "cpp",
        "input_desc": [
            {
                "name": "x",
                "param_type": "required",
                "format": [
                    "ND"
                ],
                "type": [
                    "float"
                ]
            }
        ],
        "output_desc": [
            {
                "name": "y",
                "param_type": "required",
                "format": [
                    "ND"
                ],
                "type": [
                    "float"
                ]
            }
        ],
        "attr": [
            {
                "name": "alpha",
                "param_type": "optional",
                "type": "float",
                "default_value": "0.002"
            }
        ]
    }
]

用开发者套件中内置的算子工程生成工具msopgen ,通过描述文件自动生成单算子工程代码目录:

/usr/local/Ascend/ascend-toolkit/8.0.RC1.alpha002/python/site-packages/bin/msopgen gen -i ./PReluCustom.json  
-c ai_core-Ascend310P3 -lan cpp -out ./PReluCustom

执行成功后,会基于C++语言生成单算子工程代码目录PReluCustom,其中包含的CMakePresets.json文件,有几个重要的配置项,特别是开发者套件安装的路径ASCEND_CANN_PACKAGE_PATH,需要根据本地情况进行修改,我这里是 /usr/local/Ascend/ascend-toolkit/latest 否则会出现编译错误,我这里修改的部分代码如下:

{
    "version": 1,
    "cmakeMinimumRequired": {
        "major": 3,
        "minor": 19,
        "patch": 0
    },
    "configurePresets": [
        {
            "name": "default",
            "displayName": "Default Config",
            "description": "Default build using Unix Makefiles generator",
            "generator": "Unix Makefiles",
            "binaryDir": "${sourceDir}/build_out",
            "cacheVariables": {
                "CMAKE_BUILD_TYPE": {
                    "type": "STRING",
                    "value": "Release"
                },
                "ENABLE_SOURCE_PACKAGE": {
                    "type": "BOOL",
                    "value": "True"
                },
                "ENABLE_BINARY_PACKAGE": {
                    "type": "BOOL",
                    "value": "True"
                },
                "ASCEND_COMPUTE_UNIT": {
                    "type": "STRING",
                    "value": "ascend310p"
                },
                "ENABLE_TEST": {
                    "type": "BOOL",
                    "value": "True"
                },
                "vendor_name": {
                    "type": "STRING",
                    "value": "customize"
                },
                "ASCEND_CANN_PACKAGE_PATH": {
                    "type": "PATH",
                    "value": "/usr/local/Ascend/ascend-toolkit/latest"
                },
                "ASCEND_PYTHON_EXECUTABLE": {
                    "type": "STRING",
                    "value": "python3"
                },
                "CMAKE_INSTALL_PREFIX": {
                    "type": "PATH",
                    "value": "${sourceDir}/build_out"
                },
                "ENABLE_CROSS_COMPILE": {
                    "type": "BOOL",
                    "value": "False"
                },
                "CMAKE_CROSS_PLATFORM_COMPILER": {
                    "type": "PATH",
                    "value": "/usr/bin/aarch64-linux-gnu-g++"
                }
            }
        }
    ]
}

其中的vendor_name 可以根据自己的情况进行修改,默认的算子部署后会放于customize 目录下,这里可以修改,比如改成jackwangcumt。而且单算子工程每次部署会进行覆盖,因此,这里需要注意一下。生成的p_relu_custom.cpp文件,重点的算子计算为:

    __aicore__ inline void Compute(int32_t progress)
    {
        // deque input tensors from VECIN queue
        LocalTensor<float> xLocal = inQueueX.DeQue<float>();
        LocalTensor<float> yLocal = outQueueY.AllocTensor<float>();
        LocalTensor<float> tmpTensor1 = tmpBuffer1.Get<float>();
        float inputVal = 0.0;
        Maxs(tmpTensor1, xLocal, inputVal, this->tileLength); // x >= 0  --> x
        // x < 0 
        Mins(xLocal, xLocal, inputVal, this->tileLength);
        Muls(xLocal, xLocal, this->alpha, this->tileLength);
        Add(yLocal, xLocal, tmpTensor1, this->tileLength);
        outQueueY.EnQue<float>(yLocal);
        // free input tensors for reuse
        inQueueX.FreeTensor(xLocal);
    }

这里通过内置的原生算子来分别处理输入x<0和x>=0两个部分的数据处理,再通过Add将两个部分合并,得到最终的数据。在op_host目录下的p_relu_custom_tiling.h代码如下所示:

#include "register/tilingdata_base.h"

namespace optiling {
BEGIN_TILING_DATA_DEF(TilingData)
  TILING_DATA_FIELD_DEF(uint32_t, totalLength);
  TILING_DATA_FIELD_DEF(uint32_t, tileNum);
  TILING_DATA_FIELD_DEF(float, alpha);
END_TILING_DATA_DEF;

REGISTER_TILING_DATA_CLASS(PReluCustom, TilingData)
}

p_relu_custom.cpp 核心代码如下所示:

#include "p_relu_custom_tiling.h"
#include "register/op_def_registry.h"
namespace optiling {

const uint32_t BLOCK_DIM = 8;
const uint32_t TILE_NUM = 16 ; // 这个数可能影响测试是否通过

static ge::graphStatus TilingFunc(gert::TilingContext* context)
{

        TilingData tiling;
        uint32_t totalLength = context->GetInputTensor(0)->GetShapeSize();
        const gert::RuntimeAttrs *attrs = context->GetAttrs();
        const float *alpha = attrs->GetAttrPointer<float>(0);

        context->SetBlockDim(BLOCK_DIM);
        tiling.set_totalLength(totalLength);
        tiling.set_tileNum(TILE_NUM);
        tiling.set_alpha(*alpha);

        tiling.SaveToBuffer(context->GetRawTilingData()->GetData(), context->GetRawTilingData()->GetCapacity());
        context->GetRawTilingData()->SetDataSize(tiling.GetDataSize());

        size_t *currentWorkspace = context->GetWorkspaceSizes(1);
        currentWorkspace[0] = 0;

        return ge::GRAPH_SUCCESS;
}
}
namespace ge {
static ge::graphStatus InferShape(gert::InferShapeContext* context)
{
    const gert::Shape* x1_shape = context->GetInputShape(0);
    gert::Shape* y_shape = context->GetOutputShape(0);
    *y_shape = *x1_shape;
    return GRAPH_SUCCESS;
}
}
namespace ops {
class PReluCustom : public OpDef {
public:
    explicit PReluCustom(const char* name) : OpDef(name)
    {
        this->Input("x")
            .ParamType(REQUIRED)
            .DataType({ge::DT_FLOAT})
            .Format({ge::FORMAT_ND})
            .UnknownShapeFormat({ge::FORMAT_ND});
        this->Output("y")
            .ParamType(REQUIRED)
            .DataType({ge::DT_FLOAT})
            .Format({ge::FORMAT_ND})
            .UnknownShapeFormat({ge::FORMAT_ND});
        this->Attr("alpha").AttrType(OPTIONAL).Float(0.002);

        this->SetInferShape(ge::InferShape);

        this->AICore()
            .SetTiling(optiling::TilingFunc);
        this->AICore().AddConfig("ascend310p");

    }
};

OP_ADD(PReluCustom);
}

执行如下命令,编译算子工程:

root@atlas500ai:/home/kzroot/mysoft/myAscendC/PReluSample/PReluCustom# bash build.sh 

Self-extractable archive "custom_opp_ubuntu_aarch64.run" successfully created. 则表明编译成功。执行如下命令进行算子部署:

PReluCustom# ./build_out/custom_opp_ubuntu_aarch64.run

3 Ascend C自定义算子验证

基于Ascend C 自定义算子需要进行正确性验证,这里新建一个AclNNInvocation目录(可以参考官方示例中的相关内容),目录结构如下所示:

其中的gen_data.py用于生成测试的输入和输出数据,verity_result.py用于验证精度。gen_data.py内容如下所示:

import numpy as np
import os

def gen_golden_data_simple():
    alpha = np.array(0.002, dtype=np.float32)
    input_x = np.random.uniform(-100, 100, [8, 200, 1024]).astype(np.float32)
    golden = np.where(input_x >= 0, input_x, input_x * alpha).astype(np.float32)
    os.system("mkdir -p input")
    os.system("mkdir -p output")
    input_x.tofile("./input/input_x.bin")
    golden.tofile("./output/golden.bin")

if __name__ == "__main__":
    gen_golden_data_simple()

src目录下的CMakeLists.txt有一个环境变量可能需要修改,即 set(CUST_PKG_PATH "${INC_PATH}/opp/vendors/customize/op_api") ,默认是不需要修改的,他需要和vendor_name一致。执行如下命令进行测试:

PReluSample/AclNNInvocation# bash run.sh

 文章来源地址https://www.toymoban.com/news/detail-844399.html

点击关注,第一时间了解华为云新鲜技术~

 

到了这里,关于Ascend C 自定义PRelu算子的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 体验昇腾Ascend C 编程语言极简易用的算子开发

    摘要: 昇腾Ascend C编程语言,让基于昇腾AI的算法创新更加简单。 本文分享自华为云社区《CANN黑科技解密|昇腾Ascend C编程语言 — 极简易用的算子开发体验》,作者:昇腾CANN 。 AI应用的大脑是神经网络,而构成神经网络的基石是一个个算子。为了让开发者的网络在昇腾硬件

    2024年02月08日
    浏览(38)
  • 【华为昇腾】【青云1000】YOLOv5训练并部署到青云1000 基于Ascend 310

    在个人电脑(PC)端准备 待标注的图片,放置于 全英文路径 下 AI辅助标注工具:X-Anylabeling 在个人电脑(PC)端安装 安装文档 训练目标检测模型 CANN介绍 CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的 异构计算架构 用户在程序中 调用CANN提供的接口 (或包装

    2024年02月12日
    浏览(49)
  • Flink---5、聚合算子、用户自定义函数、物理分区算子、分流、合流

                           星光下的赶路人star的个人主页                        欲买桂花同载酒,终不似,少年游 计算的结果不仅依赖当前数据,还跟之前的数据有关,相当于要把所有数据聚在一起进行汇总合并—这就是

    2024年02月07日
    浏览(46)
  • 华为昇腾服务器 ubuntu20.04 Atlas中心推理卡 23.0.RC3 NPU驱动和固件安装指南 02(Atlas 300V pro)(Ascend 310P)(cann)安装流程记录

    参考文章:Atlas 中心推理卡 23.0.RC3 NPU驱动和固件安装指南 02 参考文章:https://www.hiascend.com/document/detail/zh/quick-installation/23.0.RC3/quickinstg/800_3000/quickinstg_800_3000_0013.html 首先看版本配套表,比如我们推理卡是Atlas 300V pro,要看系统是不是支持Atlas 300V pro?找到合适版本的系统(内

    2024年02月01日
    浏览(49)
  • pytorch自定义算子并导出onnx计算图详细代码教程

    解决:     # enable_onnx_checker=False 更改为:     operator_export_type=torch.onnx.OperatorExportTypes.ONNX_ATEN_FALLBACK pytorch自定义算子并导出onnx计算图详细代码教程_operatorexporttypes_蛇皮小娃娃的博客-CSDN博客  

    2024年02月10日
    浏览(44)
  • 《社区人员管理》实战案例设计&个人案例分享

    作者:京东科技 刘宗恺 北京市疫情防控一体化平台是以“京办”为支撑,集病例流调、排查管控、隔离管理、人员转运、监测评估于一体的疫情防控平台,秉承五位一体统筹、现有体系融通、共性能力支撑、高效部门系统、快速局部突破的理念,进行建设。 功能:多系统协

    2023年04月19日
    浏览(46)
  • 技术社区分享|Flow区块链介绍(1/4)

    本文由Flow技术大使FOU翻译。 原文标题: Introduction to Flow blockchain 原文链接: https://jan-bernatik.medium.com/introduction-to-flow-blockchain-7532977c8af8 自我介绍 Hi!我叫Jan,目前是 核心Flow协议组的工程经理 。你或许知道Flow是由NFT的先驱团队创建的-就是那个因用Crypto Kitties搞坏以太坊而出

    2024年01月16日
    浏览(50)
  • 【flink番外篇】10、对有状态或及时 UDF 和自定义算子进行单元测试

    一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列 本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。 3、

    2024年02月02日
    浏览(54)
  • 【社区投稿】Rust登陆华为鸿蒙操作系统之Native模块开发

    【鸿蒙操作系统】的英文全名是 Open Harmony Operation System 。正文将以其首字母缩写词 ohos 引用该词条。 【鸿蒙软件开发工具包】的英文全名是 Open Harmony Software Development Kit 。正文也将以它的首字母缩写词 ohsdk 引用该词条。 DevEco Studio IDE 是【华为】为鸿蒙应用程序开发免费提供

    2024年02月19日
    浏览(58)
  • 成功案例分享:物业管理小程序如何助力打造智慧社区

    随着科技的进步和互联网的普及,数字化转型已经渗透到各个行业,包括物业管理。借助小程序这一轻量级应用,物业管理可以实现线上线下服务的无缝对接,提升服务质量,优化用户体验。本文将详细介绍如何通过乔拓云网设计小程序,为物业管理提供一种高效、便捷、优

    2024年02月03日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包