学习笔记:在华为昇腾NPU上进行深度学习项目【未完待续】

这篇具有很好参考价值的文章主要介绍了学习笔记:在华为昇腾NPU上进行深度学习项目【未完待续】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


昇腾社区链接: 昇腾社区-官网丨昇腾万里 让智能无所不及

场景和功能说明

  • 第一种:在cpu或gpu上训练的模型,但要在NPU上执行模型推理;
  • 第二种:在NPU上同步训练、推理。

系统信息查询

中括号里的为查询结果示例。
– 查看系统架构:uname -a [aarch64,也称arm64]
– 查看操作系统版本:lsb_release -a [Ubuntu 22.04.3 LTS]
– 查看npu芯片型号:npu-smi info [Ascend310B4]
– 查看npu id:npu-smi info -l
– 查看Atlas产品型号:npu-smi info -t product -i <npu id> [Atlas 200I A2]

1、场景一:非NPU上训练的模型推理

此种使用场景下,cpu或gpu上训练的模型无法直接在nup上执行推理,需要先把训练好的模型转换成.om离线模型,才可以在NPU上执行后续的推理。

1.1 执行方案

step1:在已安装CANN开发环境的机器上,把cpu或gpu上训练的模型转换成.onnx格式 或 pd格式
step2:在安装CANN运行环境的机器上,把onnx格式转om格式。
对应CANN开发环境运行环境的区别、安装方法见官方文档:CANN软件安装

1.2 学习案例

① 官方gitee项目-支持tensorflow、pytorch的模型转换 这里已经集成了多种开源模型从初始模型 —> onnx模型 —> om模型转换操作步骤对应代码

  • 第一阶段:模型转onnx需要写代码完成;
  • 第二阶段:.onnx转.om使用atc命令完成,无须写代码。

② 仅onnx模型 —> om模型的转换案例:昇腾社区简单ATC转换案例
③ om模型的推理应用案例 这里的快速链接是昇腾社区下pytorch的应用案例,昇腾社区也集成了其他训练框架的应用案例,可自行查看。
④ 其他网友的分享:[推理部署]🌔ONNX推理加速技术文档-杂记

以下是基于 bert_base_chinese预训练模型转.onnx模型 脚本改写的代码:

  • 源文件:基于bert_base_chinese模型微调后的.pt模型文件
  • 目标:把.pt转换成.onnx
import torch
import onnx
import numpy as np
import onnxruntime
from init.init_config import ModelConfig

'''
1、pth文件转onnx:pytorch框架中集成了onnx模块,属于官方支持,onnx也覆盖了pytorch框架中的大部分算子。因此将pth模型文件转换为onnx文件非常简单。
    参考:https://zhuanlan.zhihu.com/p/524023964?utm_id=0
2、.pth转.onnx可以在任意机器上执行,只要有python 且 安装了对应依赖包(r如onnx相关依赖,不包括atc)即可,既可以是普通windows x86_64 gpu/cpu,也可以是linux Ascend310B4(昇腾 310B4 npu卡)
3、本文件中:
① 使用的是“基于bert-base-chinese微调的模型”,微调时的输入样本只有一个序列,所以训练时把token_type_ids也省略了;
② 和原始bert-base-chinese预训练模型input_shape=(batch_size,max_len)不同,微调训练使用的input_shape=(src_len,batch_size), attention_mask_shape=(batch_size,src_len), src_len是固定的512。
注意:Atlas 200/500 A2推理产品不支持动态Shape输入(设置Shape范围)。 详见官方文档 https://www.hiascend.com/document/detail/zh/canncommercial/70RC1/inferapplicationdev/aclpythondevg/aclpythondevg_0060.html
'''

model_path = 'E:\\opencode\\13-02-BertWithPretrained-main\\cache1\\ner_model_epoch1_steps1000.pt'  # 微调后的模型文件
onnx_path = "./ner_model_bert.onnx"  # 定义onnx模型保存地址。固定max_len=512

# 注意token_id的shape=(src_len, batch_size)
input_shape = (512, 1)

# todo 这里和原始模型在CPU或GPU上的加载方式保持一样。这里代码省略。。。。
model_config = ModelConfig()


def load_torch_model():
    invoice_model = model_config.model
    # 在导出模型之前必须调用 model.eval() 或 model.train(False),因为这会将模型设置为“推理模式”。 这是必需的,因为 dropout 或 batchnorm 等运算符在推理和训练模式下的行为有所不同。
    invoice_model.eval()
    return invoice_model



def onnx_model_predict(onnx_path, dummy_data, keep=False):
    # 创建会话,用于推理
    '''
    这里 onnxruntime.InferenceSession(model_path) 就是加载模型的步骤,ONNX Runtime 会在内部执行模型的验证。
    如果模型有问题,ONNX Runtime 将在加载过程中引发异常。
    因此,在使用 ONNX Runtime 进行推理时,你通常不需要显式地调用 onnx.load(onnx_path) 和 onnx.checker.check_model(onnx_model)。 
    # 模型加载
    onnx_model = onnx.load(onnx_path)
    onnx.checker.check_model(onnx_model)
    '''
    ort_session = onnxruntime.InferenceSession(onnx_path)
    # 获取模型的输入"input"
    inputs = ort_session.get_inputs()
    # input_name = inputs[0].name

    # bert基础模型设置:定义模型的输入{"input":numpys数组-不是tensor}和输出 ["output"]
    (token_ids, padding_mask), input_names = build_data(dummy_data, keep=keep, need_type="numpy.NDArray")

    assert len(inputs) == len(input_names), f"onnx模型输入需要{len(inputs)}个参数,与实际提供的参数{input_names}不符!"
    ort_inputs = {
    			inputs[0].name: token_ids,
                inputs[1].name: padding_mask
    }
    outputs = ort_session.get_outputs()
    output_name = [outputs[0].name]
    # 模型推理
    ort_outs = ort_session.run(output_name, ort_inputs)
    return ort_outs

def export_config(input_names, dynamic=False):
    '''
      :param input_names: 模型输入层所需参数
    :param dynamic: 是否支持动态维度
    :return: dynamic_axes指定模型中哪些轴的维度是动态的(即,可以改变的)的。
    '''
    dynamic_axes = {}
    # output_names = ["out"]
    output_names = ["logits"]
    if dynamic:
    	# 原始模型微调时使用的shape(attention_mask)=(batch_size, src_len), 其他输入参数是(src_len, batch_size)。以下也要按实际shape指定。
        for name in input_names + output_names:
            if name == "attention_mask":
                dynamic_axes[name] = {0: "batch_size", 1: "src_len"}  # 表示当前name下第0维和第1维都可以动态变化,且分别给对应维度自定义命名为batch_size、src_len。注意这里的名字是可以随便写的,但为了后续理解方便,建议还是能见名知意。
            else:
                dynamic_axes[name] = {0: "src_len", 1: "batch_size"}
    return output_names, dynamic_axes


def build_data(dummy_data, keep=True, need_type="torch.tensor"):
    if need_type == "torch.tensor":
        token_ids = torch.from_numpy(dummy_data).to(device)  # numpy.ndarray转torch.tensor
        padding_mask = (token_ids == model_config.data_loader.PAD_IDX).transpose(0, 1)
    elif need_type == "numpy.NDArray":
        token_ids = dummy_data
        padding_mask = np.transpose((dummy_data == model_config.data_loader.PAD_IDX))
    else:
        raise ValueError(f"不支持的need_type={need_type}, 仅支持['torch.tensor', 'numpy.NDArray']")
    if keep:
        input_data = (
            token_ids,
            padding_mask,
            token_ids
        )
        input_names = ["input_ids", "attention_mask", "token_type_ids"]
    else:
        input_data = (
            token_ids,
            padding_mask
        )
        input_names = ["input_ids", "attention_mask"]
    return input_data, input_names


def torch2onnx(dummy_data, keep, dynamic):
    '''

    :param dummy_data:
    :param keep: 是否手动生成token_type_ids
    :param dynamic: 是否存在动态维度
    :return:
    '''
    # 1、加载原始模型
    torch_model = load_torch_model(model_path)

    # 2、build data
    input_data, input_names = build_data(dummy_data, keep=keep, need_type="torch.tensor")
    # todo 因为本次微调的模型只有一个序列,所以token_type_ids可省略
    #   方案一:设置dynamic=True 测试动态shape(这是输入的shape(input_data)可以随意指定)-- 注意:NPU机器是Atlas 200/500 A2推理产品,不支持动态shape
    #   方案二:设置dynamic=Flase 测试固定shape(这是输入的shape(input_data)也是固定的)
    output_names, dynamic_axes = export_config(input_names, dynamic=dynamic)

    # 3、onnx模型导出:verbose--是否打印日志
    torch.onnx.export(
        torch_model,
        input_data,
        onnx_path,
        verbose=True,
        opset_version=11,
        dynamic_axes=dynamic_axes if dynamic_axes else None,
        input_names=input_names,
        output_names=output_names
    )

    # 4、onnx模型合理性验证
    # 模型加载
    onnx_model = onnx.load(onnx_path)
    # 检查onnx模型转换是否合理
    onnx.checker.check_model(onnx_model)


def onnx_predict(dummy_data, onnx_path, keep=False):
    # 1、torch模型加载和推理
    origin_model = load_torch_model(model_path)
    (token_ids, padding_mask), _ = build_data(dummy_data, keep=keep, need_type="torch.tensor")
    torch_out = origin_model(input_ids=token_ids,  # [src_len, batch_size]
                             attention_mask=padding_mask)  # [batch_size,src_len]
    torch_out = torch_out.detach().numpy()
    # 2、onnx模型加载和推理
    ort_outs = onnx_model_predict(onnx_path, dummy_data, keep=keep)
    # 3、结果对比
    # todo 使用numpy的测试工具,检查两个数组是否在给定的相对和绝对误差范围内相等。np.testing.assert_allclose是一个测试断言语句,如果检查失败(即输出不在指定误差范围内),将引发 AssertionError,从而提示测试失败。
    #  (1)检查形状:确保 torch_out 和 ort_outs[0] 的形状相同。 (2)检查数值相等性: 对每个对应的元素,检查其数值是否在相对误差 (rtol) 和绝对误差 (atol) 允许的范围内。
    np.testing.assert_allclose(torch_out, ort_outs[0], rtol=1e-01, atol=1e-5)
    print(torch_out[:10])
    print(ort_outs[0][:10])
    print("convert success")


if __name__ == "__main__":
    # 1、获取当前设备
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    # 2、给onnx的input_data设置shape
    # todo Atlas 200/500 A2推理产品不支持动态Shape输入(设置Shape范围)。 详见官方文档 https://www.hiascend.com/document/detail/zh/canncommercial/70RC1/inferapplicationdev/aclpythondevg/aclpythondevg_0060.html
    #  但NPU机器是Atlas 200/500 A2推理产品,不支持动态shape,所以这里先固定,在推理时也要改成固定。
    dynamic = False  # 是否支持动态维度
    keep = False  # 是否保留token_type_ids
    # todo 注意 本次使用的bert微调代码中shape(input_shape) =(src_len, batch_size),不是(batch_size,src_len)
    # todo 训练时,input_shape有多种选择,具体见E:\1pythonwork\mindstudio-test\invoice_ner\utils\data_helpers.py下的BertForTokenClassification类描述。
    if dynamic:
        # (1)动态shape
        input_shape = (np.random.randint(10, 513), 1)
        #  todo 本次训练使用的input_shape=(src_len,batch_size),src_len是当前批次中的最大长度,不是固定的512.
        model_path = 'E:\\3gitwork\\extract_invoice_info\\invoice_ner\\result\\ner_model_epoch1_steps1000.pt'
        # todo dynamic_shape_model/old/xx下的文件是旧的转换结果,当时的转换脚本写的还有一定问题,但先保留着。
        onnx_path = "dynamic_shape_model/ner_model_bert.onnx"  # todo 定义onnx模型保存地址。当max_len=None时,默认token_id的shape等于“每一批次中文本的最大长度”,是个动态变化的参数
    else:
        # (2)固定shape
        input_shape = (512, 1)
        model_path = 'E:\\opencode\\13-02-BertWithPretrained-main\\cache1\\ner_model_epoch1_steps1000.pt'
        onnx_path = "fixed_shape_model/ner_model_bert.onnx"  # todo 定义onnx模型保存地址。固定max_len=512
    # 3、按shape生成dummy_data,以便后续以此为基础构建onnx模型的样本输入数据input_data,这是为了让转换器知道模型的输入形状
    # #(方案1)随机型:在测试转换前后的误差时,需要传递同一输入值
    # dummy_data = np.random.randn(*input_shape).astype(np.long)
    # # (方案2)固定值型
    dummy_data = np.ones(input_shape).astype(np.long)

    onnx_file = Path(onnx_path)
    if not onnx_file.is_file():
        # keep: 是否保留token_type_ids
        torch2onnx(dummy_data, keep=keep, dynamic=dynamic)

    onnx_predict(dummy_data, onnx_path, keep=keep)

1.3 onnx转om

具体指令参考 昇腾社区简单ATC转换案例文章来源地址https://www.toymoban.com/news/detail-802599.html

1.4 om推理

到了这里,关于学习笔记:在华为昇腾NPU上进行深度学习项目【未完待续】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【未完待续】综述:用于视频分割(Video Segmentation)的深度学习

    A Survey on Deep Learning Technique for Video Segmentation 本文回顾视频分割的两条基本研究路线:视频目标分割(object segmentation)和视频语义分割(semantic segmentation)。本文介绍它们各自的task setting、背景概念、感知需求、发展历史以及主要挑战。本文详细概述相关的方法和数据集的代

    2024年02月02日
    浏览(46)
  • SCI一区论文阅读小结之深度学习在气象领域应用(未完待续)

    最近文献调研,发现一个研究相近的师兄最近发的几篇文章给的启发性很高,阅读文献的同时也对这几篇文章做个总结,以防自己忘记,也分享给大家。 首先,甩出这位大佬的RG: https://www.researchgate.net/profile/Xuan-Tong-3/research 最近的研究都是将深度学习应用到气象领域的,比如

    2024年02月21日
    浏览(36)
  • TensorFlow学习笔记(未完待续)

    TensorFlow中所有计算都会被转化为计算图上的节点。是一个通过计算图的形式来表述计算的编程系统,每个计算都是计算图的一个节点,而节点之间的边描述了计算之间的依赖关系。 在TensorFlow中,系统会自动维护一个默认的计算图,通过tf.get_default_graph()函数可以获取当前

    2024年02月08日
    浏览(40)
  • 【Android】底层逻辑深入了解(学习笔记)(未完)

    step by step. 目录 init启动 Zygote进程:  SystemServer处理过程 Binder: Launcher启动过程 Android系统启动流程 四大组件 Activity Service  BroadcastReceiver广播 ContentProvider内容提供者(进程内和进程间的数据共享)  Context上下文  AMS(ActivityManagerService) (在图书馆看了《Android进阶解密》,

    2024年02月15日
    浏览(38)
  • 昇腾AI处理机_学习笔记一:Img2col 卷积加速算法

    Img2col 卷积加速算法 Img2col 通过矩阵乘法实现卷积的加速运算的方法,该方法被广泛应用在CPU、GPU等通用计算芯片上。同时在一些特定域结构(Domain Specific Architecture , DSA)上,比如华为的昇腾AI处理机中,使用了Img2col为需要进行卷积运算的矩阵进行了预处理。 CNN(Convolution

    2024年02月05日
    浏览(36)
  • 青云1000------华为昇腾310

    注意事项!!!! type-c只用于数据传输不能供电 DC供电和锂电池不能同时供电,会烧掉 风扇正负级不要插反 账户密码 HwHiAiUser密码Mind@123 TypeC USB IP 192.168.2.2(由原来192.168.1.2改来,原来的和tplink路由器网段冲突) 青云连接Tplink后ip192.168.1.101已经绑定ip和mac tplink路由器管理界

    2024年02月07日
    浏览(66)
  • 信创AI背景下,走进遥遥领先的华为昇腾算力

    目录: 0.主要结论 1.研究背景 2.研究目的 3.研究结果 4.结论or疑问 敢立潮头的勇气和担当值得敬佩。信创AI背景下,华为AI算力逐渐成长为国内市场顶端,也是国内敢于和英伟达掰手腕的产商。【昇腾的计算性能配置可持平A100】 产品力仍是消费者用脚投票的主要驱动力。虽有

    2024年01月23日
    浏览(41)
  • 昇腾芯片解析:华为自主研发的人工智能处理器全面分析

    在当今科技发展的浪潮中,昇腾芯片作为一种新兴的处理器,正引起广泛的关注和讨论。升腾芯片究竟是由哪家公司生产的?这个问题一直困扰着许多人。下面小编将全面介绍、分析升腾芯片的生产商及各类参数、应用,以便读者对其有更全面的了解 昇腾 芯片的生产商 升腾

    2024年04月11日
    浏览(54)
  • 【华为昇腾】【青云1000】YOLOv5训练并部署到青云1000 基于Ascend 310

    在个人电脑(PC)端准备 待标注的图片,放置于 全英文路径 下 AI辅助标注工具:X-Anylabeling 在个人电脑(PC)端安装 安装文档 训练目标检测模型 CANN介绍 CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的 异构计算架构 用户在程序中 调用CANN提供的接口 (或包装

    2024年02月12日
    浏览(46)
  • AI重塑千行百业,华为云发布盘古大模型3.0和昇腾AI云服务

    【中国,东莞,2023年7月7日】华为开发者大会2023(Cloud)7月7日在中国东莞正式揭开帷幕,并同时在全球10余个国家、中国30多个城市设有分会场,邀请全球开发者共聚一堂,就AI浪潮之下的产业新机会和技术新实践开展交流分享。 在7日下午举行的大会主题演讲中,华为常务董

    2024年02月12日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包