昇腾迁移丨4个TensorFlow模型训练案例解读

这篇具有很好参考价值的文章主要介绍了昇腾迁移丨4个TensorFlow模型训练案例解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文分享自华为云社区《TensorFlow模型训练常见案例》,作者: 昇腾CANN。

基于TensorFlow的Python API开发的训练脚本默认运行在CPU/GPU/TPU上,为了使这些脚本能够利用昇腾AI处理器的强大算力,需要将其迁移到昇腾平台。

本期分享几个TensorFlow网络迁移到昇腾平台后执行失败或者执行性能差的典型案例,并给出原因分析及解决方法。

01 数据预处理中存在资源类算子,导致训练异常

问题现象

TensorFlow网络执行时,报如下错误:

[2021-03-19 13:50:24.895266: W tensorflow/core/framework/op_kernel.cc:1651] OP_REQUIRES failed at lookup_table_op.cc:809 : Failed precondition: Table not initialized.

[2021-03-19 13:50:24.895283: W tensorflow/core/framework/op_kernel.cc:1651] OP_REQUIRES failed at lookup_table_op.cc:809 : Failed precondition: Table not initialized.

原因分析

初始化图中存在资源类算子HaskTableV2 ,数据预处理中存在资源类算子LookupTableFindV2,两个算子需要配对使用。

昇腾AI处理器默认采用计算全下沉模式,即所有的计算类算子(包括初始化图中的资源类算子)全部在Device侧执行,数据预处理仍在Host执行。这样数据预处理中的LookupTableFindV2算子与初始化图中的HaskTableV2算子未在同一设备执行,导致网络运行出错。

解决方案

需要修改训练脚本,使能混合计算能力,将资源类算子的初始化图也留在Host侧执行,训练脚本修改方法如下:

from npu_bridge.npu_init import *

config = tf.ConfigProto()

custom_op = config.graph_options.rewrite_options.custom_optimizers.add()

custom_op.name = "NpuOptimizer"

custom_op.parameter_map["mix_compile_mode"].b = True

config.graph_options.rewrite_options.remapping = RewriterConfig.OFF

config.graph_options.rewrite_options.memory_optimization = RewriterConfig.OFF

with tf.Session(config=config) as sess:

sess.run(...)

其中配置参数“mix_compile_mode”是混合计算开启开关,当此开关配置为“True”后,会将需要成对使用的资源类算子留在前端框架在线执行。

补充说明:当用户的预处理脚本中存在需要成对使用的tf.contrib.lookup下Table类的API时,需要参考此方法使能混合计算功能,将初始化图中的对应算子留在Host侧执行。

02 数据预处理中存在tf.Variable,导致训练异常

问题现象

TensorFlow网络执行时,报如下错误:

tensorflow.python.framework.errors_impl.FailedPreconditionError: Error while reading resource variable inference/embed_continuous from Container: localhost. This could mean that the variable was uninitialized. Not found: Resource localhost/inference/embed_continuous/N10tensorflow3VarE does not exist.

原因分析

此问题是由于数据预处理脚本中存在tf.Variable变量。训练脚本在昇腾平台运行时,tf.Variable变量在Host侧执行,而tf.Variable变量的初始化在Device侧执行,变量执行和变量初始化不在同一设备执行,导致训练异常。

使用了tf.Variable的训练脚本代码示例如下:

batch_size = tf.Variable(

tf.placeholder(tf.int64, [], 'batch_size'),

trainable= False, collections=[]

)

train_dataset = train_dataset.batch(batch_size, drop_remainder=True)

解决方案

需要修改训练脚本,将tf.Variable修改成常量,修改示例如下:

batch_size = 64 train_dataset = train_dataset.batch(batch_size, drop_remainder=True)

batch_size = 64

train_dataset = train_dataset.batch(batch_size, drop_remainder=True)

03 动态shape网络执行时报v1控制流算子不支持的错误

问题现象

TensorFlow 1.15版本的动态shape网络执行时,报如下错误:

node node_name(node_type) is v1 control operator, which is not supported, please convert to v2 control operator

原因分析

由于当前TensorFlow网络为动态shape网络,且存在V1版本的控制流算子。在昇腾AI处理器执行TensorFlow动态shape网络当前不支持V1版本的控制流算子,所以会造成网络运行失败。

解决方案

将网络中的TensorFlow V1版本的控制流算子转换为V2版本,即可解决此问题。

方法一:通过设置如下环境变量将TensorFlow V1版本的控制流算子转换为V2版本。

export ENABLE_FORCE_V2_CONTROL=1

方法二:修改网络脚本,在import tensorflow as tf后增加如下两条指令,将TensorFlow V1版本的控制流算子转换为V2版本。

tf.enable_control_flow_v2()

tf.enable_resource_variables()

04 网络调测时ReduceSum算子执行性能差

问题现象

网络调测时,网络整体性能较慢。通过Profiling工具获取网络的Profiling数据,并进行算子的性能数据分析,发现ReduceSum算子的性能很差。

查看Profiling性能数据中ReduceSum算子的详细信息,关键字段如下表蓝色字体所示:

op_type

block_dim

input_shape

input_data_type

input_formats

ReduceSum

1

1,256,256,3

DT_FLOAT16

NHWC

ReduceSum算子的输入数据类型(input_data_type)为“DT_FLOAT16”,block_dim字段的值为“1”,说明该算子未开启多核并行计算。

原因分析

针对昇腾AI处理器的ReduceSum算子,若输入数据类型为float16,由于硬件限制,某些场景下会无法开启多核计算。

解决方案

ReduceSum算子输入数据是float16的情况可能有如下两种场景:

场景一:

网络调测时未开启混合精度,ReduceSum算子的输入数据本身就是float16类型,此种情况下,若ReduceSum算子的性能较差,可尝试在ReduceSum算子前插入一个Cast算子,将算子的输入数据类型从float16转换为float32。

ReduceSum算子在输入类型为float32的场景下,会使能多核并发计算,从而达到提升该算子性能的效果。

场景二:

网络调测时开启了混合精度,将ReduceSum算子的输入数据类型从float32转换成了float16,此种情况下,可将ReduceSum算子加入混合精度黑名单,这样网络调测时ReduceSum算子就不会被转换成float16类型,从而避免该算子性能的劣化。

将ReduceSum算子加入混合精度黑名单的方法如下:

1) 修改网络脚本,通过modify_mixlist参数指定需要修改的混合精度算子黑名单,修改示例如下:

# Estimator模式修改方法

npu_config=NPURunConfig(

...

precision_mode="allow_mix_precision",

modify_mixlist="/home/test/ops_info.json"

)

# sess.run模式修改方法

config = tf.ConfigProto()

custom_op = config.graph_options.rewrite_options.custom_optimizers.add()

custom_op.name = "NpuOptimizer"

custom_op.parameter_map["use_off_line"].b = True

custom_op.parameter_map["precision_mode"].s = tf.compat.as_bytes("allow_mix_precision")

custom_op.parameter_map["modify_mixlist"].s = tf.compat.as_bytes("/home/test/ops_info.json")

2) 在ops_info.json文件中进行算子黑名单的配置,配置示例如下:

{

"black-list": {

"to-add": ["ReduceSumD"]

}

}

补充说明:仅在ReduceSum算子性能较差时,且符合本案例中的问题现象时,可尝试使用此方法进行性能提升。

05 更多介绍

[1]昇腾文档中心:https://www.hiascend.com/zh/document

[2]昇腾社区在线课程:https://www.hiascend.com/zh/edu/courses

[3]昇腾论坛:https://www.hiascend.com/forum

 

点击关注,第一时间了解华为云新鲜技术~文章来源地址https://www.toymoban.com/news/detail-745511.html

到了这里,关于昇腾迁移丨4个TensorFlow模型训练案例解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Tensorflow实现训练数据的加载—模型搭建训练保存—模型调用和加载全流程

     将tensorflow的训练数据数组(矩阵)保存为.npy的数据格式。为后续的模型训练提供便捷的方法。例如如下:   加载.npy训练数据和测试数组(矩阵),加载后需要调整数据的形状以满足设计模型的输入输出需求,不然无法训练模型。 这里可以采用自定义层和tensorflow的API搭建

    2024年02月05日
    浏览(32)
  • tensorflow2 模型建立与训练

    模型的构建:  tf.keras.Model  和  tf.keras.layers 模型的损失函数:  tf.keras.losses 模型的优化器:  tf.keras.optimizer 模型的评估:  tf.keras.metrics Keras 有两个重要的概念:  模型(Model)  和  层(Layer)  。层将各种计算流程和变量进行了封装(例如基本的全连接层,CNN 的卷积层

    2024年02月10日
    浏览(56)
  • 使用TensorFlow训练深度学习模型实战(下)

    大家好,本文接TensorFlow训练深度学习模型的上半部分继续进行讲述,下面将介绍有关定义深度学习模型、训练模型和评估模型的内容。 定义深度学习模型 数据准备完成后,下一步是使用TensorFlow搭建神经网络模型,搭建模型有两个选项: 可以使用各种层,包括Dense、Conv2D和

    2024年02月15日
    浏览(32)
  • 使用TensorFlow训练深度学习模型实战(上)

    大家好,尽管大多数关于神经网络的文章都强调数学,而TensorFlow文档则强调使用现成数据集进行快速实现,但将这些资源应用于真实世界数据集是很有挑战性的,很难将数学概念和现成数据集与我的具体用例联系起来。本文旨在提供一个实用的、逐步的教程,介绍如何使用

    2024年02月15日
    浏览(45)
  • 学习 TensorFlow:构建和训练机器学习模型的利器

    TensorFlow 是一种强大的开源机器学习框架,被广泛应用于构建和训练各种类型的神经网络模型。本文将介绍 TensorFlow 的基本概念、特点和学习步骤,同时提供一个项目案例和练习题,帮助读者快速入门和掌握 TensorFlow。 强大的计算图:TensorFlow 使用计算图来表示计算任务,将复

    2024年02月09日
    浏览(35)
  • 机器学习6:使用 TensorFlow 的训练线性回归模型

    纸上得来终觉浅,绝知此事要躬行。前面 5 篇文章介绍了机器学习相关的部分基础知识,在本章,笔者将讲解基于 TensorFlow 实现一个简单的线性回归模型,以便增强读者对机器学习的体感。 目录 1.环境准备 1.1 安装 Python3 1.2 安装 PyCharm 1.3 安装 TensorFlow 1.4 安装 pandas

    2024年02月11日
    浏览(40)
  • Stable Diffusion模型基于 TensorFlow 或 PyTorch 训练

    安装必要的软件和库 : 安装 Python(建议使用 Python 3.x 版本)。 安装 TensorFlow 或 PyTorch,具体版本取决于你的模型是基于哪个框架训练的。 安装其他可能需要的依赖,如 NumPy、Matplotlib 等。 获取模型代码和权重 : 下载或克隆 Stable Diffusion 的代码仓库(如果可用)。 下载预训

    2024年04月28日
    浏览(42)
  • Tensorflow调用训练好的yolov5模型进行推理

    conda search找找当前源下的CUDA与cuDNN有没有我们要的版本: Onnx(Open Neural Network Exchange)是一种开放的深度学习模型交换格式,用于在不同的深度学习框架之间共享模型。它提供了一个中间格式,可以将模型从一个框架转换为另一个框架。 Tensorflow是一个广泛使用的深度学习框

    2024年02月11日
    浏览(40)
  • 【VSCode部署模型】导出TensorFlow2.X训练好的模型信息

    参考tensorflow2.0 C++加载python训练保存的pb模型 经过模型训练及保存,我们得到 “OptimalModelDataSet2” 文件夹,模型的保存方法( .h5 或 .pb 文件),参考【Visual Studio Code】c/c++部署tensorflow训练的模型 其中“OptimalModelDataSet2”文件夹保存着训练好的模型数据 \\\"saved_model.pb\\\"

    2024年02月15日
    浏览(34)
  • pytorch11:模型加载与保存、finetune迁移训练

    往期回顾 pytorch01:概念、张量操作、线性回归与逻辑回归 pytorch02:数据读取DataLoader与Dataset、数据预处理transform pytorch03:transforms常见数据增强操作 pytorch04:网络模型创建 pytorch05:卷积、池化、激活 pytorch06:权重初始化 pytorch07:损失函数与优化器 pytorch08:学习率调整策略

    2024年02月01日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包