PaddleOCR训练自己模型(1)----数据准备

这篇具有很好参考价值的文章主要介绍了PaddleOCR训练自己模型(1)----数据准备。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、下载地址:

PaddleOCR开源代码(下载的是2.6RC版本的,可以根据自己需求下载)

具体环境安装就不详细介绍了, 挺简单的,也挺多教程的。

二、数据集准备及制作

(1)下载完代码及配置完环境之后,运行PPOCRLabel.py文件,打开标注软件(2.7版本的会运行报错,解决方案如下)解决PPOCRLabel.py报错operands could not be broadcast together with shapes (213,488,4) (1,1,3)-CSDN博客

PaddleOCR训练自己模型(1)----数据准备,机器学习,深度学习,人工智能

(2)运行成功后,点击文件,导入图片所在的路径,然后点击自动标注

PaddleOCR训练自己模型(1)----数据准备,机器学习,深度学习,人工智能

(3)自动标注完之后,核对每一张的标签。核对完成之后点击确认,否则导出的时候不会显示

PaddleOCR训练自己模型(1)----数据准备,机器学习,深度学习,人工智能

(4)点击左上角的文件,导出标记结果导出识别结果。两个文件都导出完之后,会多生成几个文件。PaddleOCR训练自己模型(1)----数据准备,机器学习,深度学习,人工智能

 

(5)在PaddleOCR下创建一个train_data文件夹,然后将标注好的整个文件夹复制到train_data里。

PaddleOCR训练自己模型(1)----数据准备,机器学习,深度学习,人工智能

(6)打开PPOCRLabel/gen_ocr_train_val_test.py文件,把路径修改为自己的路径,然后运行gen_ocr_train_val_test.py

PaddleOCR训练自己模型(1)----数据准备,机器学习,深度学习,人工智能

(7)运行结束之后会在train_data里面生成det和rec两个文件夹,分别对应定位和文字识别的数据

使用2.6版本代码生成的txt文件会有空行,训练时会报错估计是bug。如果有空行可以通过下面代码来修改,把det和rec两个文件夹下的txt文件都修改(代码路径自行修改)文章来源地址https://www.toymoban.com/news/detail-853032.html

import os
import json

# 1.读取txt文件, 把文件里的空行去除,并更新到原文件
txt_path = r"D:\Github_Code\PaddleOCR\train_data\rec\train.txt"

# 读取txt文件, 把文件里的空行去除,并更新到原文件
def read_txt(txt_path):
    with open(txt_path, 'r', encoding='utf-8') as f:
        lines = f.readlines()
    new_lines = []
    for line in lines:
        if line.strip() != '':
            new_lines.append(line)
    with open(txt_path, 'w', encoding='utf-8') as f:
        f.writelines(new_lines)
    return new_lines

lines = read_txt(txt_path)





到了这里,关于PaddleOCR训练自己模型(1)----数据准备的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于TF-IDF+Tensorflow+pyQT+孪生神经网络的智能聊天机器人(深度学习)含全部工程源码及模型+训练数据集

    本项目利用TF-IDF(Term Frequency-Inverse Document Frequency 词频-逆文档频率)检索模型和CNN(卷积神经网络)精排模型构建了一个聊天机器人,旨在实现一个能够进行日常对话和情感陪伴的聊天机器人。 首先,我们使用TF-IDF技术构建了一个检索模型。TF-IDF可以衡量一个词语在文档中

    2024年02月12日
    浏览(67)
  • 基于TF-IDF+Tensorflow+PyQt+孪生神经网络的智能聊天机器人(深度学习)含全部Python工程源码及模型+训练数据集

    本项目利用TF-IDF(Term Frequency-Inverse Document Frequency 词频-逆文档频率)检索模型和CNN(卷积神经网络)精排模型构建了一个聊天机器人,旨在实现一个能够进行日常对话和情感陪伴的聊天机器人。 首先,我们使用TF-IDF技术构建了一个检索模型。TF-IDF可以衡量一个词语在文档中

    2024年02月13日
    浏览(59)
  • 机器人技能学习-构建自己的数据集并进行训练

    若想训练自己的场景,数据集的重要性不做过多赘述,下面就基于 robomimic 和 robosuite 构建自己的数据集进行讲解,同时,也会附上 train 和 run 的流程,这样,就形成了闭环。 采集数据可使用脚本 collect_human_demonstrations.py 完成,在采集过程中,需要自己定义 env 的相关信息,在实际

    2024年01月16日
    浏览(48)
  • 深度学习:使用UNet做图像语义分割,训练自己制作的数据集,详细教程

    语义分割(Semantic Segmentation)是图像处理和机器视觉一个重要分支。与分类任务不同,语义分割需要判断图像每个像素点的类别,进行精确分割。语义分割目前在自动驾驶、自动抠图、医疗影像等领域有着比较广泛的应用。我总结了使用UNet网络做图像语义分割的方法,教程很详

    2024年02月03日
    浏览(46)
  • 【机器学习】验证集loss震荡(loss的其他问题) 训练深度学习模型loss为nan的原因

    训练过程中发现,train loss一直下降,train acc一直上升;但是val loss、val acc却一直震荡。loss一会上一会下,但是总体趋势是向下的。 “loss震荡但验证集准确率总体下降” 如何解决? 测试集准确率这样震荡是正常的吗? - 李峰的回答 - 知乎 很多经验:loss问题汇总(不收敛、

    2024年02月12日
    浏览(46)
  • Yolov8改进模型后使用预训练权重迁移学习训练自己的数据集

    yolov8 github下载 1、此时确保自己的数据集格式是yolo 格式的(不会的去搜教程转下格式)。 你的自制数据集文件夹摆放 主目录文件夹摆放 自制数据集data.yaml文件路径模板 2、把data.yaml放在yolov8–ultralytics-datasets文件夹下面 3、然后模型配置改进yaml文件在主目录新建文件夹v8_

    2024年02月06日
    浏览(52)
  • TensorFlow学习:使用官方模型和自己的训练数据进行图片分类

    教程来源:清华大佬重讲机器视觉!TensorFlow+Opencv:深度学习机器视觉图像处理实战教程,物体检测/缺陷检测/图像识别 注: 这个教程与官网教程有些区别,教程里的api比较旧,核心思想是没有变化的。 上一篇文章 TensorFlow学习:使用官方模型进行图像分类、使用自己的数据

    2024年02月08日
    浏览(47)
  • 深度学习:使用UNet做图像语义分割,训练自己制作的数据集并推理测试(详细图文教程)

    语义分割(Semantic Segmentation)是图像处理和机器视觉一个重要分支。与分类任务不同,语义分割需要判断图像每个像素点的类别,进行精确分割。语义分割目前在自动驾驶、自动抠图、医疗影像等领域有着比较广泛的应用。我总结了使用UNet网络做图像语义分割的方法,教程很详

    2024年01月18日
    浏览(50)
  • 用合成数据训练托盘检测模型【机器学习】

    想象一下,你是一名机器人或机器学习 (ML) 工程师,负责开发一个模型来检测托盘,以便叉车可以操纵它们。 ‌你熟悉传统的深度学习流程,已经整理了手动标注的数据集,并且已经训练了成功的模型。 推荐:用 NSDT设计器 快速搭建可编程3D场景。 你已准备好迎接下一个挑

    2024年02月14日
    浏览(41)
  • Azure 机器学习 - 使用自动化机器学习训练计算机视觉模型的数据架构

    了解如何设置Azure Machine Learning JSONL 文件格式,以便在训练和推理期间在计算机视觉任务的自动化 ML 实验中使用数据。 关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的

    2024年02月05日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包