PaddleOCR 服务化部署(基于PaddleHub Serving)

这篇具有很好参考价值的文章主要介绍了PaddleOCR 服务化部署(基于PaddleHub Serving)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

最近用到百度飞桨的 PaddleOCR,研究了一下PaddleOCR的服务化部署,简单记录一些部署过程和碰到的问题。

基础环境
  • paddlepaddle 2.5.2
  • python 3.7
  • paddlehub 2.1.0
  • PaddleOCR 2.6
  • pip 20
#查看 python 版本
python --version 
#查看pip版本
pip --version
#查看paddlepaddle版本
pip show paddlepaddle

部署过程中也尝试多次,不同版本遇到的问题不尽相同,这里选取其中一组进行部署说明

使用 docker部署paddlepaddle2.5.2容器

  • PaddleOCR 依赖飞桨环境运行,所以需要先安装paddlepaddle环境,默认 docker 已经安装,执行脚本获取paddlepaddle2.5.2 镜像并自动创建名称为 ppocr的容器,网络顺畅的话很快就可以下载完成,下载完成后执行attach命令就可以进入容器继续操作。

    官方paddlepaddle2.5.2容器内python版本为3.7,pip版本为20,默认即可。

    # 下载并创建容器
    docker run -p 9997:9997 --name ppocr -itd -v $PWD:/paddle registry.baidubce.com/paddlepaddle/paddle:2.5.2 /bin/bash
    
    # 进入容器
    docker attach ppocr
    
    参数说明
    参数 说明
    -p 指定 docker 映射的端口
    -name 指定容器的名称
  • docker 部分常用管理命令
    #查看容器情况
    docker ps -a
    
    #停止容器
    docker stop ppocr
    
    #启动容器
    docker  start ppocr
    
    #查看所有镜像
    docker  images
    

以下操作都在容器内进行

安装paddlehub

  • 进入容器后执行脚本安装paddlehub,版本为2.1.0
    pip3 install paddlehub==2.1.0 --upgrade -i https://mirror.baidu.com/pypi/simple
    
  • 安装过程中会提示typing-extensions版本过低,要求版本要大于4.6.1,卸载当前版本安装指定版本,安装完成后再次执行上述命令安装paddlehub,安装时间较长等待安装完成接口。
    PaddleOCR 服务化部署(基于PaddleHub Serving)
    #卸载当前包
    pip uninstall typing-extensions
    
    #安装4.6.1版本
    pip3 install typing-extensions==4.6.1
    

安装PaddleOCR 2.6.0

PaddleOCR 使用 2.6.0版本

  • 首先从gitee获取PaddleOCR代码,PaddleOCR在gitee仓库的最新版本为2.6.0,在 github仓库的最新版本为2.7.1,2.7.1依赖 python 版本需要>=3.8,此处需要注意.
    cd /home
    git clone https://gitee.com/paddlepaddle/PaddleOCR.git
    
  • 代码下载完成后进入PaddleOCR文件夹内执行脚本安装依赖包
    cd /home/PaddleOCR
    #安装依赖包
    pip3 install -r requirements.txt -i https://mirror.baidu.com/pypi/simple
    

hubserving服务配置

hubserving服务部署目录下包括文本检测、文本方向分类,文本识别、文本检测+文本方向分类+文本识别3阶段串联,版面分析、表格识别和PP-Structure七种服务包,可以按需安装使用,使用前需要下载对应模型并进行配置,以下已文本检测+文本方向分类+文本识别3阶段串联服务(ocr_system)和表格识别(structure_table)为例进行说明。

  • 文本检测+文本方向分类+文本识别3阶段串联服务(ocr_system)配置

    • 相关模型下载
      cd /home/PaddleOCR
      mkdir inference && cd inference
      
      # 下载并解压 OCR 文本检测配置
      wget https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tar && tar -xf ch_PP-OCRv3_det_infer.tar
      
      # 下载并解压 OCR 文本识别模型
      wget https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_rec_infer.tar &&  tar -xf ch_PP-OCRv3_rec_infer.tar
      
      # 下载并解压 OCR 文本方向分类模型
      wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar && tar xf ch_ppocr_mobile_v2.0_cls_infer.tar
      
    • 服务配置
      文本检测+文本方向分类+文本识别3阶段串联服务(ocr_system)配置文件是deploy/hubserving/ocr_system/params.py,包含模型路径和相关参数,这里使用默认配置即可,如果更换模型需要对应修改配置文件。
      PaddleOCR 服务化部署(基于PaddleHub Serving)
  • 表格识别服务(structure_table)配置

    • 下载中文表格识别模板
      cd /home/PaddleOCR/inference
      #下载基于SLANet的中文表格识别模型
      wget https://paddleocr.bj.bcebos.com/ppstructure/models/slanet/ch_ppstructure_mobile_v2.0_SLANet_infer.tar && tar xf ch_ppstructure_mobile_v2.0_SLANet_infer.tar
      
    • 服务配置
      structure_table默认配置为英文表格识别模型和英文字典,需要调整为中文识别模板和对应的中文字典文件,修改完成保存即可。
      #打开配置文件
      vim /home/PaddleOCR/deploy/hubserving/structure_table/param.py
      #调整模型文件路径为./inference/ch_ppstructure_mobile_v2.0_SLANet_infer/
      #调整字典文件路径为./ppocr/utils/dict/table_structure_dict_ch.txt
      

    PaddleOCR 服务化部署(基于PaddleHub Serving)

hubserving服务安装

  • 服务配置完成就可以安装服务了,后续如果服务相关配置存在变动需要重新执行以下命令安装服务
    cd /home/PaddleOCR
    
    #安装ocr_system服务
    hub install deploy/hubserving/ocr_system
    
    #安装structure_table服务
    hub install deploy/hubserving/structure_table
    
    安装完成
    PaddleOCR 服务化部署(基于PaddleHub Serving)
  • 错误1:服务安装时会提示protobuf版本过高,可以卸载当前版本安装指定版本3.20.2即可
    pip uninstall protobuf
    pip install protobuf==3.20.2
    
    PaddleOCR 服务化部署(基于PaddleHub Serving)
  • 错误2:服务安装时还会提示cannot import name 'RNNCell' from 'paddle.fluid.layers'
    PaddleOCR 服务化部署(基于PaddleHub Serving)
    这是因为paddlepaddle2.5.0后没有fluid了,需要修改paddlehub安装包中的/usr/local/lib/python3.7/dist-packages/paddlehub/compat/task/text_generation_task.py文件,将文件中 paddle.fluid.layers import RNNCell ...换成from paddle.nn import RNNCellBase,对应变量引入也需要修改,修改如下
    PaddleOCR 服务化部署(基于PaddleHub Serving)

hubserving服务启动

#以后台形式启动ocr_system structure_table 服务
nohup hub serving start -m ocr_system structure_table -p 9997 &

#查看启动日志
tail -f nohup.out
**参数说明**
|  参数 |  说明 |
| ------------ | ------------ |
|  -m | 指定启动的服务名称,多个用空格隔开 |
|  -p | 指定服务端口  |

启动成功
PaddleOCR 服务化部署(基于PaddleHub Serving)
接口访问路径

  • ocr_system: http://127.0.0.1:9997/predict/ocr_system
  • structure_table: http://127.0.0.1:9997/predict/structure_table
    接口说明
    参数 说明
    请求类型 post
    Content-Type application/json
    参数格式 {"images":["图片 base64串"]}

PaddleOCR 服务化部署(基于PaddleHub Serving)
PaddleOCR 服务化部署(基于PaddleHub Serving)

吐槽

最后忍不住吐槽一下,百度的文档真的是一言难尽,要么是代码已经更新文档还是几年前的,要么是有文档但写的非常简略,新手全靠自己踩坑,学习成本太高了!


相关参考文档

官方PaddleHub Serving部署文档
PP-Structure 系列模型列表
PP-OCR系列模型列表
解决RNNCell问题参考文档文章来源地址https://www.toymoban.com/news/detail-837697.html

到了这里,关于PaddleOCR 服务化部署(基于PaddleHub Serving)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI架构师必知必会系列:模型部署与服务化、Mass架构设计方案详解和代码实战指南

    作者:禅与计算机程序设计艺术

    2024年02月05日
    浏览(41)
  • 【业务功能篇73】web系统架构演变-单体-集群-垂直化-服务化-微服务化

    1.1 单体架构 单体架构应该是我们最先接触到的架构实现了,在单体架构中使用经典的三层模型,即表现层,业务逻辑层和数据访问层。 单体架构只适合在应用初期,且访问量比较下的情况下使用,优点是性价比很高,开发速度快,成本低,但缺点也很明显,这时扩展的首先

    2024年02月11日
    浏览(40)
  • 为什要微服务化?

    从 0 到 1 的堆砌式发展 一个服务承载所有,一个系统涵盖一切,这可能是大多数公司初创时的技术风貌。一切追求快速验证,快速响应,快速实现。 但是,伴随着业务的膨胀发展,相应的技术支撑要求也在不断提升。从最开始的一个简单的服务,不断地添枝加叶,各种各样

    2024年02月08日
    浏览(33)
  • xxl-job服务化

    xxl-job作为服务,之前使用都是每个服务配置信息,采用方法的形式,xxl-job作为服务的话,只需要进行配置 配置信息 xxl-job创建任务 xxl-job相关输入 clientClass 实现类 clientMethod 调用的方法 加参数,比如用户为张三,年龄18 ,\\\"name\\\":\\\"张三\\\",\\\"age\\\":18 JobHandler:CommonXxlJobHandler 任务参数:

    2024年02月06日
    浏览(32)
  • 【架构设计】单体软件向微服务化演变

    假设单体软件的各模块如下,其中服务包含许多功能模块,如用户管理模块、商品模块、订单模块、仓库模块; 服务化是指对单体服务进行拆分,将一个服务软件拆分为多个相互关联的服务,他们之间相互协作,能正常完成原单体服务的所有业务。 服务化后,有如下优点:

    2024年01月17日
    浏览(69)
  • springboot + activiti实现activiti微服务化

    本文介绍如何将springboot+activiti进行整合,并配合eureka,zuul和feign实现activiti的微服务化,将流程控制和业务逻辑分离. 并实现了几个比较特殊的功能,比如时间段委托(某人请假或出差,出差时间内,所有待办交给被委托人处理),比如节点的无限级加签功能(流程本身有不确定性,临时增加

    2024年02月09日
    浏览(29)
  • 为什么要将应用微服务化

    其实在十多年前,“架构师”并不是一个需求很大的职业,一来那时还没有“全民App”级别的应用,除了三大门户网站以外,其他的网上应用业务压力并不大;二来也没有现如今这么丰富的技术选型,几乎清一色的PHP(坊间一直流传着PHP是世界上最好的语言这个说法,我08年左右

    2024年01月17日
    浏览(30)
  • 为什么要将应用微服务化?

    其实在十多年前,“架构师”并不是一个需求很大的职业,一来那时还没有“全民App”级别的应用,除了三大门户网站以外,其他的网上应用业务压力并不大;二来也没有现如今这么丰富的技术选型,几乎清一色的PHP(坊间一直流传着PHP是世界上最好的语言这个说法,我08年左右

    2024年01月18日
    浏览(36)
  • 分布式、服务化的ERP系统架构设计

    ERP 之痛        曾几何时,我混迹于电商、珠宝行业4年多,为这两个行业开发过两套大型业务系统(ERP)。作为一个ERP系统,系统主要功能模块无非是订单管理、商品管理、生产采购、仓库管理、物流管理、财务管理等等。作为一个管理系统,大家的一般开发习惯就是使用

    2024年02月11日
    浏览(33)
  • 【flask】python使用flask发布http服务对算法服务化封装

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 随着应用场景的变化,某些场景中需要调用python的算法对B/S或C/S结构的项目进行支撑,为了将算法服务化,可以使用flask框架对算法进行服务发布,避免不同系统调用算法时进行多次算法的部署以及代码

    2024年04月16日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包