提取图像中的文本信息(Tesseract OCR 和 pytesseract)

这篇具有很好参考价值的文章主要介绍了提取图像中的文本信息(Tesseract OCR 和 pytesseract)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

环境准备

安装Tesseract:点这里参考本人博客

下载第三方库

pip install Pytesseract

这个库只自带了一个英语的语言包,这个时候如果我们图片中有对中文或者其他语言的识别需求,就需要去下载其他语言包

下载其他语言包

进入官网以后进入Traineddata Files
提取图像中的文本信息(Tesseract OCR 和 pytesseract),ocr
找到这个位置提取图像中的文本信息(Tesseract OCR 和 pytesseract),ocr
tessdata_best适用于愿意以大量速度换取稍微好一点的准确性的人。它也是 唯一可用于高级用户的某些再培训方案的文件集。

tessdata 中的第三组是唯一支持旧识别器的集合。4 年 00 月的 2016.4 文件既有旧版 LSTM 模型,也有旧版 LSTM 模型。tessdata 中的当前文件集具有旧模型和较新的 LSTM 模型(tessdata_best 中 00.00.<> alpha 模型的整数版本)。
点这里直接拿传送的到github的语言包下载地址
下载完成后将traineddata文件拷贝到tesseract的安装目录下tessdata中(像这样!!!!)
提取图像中的文本信息(Tesseract OCR 和 pytesseract),ocr

小案例

输出tesseract的版本号

import pytesseract

from PIL import Image
# 输出版本号
print(pytesseract.get_tesseract_version())

结果:5.0.1.20220107

输出能够识别的语言列表

import pytesseract

from PIL import Image
# 输出版本号
print(pytesseract.get_languages())

结果:['chi_sim', 'chi_sim_vert', 'eng', 'osd']

读取中文

import pytesseract

from PIL import Image

case = pytesseract.image_to_string(Image.open('a.png'), lang='chi_sim')
print(case)

提取图像中的文本信息(Tesseract OCR 和 pytesseract),ocr
读取英文

import pytesseract

from PIL import Image

case = pytesseract.image_to_string(Image.open('a.png'), lang='chi_sim')
print(case)

提取图像中的文本信息(Tesseract OCR 和 pytesseract),ocr
4、获取图片中文字的详细信息
image_to_data()用来获取识别出来的文字的详细信息,包含识别到的文本内容,可信度,位置等:

import pytesseract
from PIL import Image
im = Image.open('1.jpg')
获取图片中文字的详细信息
print(pytesseract.image_to_data(im, lang='chi_sim'))

提取图像中的文本信息(Tesseract OCR 和 pytesseract),ocr
5、识别图片中的文字和位置
image_to_boxes()用来获取识别出来的文字和位置信息:

import pytesseract
from PIL import Image
im = Image.open('1.jpg')
print(pytesseract.image_to_boxes(im, lang='chi_sim'))

提取图像中的文本信息(Tesseract OCR 和 pytesseract),ocr
识别osd信息
image_to_osd()返回识别到的osd信息:


import pytesseract
from PIL import Image

im = Image.open('c.png')
print(pytesseract.image_to_osd(im, lang='chi_sim'))

提取图像中的文本信息(Tesseract OCR 和 pytesseract),ocr
提取图像中的文本信息(Tesseract OCR 和 pytesseract),ocr
7、识别并生成xml文件
image_to_pdf_or_hocr()可以将识别的文字信息转为xml格式字节流,从而可以写入到xml文件中,其中入参extension设置为’hocr’:

import pytesseract
from PIL import Image

im = Image.open('c.png')
hocr = pytesseract.image_to_pdf_or_hocr(im, lang='chi_sim', extension='hocr')
with open('test.xml',"w+b") as f:
    f.write(hocr)
print(type(hocr))

提取图像中的文本信息(Tesseract OCR 和 pytesseract),ocr文章来源地址https://www.toymoban.com/news/detail-527290.html

到了这里,关于提取图像中的文本信息(Tesseract OCR 和 pytesseract)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python • 图片识别】pytesseract快速识别提取图片中的文字

    提示:本文多图,请手机端注意流量。 利用python做图片识别,识别提取图片中的文字会有很多方法,但是想要简单一点怎么办,那就可以使用tesseract识别引擎来实现,一行代码就可以做到提取图片文本。 本程序用到了两个python库,pytesseract和PIL,所以先来安装。 运行以下命

    2024年02月02日
    浏览(32)
  • OCR提取学历证信息

    2024年02月12日
    浏览(46)
  • 已解决pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it‘s not in your PA

    已解决pytesseract模块提取图片内文字信息,抛出异常pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.的正确解决方法,亲测有效!!! 一个粉丝群小伙伴遇到问题跑来私信我,想用pytesseract模块提取图片内文字信息,但

    2024年02月15日
    浏览(35)
  • 免费开源的高精度OCR文本提取,支持 100 多种语言、自动文本定位和脚本检测,几行代码即可实现离线使用(附源码)

    免费开源的高精度OCR文本提取,支持 100 多种语言、自动文本定位和脚本检测,几行代码即可实现离线使用(附源码)。 要从图像、照片中提取文本吗?是否刚刚拍了讲义的照片并想将其转换为文本?那么您将需要一个可以通过 OCR(光学字符识别)识别文本的应用程序。 图

    2024年02月01日
    浏览(104)
  • OCR之Tesseract安装

    Tesseract是常用的开源OCR识别引擎,后续的图片文字识别项目我们将会调用该库进行识别,本文针对Tesseract的安装配置进行相关说明。 下载地址:Tesseract 选择最新的版本进行下载,下载完成后,解压安装在自己设定的安装路径,一直选择next即可完成安装。 打开系统属性页面,

    2024年02月14日
    浏览(31)
  • Tesseract OCR安装与简单使用

    1.下载Tesseract OCR 下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 2.安装Tesseract OCR 双击安装程序,进入安装界面。 接受协议,下一步。 选择用户 选择组件 如果电脑配置够好、网速够快,可以之间勾选”Additional language data(download)“,下载全部额外的语言数据。 直接全选的话,后

    2024年02月12日
    浏览(37)
  • OCR--基于Tesseract详细教程(python)

    目录 1.介绍 2. 准备工作 2.1 安装Tesseract 2.2 安装pytesseract 3. Tesseract的基础应用  3.1 翻译图像文字——image_to_string  3.2 获取单个字符的外框——image_to_boxes  3.3  输出区域、置信度 文字内容以及其他——image_to_data 3.4 设定配置实现过滤功能  3.4.1  OEM 3.4.2  PEM 3.4.3 示例:只检

    2024年04月27日
    浏览(50)
  • Python OCR 使用easyocr库将图片中的文章提取出来

    EasyOCR是一个开源的Python库,专注于提供易用而准确的文字识别功能。它基于深度学习技术,使用了一种端到端的方法,能够在多种语言和字体下进行稳定的识别。 希望能写一些简单的教程和案例分享给需要的人 Python 3.10.12 系统: ubuntu 22.04 接下来我分享如何使用Python的easy

    2024年02月11日
    浏览(35)
  • java使用tesseract-ocr进行文字识别

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 公司使用AI进行OCR文字识别效果不好,并且提供的服务不稳定,本次查找到使用java也能连接的OCR开源项目进行识别的学习 tesseract-ocr是一个开源的OCR文字识别项目,目前版本已经更新到5.X.X了,并且提供

    2024年02月04日
    浏览(30)
  • Android开发:通过Tesseract第三方库实现OCR

    一、引言         什么是 OCR ?OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。简单地说,OCR是一种技术,该项技术采用光学的

    2024年02月16日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包