Tesseract OCR安装与简单使用

这篇具有很好参考价值的文章主要介绍了Tesseract OCR安装与简单使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Tesseract OCR安装与简单使用

1.下载Tesseract OCR

下载地址:https://digi.bib.uni-mannheim.de/tesseract/
tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

2.安装Tesseract OCR

  • 双击安装程序,进入安装界面。
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 接受协议,下一步。
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 选择用户
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 选择组件

    • 如果电脑配置够好、网速够快,可以之间勾选”Additional language data(download)“,下载全部额外的语言数据。
      tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

    • 直接全选的话,后面下载语言包需要很长时间,导致安装进度缓慢。可以点击“Additional language data(download)”旁边的”+“号,选择几种需要的语言包。
      tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 设置安装目录。点击”Next“。
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 点击”Install“。
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 等待安装完成。
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 安装完成。点击”Finish“。
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 将目录添加到系统环境变量Path
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 查看版本信息

  tesseract -v

tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 查看已下载的语言包。
  tesseract --list-langs

tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

3.文字识别程序编写

  • 安装pytesseract模块
pip install pytesseract

tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 示例1:
from PIL import Image
import pytesseract


# 添加tesseract的路径
pytesseract.pytesseract.tesseract_cmd = r'D:\software\Tesseract-OCR\tesseract.exe'
"""
image_to_string():如果识别英文或数字可以不必额外参数,如果识别其他语言则需要加上lang参数
lang='chi_sim'表示要识别的是中文简体
没有识别出来时,返回空白
"""
text = pytesseract.image_to_string(Image.open('test.jpg'), lang='chi_sim')
print(text)

test.jpg:
tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别
识别效果:
tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 示例2:

    test2.jpg:
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别
    识别效果:
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

  • 示例3

    test4.png:
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别
    识别效果:
    tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别文章来源地址https://www.toymoban.com/news/detail-520090.html


参考文章:
  • https://blog.csdn.net/weixin_51571728/article/details/120384909
  • https://blog.csdn.net/qq_53751944/article/details/125941604

到了这里,关于Tesseract OCR安装与简单使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OCR之Tesseract安装

    Tesseract是常用的开源OCR识别引擎,后续的图片文字识别项目我们将会调用该库进行识别,本文针对Tesseract的安装配置进行相关说明。 下载地址:Tesseract 选择最新的版本进行下载,下载完成后,解压安装在自己设定的安装路径,一直选择next即可完成安装。 打开系统属性页面,

    2024年02月14日
    浏览(41)
  • Mac 上使用 Tesseract OCR 识别图片文本

    Tesseract OCR 引擎:Tesseract是一个开源的OCR引擎,你需要先安装它。可以从Tesseract官方网站(https://github.com/tesseract-ocr/tesseract)下载适用于你的操作系统的安装程序或源代码,并按照官方文档进行安装。 Tesseract OCR 对于低分辨率或模糊的图片可能无法准确识别。尝试使用更高分

    2024年02月15日
    浏览(39)
  • OCR--基于Tesseract详细教程(python)

    目录 1.介绍 2. 准备工作 2.1 安装Tesseract 2.2 安装pytesseract 3. Tesseract的基础应用  3.1 翻译图像文字——image_to_string  3.2 获取单个字符的外框——image_to_boxes  3.3  输出区域、置信度 文字内容以及其他——image_to_data 3.4 设定配置实现过滤功能  3.4.1  OEM 3.4.2  PEM 3.4.3 示例:只检

    2024年04月27日
    浏览(59)
  • Android开发:通过Tesseract第三方库实现OCR

    一、引言         什么是 OCR ?OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。简单地说,OCR是一种技术,该项技术采用光学的

    2024年02月16日
    浏览(62)
  • 提取图像中的文本信息(Tesseract OCR 和 pytesseract)

    安装Tesseract:点这里参考本人博客 这个库只自带了一个英语的语言包,这个时候如果我们图片中有对中文或者其他语言的识别需求,就需要去下载其他语言包 进入官网以后进入Traineddata Files 找到这个位置 tessdata_best适用于愿意以大量速度换取稍微好一点的准确性的人。它也是

    2024年02月12日
    浏览(50)
  • Python OCR库比较:pyocr、pytesseract和python-tesseract

    在接口自动化工作中,经常需要处理文字识别的任务,而OCR(Optical Character Recognition,光学字符识别)库能够帮助我们将图像中的文字提取出来。Python中有几个常用的OCR库,包括pyocr、pytesseract和python-tesseract。本文将对它们进行比较,并提供一些示例代码来演示它们在实际接口

    2024年02月07日
    浏览(53)
  • Qt利用VCPKG和CMake和OpenCV和Tesseract实现中英文OCR

      今天看 OpenCV 方面的教程,pdf 格式的,因为一些强迫症的习惯,喜欢添加一些书签,手动是不太愿意的,自然就想到利用OCR来实现。   想要自己编码实现OCR,方案比较简单就是 Tesseract 。单独使用 Tesseract 也可以,但最好利用 OpenCV 来进行图像方面的处理,一大堆方法可

    2024年02月05日
    浏览(48)
  • 从零开发短视频电商 Tesseract OCR 的 Java 拓展库 javacpp-presets

    项目地址:https://github.com/bytedeco/javacpp-presets JavaCPP: JavaCPP 是一个用于在 Java 中使用本地库的工具,它允许通过 Java 代码访问本地(C/C++)库,而无需编写过多的本地代码。这种方法可以使 Java 与其他语言编写的库进行集成,提供了对性能关键的原生功能的访问。JavaCPP 使用

    2024年01月21日
    浏览(44)
  • 基于Tesseract模块Python实现提取图片中的文字信息(安装+使用教程)

    Python实现提取图片中的文字可以使用Optical Character Recognition (OCR) 技术来解决。OCR是指将图像中的文本转换成可编辑的文本的过程。Python有许多OCR库,但最流行和最广泛使用的是Tesseract库。 下面是一个使用Python和Tesseract来提取图像中的文本的简单示例代码。 OCR,即光学字符识

    2024年02月05日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包