Tesseract OCR安装与简单使用

这篇具有很好参考价值的文章主要介绍了Tesseract OCR安装与简单使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Tesseract OCR安装与简单使用

1.下载Tesseract OCR

下载地址：https://digi.bib.uni-mannheim.de/tesseract/
tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

2.安装Tesseract OCR

双击安装程序，进入安装界面。
接受协议，下一步。
选择用户
选择组件
- 如果电脑配置够好、网速够快，可以之间勾选”Additional language data(download)“，下载全部额外的语言数据。
- 直接全选的话，后面下载语言包需要很长时间，导致安装进度缓慢。可以点击“Additional language data(download)”旁边的”+“号，选择几种需要的语言包。
设置安装目录。点击”Next“。
点击”Install“。
等待安装完成。
安装完成。点击”Finish“。
将目录添加到系统环境变量Path
查看版本信息

  tesseract -v

tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

查看已下载的语言包。

  tesseract --list-langs

tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

3.文字识别程序编写

安装pytesseract模块

pip install pytesseract

tesseract-ocr安装,Python,python,Tesseract OCR,图片文字识别

示例1：

from PIL import Image
import pytesseract


# 添加tesseract的路径
pytesseract.pytesseract.tesseract_cmd = r'D:\software\Tesseract-OCR\tesseract.exe'
"""
image_to_string()：如果识别英文或数字可以不必额外参数，如果识别其他语言则需要加上lang参数
lang='chi_sim'表示要识别的是中文简体
没有识别出来时，返回空白
"""
text = pytesseract.image_to_string(Image.open('test.jpg'), lang='chi_sim')
print(text)