【Python • 图片识别】pytesseract快速识别提取图片中的文字

这篇具有很好参考价值的文章主要介绍了【Python • 图片识别】pytesseract快速识别提取图片中的文字。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

python识别图片中的文字,Python专精,python,开发语言

提示:本文多图,请手机端注意流量。


前言

利用python做图片识别,识别提取图片中的文字会有很多方法,但是想要简单一点怎么办,那就可以使用tesseract识别引擎来实现,一行代码就可以做到提取图片文本。


一、配置环境

1. 安装python依赖

本程序用到了两个python库,pytesseract和PIL,所以先来安装。

运行以下命令

pip install Pillow
pip install pytesseract 

如果在python中没有报错,说明程序安装成功,
python识别图片中的文字,Python专精,python,开发语言

2. 安装识别引擎

安装完以上两个依赖还需要对应的识别引擎。点击去下载

咱们直接使用5月10号构建的最新版本。
python识别图片中的文字,Python专精,python,开发语言

安装tesseract识别引擎(可跳过)

下载完成后打开程序进行安装,先选择语言,这里选择英语English就行,然后点ok

python识别图片中的文字,Python专精,python,开发语言
接下来就是next,完了点击I Agree同意协议,
python识别图片中的文字,Python专精,python,开发语言
python识别图片中的文字,Python专精,python,开发语言
为所有用户安装,然后点next,如图,
python识别图片中的文字,Python专精,python,开发语言
接下来安装中文的语言包用来识别中文,需要滑到下面,选择中文,我这里横排简体中文和竖排简体中文都选择了,完成后点击next,
python识别图片中的文字,Python专精,python,开发语言
python识别图片中的文字,Python专精,python,开发语言
选择安装路径,建议安装到C盘以外,然后点击next
python识别图片中的文字,Python专精,python,开发语言
这里点击安装install

python识别图片中的文字,Python专精,python,开发语言
等待安装完成
python识别图片中的文字,Python专精,python,开发语言
安装完成后,点击next,再点击finish完成安装,
python识别图片中的文字,Python专精,python,开发语言
python识别图片中的文字,Python专精,python,开发语言

验证是否安装成功

添加环境变量,就是你安装到的那个文件夹路径,直接加到path里面,
python识别图片中的文字,Python专精,python,开发语言
然后在命令行运行tesseract -v,如果和下图一样,说明你已经安装成功了,
python识别图片中的文字,Python专精,python,开发语言

二、使用步骤

1.引入库

from PIL import Image
import pytesseract

2.提取图片文字

将读取图片的一行代码封装为一个函数,

def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))

main函数中直接调用即可,

def main():
    read_image('1657158527412.jpg')

3.运行效果

以以下图片为例,
python识别图片中的文字,Python专精,python,开发语言

运行效果如下,
python识别图片中的文字,Python专精,python,开发语言


总结

本文介绍了tesseract的python调用,也就是pytesseract库,其中还有一些其他的内容并没有涉及,仅涉及到了图片提取文字,如果你对其感兴趣,可以深入探索一下,也希望能和我探讨一下。文章来源地址https://www.toymoban.com/news/detail-785341.html

完整代码

from PIL import Image
import pytesseract


def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))


def main():
    read_image('img.png')


if __name__ == '__main__':
    main()

到了这里,关于【Python • 图片识别】pytesseract快速识别提取图片中的文字的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Tesseract模块Python实现提取图片中的文字信息(安装+使用教程)

    Python实现提取图片中的文字可以使用Optical Character Recognition (OCR) 技术来解决。OCR是指将图像中的文本转换成可编辑的文本的过程。Python有许多OCR库,但最流行和最广泛使用的是Tesseract库。 下面是一个使用Python和Tesseract来提取图像中的文本的简单示例代码。 OCR,即光学字符识

    2024年02月05日
    浏览(46)
  • 华为手机怎么识别提取图片文字?APP一键识别

    平时我们用手机会接触到形形色色的图片文件,其中有一部分保存着咱们需要的文字信息。如果我们是华为手机怎么识别提取图片文字呢?给大伙介绍两种方式,有同样需求的小伙伴接着往下浏览吧。 1.“智慧识屏” 华为手机自带的“智慧识屏”可以实现识别提取图片文字,

    2024年02月12日
    浏览(56)
  • 【批量区域识别内容重命名】批量识别图片区域文字并重命名,批量图片部分识别内容重命文件,PDF区域识别提取重命名

    我们在工作和生活中经常遇到这样的需求:比如将以下的图片区域识别进行重命名,批量识别后改成以时间和工作内容重命名,便于日后检索,快速查询 首先我们拍摄照片用到的是水印相机,这里的文字呢我们需要加个背景,这样在文字识别就很容易的被识别,准确率也非常

    2024年04月25日
    浏览(50)
  • python提取图片文字

    STEP1:安装pillow ,pillow-pil ,pytesseract 安装完后,可以用 查看是否安装成功。若是列表中有,则安装成功。 STEP2:安装Tesseract  下载地址:Index of /tesseract 下载完成后双击.exe文件进行安装,语言包这个地方选一下(若是太慢,这个地方不选,后期再装语言包也可以),其他就

    2024年02月16日
    浏览(52)
  • 识别图片中的文字

    PearOCR 是一款免费无限制网页版文字识别工具。 优点如下: 免费:完全免费,没有任何次数、大小限制,可以无限使用; 安全:全部数据本地运算,所有图片均不会被上传; 智能:基于深度学习训练得到的模型,拥有强大的识别能力; 易用:无需安装,即点即用,支持识别

    2024年02月11日
    浏览(48)
  • 提取图像中的文本信息(Tesseract OCR 和 pytesseract)

    安装Tesseract:点这里参考本人博客 这个库只自带了一个英语的语言包,这个时候如果我们图片中有对中文或者其他语言的识别需求,就需要去下载其他语言包 进入官网以后进入Traineddata Files 找到这个位置 tessdata_best适用于愿意以大量速度换取稍微好一点的准确性的人。它也是

    2024年02月12日
    浏览(58)
  • 调用阿里API实现图片中的文字识别

    王雪玉,女,西安工程大学电子信息学院,2022级研究生 研究方向:机器视觉与人工智能 电子邮件:2239580540@qq.com 王泽宇,男,西安工程大学电子信息学院,2022级研究生,张宏伟人工智能课题组 研究方向:机器视觉与人工智能 电子邮件:2717124491@qq.com 文字识别(OCR)可以将

    2024年02月08日
    浏览(86)
  • python-图片文字识别

    两种方法 1. 第一种方法 2. 第二种方法

    2024年02月15日
    浏览(46)
  • 零代码编程:用ChatGPT批量识别图片PDF中的文字

    有些PDF页面是图片格式,要怎么批量把图片中的文字识别出来?借助ChatGPT可以轻松完成这个任务。 首先要安装一些相关的软件和Python库。 安装tesseract-ocr(OCR)软件,最新版的是tesseract-ocr-w64-setup-v5.3.0.20221214.exe ,下载地址是https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-se

    2024年02月15日
    浏览(57)
  • 使用python进行图片的文字识别

    Tesseract OCR 是一款由 Google 团队开发的开源 OCR(Optical Character Recognition,光学字符识别)引擎,用于将图片、PDF 等格式中的文本转换为可编辑的文本格式。自 1985 年首次发布以来,它已经经历了多个版本和改进,并成为目前最受欢迎的 OCR 引擎之一。 Tesseract OCR 支持多种语言,

    2024年02月09日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包