Python OCR 使用easyocr库将图片中的文章提取出来

这篇具有很好参考价值的文章主要介绍了Python OCR 使用easyocr库将图片中的文章提取出来。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

EasyOCR是一个开源的Python库,专注于提供易用而准确的文字识别功能。它基于深度学习技术,使用了一种端到端的方法,能够在多种语言和字体下进行稳定的识别。

希望能写一些简单的教程和案例分享给需要的人

环境

Python 3.10.12
系统: ubuntu 22.04

内容

接下来我分享如何使用Python的easyocr库,将图片中的文字提取出来。

步骤一:安装easyocr库

首先,确保您已经安装了Python。接下来,我们需要安装easyocr库,可以通过以下命令在命令行中进行安装:

pip install easyocr

步骤二:导入必要的库

在您的Python脚本中,导入所需的库,其中包括我们即将使用的easyocr库:

import easyocr

步骤三:创建OCR阅读器对象

创建一个OCR阅读器对象,您可以选择要识别的语言。以下示例选择了中文和英文语言:

reader = easyocr.Reader(['ch_sim', 'en'])

步骤四:指定要识别的图片路径

将要进行OCR识别的图片放置在您选择的路径下,并将该路径赋值给变量image_path

image_path = 'test.png'

确保将test.png替换为您实际的图片路径。

步骤五:执行OCR识别并提取文章内容

使用OCR阅读器对象的readtext方法读取图片中的文本,将识别结果存储在变量results中:

results = reader.readtext(image_path)

步骤六:遍历识别结果并打印文章内容

使用循环遍历results中的每个识别结果,然后打印出每个结果的文本内容:

for (bbox, text, prob) in results:
    print(text)

完整代码

# 导入所需库
import easyocr

# 创建一个OCR阅读器对象,选择中文和英文语言
reader = easyocr.Reader(['ch_sim', 'en'])

# 指定要进行OCR识别的图片路径
image_path = 'aaa.png'

# 使用OCR阅读器对象读取图片中的文本
results = reader.readtext(image_path)

# 遍历识别结果并打印文本内容
for (bbox, text, prob) in results:
    print(text)

运行结果

Python OCR 使用easyocr库将图片中的文章提取出来,Python,python,ocr,开发语言

python3 a.py

Python OCR 使用easyocr库将图片中的文章提取出来,Python,python,ocr,开发语言
识别出来是这样:识别率还行,不过有些确实不是很正确。

盗理者
玛龄7年
企业员工
355
4954
1458
103万+
原创
屑#名
总排名
访问
1万+
1770
788
241
1071
讧论

在sublime text 的效果:

Python OCR 使用easyocr库将图片中的文章提取出来,Python,python,ocr,开发语言文章来源地址https://www.toymoban.com/news/detail-671084.html

到了这里,关于Python OCR 使用easyocr库将图片中的文章提取出来的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 免费,开源,可批量的离线图片文字提取软件OCR

    免费,开源,可批量的离线OCR软件 适用于 Windows7 x64 及以上 免费 :本项目所有代码开源,完全免费。 方便 :解压即用,离线运行,无需网络。 批量 :可批量导入处理图片,结果保存到本地 txt / md / jsonl 多种格式文件。也可以即时截屏识别。 高效 :采用 PaddleOCR-json C++ 识别

    2024年02月07日
    浏览(39)
  • 【Python • 图片识别】pytesseract快速识别提取图片中的文字

    提示:本文多图,请手机端注意流量。 利用python做图片识别,识别提取图片中的文字会有很多方法,但是想要简单一点怎么办,那就可以使用tesseract识别引擎来实现,一行代码就可以做到提取图片文本。 本程序用到了两个python库,pytesseract和PIL,所以先来安装。 运行以下命

    2024年02月02日
    浏览(32)
  • python提取图片型pdf中的文字(提取pdf扫描件文字)

    前言 文字型pdf提取,python的库一大堆,但是图片型pdf和pdf扫描件提取,还是有些难度的,我们需要用到OCR(光学字符识别)功能。 一、准备 1、安装OCR(光学字符识别)支持库 首先要安装 pytesseract 和 Tesserac OCR ,Tesseract OCR是一种广泛使用的OCR工具,它可以用于从图像中提取

    2024年03月23日
    浏览(54)
  • 用python实现提取word中的所有图片

    你可以使用python-docx库来处理word文件,然后遍历文件中的所有形状,找到图片。 首先,你需要安装python-docx库。在命令行中输入以下命令进行安装: 复制代码 pip install python-docx 然后,你可以使用以下代码提取word文件中的所有图片: python复制代码 from docx import Document from doc

    2024年01月21日
    浏览(37)
  • 通过Python的fitz库提取pdf中的图片

    大家好,我是空空star,本篇给大家分享一下 《通过Python的fitz库提取pdf中的图片》 。 Fitz库是一个Python图像处理库,主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像。它可以帮助用户读取和写入PDF文件,提取PDF页面以及在页面上进行标记和注释。此外,Fitz库还提供了一些

    2024年02月07日
    浏览(40)
  • 利用python工具提取多个word中的图片和表格

    由于工作因素,经常要对多个文档内容进行查重,文字类可以借助查重工具辅助,但图片和表格只能依靠鼠标滚轮还有笔者的打工眼。久而久之,眼睛废了,肩颈也吃不消了(-.-)。于是乎,就想用脚本批量导出,从而提高效率。 笔者非软件专业,所以只能请ChatGPT当导师了

    2024年02月08日
    浏览(34)
  • 通过Python的PyPDF2库提取pdf中的图片

    大家好,我是空空star,本篇给大家分享一下通过Python的PyPDF2库 提取pdf中的图片 。 上一篇已经给大家分享了 提取pdf中的文字 ,感兴趣的同学可以阅读下。 本篇演示所用python版本: Python 3.8.9 通过Python的PyPDF2库提取pdf中的文字 PyPDF2库是一个用于处理PDF文件的Python库。它提供了

    2024年02月06日
    浏览(40)
  • 提取图像中的文本信息(Tesseract OCR 和 pytesseract)

    安装Tesseract:点这里参考本人博客 这个库只自带了一个英语的语言包,这个时候如果我们图片中有对中文或者其他语言的识别需求,就需要去下载其他语言包 进入官网以后进入Traineddata Files 找到这个位置 tessdata_best适用于愿意以大量速度换取稍微好一点的准确性的人。它也是

    2024年02月12日
    浏览(36)
  • Python - 利用 OCR 技术提取视频台词、字幕

    目录 一.引言 二.视频处理 1.视频样式 2.视频截取 ◆ 裁切降帧 ◆ 处理效果 3.视频分段 三.OCR 处理 1.视频帧处理 2.文本识别结果 3.后续工作与优化 ◆ 识别去重 ◆ 多线程提效 ◆ 片头片尾优化 四.总结 视频经常会配套对应的台词或者字幕,通过文本与字幕可以更好地理解视频

    2024年02月03日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包