零代码编程:用ChatGPT批量识别图片PDF中的文字

这篇具有很好参考价值的文章主要介绍了零代码编程:用ChatGPT批量识别图片PDF中的文字。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

有些PDF页面是图片格式,要怎么批量把图片中的文字识别出来?借助ChatGPT可以轻松完成这个任务。

首先要安装一些相关的软件和Python库。

安装tesseract-ocr(OCR)软件,最新版的是tesseract-ocr-w64-setup-v5.3.0.20221214.exe ,下载地址是https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.3.0.20221214.exe

要从图片中识别字符,就得使用光学字符识别(OCR)技术。

零代码编程:用ChatGPT批量识别图片PDF中的文字,pdf

注意安装中文字库。

然后把D:\Program Files (x86)\TesseractOCR 添加到环境变量。

安装OCR库::pip install pytesseract

安装poppler-windows软件。Poppler 是一个用来生成 PDF 的 C++ 类库,从 xpdf 继承而来。它使用了很多先进的类库例如 freetype 和 cairois 来达到更好的输出效果,同时也提供了一组命令行工具包。下载地址:https://github.com/oschwartz10612/poppler-windows/releases/tag/v23.07.0-0

安装完成后,添加到系统环境变量:D:\Program Files (x86)\poppler-23.07.0\Library\bin

零代码编程:用ChatGPT批量识别图片PDF中的文字,pdf

然后在ChatGPT中输入提示词:

写一段Python程序,实现PDF文件中图片识别出文字的任务。具体步骤如下:

F盘“北交所精选层招股说明书”文件夹里面有很多PDF文件,用pdf2image库将PDF文件第一页转为PNG图片,保存图片到“北交所精选层招股说明书”文件夹;

用pytesseract库将图片识别为文本,保存文本文件到“北交所精选层招股说明书”文件夹;

注意:每一步都要输出信息;图片中的文本为中文字符;

这是PDF文件中的图片:

零代码编程:用ChatGPT批量识别图片PDF中的文字,pdf

这是识别出的文字:

零代码编程:用ChatGPT批量识别图片PDF中的文字,pdf

效果还是不错的。文章来源地址https://www.toymoban.com/news/detail-550632.html

到了这里,关于零代码编程:用ChatGPT批量识别图片PDF中的文字的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python提取图片型pdf中的文字(提取pdf扫描件文字)

    前言 文字型pdf提取,python的库一大堆,但是图片型pdf和pdf扫描件提取,还是有些难度的,我们需要用到OCR(光学字符识别)功能。 一、准备 1、安装OCR(光学字符识别)支持库 首先要安装 pytesseract 和 Tesserac OCR ,Tesseract OCR是一种广泛使用的OCR工具,它可以用于从图像中提取

    2024年03月23日
    浏览(50)
  • Python实现OCR大批量识别图片文字,并将文字保存到txt文档中,文末源码直接拿!

    在当今数字化时代,图像文字识别(Optical Character Recognition, OCR)技术的应用越来越广泛。 OCR技术可以将印刷体文字转化为可编辑的文本格式,从而方便进行文本分析、数据挖掘等操作。Python作为一种简洁、易用的编程语言,提供了丰富的图像处理和机器学习库,使得实现图

    2024年02月15日
    浏览(38)
  • 识别图片中的文字

    PearOCR 是一款免费无限制网页版文字识别工具。 优点如下: 免费:完全免费,没有任何次数、大小限制,可以无限使用; 安全:全部数据本地运算,所有图片均不会被上传; 智能:基于深度学习训练得到的模型,拥有强大的识别能力; 易用:无需安装,即点即用,支持识别

    2024年02月11日
    浏览(35)
  • 【Python • 图片识别】pytesseract快速识别提取图片中的文字

    提示:本文多图,请手机端注意流量。 利用python做图片识别,识别提取图片中的文字会有很多方法,但是想要简单一点怎么办,那就可以使用tesseract识别引擎来实现,一行代码就可以做到提取图片文本。 本程序用到了两个python库,pytesseract和PIL,所以先来安装。 运行以下命

    2024年02月02日
    浏览(30)
  • Python识别图片中的文字

    不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制。或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存。但是当我们想用到里面的文字时,还是要一个字一个字打出来。那么我们能不能直接

    2024年01月18日
    浏览(40)
  • 【python爬虫】批量识别pdf中的英文,自动翻译成中文下

    不管是上学还是上班,有时不可避免需要看英文文章,特别是在写毕业论文的时候。比较头疼的是把专业性很强的英文pdf文章翻译成中文。我记得我上学的时候,是一段一段复制,或者碰到不认识的单词就百度翻译一下,非常耗费时间。之前的文章提供了批量识别pdf中英文的

    2024年02月10日
    浏览(32)
  • 【python爬虫】批量识别pdf中的英文,自动翻译成中文上

    不管是上学还是上班,有时不可避免需要看英文文章,特别是在写毕业论文的时候。比较头疼的是把专业性很强的英文pdf文章翻译成中文。我记得我上学的时候,是一段一段复制,或者碰到不认识的单词就百度翻译一下,非常耗费时间。本文提供批量识别pdf中英文的方法,后

    2024年02月10日
    浏览(25)
  • 调用阿里API实现图片中的文字识别

    王雪玉,女,西安工程大学电子信息学院,2022级研究生 研究方向:机器视觉与人工智能 电子邮件:2239580540@qq.com 王泽宇,男,西安工程大学电子信息学院,2022级研究生,张宏伟人工智能课题组 研究方向:机器视觉与人工智能 电子邮件:2717124491@qq.com 文字识别(OCR)可以将

    2024年02月08日
    浏览(46)
  • 通过Python的pytesseract库识别图片中的文字

    大家好,我是空空star,本篇给大家分享一下通过Python的pytesseract库识别图片中的文字。 本篇所用软件相关版本: macOS 11.6.5 Python 3.8.9 pytesseract 0.3.10 Pillow 9.4.0 Pytesseract是一个Python的OCR库,它可以识别图片中的文本并将其转换成文本形式。Pytesseract基于Google的Tesseract OCR引擎,具

    2024年02月03日
    浏览(27)
  • 【Java】使用Apache POI识别PPT中的图片和文字,以及对应的大小、坐标、颜色、字体等

    本文介绍如何使用Apache POI识别PPT中的图片和文字,获取图片的数据、大小、尺寸、坐标,以及获取文字的字体、大小、颜色、坐标。 官方文档:https://poi.apache.org/components/slideshow/xslf-cookbook.html 官方文档和网上的资料介绍的很少,很多元素,需要一点点尝试才能获取到。 注意

    2024年02月12日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包