【python爬虫】批量识别pdf中的英文，自动翻译成中文上

10月前作者：阿黎逸阳分类：Toy博客阅读(38) 违法举报

这篇具有很好参考价值的文章主要介绍了【python爬虫】批量识别pdf中的英文，自动翻译成中文上。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

不管是上学还是上班，有时不可避免需要看英文文章，特别是在写毕业论文的时候。比较头疼的是把专业性很强的英文pdf文章翻译成中文。我记得我上学的时候，是一段一段复制，或者碰到不认识的单词就百度翻译一下，非常耗费时间。本文提供批量识别pdf中英文的方法，后续文章实现自动pdf英文转中文文档，敬请期待。

一、安装pdfplumber库

识别pdf中的内容，需要用到pdfplumber库，所以首先安装pdfplumber库，常规代码如下：

pip install pdfplumber

但是在安装过程会报如下错误：

【python爬虫】批量识别pdf中的英文，自动翻译成中文上,学习python,爬虫,python,爬虫,pdf

上网找了一下资料，发现可以使用国内的镜像进行安装文章来源地址https://www.toymoban.com/news/detail-693973.html

到了这里，关于【python爬虫】批量识别pdf中的英文，自动翻译成中文上的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【百度翻译api】中文自动翻译为英文

欸，最近想做一些nlp的项目，做完了中文的想做做英文的，但是呢，国内爬虫爬取的肯定都是中文，爬取外网的技术我没有尝试过，没有把握。所以我决定启用翻译，在这期间chatGPT给了我非常多的方法，但是都因为各种各样的原因一一无效。ps:大骗子GPT！

2024年02月13日
浏览(46)
Python使用正则表达式识别代码中的中文、英文和数字实例演示

在文本处理和数据分析中，有时候需要从代码中提取出其中包含的中文、英文和数字信息。正则表达式是一种强大的工具，可以帮助我们实现这一目标。本文将分三个部分详细介绍如何使用正则表达式在 Python 中识别代码中的中文、英文和数字。在 Python 中，可以使用 Unicod

2024年02月14日
浏览(54)
python自动化办公——定制化将电子签名批量签写到PDF文件

首先需要下载所需要的库此外还需要下载poppler，这里使用的是poppler-0.67.0 这是一个处理PDF文件的工具包，里面包含了非常多的功能供我们使用。下载地址：https://blog.alivate.com.au/poppler-windows/ 下载完压缩包之后，将压缩包解压到本地的某个地方，并记好路径。现需要将类似这

2024年02月09日
浏览(61)
C#调用百度翻译API自动将中文转化为英文，按行转换

我们可以使用百度翻译API获取到翻译结果翻译API地址： http://api.fanyi.baidu.com/api/trans/vip/translate 窗体FormTranslator设计器如图：窗体设计器源代码如下：文件：FormTranslator.Designer.cs TranslateUtil.cs源程序如下：文件FormTranslator.cs 【需要到百度上申请开发者账号appId和密码password】

2024年02月14日
浏览(42)
Python实操 PDF自动识别并提取Excel文件

最近几天，paddleOCR开发了新的功能，通过将图片中的表格提取出来，效果还不错，今天，作者按照步骤测试了一波。首先，讲下这个工具是干什么用的：它的功能主要是针对一张完整的PDF图片，可以对文档图片中的文本、表格、图片、标题与列表区域进行分类。同时还可以

2024年02月09日
浏览(41)
Python批量爬虫下载文件——把Excel中的超链接快速变成网址

本文的背景是：大学关系很好的老师问我能不能把Excel中1000个超链接网址对应的pdf文档下载下来。虽然可以手动一个一个点击下载，但是这样太费人力和时间了。我想起了之前的爬虫经验，给老师分析了一下可行性，就动手实践了。没想到刚开始就遇到了困难，Excel中的

2024年02月12日
浏览(38)
python opencv:批量识别拼接图片分界线并进行自动裁剪

在网上找图片素材时，有很多的图片是长图片，在一张图片上拼接了许多张图片，而很多时候我们需要单张图片，此时就需要将长图进行裁剪，一般可以用图片工具进行简单裁剪，高级点可以采用ps进行切片处理，如果图片数量少还好说一旦有大量的图片需要裁剪就很繁琐并

2024年02月11日
浏览(52)
【Python 实战】---- 批量识别图片中的文字，存入excel中【使用百度的通用文字识别】

1. 获取信息图片示例 2. 运行实例 3. 运行结果 4. 各个文件的位置 1. 需求分析识别图片中的文字【采用百度的通用文字识别】；文字筛选，按照分类获取对应的文本；采用 openpyxl 实现将数据存入 excel 中。 2. 获取 access_token 获取本地缓存的

2024年02月15日
浏览(49)
【批量区域识别内容重命名】批量识别图片区域文字并重命名，批量图片部分识别内容重命文件，PDF区域识别提取重命名

我们在工作和生活中经常遇到这样的需求：比如将以下的图片区域识别进行重命名，批量识别后改成以时间和工作内容重命名，便于日后检索，快速查询首先我们拍摄照片用到的是水印相机，这里的文字呢我们需要加个背景，这样在文字识别就很容易的被识别，准确率也非常

2024年04月25日
浏览(51)
利用Python中selenium库爬虫实现中国裁判文书网自动登录批量下载功能——最新版详细教程！！

如果电脑上没有chrome浏览器或者当前chrome浏览器不是最新版，请先去chrome官网下载安装最新版chrome浏览器 https://www.google.cn/chrome/index.html 什么是ChromeDriver ChromeDriver是一种用于自动化和控制Google Chrome浏览器的工具。它是一个开源的项目，由Google维护，并提供给开发者使用。Ch

2024年02月04日
浏览(117)