办公效率起飞了,双手终于被Python解放了

这篇具有很好参考价值的文章主要介绍了办公效率起飞了,双手终于被Python解放了。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

最近我在知乎受到一个付费问答,虽然开通了付费问答功能,但是我已经很久没有回答过提问者的问题。

由于时间和精力有限,抽不出整块的时间好好回答提问者的问题,又不愿意三言两语糊弄提问的同学,索性就不回答了。

但是,前几天有一个同学付费咨询我”如何用Python把3个PDF文件按交叉顺序合并在一起?“

的确,PDF、Word作为工作和学习中经常会接触到的文档格式,很难避免与其打交道,今天,就来给大家介绍一下如何使用Python完成常用的PDF、Word编辑功能,再也不用为这项简单的事情付费了!

PDF文档

PDF是一种便携式文件格式,它包含文本、图像、图表等。

与纯文本文件不同,它是一种包含".pdf"扩展名的文件,由Adobe公司发明。

这种类型的文件与任何平台如软件、硬件和操作系统无关。

安装工具包

你需要安装一个名为pypdf2的软件包,它可以处理扩展名为".pdf "的文件:

pip install pypdf2

安装成功,会看到如下内容:

办公效率起飞了,双手终于被Python解放了

读取PDF文件并提取数据

我们只能从pdf文件中提取文本内容,因为PyPDF2在提取多媒体内容时有一个限制,logo、图片等无法从中提取。

办公效率起飞了,双手终于被Python解放了

上面的代码中的import语句得到了PyPDF2模块。你需要使用open('pdfFileName' , 'openMode'),其中pdfFilename是文件名称,openModerb,即只读取二进制格式。

办公效率起飞了,双手终于被Python解放了

PyPDF2有一个名为 "PdfFileReader"的方法,它接收新创建的对象 "pdfFileObject"。你现在可以从 "pdfFileObject "中访问名为 "numPages"的属性,它能给返回总页数。

办公效率起飞了,双手终于被Python解放了

你可以使用pdfReaderObject里面的'getPage(0)'方法来获取第1页。然后将结果存储在'firstPageObject'中,通过使用'extractText()'方法可以打印出该特定页面中的所有文本。

办公效率起飞了,双手终于被Python解放了

办公效率起飞了,双手终于被Python解放了

上面的代码给出了pdf文件的所有文本。但是,图像没有显示在终端,这一点用pyPDF2是无法获取到。

合并PDF

你将把两个不同的pdf文件合并成一个pdf文件,首先需要获取2个用于测试的PDF文档。

办公效率起飞了,双手终于被Python解放了

我们需要从PyPDF2包中导入PdfFileMerger模块,它能够用于合并pdf文件。

指定'path',它表示文件所在的文件夹的路径。另外,要合并的pdf文件被包含在'pdf_files'的列表中。

办公效率起飞了,双手终于被Python解放了

首先,需要通过PdfFileMerger创建一个合并对象,然后针对列表中的每个文件进行的遍历,其中合并是通过向'append'方法传递路径和文件来完成的。

最后,通过使用'merger.write()'可以获得最终的输出,在这里可以获得合并后的内容和新的PDF文件名。

办公效率起飞了,双手终于被Python解放了

上图显示了一个'merged.pdf',它由'test.pdf'和'test-1.pdf'的内容合并而成。

Word文档

Word文件由文件名末尾的".docx "扩展名组成。这些文件并不像纯文本文件那样只包含文本,而是包括富文本文件。富文本文件包含文件的不同结构,这些结构有大小、对齐、颜色、图片、字体等。

如果你有一个用于处理Word文档的应用程序,那将是最好的。适用于Windows和Mac操作系统的流行应用程序是Microsoft Word,但它是一个付费订阅软件。

当然,也有一个免费的替代选择,如 "LibreOffice",它是一个预装在Linux中的应用程序。这些应用程序可以在Windows和Mac操作系统中下载。

本文,将介绍如何通过Python免费操作Word文档。

安装工具包

你需要安装一个名为 "python-docx"的软件包,它可以处理扩展名为".docx "的word文档。

办公效率起飞了,双手终于被Python解放了

编辑Word文档

办公效率起飞了,双手终于被Python解放了

你可以看到上面第一行中的 "document"模块是从 "docx "包中导入的。

第二行的代码通过Document对象的帮助生成了一个新的word文档。

使用'document.save()',文件名被保存为'first.docx'。

添加标题

上面的代码包含一个Document()打开一个新文件,document.save('addHeader.docx')被用来创建一个新编辑的docx文件。

办公效率起飞了,双手终于被Python解放了

你可以通过add_heading('text,' level=number)方法添加标题,该方法将文本作为标题,标题级别从0到4开始。

办公效率起飞了,双手终于被Python解放了

上述代码给出的输出是一个新创建的'addedHeader.docx'文件,其中0级的标题是文本下面的横线,而1级的标题是主标题。

同样地,其他的标题是副标题,其字体大小依次递减。

添加段落

办公效率起飞了,双手终于被Python解放了

上述代码包含一个Document(),它打开了一个新的文档文件,document.save('addParagraph.docx')被用来创建一个新编辑的docx文件。你可以通过add_paragraph('text,' style='required_style')方法添加标题,该方法接收文本,同时style是一个可选的参数,可以使用'List Number'和'List Bullet'。

办公效率起飞了,双手终于被Python解放了

上述代码给出的输出是一个新创建的addedParagraph.docx文件,在第一行有一个简单的段落。

同样,有一个标题,在它下面有一个有序的列表,包含一个编号为1和2的项目。

添加图片

办公效率起飞了,双手终于被Python解放了

上面的代码包含一个Document(),它创建了一个新的文档文件,document.save('addPicture.docx')用于创建一个新编辑的docx文件。

你可以通过使用add_picture()来添加图片,它包含的第一个参数是cat-1.jpeg是猫的图片的路径。

办公效率起飞了,双手终于被Python解放了

宽度和高度是可选的参数,默认为72 dp,但我们为我们的目的使用了Inches

上述代码给出的输出是一个新创建的addedPicture.docx文件,其中包含一张猫的图像,图像的宽度和高度都是1.25英寸。

读取Word文档

接下来,我们使用Python中读取一个word文档。

办公效率起飞了,双手终于被Python解放了

代码的第一行从docx模块中导入Document,用来传递所需的文档文件,并创建一个对象。obtainText是一个函数,接收文件fullText.docx。循环是针对每个段落进行的,这些段落由document.parages访问,并使用append方法插入到一个空列表中。

最后,该函数返回一个以”另起一行“结束的段落列表。

办公效率起飞了,双手终于被Python解放了

上面的输出给出了没有任何样式、颜色的纯文本。

接下来,你就可以解放双手,使用Python自动完成PDF、Word文档操作了!文章来源地址https://www.toymoban.com/news/detail-411521.html

到了这里,关于办公效率起飞了,双手终于被Python解放了的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 欢乐钓鱼大师一键钓鱼,解放双手!

    《钓鱼欢乐大师》是一款让玩家体验钓鱼乐趣的游戏,在游戏中,玩家可以通过技巧和策略钓到各种各样的鱼。为了提高钓鱼效率,让玩家更快地钓到大鱼,下面将介绍如何利用脚本来优化游戏体验。 第一步:准备工作 创建云机 :首先,创建欢乐钓鱼定制云机,然后进入云

    2024年04月24日
    浏览(22)
  • 解放双手!ChatGPT助力编写JAVA框架

    亲爱的Javaer们,在平时编码的过程中,你是否曾想过编写一个Java框架去为开发提效?但是要么编写框架时感觉无从下手,不知道从哪开始。要么有思路了后对某个功能实现的技术细节不了解,空有想法而无法实现。如果你遇到了这些问题,看完这篇文章你也能用ChatGPT编写一

    2024年02月11日
    浏览(18)
  • 程序员怎么利用ChatGPT解放双手=摸鱼?

    目录 1. 当你遇到问题时为你生成代码ChatGPT 最明显的用途是根据查询编写代码。我们都会遇到不知道如何完成任务的情况,而这正是人工智能可以派上用场的时候。例如,假设我不知道如何使用 Python 编写 IP 修改器,只需查询 AI,它就会生成非常好的代码。你还可以通过向

    2024年02月13日
    浏览(28)
  • 微信小程序记住密码,让登录解放双手

    密码是用户最重要的数据,也是系统最需要保护的数据,我们在登录的时候需要用账号密码请求登录接口,如果用户勾选记住密码,那么下一次登录时,我们需要将账号密码回填到输入框,用户可以直接登录系统。我们分别对这种流程进行说明: 记住密码 在请求登录接口成

    2024年02月02日
    浏览(24)
  • Gitlab+Jenkins自动化部署,解放双手

    ​ 在部署项目前需要对源码进行打包,一个简单的SpringBoot项目默认是打包为jar包,也就是在pom.xml中的 packagingjar/packaging 方式,当然也会有一些打包成war包方式,使用外置的Tomcat应用服务器部署war包,那么就是 packagingwar/packaging 。 在父子类聚合项目中,父工程的 pom.xml 文件中

    2024年02月07日
    浏览(23)
  • 微信这样的加人方式,既安全又解放双手

    在当今竞争激烈的市场环境下,如何高效地管理和运营私域流量成为企业发展的关键。 1.批量自动化加好友的优势 (1) 提高效率 :批量自动化添加好友功能可以帮助企业添加大量潜在客户或目标客户。相比手动逐个添加好友,自动添加好友功能,能够极大地提高工作效率。

    2024年02月07日
    浏览(38)
  • 语音识别:解放你的双手,释放你的大脑

    语音识别是指计算机系统或者设备从给定的声音输入中准确地分离出说话人的语音,从而将语音转换为相应的文本或指令的技术。语音识别已经广泛应用于个人助手、智能家居、车载系统、医疗保健、金融服务等领域。 语音识别技术的实现需要经过以下几个步骤: 1、声音采

    2024年02月03日
    浏览(23)
  • Elasticsearch ILM实现索引全生命周期自动管理,解放双手

    公众号: MCNU云原生 ,欢迎搜索关注,更多干货,第一时间掌握! 一、什么是Elasticsearch ILM? Elasticsearch Index Lifecycle Management(ILM)是Elasticsearch的一个功能,用于管理索引的生命周期,优化索引的性能和减少存储成本。ILM可以自动执行索引的各种操作,如创建、删除、滚动、

    2023年04月13日
    浏览(19)
  • 【AIGC】只要10秒,AI生成IP海报,解放双手!!!

    1、云端部署(配置不行的小伙伴看)+ 云端模型放置位置 2、本地部署(配置达标的小伙伴看) 3、运用SD训练IP的流程和技巧(LoRA篇) 4、运用SD稳定生成高质量IP海报 众所周知,各大厂目前都在AIGC的领域探索实践,也有非常多的外部设计师制作了大量的AIGC相关授课,很多同

    2024年02月08日
    浏览(18)
  • js脚本自动化之 【 i茅台 】让你解放双手

    ![青龙面板跑的结果](https://img-blog.csdnimg.cn/15070a54904a4ab9808c66ba7521d6eb.jpeg ----------------------------------------------------------------------------------- 专栏分割线 ------------------------------------------------------------------------------------ ---------------------------------------------------------------------------------

    2024年02月02日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包