如何利用python将pdf文档转为word?

这篇具有很好参考价值的文章主要介绍了如何利用python将pdf文档转为word?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.前言

有些时候,我们需要将pdf文档转换为word文档进行处理,但市面上的一些pdf软件往往需要付费才能使用。那么作为一名技术人员,如何才能实现pdf转word自由?

2.准备工作

提前安装好python的环境,并且安装对应的第三方包:

pip install pdf2docx

3.实现方法

3.1 convert方法
from pdf2docx import Converter

#需要转的pdf文件
pdf_file_path=r'test.pdf'
#输出的word文档
out_file_path=r'test.docx'
#进行转换
new_converter=Converter(pdf_file_path)
new_converter.convert(out_file_path)
new_converter.close()

3.2 parse方法
from pdf2docx import parse

#需要转的pdf文件
pdf_file_path=r'test.pdf'
#输出的word文档
out_file_path=r'test.docx'
#对所有页面进行转换,并输出
parse(pdf_file_path, out_file_path)
3.3 仅转换其中几页
from pdf2docx import Converter

#需要转的pdf文件
pdf_file_path=r'test.pdf'
#输出的word文档
out_file_path=r'test.docx'
#进行转换
new_converter=Converter(pdf_file_path)
#从第四页转换到最后一页,转换后输出
new_converter.convert(out_file_path,start=3)
#从第一页转换到第六页,转换后输出
new_converter.convert(out_file_path,end=6)
#从第四页转换到第六页,转换后输出
new_converter.convert(out_file_path,start=3,end=6)
new_converter.close()

转换其中的某些页面

#对pdf文档中的第1页、第四页和第九页就行转换,然后输出
new_converter.convert(out_file_path,pages=[0,3,8])
3.4 调用多进程
from pdf2docx import Converter

#需要转的pdf文件
pdf_file_path=r'test.pdf'
#输出的word文档
out_file_path=r'test.docx'
#进行转换
new_converter=Converter(pdf_file_path)
#进行多进程转换
new_converter.convert(out_file_path, multi_processing=True)
#指定数量
new_converter.convert(out_file_path, multi_processing=True, cpu_count=4)
new_converter.close()

3.5 处理有密码的pdf
from pdf2docx import Converter

#需要转的pdf文件
pdf_file_path=r'test.pdf'
#输出的word文档
out_file_path=r'test.docx'
#加密的pdf文档密码
pwd='pdf_2_word'
#进行转换
new_converter=Converter(pdf_file_path)
new_converter.convert(out_file_path,pwd)
new_converter.close()

3.6 将pdf转为表格

注意,本方法只能将以表格形式生成的pdf文档进行转换,不能处理含有表格的图片形式pdf文档。

from pdf2docx import Converter
import pandas as pd
pdf_file_path=r'test.pdf'
out_file_path=r'test.xlsx'

cv = Converter(pdf_file_path)
tables = cv.extract_tables()
cv.close()

# for table in tables:
#     print(table)

df=pd.DataFrame(tables[1:],columns=tables[0])
df.to_excel(out_file_path,encoding='utf-8-sig')
print(df)

4.后记

以上就是pdf转为word的方法,可以根据个人的情况进行调整。希望能够帮助到你~文章来源地址https://www.toymoban.com/news/detail-638531.html

到了这里,关于如何利用python将pdf文档转为word?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python实现Word、Excel、PPT批量转为PDF

    今天看见了一个有意思的脚本Python批量实现Word、EXCLE、PPT转PDF文件。 因为我平时word用的比较的多,所以深有体会,具体怎么实现的我们就不讨论了,因为这个去学了也没什么提升,不然也不会当作脚本了。这里我将其放入了pyzjr库中,也方便大家进行调用。 你可以去下载p

    2024年02月10日
    浏览(62)
  • Python - 将RTF文件转为Word 、PDF、HTML格式

    RTF也称富文本格式,是一种具有良好兼容性的文档格式,可以在不同的操作系统和应用程序之间进行交换和共享。有时出于不同项目的需求,我们可能需要将RTF文件转为其他格式。本文将介如何通过简单的Python代码将RTF文件转换为Word Doc/Docx、PDF、HTML格式。   实现步骤如下:

    2024年02月19日
    浏览(49)
  • 如何通过Java代码将 PDF文档转为 HTML格式

    虽然PDF文件适合用于打印和发布,但不适合所有类型的文档。例如,包含复杂图表和图形的文档可能无法在PDF中呈现得很好。但是HTML文件可以在任何可运行浏览器的计算机上进行阅读并显示。并且HTML还具有占用服务器资源较小,便于搜索引擎收录的特点。那么今天这篇文章就

    2024年02月05日
    浏览(55)
  • 如何将pdf文件转换成word文档?

        如何将pdf文件转换成word文档?PDF文档是我们日常办公中最为常用的电子文档格式的文件,也是在会议、教育培训以及商业营销中经常使用的文档格式。所以说PDF文档的功能较强,且应用场景较多。但是也有例外的时候,比如我们需要将PDF文档转换为word文档的格式,以此

    2024年02月11日
    浏览(48)
  • Word转为PDF后图片模糊怎么办?Word转为PDF的技巧介绍

    将Word文档转为PDF是我们日常办公和文档处理中常见的需求。PDF格式的优势在于跨平台兼容性、保留原始格式、文档保护以及方便共享和分发等方面。本文将探讨Word转为PDF后图片模糊怎么办?Word转为PDF的技巧有哪些?通过这些问题的答案,可以帮助您更好的利用文件转换工具。

    2024年02月10日
    浏览(63)
  • 【方法】PDF可以转换成Word文档吗?如何操作?

    很多人喜欢在工作中使用PDF,因为PDF格式可以准确地保留文档的原始格式,比如字体、图像、布局和颜色等。 但如果编辑文档的话,PDF还是没有Word文档方便。那可以将PDF转换成Word格式,再来编辑吗?如何操作呢?下面小编就来分享两个方法。 方法一:使用PDF编辑器 PDF编辑

    2024年02月14日
    浏览(53)
  • 赛效:如何将PDF文件免费转换成Word文档

    1:在网页上打开wdashi,默认进入PDF转Word页面,点击中间的上传文件图标。 2:将PDF文件添加上去之后,点击右下角的“开始转换”。 3:稍等片刻转换成功后,点击绿色的“立即下载”按钮,将Word文档保存到电脑本地。 如果你想了解更多办公软件及其使用技巧,可以在“赛

    2024年02月11日
    浏览(53)
  • 【python脚本系列】python脚本2——PDF转word文档

    只需2行代码,轻松将PDF转换成Word 机器学习算法那些事 2023-05-05 18:58 发表于广东 编辑:数据分析与统计学之美 可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文

    2024年02月02日
    浏览(46)
  • 使用Python将Word文档转换为PDF的方法

    摘要: 文介绍了如何使用Python编程语言将Word文档转换为PDF格式的方法。我们将使用python-docx和pywin32库来实现这个功能,这些库提供了与Microsoft Word应用程序的交互能力。 正文: 在现实生活和工作中,我们可能会遇到将Word文档转换为PDF格式的需求。PDF格式具有广泛的应用,可

    2024年02月14日
    浏览(62)
  • python脚本——批量将word文档转换成pdf文件

    语言:python 3 用法:点击运行后,弹出窗口选择word文档所在文件夹,程序运行后对 该文件夹下所有的word文件 全部转换成pdf文件,生成的pdf文件名字与原wrod文件相同。 如运行中报错,需要自行根据报错内容按照缺失的库 例如: 完整代码如下:

    2024年02月11日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包