【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)

这篇具有很好参考价值的文章主要介绍了【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、前期准备

可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。

第一步,下载 PyMuPDF 包:

pip install PyMuPDF

【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)
第二步,下载 python-docx 包:

pip install python-docx

【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)
第三步,下载 pdf2docx 包:

pip install pdf2docx

【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)

二、pdf2docx功能

  • 解析和创建页面布局

(1)页边距

(2)章节和分栏 (目前最多支持两栏布局)

(3)页眉和页脚 [TODO]

  • 解析和创建段落

(1)OCR 文本 [TODO]

(2)水平(从左到右)或竖直(自底向上)方向文本

(3)字体样式例如字体、字号、粗/斜体、颜色

(4)文本样式例如高亮、下划线和删除线

(5)列表样式 [TODO]

(6)外部超链接

(7)段落水平对齐方式 (左/右/居中/分散对齐)及前后间距

  • 解析和创建图片

(1)内联图片

(2)灰度/RGB/CMYK等颜色空间图片

(3)带有透明通道图片

(4)浮动图片(衬于文字下方)

  • 解析和创建表格

(1)边框样式例如宽度和颜色

(2)单元格背景色

(3)合并单元格

(4)单元格垂直文本

(5)隐藏部分边框线的表格

(6)嵌套表格

  • 支持多进程转换

pdf2docx 同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。

三、限制

  • 目前暂不支持扫描PDF文字识别
  • 仅支持从左向右书写的语言(因此不支持阿拉伯语)
  • 不支持旋转的文字
  • 基于规则的解析无法保证100%还原PDF样式

四、案例

我们有这样一篇PDF:

【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)
代码如下:

from pdf2docx import parse
pdf_file = './ResNet.pdf'
docx_file = './resnet.docx'
# convert pdf to docx
parse(pdf_file, docx_file)

【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)
输出结果为:

【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)

效果还可以,不过会缺失一部分数据!文章来源地址https://www.toymoban.com/news/detail-435286.html

到了这里,关于【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • chatgpt赋能python:Python如何将PDF转换为Word文档

    在现代电脑使用的日常工作中,PDF格式的文档已经变得很普遍。这种文件格式十分方便,但是有时候可能需要将PDF文件转换为Word文档。幸运的是,Python提供了多种方法来实现这个目标。 PDF文档在保留格式和结构方面表现得很好,而且通常具有较小的文件大小。但是,在某些

    2024年02月08日
    浏览(49)
  • python如何使用最简单的方式将PDF转换成Word?

    由于PDF的文件大多都是只读文件,有时候为了满足可以编辑的需要通常可以将PDF文件直接转换成Word文件进行操作。 看了网络上面的python转换PDF文件为Word的相关文章感觉都比较复杂,并且关于一些图表的使用还要进行特殊的处理。 本篇文章主要讲解关于如何使用python是实现将

    2024年02月11日
    浏览(49)
  • Java【代码 16】将word、excel文件转换为pdf格式和将pdf文档转换为image格式工具类分享(Gitee源码)aspose转换中文乱码问题处理

    感谢小伙伴儿的分享: ● 不羁 ● 郭中天 整合调整后的工具类Gitee地址:https://gitee.com/yuanzhengme/java_application_aspose_demo ● WordToPdfUtil用于将word文档转换为pdf格式的工具类 ● ExcelToPdfUtil用于将excel文档转换为pdf格式的工具类 ● PdfToImageUtil用于将pdf文档转换为image格式的工具类

    2024年01月24日
    浏览(60)
  • Python 实现 PDF 到 Word 文档的高效转换(DOC、DOCX)

    PDF(Portable Document Format)已成为一种广泛使用的电子文档格式。PDF的主要优势是跨平台,可以在不同设备上呈现一致的外观。然而,当我们需要对文件内容进行编辑或修改,直接编辑PDF文件会非常困难,而且效果也不理想。将PDF文件转换为Word文档(doc、docx)再进行编辑是一

    2024年02月03日
    浏览(42)
  • 使用Word轻松实现PDF转Word

    以前WPS还能通过每天打卡白嫖会员,最近不行了,害,羊毛没了 现在重新回归Word,利用Word就可以将PDF转化为Word

    2024年02月15日
    浏览(23)
  • Word怎么转换成PDF文档?多个Word转换成PDF步骤分享

    word文档是一种非常好用的文件格式,可以帮助用户们很好的保存图片和文字内容,不过并不是只有word这一种文档类文件格式,还有一种pdf文档也深受用户们的欢迎,在工作或者学习过程中这两种文档是可以互相转换格式的,那么Word怎么转换成PDF文档?下面小编就为大家介绍一

    2024年02月12日
    浏览(38)
  • 在线Word怎么转换成PDF?Word无法转换成PDF文档原因分析

    不同的文件格式使用方法是不一样的,而且也需要使用不同的工具才可以打开编辑内容,针对不同的场合用户们难免会用到各种各样的文件格式,要想在不修改内容的前提下提高工作效率,那就需要用到文件格式转换,那么在线Word怎么转换成PDF?接下来小编就为大家介绍一下

    2024年02月13日
    浏览(46)
  • PDF如何转换成Word?PDF转Word方法分享!​

    PDF大家都不陌生了吧?作为打工人,学生党的大家都知道,PDF是现在不可或缺的文件传输工具之一,不仅可将文档转为Word,还可以转成excel,ppt等各种形式,其重要性不言而喻,那么今天小编就跟大家具体说说PDF转格式中的Word应该怎么转​ 方法一:复制粘贴​ 我们将在PDF编辑

    2024年02月11日
    浏览(45)
  • Word转PDF:简单步骤,轻松完成!推荐两个实现的方法

    随着社会的发展,PDF 文件已经成为一种非常流行的文件格式,对于一些需要对文件进行保密的企业而言,更是必不可少。在这样的大背景下,如何将 Word 文件转换为 PDF 文件呢?下面是一些简单的步骤,帮助您轻松完成这些操作。 方法一、使用Microsoft Word 第一步:打开Micro

    2024年02月01日
    浏览(25)
  • PDF怎么转Word?8 个最佳 PDF 转 Word 转换器

    PDF 转 Word 转换工具只是一个特殊程序,可以将 PDF(本机和/或扫描)转换为 Microsoft Office Word 格式。将 PDF 导出到 Word 的主要原因之一是满足可编辑文档的需求,尽管还有其他原因。 由于缺少 PDF 阅读器,您可以选择将 PDF 保存为 DOC 或 DOCX、提取特定文本数据、支持盲人屏幕阅

    2024年02月12日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包