改进python批量处理pdf文件插入word页码乱问题

这篇具有很好参考价值的文章主要介绍了改进python批量处理pdf文件插入word页码乱问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

import os
import fitz
import shutil
import os,time
import fitz
from tkinter import filedialog
import tkinter as tk
from docx import Document
from docxcompose.composer import Composer
import win32com.client as win32

def covert2pic(file_path, zoom, png_path):  #此函数用于把pdf文件导出成图片,并保存到对应文件夹下
    doc = fitz.open(file_path)
    total = doc.page_count
    for pg in range(total):
        page = doc[pg]
        zoom = int(zoom)  # 值越大,分辨率越高,文件越清晰
        rotate = int(0)

        trans = fitz.Matrix(zoom / 100.0, zoom / 100.0).prerotate(rotate)
        pm = page.get_pixmap(matrix=trans, alpha=False)
        if not os.path.exists(png_path):
            os.mkdir(png_path)
        save = os.path.join(png_path, '%s.png' %(pg+1))
        pm.save(save)
    doc.close()


def PCLPDFWJ(Pdf_file_path):
    if Pdf_file_path=='':
        print("你输入空目录")
    else:
        desktop_path = os.path.expanduser("~\Desktop")  # 获取当前桌面路径
        # ----读取文件夹下所有文件的名字并把他们用列表存起来------
        datanames = os.listdir(Pdf_file_path)
        list_Pdfname = []
        for i in datanames:
            # 获取文件名称中日期
            list_Pdfname.append(i)
        # -----------------------------------------------
        for j in list_Pdfname:
            s = j  # 获取文件夹中PDF名称
            pdfPath = Pdf_file_path + "\\" + s
            print(pdfPath)
            j = j[:-4]  # 去掉最后4个字符.pdf
            imagePath = desktop_path + "\\" + "临时文件夹" + "\\" + j
            # 批量创建imagePath文件夹----------------------------------------------------
            if not os.path.exists(imagePath):
                os.makedirs(imagePath)
            else:
                # 清理历史遗留处理过的文件夹内容
                shutil.rmtree(imagePath)
                os.makedirs(imagePath)
            covert2pic(pdfPath, 200, imagePath)
            folder_path = imagePath #获取图片数量
            file_count = len([f for f in os.listdir(folder_path) if os.path.isfile(os.path.join(folder_path, f))]) #获取图片数量
            #print(file_count)

            # 创建新的Word文档对象
            document = Document()

            # 获取指定文件夹路径
            folder_path = imagePath

            ysnb=1 #页数从第一页开始插入
            # 遍历文件夹中的每张图片并插入到Word文档中
            #for filename in os.listdir(folder_path):
            while ysnb<=int(file_count):
                filename=str(ysnb)+"."+"png" #获取转化后的临时文件夹中对应图片文件夹中的图片名称
                image_path = os.path.join(folder_path, filename)
                # 在当前光标位置插入图片
                document.add_picture(image_path)
                ysnb=ysnb+1


            document.save(desktop_path + "\\" + "wordoutput" + "\\" + j + ".docx")

            # 保存Word文档
            # print(hb)




def qinglilingshiwenj():      #清理之前生成的临时文件夹,避免出错
    desktop_path = os.path.expanduser("~\Desktop") #获取当前桌面路径
    print("当前桌面路径:", desktop_path)
    # 在当前操作系统桌面上创建wordoutput文件夹------------------------------------
    if not os.path.exists(desktop_path + "\\" + "wordoutput"):
        os.makedirs(desktop_path + "\\" + "wordoutput")
    else:
        # 清理历史遗留处理过的文件夹内容
        shutil.rmtree(desktop_path + "\\" + "wordoutput")
        os.makedirs(desktop_path + "\\" + "wordoutput")

    # ---------把图片插入word文件中---------------------------
    # 在当前操作系统桌面上创建wordoutput文件夹-----------------------------------------
    if not os.path.exists(desktop_path + "\\" + "临时文件夹"):
        os.makedirs(desktop_path + "\\" + "临时文件夹")
    else:
        # 清理历史遗留处理过的文件夹内容
        shutil.rmtree(desktop_path + "\\" + "临时文件夹")
        os.makedirs(desktop_path + "\\" + "临时文件夹")
#--------------------------------------------------------------------------------

#----------此函数用于合并wordoutput文件夹中所有word成为一个word文件,合并文件输出在桌面------
def hebing_word():
    # 获取要处理的文件夹路径
    folder_path = r"C:\Users\Thinkpad\Desktop\wordoutput"
    datanames = os.listdir(folder_path)
    list_wordoutname = []
    for i in datanames:
        # 获取文件名称中日期
        list_wordoutname.append(folder_path + "\\" + i)

    print(list_wordoutname)
    # 以下函数用于合并指定文件夹中所有word文件
    # 创建新的空白Word文档
    merged_doc = Document()

    def HB_wordwj(files, final_docx):
        new_document = Document()
        composer = Composer(new_document)
        for fn in files:
            composer.append(Document(fn))
        composer.save(final_docx)

    # 保存合并后的文档
    desktop_path = os.path.expanduser("~\Desktop")  # 获取当前桌面路径
    merged_file_name = desktop_path + "\\" + "合并输出文件.docx"
    print(merged_file_name)
    HB_wordwj(list_wordoutname, merged_file_name)
    print("已将文件夹中的所有Word文件合并为", merged_file_name)
    # ------以下程序用于执行word中宏程序,用于调整合并插入的图片大小---------------------
    # 创建 Word 应用程序对象
    word = win32.gencache.EnsureDispatch('Word.Application')
    # 打开文件
    doc = word.Documents.Open(merged_file_name)
    try:
        # 运行宏
        doc.Application.Run("setpicsize")
    finally:
        # 关闭文件并退出 Word 应用程序
        doc.Close()
        word.Quit()
#----------此函数用于合并wordoutput文件夹中所有word成为一个word文件,合并文件输出在桌面------



if __name__ == "__main__":

    root = tk.Tk()
    root.withdraw()  # 隐藏tkinter的根窗口

    folder_path = filedialog.askdirectory()
    # 将路径从Unix格式转换为Windows格式
    windows_path = folder_path.replace("/", "\\")
    print("转换后的路径:", windows_path)
    pdfPath = windows_path
    qinglilingshiwenj()  #清理之前生成的临时文件夹,避免出错
    PCLPDFWJ(pdfPath)
    hebing_word()

文章来源地址https://www.toymoban.com/news/detail-802453.html

到了这里,关于改进python批量处理pdf文件插入word页码乱问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python批量实现Word、EXCLE、PPT转PDF文件

     一、绪论背景         在日常办公和文档处理中,有时我们需要将多个Word文档、Excel表格或PPT演示文稿转换为PDF文件。将文档转换为PDF格式的好处是它可以保留文档的布局和格式,并且可以在不同平台上进行方便的查看和共享。         本篇博文将介绍如何使用Pyt

    2024年02月16日
    浏览(45)
  • python 批量修改文件名(PDF、word、Excel、图片、视频等)

          很多朋友遇到批量修改文件名的问题,网上各种搜,操作麻烦不说还有些需要付费。这里不多废话,直接上代码。 一、支持库 二、 定义函数 三、程序入口 四、运行,微云 下载:文件分享

    2024年01月23日
    浏览(65)
  • Python打开文件并进行处理,txt、excel、pdf、word!

    在办公处理中,我们常常要打开一些文件,面临大量的数据时,传统的人工方法耗时耗力。在python中,有一系列包装好的库,让我们能够很方便的操作各种类型的文件。当然,python的内置函数也能够很好的打开一些文件。本文主要探讨python打开各类文件的方式。本文介绍的主

    2023年04月08日
    浏览(94)
  • vue3项目使用pdf.js插件实现:搜索高亮、修改pdf.js显示的页码、向pdf.js传值、控制搜索、处理接口文件流

    官网地址:http://mozilla.github.io/pdf.js/ 中文文档地址:https://gitcode.gitcode.host/docs-cn/pdf.js-docs-cn/print.html PDF.js是基于HTML5技术构建的,用于展示可移植文档格式的文件(PDF),它可以在现代浏览器中使用且无需安装任何第三方插件。 pdf.js主要包含两个库文件 pdf.js:负责API解析 pdf.wor

    2024年02月13日
    浏览(69)
  • 使用Python批量将PDF转Word

            以下全部代码无法完美对图片、表格等非文字形式的内容转化。要较好的效果需要使用光学字符分析等方法进行转化         我懒,不想将代码模块拆分出来写注释         除代码1中有详细注释外,剩下的代码仅在关键部分进行注释         不使用线程,挨

    2024年04月13日
    浏览(43)
  • Apache poi xwpf word转PDF中文显示与页码问题解决

    目录 POM依赖 核心配置代码 PDF下载流问题 WPS模板问题 原问题解决方法:https://github.com/opensagres/xdocreport/issues/161 请记住,word转换如果没问题,那么就要设置pdf的字体,这个是铁律! 将PdfOptions提出来作为方法使用 注意前端PDF文件流空白问题参考以下方案进行处理 js下载PDF文件

    2024年02月07日
    浏览(58)
  • word横向页面侧面页码设置及转pdf后横线变竖线的解决方案

           在处理材料的时候,会遇到同一个文档里自某一页开始,页面布局是横向的,这时候页码要设置在侧面,方法是双击页脚,然后在word工具栏上选择 “插入”——“文本框”——“绘制竖版文本框” ,然后在页面左侧绘制一个文本框,如下图:        绘制完之后,

    2024年02月13日
    浏览(140)
  • Python实现Word、Excel、PPT批量转为PDF

    今天看见了一个有意思的脚本Python批量实现Word、EXCLE、PPT转PDF文件。 因为我平时word用的比较的多,所以深有体会,具体怎么实现的我们就不讨论了,因为这个去学了也没什么提升,不然也不会当作脚本了。这里我将其放入了pyzjr库中,也方便大家进行调用。 你可以去下载p

    2024年02月10日
    浏览(66)
  • python批量处理修改pdf内容

      将PDF转换为Word: 使用pdf2docx库中的Converter类来进行PDF转换。 convert_pdf_to_docx 函数接受PDF文件路径和输出的Word文档路径作为参数。 通过调用Converter对象的 convert 方法将PDF转换为Docx格式。 最后调用 close 方法关闭Converter对象并保存转换后的文档。 将Word转换为Excel: 使用docx库

    2024年01月25日
    浏览(59)
  • Python处理PDF:在PDF文档中插入页眉和页脚

    在处理篇幅较长、结构复杂的PDF文档时,页眉和页脚的设计与插入就显得尤为重要。它们不仅扮演着美化文档、提升专业度的角色,更承担了导航指引、信息标注的重要功能。 页眉通常用于展示文档的标题或章节名称,有助于读者在翻阅过程中迅速定位所处位置,对文档的整

    2024年04月16日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包