使用Python合并PDF文件并添加自定义目录及页脚

这篇具有很好参考价值的文章主要介绍了使用Python合并PDF文件并添加自定义目录及页脚。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在处理文档时,我们经常遇到需要合并多个PDF文件并添加目录及页脚的情况。本文将介绍如何使用Python,特别是PyPDF2reportlab库来实现这一功能。我们将通过一个实用的示例来演示整个过程,包括如何动态创建目录页和在每页底部添加页码。

步骤一:准备环境

首先,确保你的环境中安装了PyPDF2reportlab库。如果还没有安装,可以通过以下命令进行安装:

pip install PyPDF2 reportlab

步骤二:合并PDF文件

我们首先定义一个函数add_catalog_page(bookmarks)来创建一个包含目录的PDF页面。这个目录基于传入的书签列表动态生成,每个书签对应一个文档标题和其开始的页码。

接下来,使用create_footer_page(footer_text)函数为每个PDF页面添加自定义页脚。这个函数通过绘制一个足够大的白色矩形来覆盖原有的页码,然后在指定位置添加新的页码文本。

步骤三:处理特定文件

在合并多个PDF文件之前,我们可能需要调整它们的顺序。在本例中,我们将特定的文件(如"第一篇.pdf")移动到文件列表的开头,以确保它作为合并后PDF文档的第一个文件出现。

步骤四:合并并添加目录与页脚

遍历每个PDF文件,读取其页面,并将它们添加到一个列表中。同时,我们记录每个文件的标题和起始页码,用于生成目录页。

在所有页面都处理完毕后,我们首先将目录页添加到最终的PDF文档中,然后为每个页面添加页脚,并将它们一一加入到文档中。

步骤五:保存最终文档

完成所有页面的处理和添加后,我们将这些页面写入到一个新的PDF文件中,完成了合并、添加目录和页脚的整个过程。

结语

通过上述步骤,我们展示了如何使用Python处理PDF文件,包括合并多个PDF文件、动态创建目录页和在每页底部添加自定义页脚。这种方法不仅提高了文档处理的自动化程度,也为管理和阅读PDF文档提供了便利。希望这篇文章能帮助到需要进行PDF文档处理的读者。文章来源地址https://www.toymoban.com/news/detail-839197.html

完整代码


import io
import os

from PyPDF2 import PdfReader
from PyPDF2 import PdfWriter
from reportlab.lib.pagesizes import letter
from reportlab.pdfbase.pdfmetrics import stringWidth
from reportlab.pdfgen import canvas


def create_footer_page(footer_text):
    packet = io.BytesIO()
    c = canvas.Canvas(packet, pagesize=letter)
    width, height = letter  # letter页面的宽度和高度
    font_name = "Helvetica"  # 使用的字体
    font_size = 12  # 字体大小
    cover_height = font_size + 4  # 覆盖区域的高度稍大于字体大小,以确保完全覆盖原有页码
    cover_y_position = 28  # 覆盖区域的Y位置,根据需要进行调整以确保覆盖原有页码

    # 计算文本宽度和起始X位置以居中文本
    text_width = c.stringWidth(footer_text, font_name, font_size)
    text_start_position = (width - text_width) / 2

    # 绘制一个足够大的白色矩形以覆盖原有页码
    c.setFillColorRGB(1, 1, 1)  # 设置填充颜色为白色
    c.rect(0, cover_y_position, width, cover_height, stroke=False, fill=True)

    # 在页脚区域居中添加文本,高度可以根据需要调整
    c.setFont(font_name, font_size)  # 设置字体和大小
    c.setFillColorRGB(0, 0, 0)  # 设置文本颜色为黑色
    c.drawString(text_start_position, 32, footer_text)  # 绘制居中的页脚文本

    c.save()
    packet.seek(0)
    return PdfReader(packet)


def add_catalog_page(bookmarks):
    packet = io.BytesIO()
    c = canvas.Canvas(packet, pagesize=letter)
    width, height = letter
    top_margin = 60  # 顶部留白增加
    bottom_margin = 60  # 底部留白增加
    y_position = height - top_margin  # 根据顶部留白调整初始y_position
    c.setFont("Helvetica-Bold", 16)  # 设置标题的字体和大小
    c.drawString(280, y_position, "Directory")  # 在顶部绘制标题“目录”
    y_position -= 30  # 更新y_position以为目录项留出空间

    c.setFont("Helvetica", 12)  # 设置目录项的字体和大小
    left_margin = 72
    right_margin = width - 72
    dot_space = 5  # 点间隔可调整
    different_title_spacing = 25  # 不同标题之间的间隔
    same_title_line_spacing = 15  # 同一个标题换行的间隔
    split_ratio = 0.9  # 定义分割点的位置比例

    for title, page_number in bookmarks:
        available_width = right_margin - left_margin - dot_space * 2  # 计算可用宽度
        title_width = stringWidth(title, "Helvetica", 12)
        page_number_str = str(page_number)
        page_number_width = stringWidth(page_number_str, "Helvetica", 12)

        # 判断标题是否需要分割
        if title_width > available_width * split_ratio:
            # 寻找分割点
            split_title = title
            while stringWidth(split_title + "-", "Helvetica", 12) > available_width * split_ratio:
                split_title = split_title[:-1]
            split_title += "-"
            c.drawString(left_margin, y_position, split_title)
            y_position -= same_title_line_spacing  # 分割后的第二行位置向下调整,间隔小一点
            title = title[len(split_title) - 1:]

        # 绘制标题
        c.drawString(left_margin, y_position, title)

        # 绘制页码
        c.drawRightString(right_margin, y_position, page_number_str)

        # 绘制点线
        dot_line_start = left_margin + stringWidth(title, "Helvetica", 12) + 10
        dot_line_end = right_margin - page_number_width - 10
        current_position = dot_line_start

        while current_position < dot_line_end:
            c.drawString(current_position, y_position, ".")
            current_position += dot_space

        y_position -= different_title_spacing  # 移到下一个标题,间隔大一点
        if y_position < bottom_margin:  # 根据底部留白调整翻页判断
            c.showPage()
            y_position = height - top_margin  # 重置y_position时也考虑顶部留白
            c.setFont("Helvetica", 12)  # 确保新页面开始时使用正确的字体和大小

    c.save()
    packet.seek(0)
    return PdfReader(packet)


# 读取PDF/路径下所有.pdf为后缀的文件
pdf_dir = '我的论文集/'
pdf_files = sorted([f for f in os.listdir(pdf_dir) if f.endswith('.pdf')])

# 找到特定文件并将其移动到列表的开头
specific_file = "第一篇.pdf"
if specific_file in pdf_files:
    pdf_files.insert(0, pdf_files.pop(pdf_files.index(specific_file)))
    #print(pdf_files)

# 存储所有处理后的页面,以便后续添加页脚
all_pages = []
bookmarks = []
total_pages = 0

# 首先处理每个PDF文件,但不立即添加页脚
for filename in pdf_files:
    reader = PdfReader(os.path.join(pdf_dir, filename))
    bookmarks.append((filename.replace('.pdf', ''), total_pages + 1))
    for page in reader.pages:
        all_pages.append(page)
        total_pages += 1

# 创建目录页并添加到最终PDF
writer = PdfWriter()
catalog_pdf = add_catalog_page(bookmarks)
for page in catalog_pdf.pages:
    writer.add_page(page)

# 为每页添加页脚,并将页面添加到最终的PDF中
current_page_number = 1  # 从目录页之后的第一页开始计数页码
catalog_pages_count = len(catalog_pdf.pages)  # 计算目录页数量

for page in all_pages:
    # 不再需要在页码中加上目录页的数量
    footer_pdf = create_footer_page(f"Page number: {current_page_number}")
    page.merge_page(footer_pdf.pages[0])
    writer.add_page(page)
    current_page_number += 1

# 保存最终的PDF
output_pdf_path = "MergePapers.pdf"
with open(output_pdf_path, "wb") as f_out:
    writer.write(f_out)


到了这里,关于使用Python合并PDF文件并添加自定义目录及页脚的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python操作PDF:PDF文件合并与PDF页面重排

    处理大量的 PDF 文档是非常麻烦的事情,频繁地打开关闭文件会严重影响工作效率。对于一大堆内容相关的 PDF 文件,我们在处理时可以将这些 PDF 文件合并起来,作为单一文件处理,从而提高处理效率。同时,我们也可以选取不同PDF文件中想要的页面制作新的 PDF 文件。本文

    2024年02月06日
    浏览(47)
  • Python 如何实现合并 PDF 文件?

    在处理多个 PDF 文档时,频繁地打开关闭文件会严重影响效率。因此,对于一大堆内容相关的 PDF 文件,我们可以先将这些 PDF 文件合并起来再操作,从而提高工作效率。比如,在传送大量的 PDF 文档时,在处理同一项目下的多个 PDF 文档时,或在打印一系列 PDF 文档时,将文档

    2024年02月05日
    浏览(53)
  • Python自动办公之合并多个PDF文件

    本文基于使用pycharm平台,使用glob库和PyPDF2库实现 首先将需要合并的文件放于一个文件中 如下图 addpdf文件夹为需要合并的文件位置 good.py为代码块  代码如下 代码并没有对输入内容进行限制,可能会出现很大问题,但是正常使用是可以的.

    2024年02月11日
    浏览(45)
  • [python]将多张图片合并为单个pdf文件

    最近有个个人需求是要把多个图片文件合并为一个PDF文件,这样方便用PDF阅读器连续看,避免界面点一下,只会图片放大。( 比如看漫画 ) 主要思路是先把单张图片转换成单个PDF文件,然后把PDF文件进行合并。原先是用WPS的转换工具做的,但WPS每次只能批量转换30张,如果

    2024年03月09日
    浏览(99)
  • itextpdf7 使用之 html转pdf,生成目录可跳转、添加页眉页脚

    最近有个需求,生成信用报告。 需求: 1、生成pdf有页眉页脚 2、生成目录 3、目录加锚点可跳转。 难点: 1、生成的目录不能实时读取页码 2、目录是后生成的,属于两份pdf拼接的,不能添加锚点跳转 思路: 1、freemaker进行html页面布局及动态变量替换 2、生成一份pdf文档,用

    2024年02月20日
    浏览(36)
  • Python 快速合并PDF表格转换输出CSV文件

    单位的刷脸考勤机后台系统做得比较差,只能导出每个部门的出勤统计表pdf,格式如下: 近期领导要看所有部门的考勤数据,于是动手快速写了个合并pdf并输出csv文件的脚本。 pypdf2,pdfplumber ,前者用于合并,后者用于读表格。 C: pip install pypdf2 Looking in indexes: https://pypi.tu

    2024年02月03日
    浏览(50)
  • Aspose.Pdf使用教程:在PDF文件中添加水印

    Aspose.PDF  是一款高级PDF处理API,可以在跨平台应用程序中轻松生成,修改,转换,呈现,保护和打印文档。无需使用Adobe Acrobat。此外,API提供压缩选项,表创建和处理,图形和图像功能,广泛的超链接功能,图章和水印任务,扩展的安全控件和自定义字体处理。本文将为你

    2024年02月01日
    浏览(61)
  • 【工具分享】批量多目录图片如何转换PDF,一次性转换多级目录批量的PDF的转换,合并,输出另存等问题

     在工作中我们经常要对图片进行批量转换PDF,由于文件量比较多,目录比较深,工作量比较大比较耗时费力,今天我们分享的主要解决以下问题: 1、单张图片的转换PDF:一张图临时转一下 2、多张图片转换成PDF:多张图单独转成PDF 3、多级目录多张图转换成PDF:多级目录多

    2024年02月10日
    浏览(55)
  • Vue3前端h5移动端页面预览PDF使用pdfjs-dist,添加自定义文本水印

    pnpm i pdfjs-dist@2.5.207

    2024年01月18日
    浏览(73)
  • 如何合并为pdf文件?合并为pdf文件的方法

    在数字化时代,人们越来越依赖电子文档进行信息交流和存储。合并为PDF成为一种常见需求,它能将多个文档合而为一,方便共享和管理。无论是合并多个单页文档,还是将多页文档合并,操作都变得简单高效。那么。如何合并为pdf文件,一起去了解一下吧! 如何合并为pdf文

    2024年02月10日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包