Python批量合并多个PDF

在日常工作中，处理和合并多个 PDF 文件是一个常见需求，尤其是在需要将大量文件整理成一个完整文档时。本文将详细介绍如何使用 Python 的 PyMuPDF 库来实现批量 PDF 文件合并，并提供针对大文件优化的解决方案。

安装 PyMuPDF

要使用 PyMuPDF，需要先安装这个库。可以通过以下命令安装：

bash
pip install pymupdf

安装完成后，PyMuPDF 将作为 fitz 模块导入。

基础方法：合并两个 PDF 文件

PyMuPDF 中的 Document.insert_pdf() 方法支持将一个 PDF 文档的内容插入到另一个文档的指定位置，这样我们就能非常轻松地实现两个 PDF 文件的合并。例如：

python
import fitz  # 导入 PyMuPDF

def merge_two_pdf(pdf1_path: str, pdf2_path: str, output_pdf: str):
    pdf1 = fitz.open(pdf1_path)
    pdf2 = fitz.open(pdf2_path)
    pdf1.insert_pdf(pdf2)
    pdf1.save(output_pdf, garbage=4)  # 保存结果到指定路径
    pdf1.close()
    pdf2.close()

这个函数 merge_two_pdf 接受两个 PDF 文件路径，并将它们合并为一个新的 PDF 文件。garbage=4 参数可以在保存时移除不必要的对象，从而减小输出文件的大小。

批量合并多个 PDF 文件

如果需要合并的 PDF 文件不止两个，可以创建一个循环来遍历文件列表，将每个文件依次添加到目标 PDF 中：

python
def merge_pdfs(input_files: list, output_file: str):
    final_pdf = fitz.open()  # 创建空的 PDF 对象
    for temp_file in input_files:
        with fitz.open(temp_file) as temp_pdf:
            final_pdf.insert_pdf(temp_pdf)  # 插入每个 PDF 文件
    final_pdf.save(output_file, garbage=4)  # 保存最终合并结果
    final_pdf.close()
    print(f"合并完成，输出文件为：{output_file}")

在 merge_pdfs 函数中，input_files 是一个包含多个 PDF 文件路径的列表，该函数将所有文件合并到一个目标 PDF output_file 中。

注意事项

当文件数量多、单个 PDF 文件特别大时，上述方法可能会导致内存占用过高。在这种情况下，可以使用以下优化策略来提高内存和时间效率。

针对大文件的优化策略

如果需要合并的 PDF 文件很多，或者单个文件特别大，直接合并会占用大量内存。以下是一些优化策略：

分批处理并写入：大量文件时可以分批加载和合并，避免一次性加载所有文件。例如，处理一组文件后就保存一次部分结果并释放内存。
避免逐页插入：对于多页文件，可以直接将整个 PDF 插入到目标文档中，而不是逐页插入，从而减少 insert_pdf 的调用次数。
多次保存分批结果，避免中间缓存：每处理完一组文件后保存为一个中间文件，继续合并下一组文件。最终将所有中间文件合并。
利用磁盘而非内存：采用文件缓存方式，将中间文件写入磁盘。合并完成后，删除不再需要的中间文件。

优化代码示例

以下代码展示了如何分批合并 PDF 文件，适合大文件和文件数非常多的情况：

python
import os
import fitz  # 导入 PyMuPDF

def merge_two_pdf(pdf1_path: str, pdf2_path: str, output_pdf: str):
    """
    合并 pdf1 和 pdf2 输出到 output_pdf，并删除临时文件
    """
    pdf1 = fitz.open(pdf1_path)
    pdf2 = fitz.open(pdf2_path)
    pdf1.insert_pdf(pdf2)
    pdf1.save(output_pdf, garbage=4)  # 保存结果
    pdf1.close()
    pdf2.close()
    if pdf1_path.endswith('.tmp'):
        os.remove(pdf1_path)
    if pdf2_path.endswith('.tmp'):
        os.remove(pdf2_path)

def merge_pdfs(input_files: list, output_file: str):
    tmp_count = 0
    while len(input_files) > 2:
        merged_files = []
        for i in range(0, len(input_files), 2):
            if i + 1 < len(input_files):
                tmp_file = f"{output_file}{tmp_count}.tmp"
                merge_two_pdf(input_files[i], input_files[i + 1], tmp_file)
                merged_files.append(tmp_file)
                tmp_count += 1
            else:
                merged_files.append(input_files[i])
        input_files = merged_files
    merge_two_pdf(input_files[0], input_files[1], output_file)  # 保存最终结果

代码解析

merge_two_pdf 函数负责合并两个 PDF 文件，并在合并后删除临时文件。
merge_pdfs 函数使用循环批量合并文件。每次迭代中，它将文件成对合并为一个临时文件，添加到列表 merged_files，以便下一次迭代使用。
最终，合并后的文件保存在 output_file 中。

示例调用

假设我们有一组 PDF 文件 file1.pdf, file2.pdf, file3.pdf 等：

python
input_files = ["file1.pdf", "file2.pdf", "file3.pdf", "file4.pdf"]
output_file = "merged_output.pdf"
merge_pdfs(input_files, output_file)

总结

本文介绍了使用 PyMuPDF 库批量合并多个 PDF 文件的方法，并针对大文件或大量文件的情况提供了优化方案。

目录