Python 实战：如何将 PDF 文件高效转换为 Excel 表格

发布时间：2026-06-26 作者：邹海阅读量：3

Python 实战：如何将 PDF 文件高效转换为 Excel 表格

在日常的办公和数据处理中，我们经常会遇到 PDF 格式的文件，比如财务报表、学术论文、数据报告等。这些 PDF 文件虽然易于阅读和分享，但其中的表格数据却很难直接用于数据分析或编辑。这时，将 PDF 转换为 Excel（或 CSV）就成了一个常见需求。Python 作为一门简洁而强大的编程语言，拥有丰富的第三方库，可以轻松实现这一转换过程。

为什么选择 Python？

Python 在数据处理领域有着得天独厚的优势：

丰富的库支持：有多个专门用于处理 PDF 的库，如 pdfplumber、Tabula-py、PyPDF2 等。
强大的数据处理能力：Pandas 库可以方便地处理提取出的数据，并直接导出为 Excel。
自动化潜力：可以编写脚本批量处理大量 PDF 文件，实现办公自动化。
跨平台：脚本可以在 Windows、macOS 和 Linux 系统上运行。

准备工作：安装必要的 Python 库

在开始编写代码之前，我们需要安装一些 Python 库。打开终端（或命令提示符），运行以下命令：

pip install pdfplumber pandas openpyxl

这里我们主要使用了三个库：

pdfplumber：一个专注于 PDF 文本和表格提取的库，对表格的识别效果较好。
pandas：Python 数据分析的核心库，用于数据处理和格式转换。
openpyxl：用于写入 Excel 文件（.xlsx 格式）的引擎。

基本思路与代码示例

将 PDF 转换为 Excel 的基本流程如下：

读取 PDF 文件：使用 pdfplumber 打开 PDF 文件。
遍历页面：PDF 可能有多页，需要逐页处理。
提取表格：对每一页，尝试提取其中的表格数据。
整合数据：将所有页面的表格数据合并到一个数据结构中。
导出为 Excel：使用 Pandas 将数据写入 Excel 文件。

代码实现

下面是一个完整的示例代码，将 PDF 中的所有表格提取并保存到一个 Excel 文件中，每个表格对应一个工作表。

import pdfplumber
import pandas as pd

def pdf_to_excel(pdf_path, excel_path):
    """将 PDF 文件中的表格转换为 Excel 文件。
    
    Args:
        pdf_path (str): 输入 PDF 文件的路径。
        excel_path (str): 输出 Excel 文件的路径。
    """
    # 创建一个 Excel 写入器
    writer = pd.ExcelWriter(excel_path, engine='openpyxl')
    
    # 打开 PDF 文件
    with pdfplumber.open(pdf_path) as pdf:
        # 用于跟踪工作表序号
        table_index = 1
        
        # 遍历每一页
        for page_num, page in enumerate(pdf.pages):
            # 提取当前页的表格
            tables = page.extract_tables()
            
            # 如果当前页有表格
            if tables:
                print(f"在第 {page_num + 1} 页找到 {len(tables)} 个表格。")
                
                # 遍历每个表格
                for table in tables:
                    # 将表格转换为 DataFrame
                    df = pd.DataFrame(table[1:], columns=table[0])  # 假设第一行是标题
                    
                    # 保存到 Excel，每个表格一个工作表
                    sheet_name = f'Table_Page{page_num+1}_{table_index}'
                    df.to_excel(writer, sheet_name=sheet_name, index=False)
                    
                    table_index += 1
            else:
                print(f"第 {page_num + 1} 页没有找到表格。")
        
        # 保存 Excel 文件
        writer.close()
        print(f"转换完成！已保存至: {excel_path}")

# 使用示例
if __name__ == "__main__":
    pdf_file = "input.pdf"   # 替换为你的 PDF 文件路径
    excel_file = "output.xlsx"  # 输出的 Excel 文件名
    pdf_to_excel(pdf_file, excel_file)

代码解析

pdfplumber.open(pdf_path)：打开指定的 PDF 文件。
page.extract_tables()：尝试从页面中提取表格。它返回一个列表，列表中的每个元素都是一个表格，每个表格本身又是一个列表的列表（二维列表）。
pd.DataFrame(table[1:], columns=table[0])：将提取的二维列表转换为 Pandas DataFrame。这里假设每个表格的第一行是列标题，后续行是数据。如果实际情况不同，需要根据具体 PDF 的格式调整。
df.to_excel(...)：将 DataFrame 写入 Excel 文件，sheet_name 参数为每个工作表命名。

进阶技巧与常见问题处理

1. 处理复杂表格

有些 PDF 的表格结构复杂，或者有合并单元格，pdfplumber 可能无法完美提取。可以尝试调整提取参数，例如：

table = page.extract_table(table_settings={
    "vertical_strategy": "text",
    "horizontal_strategy": "text",
})

或者，考虑使用另一个库 tabula-py，它在某些场景下对表格的识别更准确。

2. 处理非表格文本

如果 PDF 中除了表格外，还有大量需要提取的文本数据（例如段落），可以使用 page.extract_text() 来获取整个页面的文本，然后结合正则表达式进行结构化解析。

3. 处理密码保护的 PDF

如果 PDF 有密码保护，需要在打开时提供密码：

pdf = pdfplumber.open("protected.pdf", password="your_password")

4. 批量转换多个 PDF 文件

将上述函数放入一个循环，即可批量处理整个文件夹中的 PDF 文件。

import os

folder_path = "pdf_folder"
for filename in os.listdir(folder_path):
    if filename.endswith(".pdf"):
        pdf_path = os.path.join(folder_path, filename)
        excel_filename = os.path.splitext(filename)[0] + ".xlsx"
        excel_path = os.path.join(folder_path, excel_filename)
        pdf_to_excel(pdf_path, excel_path)

总结与展望

使用 Python 将 PDF 转换为 Excel 是一项非常实用的技能，尤其适合需要处理大量 PDF 数据的场景。通过 pdfplumber 等库，我们可以相对轻松地完成数据提取任务。然而，需要注意的是，PDF 格式本身的设计初衷是为了“固定版面”而非“结构化数据”，因此转换的完美度高度依赖于原始 PDF 的质量。

对于更复杂的场景，例如扫描版 PDF（图片格式），则需要结合 OCR（光学字符识别）技术，如 Tesseract 库，先进行文字识别，再进行表格提取。Python 的生态系统使得这样的组合成为可能。

希望本文能为你提供清晰的思路和可用的代码模板，助你在数据处理的道路上更进一步。

Python 实战：如何将 PDF 文件高效转换为 Excel 表格

Python 实战：如何将 PDF 文件高效转换为 Excel 表格

为什么选择 Python？

准备工作：安装必要的 Python 库

基本思路与代码示例

代码实现

代码解析

进阶技巧与常见问题处理

1. 处理复杂表格

2. 处理非表格文本

3. 处理密码保护的 PDF

4. 批量转换多个 PDF 文件

总结与展望

相关文章