使用Python将PDF扫描件转换为可编辑Word文档的完整指南

发布时间：2026-06-25 作者：宋佳阅读量：11

引言：为什么需要将扫描PDF转为Word？

在日常工作中，我们经常遇到以扫描件形式存在的PDF文件。这些文件本质上是图片，无法直接复制、编辑文本，给信息提取和修改带来不便。将扫描PDF转换为可编辑的Word文档，能极大提升工作效率。而Python，凭借其强大的库生态，为我们提供了一种高效、可定制的自动化解决方案。

核心原理：OCR技术

扫描PDF是图像，要获取其中的文字，必须使用光学字符识别技术。Python社区有成熟的OCR库，最常用的是Tesseract OCR。其工作流程如下：

解析PDF文件，将其拆分为单页图像。
对每一页图像应用OCR识别，提取文字及其位置信息。
将提取的文字和布局信息写入Word文档。

环境准备与依赖安装

开始之前，请确保已安装Python 3.x。我们需要安装以下库：

# 使用pip安装所需库
pip install pdf2image  # 用于将PDF转为图片
pip install pytesseract # Python Tesseract OCR封装
pip install python-docx # 用于创建和操作Word文档

此外，Tesseract OCR引擎本身需要单独安装。对于Windows，可以从GitHub下载安装包；对于Linux/macOS，可使用包管理器（如sudo apt install tesseract-ocr）。同时，pdf2image依赖poppler-utils，也需提前安装。

步骤详解与代码实现

步骤1：PDF转图像

首先，将PDF的每一页渲染为图像文件。

from pdf2image import convert_from_path

# 将PDF转为图像列表
images = convert_from_path('scan.pdf', dpi=300) # 高DPI确保识别质量

步骤2：使用OCR识别图像文本

遍历图像，调用Tesseract进行识别。Tesseract能返回带坐标的文本。

import pytesseract
from PIL import Image

# 假设images是PDF页面图像的列表
for i, image in enumerate(images):
    # 获取带坐标的文本数据
    data = pytesseract.image_to_data(image, lang='chi_sim+eng', output_type=pytesseract.Output.DICT)
    # 这里data包含text, left, top, width, height等字段

步骤3：将识别结果写入Word文档

使用python-docx创建文档，并根据OCR返回的坐标信息添加文本框，以尽可能保持原始布局。

from docx import Document
from docx.shared import Inches

doc = Document()

for i, image in enumerate(images):
    if i > 0:  # 添加分页符
        doc.add_page_break()
    
    # 写入当前页识别到的文本
    # 注意：一个更完整的方法是根据top坐标排序，将同一行的单词组合成句子
    current_text = ' '.join([text for text in data['text'] if text.strip()])
    doc.add_paragraph(current_text)
    
    # 为了更精确地布局，可以使用add_textbox，但需要根据坐标计算位置
    # 这里仅为简化示例

doc.save('output.docx')

完整脚本与优化建议

以下是一个更完整的脚本框架，它考虑了文本的行合并和基本排版：

import pytesseract
from pdf2image import convert_from_path
from docx import Document
import collections

def scan_pdf_to_word(pdf_path, output_path):
    images = convert_from_path(pdf_path, dpi=300)
    doc = Document()
    
    for i, img in enumerate(images):
        if i > 0:
            doc.add_page_break()
        
        # OCR识别
        data = pytesseract.image_to_data(img, lang='chi_sim+eng', output_type=pytesseract.Output.DICT)
        
        # 按行组合文本
        line_text = collections.defaultdict(str)
        for j, text in enumerate(data['text']):
            if text.strip():
                line_id = data['line_num'][j]
                line_text[line_id] += text + ' '
        
        # 将每行文本写入文档
        for line_id in sorted(line_text.keys()):
            doc.add_paragraph(line_text[line_id].strip())
    
    doc.save(output_path)
    print(f"转换完成，文件已保存至：{output_path}")

# 使用示例
# scan_pdf_to_word('input.pdf', 'output.docx')

优化方向

提高OCR准确度：调整pytesseract.image_to_data的参数，如config='--psm 6'。
布局保持：更复杂的脚本可以利用OCR返回的坐标信息，在Word中使用绝对定位的文本框，更真实地还原PDF布局。
批量处理：可以扩展为处理文件夹下的多个PDF文件。
语言支持：确保Tesseract安装了对应语言包（如chi_sim用于简体中文）。

总结

利用Python和OCR技术，将扫描PDF转换为可编辑Word文档的流程是清晰且可实现的。虽然完美保持复杂PDF的原始布局极具挑战性，但对于大多数文本型扫描件，上述方法已足够实用。你可以根据具体需求调整代码，构建属于自己的文档处理工具。希望本指南能帮助你迈出自动化的第一步！