Apache POI 实战：轻松实现 Word 文档转 PDF 的完整指南

发布时间：2026-06-21 作者：韩梅阅读量：13

引言

在日常开发中，将 Word 文档转换为 PDF 是一个非常普遍的需求。PDF 格式因其跨平台兼容性和内容稳定性，成为文档分发和归档的首选格式。在 Java 世界中，Apache POI 是处理 Microsoft Office 文档（如 .doc, .docx, .xls, .ppt 等）的事实标准库。虽然 POI 本身不直接支持导出 PDF，但通过与其他库（如 iText 或 OpenPDF）结合，我们可以构建一个强大且灵活的转换管道。

一、环境准备与依赖配置

要实现 Word 到 PDF 的转换，我们主要需要两个库：Apache POI 用于读取和解析 Word 文档，iText 或 OpenPDF 用于生成 PDF 文件。以 Maven 项目为例，我们需要在 pom.xml 中添加以下依赖：

<dependencies>
    
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi</artifactId>
        <version>5.2.3</version>
    </dependency>
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>5.2.3</version>
    </dependency>
    
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>itext-core</artifactId>
        <version>7.2.5</version>
        <type>pom</type>
    </dependency>
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>font-asian</artifactId>
        <version>7.2.5</version>
        <scope>runtime</scope>
    </dependency>
</dependencies>

注意：iText 7 采用 AGPL 许可证，商业项目需评估合规性。也可考虑使用开源的 OpenPDF 作为替代。

二、核心转换流程详解

转换过程主要分为以下三个步骤：

使用 Apache POI 加载 Word 文档：将 .docx 文件解析为内存中的文档对象模型（DOM）。
遍历文档内容：递归遍历文档中的段落、表格、图片等元素。
使用 iText 生成 PDF：将遍历到的内容逐一绘制到 PDF 文档中。

代码示例：一个简化的转换器

以下是一个核心转换方法的示例框架：

public class WordToPdfConverter {
    public void convert(String docxPath, String pdfPath) throws Exception {
        // 1. 加载 Word 文档
        try (InputStream is = new FileInputStream(docxPath);
             XWPFDocument document = new XWPFDocument(is)) {
            
            // 2. 初始化 PDF 文档
            PdfWriter writer = new PdfWriter(pdfPath);
            PdfDocument pdfDoc = new PdfDocument(writer);
            Document pdfDocument = new Document(pdfDoc);
            
            // 3. 遍历 Word 文档内容
            for (IBodyElement element : document.getBodyElements()) {
                if (element instanceof XWPFParagraph) {
                    // 处理段落
                    processParagraph((XWPFParagraph) element, pdfDocument);
                } else if (element instanceof XWPFTable) {
                    // 处理表格
                    processTable((XWPFTable) element, pdfDocument);
                }
            }
            
            pdfDocument.close();
        }
    }
    
    // processParagraph 和 processTable 方法的实现...
}

三、常见挑战与解决方案

完美的转换并不容易，以下是几个常见问题及其对策：

复杂样式丢失：Word 中的艺术字、复杂渐变、高级文本效果很难在 PDF 中精确还原。需要逐一映射样式属性，或考虑降级处理。
图片嵌入问题：确保正确提取 Word 中的图片数据并嵌入 PDF。Apache POI 可以获取图片的字节数组，再用 iText 的 Image 类添加。
中文字体支持：生成的 PDF 需要嵌入中文字体才能在不同设备上正确显示。在 iText 中需要注册字体：

String fontPath = "simhei.ttf"; // 黑体字体文件路径
PdfFont font = PdfFontFactory.createFont(fontPath, "Identity-H", PdfFontFactory.EmbeddingStrategy.FORCE_EMBEDDED);
pdfDocument.setFont(font);

页眉页脚处理：需要分别提取 Word 中的页眉页脚内容，并在 PDF 的每一页中绘制。

四、高级优化与生产建议

为了将方案应用于生产环境，建议考虑以下优化：

使用模板引擎：对于固定格式的文档（如合同、报告），可以使用 docx-stamper 或 docx4j 等模板引擎填充数据后生成，再进行转换。
异步与批量处理：将转换任务放入消息队列，实现异步处理，避免阻塞用户请求。
资源监控：内存和临时文件管理至关重要，确保流和文档对象被正确关闭。
使用成熟框架：社区中已有如 docx4j 这样功能更全面的库，其内置了 PDF 转换模块（通过 MOXy 或 IText），可减少自行开发的工作量。

结语

利用 Apache POI 结合 iText 实现 Word 到 PDF 的转换，为 Java 开发者提供了一个高度可控且灵活的解决方案。虽然实现细节较为复杂，但通过合理的设计和对细节的把握，完全可以构建出稳定、高效的文档转换服务。在实际项目中，也可以根据具体需求评估 docx4j、LibreOffice 的命令行调用等其他技术路线，选择最适合的解决方案。

Apache POI 实战：轻松实现 Word 文档转 PDF 的完整指南

引言

一、 环境准备与依赖配置

二、 核心转换流程详解

代码示例：一个简化的转换器

三、 常见挑战与解决方案

四、 高级优化与生产建议

结语

相关文章

一、环境准备与依赖配置

二、核心转换流程详解

三、常见挑战与解决方案

四、高级优化与生产建议