使用Java POI将Excel文件转换为PDF的完整指南

发布时间：2026-06-20 作者：杜辉阅读量：14

引言

在企业应用和数据处理中，Excel文件常用于存储和分析数据，而PDF则因其跨平台性和格式稳定性成为文档分发的首选格式。使用Java将Excel转换为PDF，可以自动化报告生成、数据归档等任务。Apache POI是处理Microsoft Office格式文件的开源Java库，结合PDF生成库如iText或Apache PDFBox，可以实现这一转换。

环境准备

首先，确保您的开发环境已配置好Java JDK。接着，添加必要的依赖到您的项目中。如果使用Maven，可以在pom.xml文件中添加以下依赖：

<dependencies>
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>5.2.3</version>
    </dependency>
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>itext-core</artifactId>
        <version>7.2.5</version>
    </dependency>
    <dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>pdfbox</artifactId>
        <version>2.0.27</version>
    </dependency>
</dependencies>

这里我们使用了POI的OOXML版本（支持.xlsx格式）以及iText和PDFBox作为PDF生成库。您可以根据需要选择其中之一。

读取Excel文件

使用Apache POI读取Excel文件，主要步骤包括创建工作簿、获取工作表、遍历行和单元格。以下是一个简单的代码示例：

import org.apache.poi.ss.usermodel.*;
import java.io.FileInputStream;

public class ExcelReader {
    public static void readExcel(String filePath) throws Exception {
        FileInputStream fis = new FileInputStream(filePath);
        Workbook workbook = WorkbookFactory.create(fis);
        Sheet sheet = workbook.getSheetAt(0); // 获取第一个工作表
        
        for (Row row : sheet) {
            for (Cell cell : row) {
                // 处理单元格数据
                switch (cell.getCellType()) {
                    case STRING:
                        System.out.print(cell.getStringCellValue());
                        break;
                    case NUMERIC:
                        System.out.print(cell.getNumericCellValue());
                        break;
                    // 其他类型处理...
                }
                System.out.print("\t");
            }
            System.out.println();
        }
        workbook.close();
        fis.close();
    }
}

注意：实际转换中，您可能需要处理更多单元格类型（如布尔型、日期型等），并考虑合并单元格等复杂情况。

生成PDF文件

读取Excel数据后，可以使用iText或PDFBox将数据写入PDF。以下以iText为例：

import com.itextpdf.kernel.pdf.PdfDocument;
import com.itextpdf.kernel.pdf.PdfWriter;
import com.itextpdf.layout.Document;
import com.itextpdf.layout.element.Table;
import com.itextpdf.layout.element.Cell;
import com.itextpdf.layout.properties.UnitValue;

public class PdfGenerator {
    public static void generatePdf(String outputPath, Sheet sheet) throws Exception {
        PdfWriter writer = new PdfWriter(outputPath);
        PdfDocument pdfDoc = new PdfDocument(writer);
        Document document = new Document(pdfDoc);
        
        // 创建表格：行数和列数从Excel工作表获取
        int rowCount = sheet.getPhysicalNumberOfRows();
        int colCount = sheet.getRow(0).getPhysicalNumberOfCells();
        Table table = new Table(UnitValue.createPercentArray(colCount)).useAllAvailableWidth();
        
        // 填充表格数据
        for (Row row : sheet) {
            for (Cell cell : row) {
                // 根据单元格类型获取值
                String cellValue = "";
                if (cell != null) {
                    switch (cell.getCellType()) {
                        case STRING:
                            cellValue = cell.getStringCellValue();
                            break;
                        case NUMERIC:
                            cellValue = String.valueOf(cell.getNumericCellValue());
                            break;
                        // 其他类型...
                    }
                }
                table.addCell(new Cell().add(cellValue));
            }
        }
        
        document.add(table);
        document.close();
    }
}

如果您选择Apache PDFBox，代码结构类似，但API不同。PDFBox更轻量级，适合基本需求。

整合与优化

将读取和生成步骤整合到一个方法中，实现完整的转换流程。优化方面，考虑以下点：

性能优化：对于大型Excel文件，使用流式读取（如XSSF事件模型）以减少内存占用。
格式保持：POI可以读取样式信息（如字体、颜色、边框），但在PDF中完全重现这些样式较复杂。可以使用iText的样式功能近似模拟。
错误处理：添加异常处理，处理文件不存在、格式错误等情况。
资源管理：确保关闭所有流和工作簿，避免内存泄漏。

常见问题与解决方案

问题1：转换后PDF中表格对齐不良
解决方案：在PDF生成时设置表格宽度为页面宽度百分比，并调整单元格填充。

问题2：Excel中的公式未被计算
解决方案：POI默认读取公式结果。如果需要强制计算，可以使用Workbook.setForceFormulaRecalculation(true)。

问题3：中文乱码
解决方案：确保PDF生成库使用支持中文的字体。在iText中，可以注册中文字体。

结论

使用Java POI将Excel转换为PDF是一个实用的技术，适用于自动化报告、数据导出等场景。通过合理选择库和优化代码，您可以高效实现这一功能。希望本文的指南和代码示例能帮助您快速上手。