使用Python将Excel文件高效转换为CSV：完整指南与代码示例

发布时间：2026-05-25 作者：潘燕阅读量：11

引言

在数据分析和工程领域，Excel文件（.xls, .xlsx）因其便捷的格式被广泛使用。然而，CSV（逗号分隔值）格式因其简单、通用、易于解析的特点，成为数据交换和存储的更优选择。手动转换耗时易错，而使用Python自动化此过程，不仅高效可靠，还能集成到更大的数据管道中。

环境准备

在开始之前，请确保您的环境中已安装Python。我们将主要使用以下库：

pandas: 强大的数据分析库，提供DataFrame数据结构和便捷的文件读写功能。
openpyxl (用于 .xlsx) 或 xlrd (用于旧版 .xls): pandas在后台用于处理不同Excel格式的引擎。

安装命令：

pip install pandas openpyxl

基础转换：单个Excel文件转CSV

最简单的场景是将一个Excel文件（默认读取第一个工作表）转换为CSV。

代码示例

import pandas as pd

def excel_to_csv(excel_path, csv_path):
    """
    将Excel文件转换为CSV文件。
    :param excel_path: Excel文件的路径
    :param csv_path: 输出的CSV文件路径
    """
    try:
        # 读取Excel文件
        df = pd.read_excel(excel_path)
        # 写入CSV文件，index=False表示不将行索引写入CSV
        df.to_csv(csv_path, index=False, encoding='utf-8-sig')  # 使用'utf-8-sig'编码以支持中文
        print(f"转换成功！文件已保存至：{csv_path}")
    except Exception as e:
        print(f"转换失败：{e}")

# 使用示例
excel_to_csv('data.xlsx', 'output.csv')

进阶处理

1. 处理多个工作表（Sheets）

一个Excel文件可能包含多个工作表。您可以将它们分别转换为独立的CSV文件，或合并为一个。

def excel_to_csv_multi_sheet(excel_path, output_dir):
    """将Excel文件的每个工作表转换为单独的CSV文件"""
    import os
    # 读取所有工作表到一个字典中，键是表名，值是DataFrame
    all_sheets = pd.read_excel(excel_path, sheet_name=None)
    
    for sheet_name, df in all_sheets.items():
        csv_filename = f"{sheet_name}.csv"
        csv_path = os.path.join(output_dir, csv_filename)
        df.to_csv(csv_path, index=False, encoding='utf-8-sig')
        print(f"工作表 '{sheet_name}' 已转换为 {csv_path}")

# 使用示例
# excel_to_csv_multi_sheet('multi_sheet_data.xlsx', './output_sheets')

2. 性能优化与大数据文件

对于非常大的Excel文件，直接读取可能消耗大量内存。可以使用分块读取：

def large_excel_to_csv(excel_path, csv_path, chunksize=10000):
    """使用分块处理大Excel文件，避免内存溢出"""
    reader = pd.read_excel(excel_path, chunksize=chunksize)
    for i, chunk in enumerate(reader):
        # 第一次写入时创建文件，之后追加
        if i == 0:
            chunk.to_csv(csv_path, index=False, mode='w', encoding='utf-8-sig')
        else:
            chunk.to_csv(csv_path, index=False, mode='a', header=False, encoding='utf-8-sig')
    print(f"大文件转换完成！")

3. 数据清洗与定制

在转换过程中，您可以利用pandas的强大功能对数据进行预处理：

# 读取并指定需要处理的列和数据类型
specific_cols = ['Name', 'Date', 'Amount']
df = pd.read_excel('data.xlsx', usecols=specific_cols, dtype={'Amount': float})

# 填充空值、删除重复行等
df.fillna('N/A', inplace=True)
df.drop_duplicates(inplace=True)

# 写入CSV
df.to_csv('cleaned_data.csv', index=False)

最佳实践与注意事项

编码问题：始终指定 encoding='utf-8-sig'，以确保包含特殊字符（如中文）的CSV文件在Excel中能正确显示。
数据类型：CSV是纯文本，会丢失Excel的格式（如货币、日期格式）。确保数据在转换前是您需要的最终格式。
错误处理：在脚本中加入try-except块，可以处理文件不存在、权限错误等异常情况。
批处理：可以编写循环遍历一个文件夹内的所有Excel文件，实现批量转换。

结论

利用Python的pandas库，将Excel文件转换为CSV格式变得简单而强大。无论是处理单个文件、多个工作表，还是面对海量数据，Python都能提供灵活且高效的解决方案。掌握这一技能，将极大地提升您在数据清洗、预处理和分析工作流中的自动化能力。