01 | 拆分与合并：如何快速地批量处理内容相似的Excel？-Python自动化办公实战

当前位置:　首页>> 技术小册>> Python自动化办公实战

01 | 拆分与合并：如何快速地批量处理内容相似的Excel？

在日常办公中，Excel作为数据处理与分析的强大工具，其应用几乎无处不在。然而，面对大量内容相似但结构略有不同的Excel文件时，手动处理不仅效率低下，还容易出错。本章将深入探讨如何利用Python及其强大的库（如pandas、openpyxl等）来快速实现Excel文件的批量拆分与合并，从而显著提升工作效率。

一、引言

Excel文件的拆分与合并是自动化办公中常见的需求。拆分操作通常用于将一个大文件按特定规则（如按列值、行数等）分割成多个小文件，便于分发给不同人员处理或满足特定的数据分析需求。而合并操作则是将多个结构相似或相同的Excel文件合并为一个文件，便于集中管理和分析。

二、环境准备

在开始之前，请确保你的Python环境已经安装好，并安装了以下必要的库：

pandas：用于数据处理和分析。
openpyxl：用于读写Excel 2010 xlsx/xlsm/xltx/xltm文件。
os：用于处理文件和目录路径。

可以通过pip命令安装这些库（如果尚未安装）：

pip install pandas openpyxl

三、Excel文件的拆分

3.1 按列值拆分

假设我们有一个包含员工信息的Excel文件，需要根据部门列的不同值将文件拆分成多个文件，每个文件包含特定部门的员工信息。

import pandas as pd
# 加载Excel文件
df = pd.read_excel('employees.xlsx')
# 获取所有唯一的部门名称
unique_departments = df['部门'].unique()
# 遍历每个部门，拆分文件
for dept in unique_departments:
    # 筛选出当前部门的员工信息
    dept_df = df[df['部门'] == dept]
    # 保存为新的Excel文件
    dept_df.to_excel(f'{dept}_employees.xlsx', index=False)
print("拆分完成！")

3.2 按行数拆分

有时，我们可能需要根据行数来拆分文件，比如每个文件包含固定数量的行。

rows_per_file = 100  # 每个文件包含的行数
# 读取Excel文件
df = pd.read_excel('large_file.xlsx')
# 计算需要拆分的文件数量
num_files = (len(df) // rows_per_file) + (1 if len(df) % rows_per_file != 0 else 0)
# 遍历并拆分
for i in range(num_files):
    start = i * rows_per_file
    end = (i + 1) * rows_per_file
    if end > len(df):
        end = len(df)
    # 截取部分数据
    chunk = df.iloc[start:end]
    # 保存为新的Excel文件
    chunk.to_excel(f'part_{i+1}.xlsx', index=False)
print("按行数拆分完成！")

四、Excel文件的合并

4.1 合并多个结构相同的Excel文件

当需要合并多个结构完全相同的Excel文件时，可以直接使用pandas的concat函数。

import pandas as pd
import os
# 假设所有待合并的文件都位于同一目录下，且文件名以"data_"开头
folder_path = 'data_files'
files = [f for f in os.listdir(folder_path) if f.startswith('data_') and f.endswith('.xlsx')]
# 读取第一个文件作为合并的起始DataFrame
merged_df = pd.read_excel(os.path.join(folder_path, files[0]))
# 遍历剩余文件，逐个合并
for file in files[1:]:
    df = pd.read_excel(os.path.join(folder_path, file))
    merged_df = pd.concat([merged_df, df], ignore_index=True)
# 保存合并后的文件
merged_df.to_excel('merged_data.xlsx', index=False)
print("合并完成！")

4.2 合并多个结构相似的Excel文件

如果文件结构相似但不完全相同（例如，某些列可能缺失），合并时可能需要额外的处理来确保数据一致性。

# 假设所有文件至少包含'ID'和'Name'列，但其他列可能不同
common_columns = ['ID', 'Name']
merged_df = pd.DataFrame(columns=common_columns)
for file in files:
    df = pd.read_excel(os.path.join(folder_path, file))
    # 只保留共同列
    df = df[common_columns]
    # 合并数据
    merged_df = pd.concat([merged_df, df], ignore_index=True)
# 保存合并后的文件
merged_df.to_excel('merged_similar_data.xlsx', index=False)
print("合并结构相似的文件完成！")

五、高级技巧与注意事项

性能优化：对于非常大的Excel文件，可以考虑使用chunksize参数在pd.read_excel中逐块读取数据，以减少内存消耗。
错误处理：在合并或拆分过程中，加入异常处理逻辑（如try-except块），以捕获并处理可能出现的错误，如文件不存在、格式错误等。
数据验证：合并前，验证各文件的数据类型和结构是否一致，避免合并后出现数据错乱。
版本兼容性：确保使用的库（如pandas、openpyxl）与你的Python版本兼容，以避免不必要的兼容性问题。

六、总结

通过本章的学习，我们掌握了如何使用Python及其相关库来快速实现Excel文件的批量拆分与合并。这些技能不仅能够显著提升办公效率，还能在处理大量数据时保持数据的准确性和一致性。希望读者能够将这些技巧应用到实际工作中，进一步提升自己的数据处理能力。