要使用Python的Pandas库从Excel文件路径列表创建一个包含特定Excel信息的大型数据帧,你可以按照以下步骤操作:
以下是一个示例代码,展示了如何从Excel文件路径列表创建一个大型数据帧,并且只包含特定的信息(例如,假设我们只对每个工作表的前两列感兴趣):
import pandas as pd
# 假设我们有一个包含Excel文件路径的列表
excel_file_paths = ['path/to/file1.xlsx', 'path/to/file2.xlsx', 'path/to/file3.xlsx']
# 初始化一个空的DataFrame来存储所有数据
all_data = pd.DataFrame()
# 遍历每个文件路径
for file_path in excel_file_paths:
# 尝试读取Excel文件中的所有工作表
xls = pd.ExcelFile(file_path)
for sheet_name in xls.sheet_names:
# 读取每个工作表的前两列
df = pd.read_excel(xls, sheet_name=sheet_name, usecols=[0, 1])
# 将当前工作表的数据追加到all_data DataFrame中
all_data = all_data.append(df, ignore_index=True)
# 打印结果
print(all_data)
engine='openpyxl'
或engine='xlrd'
参数。如果遇到内存不足的问题,可以使用以下方法分批次读取数据:
chunk_size = 1000 # 每批次读取的行数
for file_path in excel_file_paths:
xls = pd.ExcelFile(file_path)
for sheet_name in xls.sheet_names:
for chunk in pd.read_excel(xls, sheet_name=sheet_name, chunksize=chunk_size, usecols=[0, 1]):
all_data = all_data.append(chunk, ignore_index=True)
通过这种方式,你可以有效地处理大量数据,同时避免内存不足的问题。
领取专属 10元无门槛券
手把手带您无忧上云