前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析利器 pandas 系列教程(五):合并相同结构的 csv

数据分析利器 pandas 系列教程(五):合并相同结构的 csv

作者头像
月小水长
发布2022-05-18 13:50:07
1K0
发布2022-05-18 13:50:07
举报
文章被收录于专栏:月小水长

这是 月小水长 的第 122 篇原创干货

距离上一篇 pandas 系列教程:数据分析利器 pandas 系列教程(四):对比 sql 学 pandas 发布已经过去大半年,近来才记起以前开了这样一个坑,本篇是本系列 pandas 实战 tricks 的首篇,不求大而全,力争小而精。

大家可能经常会有这样的需求,有很多结构相同的 xlsx 或者 csv 文件,需要合并成一个总文件,并且在总文件中需要保存原来的子文件名,一个例子就是合并一个人所有微博下的所有评论,每条微博的所有评论对应一个 csv 文件,文件名就是该条微博的 id,合并之后新增一列保存微博 id,这样查看总文件的时候能直观看到某一条评论属于哪一条微博。

下面的代码就是干这个的,只需要把代码放到文件夹中运行即可,不需要指定有哪些子文件,以及有哪些列名,运行自动合并。

只要某文件夹下所有的 csv 文件结构相同,在文件夹路径运行以下代码就能自动合并,输出结果在 all.csv ,结果 csv 在原有的 csv 结构上新增一列 origin_file_name,值为原来的 csv 文件名,保证了没有信息的衰减。

代码语言:javascript
复制
# -*- coding: utf-8 -*-
# author:           inspurer(月小水长)
# create_time:      2022/4/13 10:33
# 运行环境           Python3.6+
# github            https://github.com/inspurer
# website           https://buyixiao.github.io/
# 微信公众号         月小水长

import os
import pandas as pd
# 最后合并的文件名
result_csv = 'all.csv'
all_cols = []
for file in os.listdir('.'):
    if file.endswith('.csv') and not file == result_csv:
        df = pd.read_csv(file)
        all_cols = df.columns.values.tolist()
if len(all_cols) == 0:
    raise Exception("当前目录下没有要合并的 csv 文件")
all_cols.insert(0, 'origin_file_name')
all_df = pd.DataFrame({col: [] for col in all_cols})

for file in os.listdir('.'):
    if file.endswith('.csv') and not file == result_csv:
        df = pd.read_csv(file)
        df.insert(0, 'origin_file_name', [file for _ in range(df.shape[0])])
        all_df = all_df.append(df, ignore_index=True)

all_df.to_csv(result_csv, index=False, encoding='utf-8')

https://buyixiao.github.io/blog/merge-csv-with-same-columns.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 这是 月小水长 的第 122 篇原创干货
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档