前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python统计汇总Grafana导出的csv文件到Excel

Python统计汇总Grafana导出的csv文件到Excel

作者头像
公众号: 云原生生态圈
发布2021-05-11 15:11:23
3.9K0
发布2021-05-11 15:11:23
举报
文章被收录于专栏:云原生生态圈云原生生态圈

背景: 定时每周把grafana导出的csv文件进行统计汇总工作,需要处理的csv文件比较多,干脆写个脚本,每周执行一遍脚本,既方便还不会出错。

需求分析

原始文件分析

原始文件是多个csv表格,第一列为时间戳,每10分钟统计生成一行,其余列为ip地址在该时间段内的访问次数

处理结果分析

根据要求,统计每个ip地址在当天访问次数求和,汇总生成新表格,结果如下,并将所有csv文件按照文件名,分别汇总到不同的sheet下

代码逻辑

流程分析

  • 首先遍历指定目录下的.csv文件,提取文件名生成数组
  • 然后使用pandas库读取csv文件,提取日期和ip,然后统计每个ip当天访问次数,生成新的DataFrame
  • 最后使用xlwings库将pandas处理后的DataFrame数据写入excel文件,指定文件名作为sheet名

遍历指定目录下.csv文件

主要用到了os模块中的walk()函数,可以遍历文件夹下所有的文件名。

代码语言:javascript
复制
def find_csv(path):
    """
    查找目录下csv文件
    :param path: 查找csv的目录路径
    :return: csv文件名list
    """
    csv_file = []
    for root, dirs, files in os.walk(path):
        for file in files:
            if os.path.splitext(file)[1] == '.csv':
                csv_file.append(os.path.join(root, file))
    return csv_file

pandas处理csv文件

pandas是python环境下最有名的数据统计包,对于数据挖掘和数据分析,以及数据清洗等工作,用pandas再合适不过了,官方地址:https://www.pypandas.cn/[1]

代码语言:javascript
复制
def summary_data(file):
    """
    grafana导出的csv文件处理汇总
    :param file: csv文件路径
    :return: 处理完成后的pandas对象
    """
    # 读取整个csv文件
    csv_data = pd.read_csv(file, ';')
    # 提取日期
    csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
    date = csv_data["Time"].drop_duplicates()
    # 提取IP
    ip_list = csv_data.columns.values[1:]
    # 生成新列表
    result_data = []
    for day in list(date):
        ip_data = []
        for ip in ip_list:
            # 统计指定ip地址在指定日期的数据之和
            ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
            ip_data.append(ip_sum)
            # print("日期:%s ip:%s 总计:%s" % (day, ip, ip_sum))
        result_data.append(ip_data)
    # 生成新的DataFrame
    result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
    # 添加行列统计
    result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
    result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
    print(file, "处理完毕!")
    return result_df

excel数据写入

pandas的to_excel方法也可以写入到excel文件,但是如果需要写入到指定的sheet,就无法满足需求了,此时就需要用的xlwings或者openpyxl库,此处使用xlwings,参考文档:https://www.xlwings.org/pro[2]

代码语言:javascript
复制
def save_excel(data_df, file_name, excel_name):
    """
    生成并写入新excel文件
    :param data_df: pandas数据对象
    :param file_name: 传入文件名,作为生成的sheet名称
    :param excel_name: 生成excel文件名
    :return: null
    """
    sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
    wb = xlwings.Book(excel_name)
    sheet = wb.sheets.add(name=sheet_name)
    sheet.range("A1").value = data_df
    wb.save()
    wb.close()
    print(sheet_name, "Sheet写入完毕!")

完整代码

代码语言:javascript
复制
import os
import pandas as pd
import xlwings
def find_csv(path):
    """
    查找目录下csv文件
    :param path: 查找csv的目录路径
    :return: csv文件名list
    """
    csv_file = []
    for root, dirs, files in os.walk(path):
        for file in files:
            if os.path.splitext(file)[1] == '.csv':
                csv_file.append(os.path.join(root, file))
    return csv_file
def summary_data(file):
    """
    grafana导出的csv文件处理汇总
    :param file: csv文件路径
    :return: 处理完成后的pandas对象
    """
    # 读取整个csv文件
    csv_data = pd.read_csv(file, ';')
    # 提取日期
    csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
    date = csv_data["Time"].drop_duplicates()
    # 提取IP
    ip_list = csv_data.columns.values[1:]
    # 生成新列表
    result_data = []
    for day in list(date):
        ip_data = []
        for ip in ip_list:
            ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
            ip_data.append(ip_sum)
            # print("日期:%s ip:%s 总计:%s" % (day, ip, ip_sum))
        result_data.append(ip_data)
    result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
    # 添加行列统计
    result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
    result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
    print(file, "处理完毕!")
    return result_df
def save_excel(data_df, file_name, excel_name):
    """
    生成并写入新excel文件
    :param data_df: pandas数据对象
    :param file_name: 传入文件名,作为生成的sheet名称
    :param excel_name: 生成excel文件名
    :return: null
    """
    sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
    wb = xlwings.Book(excel_name)
    sheet = wb.sheets.add(name=sheet_name)
    sheet.range("A1").value = data_df
    wb.save()
    wb.close()
    print(sheet_name, "Sheet写入完毕!")
if __name__ == '__main__':
    # 原始csv文件存放路径
    path = './csv'
    # 生成excel文件名
    excel_name = 'cm.xlsx'
    csv_file = find_csv(path)
    # 创建excel文件
    new_excel = pd.DataFrame()
    new_excel.to_excel(excel_name)
    # 处理并写入excel文件
    for file in csv_file:
        data_df = summary_data(file)
        save_excel(data_df, file, excel_name)
    # 删除默认Sheet1
    wb = xlwings.Book(excel_name)
    wb.sheets['Sheet1'].delete()
    wb.save()
    wb.close()
    print("数据汇总完毕,生成文件路径 %s/%s" % (os.getcwd(), excel_name))

原文链接:www.cuiliangblog.cn[3]

参考资料

[1]

Pandas: https://www.pypandas.cn/

[2]

xlwings: https://www.xlwings.org/pro

[3]

cuiliangBlog: www.cuiliangblog.cn

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云原生生态圈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 需求分析
    • 原始文件分析
      • 处理结果分析
      • 代码逻辑
        • 流程分析
          • 遍历指定目录下.csv文件
            • pandas处理csv文件
              • excel数据写入
              • 完整代码
                • 参考资料
                相关产品与服务
                文件存储
                文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档