首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python一行命令生成数据分析报告

Python一行命令生成数据分析报告

作者头像
刘早起
发布2020-04-22 15:24:43
1.1K0
发布2020-04-22 15:24:43
举报
文章被收录于专栏:早起Python早起Python

一般在python进行数据分析/统计分析时,第一步总是对数据进行一些描述性分析、相关性分析,但是总会是有一大堆代码,那么今天就介绍一个神器pandas_profiling,一行命令就能搞定大部分描述性分析!

安装

pip install pandas_profiling

使用

那么我们继续使用之前文章中使用过很多次的NBA数据集,还记得我们在介绍pandas使用的那篇文章中分很多章节去讲解如何使用pandas对该数据集进行一些基础的数据分析吗,那就是使用df.describe()函数

df.describe()函数虽然功能强大,但对于进行详细的探索性数据分析却有些基础。 pandas_profiling扩展了pandas DataFrame的功能,可以使用df.profile_report()进行快速的数据分析。只需要一行命令就能得到所有结果!

首先还是先导入数据

import pandas as pd
import pandas_profiling
nba = pd.read_csv('nba_all_elo.csv')

然后只用一行命令就能得到全部的数据分析结果

nba.profile_report()

可以看到,除了之前我们需要的一些描述性统计数据,该报告还包含以下信息:

  • 类型推断:检测数据帧中列的数据类型。
  • 要点:类型,唯一值,缺失值
  • 分位数统计信息,例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
  • 描述性统计数据,例如均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度
  • 最常使用的值
  • 直方图
  • 相关性矩阵
  • 缺失值矩阵,计数,热图和缺失值树状图
  • 文本分析:了解文本数据的类别(大写,空格),脚本(拉丁,西里尔字母)和块(ASCII)

当然我们还以将该报告保存为html,这样结合Django可以快速将本次分析结果部署至云端随时随地查看!

result = pandas_profiling.ProfileReport(nba)
result.to_file("./result.html")

参考资料

[1]

GitHub: https://github.com/pandas-profiling/pandas-profiling

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 早起Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档