前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【赵渝强老师】利用Python完成数据分布特征的分析

【赵渝强老师】利用Python完成数据分布特征的分析

原创
作者头像
赵渝强老师
修改2021-12-23 10:32:03
7420
修改2021-12-23 10:32:03
举报
IT阅读会.jpg
IT阅读会.jpg

在对数据的质量进行分析后,接下来就可以对数据的特征进行分析和计算,也可以通过绘制图表对数据的特征进行展示。数据的特征分析通过有以下几种方式:分布分析、对比分析、统计量分析、周期性分析、贡献度分析(帕累托分析)、相关性分析、正态性检验。

分布分析能揭示数据的分布特征和分布类型。

  • 对于定量数据,想要了解其分布形式是对称的还是非对称的,发现某些特大或特小的可以值,可以通过绘制频率分布直方图、茎叶图进行直观分析;
  • 对于定性数据,可用饼图和条形图直观的显示分布情况。

下面我们通过具体的示例来演示如何对数据 进行定量和定性的分布情况进行分析。下面是需要用到的测试数据。这是数码相机在1998年整年的销售订单数据。下面是前10条数据:

图片.png
图片.png
  • 对于定量数据分析

对数据进行定量分析,展示其分布情况最常用的方法就是直方图(Histogram)。这种图又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。

绘制直方图一般可以按照下面的步骤进行:

  1. 求极差。针对同一指标,极差越大,数据越不稳定import pandas as pd import matplotlib.pyplot as plt

data = pd.read_csv("/root/data/数码相机订单数据.csv")

求订单金额的极差。针对同一指标,极差越大,数据越不稳定

dr = data'订单金额'.max() - data'订单金额'.min()

print("订单金额极差为:",dr)

绘制直方图,显示该年每一个月的订单总额

将数据转换为DatFrame。这里我们只需要订单时间和订单金额

df = pd.DataFrame({"datetime":data"订单时间","amount":data"订单金额"})

取出订单时间中的月份

df'datetime' = pd.to_datetime(df'datetime')

df'month' = df'datetime'.dt.month.fillna(0).astype("int")

按月计算每月的订单总额,并用直方图进行展示

result = df.groupby('month').sum('amount')

#输出数据分布直方表

print(result)

绘制数据分布直方图

result.plot(kind='bar')

plt.xlabel('Month')

plt.ylabel('Total Sales')

plt.show() 绘制出的直方图如下所示。

图片.png
图片.png
  1. 分组数据,并决定分点
  2. 绘制频率分布直方表
  3. 绘制频率分布直方图
  4. 对于定性数据分析

对数据的定性分析常常根据变量的分类类型来分组,展示其分布情况最常用的方法就是饼图或者条形图来描述定性变量的分布。例如,饼图显示一个数据系列中各项的大小与各项总和的比例。饼图中的数据点显示为整个饼图的百分比。

IT阅读会.jpg
IT阅读会.jpg

下面以饼图举例说明,只需要将上面直方图代码中最后生成的DataFrame(result)直接使用饼图绘制出,即可。如下所示。

代码语言:txt
复制
# 绘制数据的饼图
result.plot.pie(subplots=True,figsize=(11, 11))
plt.show()

#注意:这里的饼图是以1月~12月进行分类的。

绘制出的饼图如下所示。

图片.png
图片.png

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 求订单金额的极差。针对同一指标,极差越大,数据越不稳定
  • 绘制直方图,显示该年每一个月的订单总额
  • 将数据转换为DatFrame。这里我们只需要订单时间和订单金额
  • 取出订单时间中的月份
  • 按月计算每月的订单总额,并用直方图进行展示
  • 绘制数据分布直方图
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、Presto、Iceberg、Elasticsearch、StarRocks 等,以快速构建企业级数据湖仓。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档