Python基础——4 数据可视化(下)

在终极的分析中,一切知识都是历史;

在抽象的意义下,一切科学都是数学;

在理性的基础上,所有的判断都是统计。

——C.R.劳《统计与真理》

4.5 pandas绘图

加载本期会用到的包

In [1]:

import matplotlib

import matplotlib.pyplot as plt

import numpy as np

import pandas as pd

In [2]:

df=pd.read_csv('gpu.csv')

gpu=pd.read_csv('gpu_transcount.csv')

df=df.groupby('year').aggregate(np.mean)

df=pd.merge(df,gpu,how='outer',left_index=True,right_index=True)

df=df.replace(np.nan,0)

df.plot(logy=True)

df[df['trans_count']>0].plot(kind='scatter',x='trans_count',

y='gpu_trans_count_x',loglog=True )

plt.show()

out[2]:



首先,分别读取两个数据集,然后通过年份分组,计算晶体管数量的平均值,然后将两组数据整合,把NA赋值为0。

最后通过plot函数绘制出半对数图和对数图。

4.6 时滞图

in [3]:

df=pd.read_csv('gpu.csv')

df=df.groupby('year').aggregate(np.mean)

gpu=pd.read_csv('gpu_transcount.csv')

gpu=gpu.groupby('year').aggregate(np.mean)

df=pd.merge(df,gpu,how='outer',left_index=True,right_index=True)

df=df.replace(np.nan,0)

lag_plot(np.log(df['trans_count']))

plt.show()

out [3]:

同样,分别读取两个数据集后,通过年份分组计算晶体管数量的平均值,整合以后将NA赋值为0。

最后通过lag_plot函数绘制时滞图。

4.7 自相关图

in [4]:

df=pd.read_csv('gpu.csv')

df=df.groupby('year').aggregate(np.mean)

gpu=pd.read_csv('gpu_transcount.csv')

gpu=gpu.groupby('year').aggregate(np.mean)

df=pd.merge(df,gpu,how='outer',left_index=True,right_index=True)

df=df.replace(np.nan,0)

autocorrelation_plot(np.log(df['trans_count'])) #用自相关函数绘制自相关图 plt.show()

Out [4]:

重复之前的步骤,读取文件后分类计算均值,再整合。

之后通过autocorrela_plot函数绘制自相关图。

关于封面

直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。

直方图是数值数据分布的精确图形表示。 这是一个连续变量(定量变量)的概率分布的估计,并且被卡尔·皮尔逊(Karl Pearson)首先引入。它是一种条形图。 为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。 这些值通常被指定为连续的,不重叠的变量间隔。 间隔必须相邻,并且通常是(但不是必须的)相等的大小。

直方图也可以被归一化以显示“相对”频率。 然后,它显示了属于几个类别中的每个案例的比例,其高度等于1。

作者:贺涵镜

编辑:刘皓昀

下期预告:Python基础——5 多元回归

这一期做的好啵?

想关注不啦?

关注一下撒

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180607G1Z27I00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券