在终极的分析中,一切知识都是历史;
在抽象的意义下,一切科学都是数学;
在理性的基础上,所有的判断都是统计。
——C.R.劳《统计与真理》
4.5 pandas绘图
加载本期会用到的包
In [1]:
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
In [2]:
df=pd.read_csv('gpu.csv')
gpu=pd.read_csv('gpu_transcount.csv')
df=df.groupby('year').aggregate(np.mean)
df=pd.merge(df,gpu,how='outer',left_index=True,right_index=True)
df=df.replace(np.nan,0)
df.plot(logy=True)
df[df['trans_count']>0].plot(kind='scatter',x='trans_count',
y='gpu_trans_count_x',loglog=True )
plt.show()
out[2]:

首先,分别读取两个数据集,然后通过年份分组,计算晶体管数量的平均值,然后将两组数据整合,把NA赋值为0。
最后通过plot函数绘制出半对数图和对数图。
4.6 时滞图
in [3]:
df=pd.read_csv('gpu.csv')
df=df.groupby('year').aggregate(np.mean)
gpu=pd.read_csv('gpu_transcount.csv')
gpu=gpu.groupby('year').aggregate(np.mean)
df=pd.merge(df,gpu,how='outer',left_index=True,right_index=True)
df=df.replace(np.nan,0)
lag_plot(np.log(df['trans_count']))
plt.show()
out [3]:
同样,分别读取两个数据集后,通过年份分组计算晶体管数量的平均值,整合以后将NA赋值为0。
最后通过lag_plot函数绘制时滞图。
4.7 自相关图
in [4]:
df=pd.read_csv('gpu.csv')
df=df.groupby('year').aggregate(np.mean)
gpu=pd.read_csv('gpu_transcount.csv')
gpu=gpu.groupby('year').aggregate(np.mean)
df=pd.merge(df,gpu,how='outer',left_index=True,right_index=True)
df=df.replace(np.nan,0)
autocorrelation_plot(np.log(df['trans_count'])) #用自相关函数绘制自相关图 plt.show()
Out [4]:
重复之前的步骤,读取文件后分类计算均值,再整合。
之后通过autocorrela_plot函数绘制自相关图。
关于封面
直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。
直方图是数值数据分布的精确图形表示。 这是一个连续变量(定量变量)的概率分布的估计,并且被卡尔·皮尔逊(Karl Pearson)首先引入。它是一种条形图。 为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。 这些值通常被指定为连续的,不重叠的变量间隔。 间隔必须相邻,并且通常是(但不是必须的)相等的大小。
直方图也可以被归一化以显示“相对”频率。 然后,它显示了属于几个类别中的每个案例的比例,其高度等于1。
作者:贺涵镜
编辑:刘皓昀
下期预告:Python基础——5 多元回归
这一期做的好啵?
想关注不啦?
关注一下撒
领取专属 10元无门槛券
私享最新 技术干货