前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >直方图例子

直方图例子

作者头像
spark
发布2018-12-20 11:45:51
9730
发布2018-12-20 11:45:51
举报
文章被收录于专栏:数据科学

直方图主要用来查看数据分布情况

读取数据

In [55]:

代码语言:javascript
复制
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
%matplotlib inline

In [56]:

代码语言:javascript
复制
df = pd.read_csv('/Users/spark/Downloads/nyc_fare.csv')

查看数据

In [4]:

代码语言:javascript
复制
df.describe()

Out[4]:

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

fare_amount

surcharge

mta_tax

tip_amount

tolls_amount

total_amount

count

846945.000000

846945.000000

846945.000000

846945.00000

846945.000000

846945.000000

mean

12.190578

0.320303

0.499305

1.34466

0.232142

14.587073

std

9.514150

0.772642

0.057844

2.09149

1.109164

11.380950

min

-648.420000

-1.000000

-0.500000

0.00000

0.000000

-52.500000

25%

6.500000

0.000000

0.500000

0.00000

0.000000

8.000000

50%

9.500000

0.000000

0.500000

1.00000

0.000000

11.000000

75%

14.000000

0.500000

0.500000

2.00000

0.000000

16.500000

max

620.010000

628.840000

41.490000

200.00000

100.660000

620.010000

这里可以看到fare_amount的最大值虽然是620,但是75%分位数是14,所以大部分数字都应该不是很大,我们后面采用50来观察他的分布情况

可视化数据

In [57]:

代码语言:javascript
复制
bin_array = np.linspace(start=0., stop=50., num=100)

In [58]:

代码语言:javascript
复制
df.fare_amount.hist(bins=bin_array)

Out[58]:

代码语言:javascript
复制
<matplotlib.axes._subplots.AxesSubplot at 0x116bdff60>

this is english

这是英语

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018年11月26日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 读取数据¶
  • 查看数据¶
  • 可视化数据¶
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档