专栏首页Python攻城狮Python数据科学(八)- 资料探索与资料视觉化1.叙述性统计与推论性统计2.进行读取相关数据

Python数据科学(八)- 资料探索与资料视觉化1.叙述性统计与推论性统计2.进行读取相关数据

1.叙述性统计与推论性统计

  • 叙述性统计 有系统的归纳数据,了解数据的轮廓 对数据样本做叙述性陈述,例如:平均数、标准偏差、计次频率、百分比 对数据资料的图像化处理,将数据摘要变为图标表
  • 推论性统计 资料模型的建构 从样本推论整体资料的概况 相关、回归、单因子变异数、因素分析

1.叙述性统计

1.我们一般有三种方式进行叙述性统计

  • 对大多数资料进行分析,80%都是在于如何加总与平均 eg:
    • 销售份额
    • 客户数量
    • 业绩成长量
  • 使用SQL做叙述性统计(通过加入限制条件得到我们需要的数据)
select * from tb1 where col1 >= 100 limit 3

2.如何操作数据

  • 操作数据我们常常需要
    • 分割数据(Split)
    • 转换数据(Transformation)
    • 聚合数据(Aggregation)
    • 探索数据(Exploration)
  • 需要如同SQL的语法去操作数据 首先我们需要安装pandas_datareaderpip install pandas_datareader,pandas_datareader是一个远程获取金融数据的Python工具,它提供了下面几个机构的数据。
import pandas_datareader

pandas_datareader.DataReader(name, data_source=None, start=None, end=None, retry_count=3, 
                                    pause=0.001, session=None, access_key=None)
  • name:股票名称
  • data_source:数据来源,可以是雅虎,谷歌等等
  • start:开始日期
  • end:截止日期
  • retry_count: 如果断开连接重新连接几次
  • pause:抓取数据的中间是否需要停顿
  • session:是否需要加入session
  • access_key:如果接口需要提供access_key,则此项需要填

2.进行读取相关数据

丘老师是使用pandas_datareader.DataReader来读取的雅虎提供的阿里巴巴股票数据,现在雅虎已经被弃用。这里我使用Tushare来读取金融数据。 Tushare是一个免费、开源的python财经数据接口包。

import tushare

# 获取大盘指数实时行情列表
df = ts.get_index()

# 查看后五行
df.tail()

备注:返回值说明

  • code:指数代码
  • name:指数名称
  • change:涨跌幅
  • open:开盘点位
  • preclose:昨日收盘点位
  • close:收盘点位
  • high:最高点位
  • low:最低点位
  • volume:成交量(手)
  • amount:成交金额(亿元)
# 查看列
df.columns

1.做一些简易的统计

  • 针对单列进行统计
    • 算出总和:df['volume'].sum()
    • 算出平均:df['volume'].mean()
    • 算出标准差:df['volume'].std()
    • 取得最小值:df['volume'].min()
    • 取得最大值:df['volume'].max()
    • 取得笔数:df['volume'].count()
  • 针对多列进行统计
# 取得最低开盘点位,最低收盘点位
df[['open', 'close']].min()

2.取得整体叙述性统计

df.describe()

均值,标准差,最大值,最小值等等

3.计算当日大盘指数当日涨跌次数

  • 计算当日涨跌
df['diff'] = df['close'] - df['open']
df['rise'] = df['diff'] > 0  # 涨
df['fall'] = df['diff'] < 0  # 跌

可以看到多了差额、涨、跌三列

  • 计算涨跌次数
df[['rise', 'fall']].sum()

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python数据科学(六)- 资料清理(Ⅰ)1.Pandas1.资料筛选2.侦测遗失值3.补齐遗失值

    成功爬取到我们所需要的数据以后,接下来应该做的是对资料进行清理和转换, 很多人遇到这种情况最自然地反应就是“写个脚本”,当然这也算是一个很好的解决方法,但是,p...

    意气相许的许
  • Python数据科学(九)- 使用Pandas绘制统计图表1.信息可视化

    因为人对图像信息的解析效率比文字更高,所以可视化可以使数据更为直观,便于理解,使决策变得高效,所以信息可视化就显得尤为重要。

    意气相许的许
  • Python数据科学(七)- 资料清理(Ⅱ)1.资料转换2.处理时间格式资料3.重塑资料4.学习正则表达式5.实例处理

    注意:这里的时间转换后的格式可以根据需要设定,eg:dt.strftime('%Y/%m/%d')

    意气相许的许
  • 数据分析索引总结(上)Pandas单级索引

    寄语:本文对单级索引中的loc、iloc、[]三种方法进行了详细的阐述。同时,对布尔索引,快速标量索引方式、区间索引方式做了详细介绍。

    Datawhale
  • Pandas速查手册中文版

    本文翻译自文章: Pandas Cheat Sheet - Python for Data Science,同时添加了部分注解。 对于数据科学家,无论是数据分析...

    Niucas_Mao
  • 【MathorCup】2020年 A题 无车承运人平台线路定价问题,特征间的相关性分析

    问题 1:通过定量分析的方法,研究影响无车承运人平台进行货运线路定价的主要因素有哪些,并说明理由。 问题 2:根据附件 1 数据,通过建立数学模型,对已经成交...

    不太灵光的程序员
  • Pandas进阶修炼120题,给你深度和广度的船新体验

    本文为你介绍Pandas基础、Pandas数据处理、金融数据处理等方面的一些习题。

    数据派THU
  • Day05| 第四期-电商数据分析

    疫情期间,想必我们会增加网上购物,人们的生活越来越数字化。当我们消费时,无论是线上和线下都会产生大量的交易数据,对于商家来说数字化的运营方式非常必要,从大量的交...

    DataScience
  • Pandas 数据分析: 3 种方法实现一个实用小功能

    与时间相关,自然第一感觉便是转化为datetime格式,这里需要注意:需要首先将两列转化为 str 类型。

    double
  • 使用pandas筛选出指定列值所对应的行

    该方法其实就是找出每一行中符合条件的真值(true value),如找出列A中所有值等于foo

    星星在线

扫码关注云+社区

领取腾讯云代金券