想做量化交易?大名鼎鼎的pandas,怎么能不会呢?

前面介绍了机器学习和数据分析三剑客之一的numpy,

想学AI?先来一碗numpy的纯干货吧!

今天就来介绍三剑客之二的pandas,如果没有pandas的话,数据分析还是R语言的天下,pandas是量化交易最核心的依赖库,那就来解开它的面纱,看看pandas到底是什么?怎么用?

一、什么是pandas?

Wes McKinney在2008年时就职于AQR(一家量化投资公司),当时没有一个工具能够满足他的工作需求,所以就开始自己造(牛人就是这样的),2012年,他的同事Sien Chang加入开发,他们一起造就了这个python社区的一个非常牛的三方库-pandas!

作者对pandas设计需求:

具备按轴自动或显式数据对齐功能的数据结构。

集成时间序列功能。

既能处理时间序列数据也能处理非时间序列数据的数据结构。

数学运算和约简可以根据不同的轴编号执行。

灵活处理缺失数据。

合并常见数据库中的关系型运算。

整个pandas基于numpy开发,在numpy中的大部分操作在pandas中同样适用,同时pandas和numpy一样拥有计算性能优势,我们可以把pandas理解为一个numpy的封装。

二、pandas的安装和引入

$pip install pandas

$pip install -i https://pypi.douban.com/simple pandas

第一种方法是在pypi的官方仓库获取pandas,第二种是在豆瓣的仓库获取,下载速度非常快。

>>>from pandas import Series, DataFrame

>>>import pandas as pd

因为Series和DataFrame这两个类使用非常频繁,可以直接引入进来,就像import numpy as np一样,以后看见np就知道是numpy,pd就是pandas,plt就是matplotlib。

三、pandas的核心数据结构

上一篇文章讲了numpy,numpy中最重要的数据结构就是ndarray,就是多维数组,但是ndarray最大的问题是数据没有直观的标签,如果要建立对应的标签需要使用其他方式存储,标签就像是Excel中的表头,代表一列或一行数据是什么。在pandas中有两种最重要的数据结构,Series和DataFrame,它们都有标签,操作非常方便。

1.Series

Series对象就像是1一个带标签的一维数组,科目是索引,成绩是数组中的值。

2.DataFrame

DataFrame就非常像Excel表格,学号是索引,可以从DataFrame中抽出Series来得到小明的成绩。

今天就介绍到这里,明天介绍Series和DataFrame的具体用法。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180729G1J4LT00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券