Python数据分析专题今起开篇!

在过去两个月的时间里,小编主要分享了Python及爬虫相关基础知识。

由于小编对Python的数据分析方向比较感兴趣,所以准备先从该方向进行深入学习;而Python的其他方向则会在小编学有余力的情况下进行学习分享。

下面说下利用Python进行数据分析时用到的主要工具:

一:解释器

推荐使用 Ipython的shell解释器,可能你们已经有人在用了,不得不说交互体验非常棒。安装起来也很方面,同之前介绍到的第三方库的安装方法类似,下面举例是基于windows操作系统

打开命令窗口

输入执行pip install ipython

即可自行安装

Ipython的快捷命令:

- Ctrl-P 或上箭头键 后向搜索命令历史中以当前输入的文本开头的命令

- Ctrl-N 或下箭头键 前向搜索命令历史中以当前输入的文本开头的命令

- Ctrl-R 按行读取的反向历史搜索(部分匹配)

- Ctrl-Shift-v 从剪贴板粘贴文本

- Ctrl-C 中止当前正在执行的代码

- Ctrl-A 将光标移动到行首

- Ctrl-E 将光标移动到行尾

- Ctrl-K 删除从光标开始至行尾的文本

- Ctrl-U 清除当前行的所有文本

- Ctrl-F 将光标向前移动一个字符

- Ctrl-b 将光标向后移动一个字符

- Ctrl-L 清屏

二:第三方库

利用Python进行数据分析时,用的较多的就是Numpy、Pandas及Matplotlip库。安装方法同上执行: pip install 库名

NumPy

是一个开源的Python科学计算基础库,目前来看也是python进行科学计算和数据分析的最基础的第三方库,NumPy的功能主要包含以下一些方面:

1.一个强大的N维数组对象ndarray

2.一组广播功能函数,用来在数组之间进行计算

3.整合C/C++/Fortran等代码的工具

4.线性代数、傅里叶变换、随机数生成等功能

在进行数据分析时,使用最多的可能是多维数组的创建这一点。

Pandas库

是基于NumPy 的一种工具,是为了解决数据分析任务而创建的。pandas库中包含的几种数据结构,使用较多的是Series(一维数组,类似于numpy的一维数组)和DataFrame(二维数组),别的还有比如 :Time- Series(以时间为索引的Series)、Panel (三维的数组,可以理解为DataFrame的容器)。

Matplotlip库

该库主要是结合其他库进行数据的可视化操作。

在此期间可能会涉及到别的库的使用,届时会详细说明。

三:数据分析专题大致框架

数据分析框架图

(1):数据准备

(2):数据处理

(3):数据分析

(4):数据可视化

(5):数据分析实战

五个步骤功能的实现都是基于上面提到的第三方库及数据来进行的。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180113G0MND000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券