应该是第三次看《利用Python进行数据分析》这本书,经典就是经典;从内容的丰富性,实际的可操作性来看,如果想从事数据分析行业,特别是利用Python
,此书真的是必读书籍。
本文主要是介绍几个重要的Python
库:numpy、pandas、matplotlib、scikit-learn、statsmodels
Python
是解释性的脚本语言,快速编写小型程序、脚本实现自动化功能Python
在数据科学、交互式计算以及数据可视化等领域,应用普遍C、C++
等语言的代码SAS
或者R
:进行研究、原型实现和测试;Java、C
或者C++:大型生产环境。Python
能够同时实现两种功能Python是一种解释性语言,Python解释器通过一次执行一条语句来运行程序,效率低下
Numpy
是numerical python
的缩写,是Python
进行数值计算的基石,主要功能是提供多种数据结构、算法和Python数值计算涉及到的接口
ndarray
C
语言API
,允许Python
扩展和本地的C
代码访问Numpy
的数据结构和计算设施Pandas的两个对象是\color{red}{Series}和\color{red}{Dataframe}。
Pandas
将表格和关系型数据库的灵活操作能力与numpy的高性能数组计算能力相结合
pandas
的最初目标是解决金融和商业分析问题,尤其擅长深度时间序列和处理商业进程中产生的时间索引数据
用于制图和二维数据可视化的Python
库
基于Python的\color{red}{机器学习工具包},主要子模块是:
Statsmodels是一个\color{red}{统计分析包},主要是包含经典的统计学、经济学算法
statmodels更加专注于统计推理,提供不确定性评价和p值参数;scikit-learn更专注于预测
jupyter notebook是一种交互式的文档类型,用于编写代码、文本、数据可视化及其输出等
问号?还可以当做通配符使用。通配符主要是有两个:星号*和问号?
如果写了一个Python的脚本文件,即.py
文件,可以通过%run来运行
假设创建了个test.py的文件:
def f(x,y,z):
return (x+y)/z
a = 5
b = 6
c = 7
result = f(a,b,c)
运行如下:
%run test.py
如果想让脚本使用交互式环境中已有的变量,使用%run -i
代替%run
命令
通过%load
将脚本文件导入一个代码单元中
%load test.py
中断代码使用ctrl+C
%paste:获得剪贴板中的所有代码,在命令行中作为一个代码块直接运行
%cpaste:给出一个提示符,提示:粘贴代码;如果代码出错,可以通过ctrl+C直接中断
通过%timeit来检查Python代码运行时间
凡是以%开始的都是魔术命令magic command