Python 数据分析学习笔记

原创

1039778

发布于 2018-01-15 16:59:11

3.4K0

文章被收录于专栏：1039778的专栏1039778的专栏

一、基本语法

资料地址：http://www.icoolxue.com/album/show/113

1）python3新增特性：

A： print()变化

B：新增bytes类型，可以与str进行互换，以b字母作为前缀

C：新增format()进行格式化处理

D： dict里面删除了iterkeys(),itervalues(), iteritems()，新增keys(), values(), items()

二、数据分析

2.1 基本理论

资料地址：http://www.chinahadoop.cn/course/840/learn#lesson/16491

1）数据处理的最基本前期工作：

A：类别型数据

明确取值类别

明确每类取值的分布

B：数值型数据

了解极值与分位情况

了解正态性，均值，方差情况

了解变量相关性

C：通用处理

缺失值情况

重复性情况

Inspecting——> Cleaning——>transforming——>modeling——>discover useful info/suggest conclusion/support decision making

2）常见的任务分类：

A：分类问题

B：回归问题

C：聚类问题

D：时序分析问题

2.2 基本工具

1）Numpy： ndarray

2）Pandas： Series和DataFrame

3）EDA的工具： Matplotlib, Seaborn, Bokeh

4）机器学习Scikit-learn

5）量化分析与回测：Talib/Zipline/PyAlgoTrade/Pybacktest

6）Scikit-Image：图像处理

7）NLTK：自然语言处理

2.3 Pandas

资料地址：http://pandas.pydata.org/pandas-docs/stable/

1）数据结构： Series/DataFrame/GroupBy/Index/Style/Resample/Window

2）Index: IntegerIndex/CategoricalIndex/IntervalIndex/DatetimeIndex/TimedeltaIndex

3）Functions： creation/conversion/attributes/index/selection/slice/groupby/sort

4）Reshape/combine/merge/join/serialization/plot/missing data/data manipulation

2.4 Sklearn

资料地址：http://scikit-learn.org/stable/

1） preprocessing：包括样本切割，特征提取，

2） Model_selection：包括特征选择，交叉验证等

3） Dimensionality reduction：包括PCA, FA等

4） Classification/Regression/Clustering：分类器、回归、聚类

2.5 imblearn

资料地址：

http://contrib.scikit-learn.org/imbalanced-learn/api.html#

http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

2.6 statsmodels

资料地址：http://www.statsmodels.org/stable/index.html

2.7 tushare

资料地址：http://www.statsmodels.org/stable/index.html

三、金融数据分析基础

3.1 业务背景

1）客户类型，业务类型，建模类型

3.2 金融数据分析建模基础

1）EDA的常用方法

2）极值、缺失值的处理方法

3）标准化与归一化的处理

4）Category变量的编码方式

5）变量分箱的常用方式

6）IV值的计算与经验判断

7）WOE的计算， WOE编码

8）交叉验证的策略与评价

9）各类模型的优缺点，各类模型对输入的质量敏感性程度

10）各类模型的调参经验总结

四、数据分析实例

4.1 CASE： KNN做玻璃分类——KNN、sklearn、seaborn

示例代码：https://github.com/esppk/Glass_Classification

第一步：用pandas读取csv文件，用df.info()方法查看

第二步：查看直观特征：

df.shape 查看有几行几列

df.columns获取每一列的表头名称，可以将y过滤掉，只留下x

df.head(n)可以预览读取的数据n行

df.dtypes可以查看df的数据类型

第三步：查看简单的统计特征：

df.describe()可以查看count,mean, sd, min,max, 25%,50%,75%

比如：通过mean可以查看各个x的取值范围是否大概一致，如果相差太大，要做归一化处理

df'y'.value_counts()可以用来查看样本里面y标签的取值与对应个数情况

比如：如果某个取值的数目特别多，表名样本非常不平衡，需要做sample weight等相关处理，或者将样本分割一下

第四步：查看可视化的统计特征：

skew的计算与描述——每个单变量x与y的分布情况——distplot

查看哪些变量需要做归一化处理——boxplot

查看两两变量之间的关系——pairplot

第五步：分割数据集： trainset和testset, 可以直接用sklearn.model_selection里面的train_test_split

第六步：使用KNN分类器做分类算法，看各个k取值下的准确率，从而决定best_k

第七步：使用KNN模型fit trainset，查看testset的准确率

提升模型准确率：

1）非平衡样本的数据处理

2）特征的归一化处理

3）其他分类器的尝试

4）尝试获取更多的数据

4.2 CASE：逻辑回归做Lending Club 借贷数据分析

资料地址：http://www.chinahadoop.cn/classroom/48/introduction

第一步：文件目录相关操作 import os

os.path.exists(filepath) check某个文件或目录是否存在

os.path.join(a,b)拼接目录地址

第二步：文件压缩与解压相关操作： import zipfile

with zipfile.ZipFile(originalFilepath) as zf:

 zf.extractAll(targetPath)

第三步：pandas DataFrame里面取到某个列target的数据，做类型转换：

data'newcolname' = pd.to_datetime(data'oldcolname')

data2=data.groupby('newcolname')'target'.sum()

df=pd.DataFrame(data2).reset_index()

将日期换成月份：(将DateTimeIndex变更为PeriodIndex)

data'newcolname_2'=data'newcolname'.apply(lamda x: x.to_period('M'))

第四步：观察数据

直观情况：raw_data.head()、raw_data.info()、raw_data.describe()

类型分布：used_data'loan_status'.value_counts()

按时间统计：新增一列作为datetime index, group by这个index列

used_data'issue_d2'=pd.to_datetime(used_data'issue_d')

data_group_by_date=used_data.groupby('issue_d2').sum()

data_group_by_date.reset_index(inplace=True)

data_group_by_date'issue_month'=data_group_by_date'issue_d2'.apply(lambda x:x.to_period('M')) loan_amount_group_by_month=data_group_by_date.groupby('issue_month')'loan_amnt'.sum() loan_amount_group_by_month_df=pd.DataFrame(loan_amount_group_by_month).reset_index()

查看多变量间的分类统计情况：

data_group_by_state=used_data.groupby('addr_state')'loan_amnt'.sum()

data_group_by_state_df=pd.DataFrame(data_group_by_state).reset_index()

data_group_by_term=used_data.groupby('grade','term')'int_rate'.mean()

data_group_by_term_df=pd.DataFrame(data_group_by_term).reset_index()

第五步：处理category 变量，改成0,1这样的label

filtered_mask=raw_data'loan_status'.isin('Fully Paid','Charged Off','Default')

filtered_data=raw_datafiltered_mask

proc_filter_data=filtered_data.copy()

proc_filter_data'label'=filtered_data'loan_status'.apply(formateY)

proc_filter_data'emp_length_feat'=filtered_data'emp_length'.apply(formateEmpLength)

第六步：原始特征选择

第七步：缺失值处理

第八步：开始学习

A： LabelEncoder（）、OneHotEncoder（） check category var

B：处理不平衡数据： SMOTE

C：分割train set, test set

D：选择模型， eg LogisticRegression

E：交叉验证调整最优化的超参数： cross_val_score

1) 迭代策略的选择： KFold/LeaveOneOut/LeavePOut/ShuffleSplit

2) 交叉验证评估的度量： score类型（eg, accuracy/f1/precision/recall/roc_auc/r2）

4.3 CASE：股票量化示例

资料地址：http://www.chinahadoop.cn/classroom/48/introduction

1）股票收益率（ log(pt/p(t-1)) ）的计算

1）使用tushare提供的接口，获取上证指数的价格数据

2）使用tushare提供的接口，获取某只股票的价格数据

3）股票价格服从log-normal分布，所以对价格数据，需要求log price的序列

 log_return = np.log(price/price.shift(1))

4）两个序列处理缺失值：方案， dropna

5）add_constant(x)加入截距数据

 sm.add_constant(x)

6）调用OLS fit 两个log price序列

 sm.OLS(y, x_cons).fit()

7）查看model的情况：

 res_ols.summary()

2）预测某只指数的涨跌

1）使用tushare读取某只指数（股票）的日K线数据

2）生成对应的时滞序列： price.shift(x)

hist_lag'lag{}'.format(str(i + 1)) = hist_data'close'.shift(i + 1)

3）label每天的涨跌：

ret_df'today' = hist_lag'today'.pct_change() * 100.0

ret_df'lag{}'.format(str(i + 1)) = \hist_lag'lag{}'.format(str(i + 1)).pct_change() * 100.0

ret_df'direction' = np.sign(ret_df'today')

4）分割train set/test set

X = lag_ret_df['lag1', 'lag2']

y = lag_ret_df'direction'

start_test = dt.datetime(2016, 1, 1)

X_train = XX.index < start_test

X_test = XX.index >= start_test

y_train = yy.index < start_test

y_test = yy.index >= start_test

5）选择不同的模型，交叉验证获取优化的超参数，在train set上fit，在test set上predict，评估模型的优劣

4.4 CASE：银行客户流失预警模型

资料地址：http://www.chinahadoop.cn/classroom/48/introduction

1）使用Pandas读取2个数据源文件

2）Merge on ID： pd.merge(A, B, on=‘ID’)

3）区分数据类型：

if isinstance(x[0], numbers.Real):

     numericCols.append(var)

elif isinstance(x[0], str):

     stringCols.append(var)

4） EDA

A： distplot，看X的偏度，分布

B： boxplot，看所有X的分布（比对哪些需要做归一化、标准化）

C： pairplot，看X两两之间的关联情况

D： category var各个取值与X的分布情况——subplots合并多张图、轴

E：查看X是否需要做截断，截断前和截断后与Y的关系

5）变量预处理：

A：时间变量的处理，作为label或者作为基于某一天之间的天数

统一处理两个时间的格式，转变为datetime变量，两者相减之后取days属性

base2 = time.strptime(base,'%Y/%m/%d')

base3 = datetime.datetime(base2[0],base2[1],base2[2])

date1 = [time.strptime(i,'%Y/%m/%d') for i in df[dateCol]]

date2 = [datetime.datetime(i[0],i[1],i[2]) for i in date1]

daysGap = [(date2[i] - base3).days for i in range(len(date2))]

B：类别变量的编码，

最常用的做法，用y变量在这个category变量的某一类中的比率来代替这一类的取值。

如： gender=’女’——用等于‘女’的坏样本比率ratio1来替代

gender=’男’——用等于‘男’的坏样本比率ratio2来替代

第二种做法，添加哑变量，适合于category取值较少的情况

如： city=’guangzhou’

city=’nanjing’

用isGuangzhou， isNanjing这两个变量来替换掉city这个变量

第三种做法，用category变量的某一类在样本中的出现次数来代替。

如： status=’default’出现100次，‘’default‘’用100表示

Status=’normal’出现1000次，‘normal’用1000表示

C： Missing Value的处理

判断是不是有存在Missing Value——从原始数据中取出非missing数据，比对shape

#Take the sample with non-missing value in col

validDf = df.loc[df[col] == df[col]][[col]]

if validDf.shape[0] == df.shape[0]:

return 'There is no missing value in {}'.format(col)

数值型变量的outlier detection，通常超过均值上下3个标准差就算outlier

D：去掉使用循环的思维：

[functioncall(x)  for x in  df[col]]

[functioncall(x) for x in dif[col] if xxx ]

for v in set(df[col]):

   encoder[v] = sum(subDf[target])*1.0/subDf.shape[0]

newCol = [encoder[i] for i in df[col]]

6）变量衍生

A： X之间相除得到某个ratio

B： X的均值，最大值，最小值

C： X的求和

7）模型选择与训练：

A： train_test_split

B：选择模型：

GBDT

神经网络

C：参数调整：

默认参数， parameter tuning

D：查看variable importance in selected model

4.5 CASE：互联网金融/银行申请评分卡模型

资料地址：http://www.chinahadoop.cn/classroom/48/introduction

1）使用pandas读取3个input文件

2）查看3个input文件里面的ID，是否存在有的有值，有的没值，取3个里面都有的数据出来做train set

data1_Idx, data2_Idx, data3_Idx = set(data1'Idx'), set(data2'Idx'), set(data3'Idx')

check_Idx_integrity = (data1_Idx - data2_Idx)|(data2_Idx - data1_Idx)|(data1_Idx - data3_Idx)|(data3_Idx - data1_Idx)

set(xxx)能够去掉xxx里面的重复数据

3）特征衍生：

A：一些原始变量，衍生不同time window下面的count, mean等变量

B： category变量：

如果缺失率超过50%，则去掉这个变量

如果不超过，作为一种特殊取值留着

C： continuous变量：

如果缺失率超过70%，则去掉这个变量

如果不超过，则考虑用填充的方式进行填充（random， mean， min）

4）特征分箱：

A： category变量：

如果分类的取值个数>5个，则用每种分类里面的bad rate代替每个分类

如果分类的取值个数<=5个，则看size最大的那个bin，如果这个bin的size超过90%，则去掉这个变量。如果这个bin的size坏样本占比为0，则将这个bin与最小的那个bin合并，再重新check maximum bin

B： continuous变量：

使用卡方分箱方法， default 5个bin

查看每个bin里面的bad rate，如果bad rate不单调，则降低bin的个数重新分bin

查看maximum size的bin占比，如果超过90%，则删掉这个变量

5）变量选择：

A：计算每个剩下来的变量的IV值， WOE值

B：取IV>= 0.02的所有变量

C：生成变量对，计算变量对之间的相关系数，如果相关系数大于某个阈值（取0.8），则变量对里面选IV值高的那个变量入模

D：查看每个变量的VIF值， VIF = 1/ (1-R2) , VIF>10的去掉

E：循环检查入模变量是否显著，如果不显著（取Pvalue>0.1为不显著），就去掉之后再跑一遍

F：直到所有变量都是显著的为止

6）跑基础的逻辑回归模型，将model 序列化存下来

LR = sm.Logit(y, X).fit()

saveModel =open('./data/LR_Model_Normal.pkl','w')

pickle.dump(LR,saveModel)

saveModel.close()

7）跑Lasso正则化（L1）的逻辑回归模型， type1 error和type 2 error采用不同的惩罚系数

A：用交叉验证的方式tune hyper parameter：

LR_model_2 = LogisticRegressionCV(Cs=C_penalty, penalty='l1', solver='liblinear', class_weight={1:bad_weight, 0:1})

LR_model_2_fit = LR_model_2.fit(X_train,y_train)

B：序列化应用Lasso的逻辑回归模型

8）可以通过随机森林的方式确定变量的重要性，根据随机森林的结果（如：取importance top 10的变量入模等）来跑逻辑回归模型