首页
学习
活动
专区
工具
TVP
发布

Titanic生还预测(五)

本节根据数据每个属性的类型进行详细的特征工程,并通过组合多个不同类型的分类器进行预测。

1. 特征工程

各个特征(属性)的处理如下表

(1)数据合并

将数据合并后,求均值、众数及归一化更具有统一性。

(2)根据Title填充Age空值

Name里有Mr,Mrs,Miss等称谓,可使用称谓对应的年龄的均值来填充缺失的年龄。

(3)填充Fare与Embark的空值

(4)Age离散化

(5)Fare归一化

使用StandardScaler方法对Fare归一化处理

(6)形成新属性FamilySize

(7)One-Hot Encoding

机器学习中,将离散型特征(标称属性、序数属性)的每一种取值都看成一种状态,若该特征中有N个不相同的取值,可对该进行One-Hot Encoding(独热编码),将其转换为N个状态,只有一个状态位值为1,其他状态位都是0,即将其转换为N个二元特征。

比如Embarked字段,具有'S', 'C', 'Q'三个取值,若简单的将其映射为数值0,1,2,训练时模型会认为取值为1的数据与取值为2的数据具有线性特征。通过One-Hot Encoding可将分别其转换为[1,0,0],[0,1,0],[0,0,1],使得模型具有较强的非线性能力。

低于Cabin展开为两个属性:数据中Cabin值为空的Cabin_null取值为1,Cabin_nnull取值为0;Cabin值不为空的Cabin_null取值为1,Cabin_nnull取值为0。

对于Sex、Pclass、Embared属性使用get_demmie方法,将其转换为One-hot 向量。

(8)形成训练数据

2. 组合分类器

组合分类器将多个不同类型的分类器(例如逻辑回归,SVM,随机森林)的预测结果进行组合,将多数分类器输出的结果作为最终的预测结果(hard voting classifier)。如果所有的分类器都能够预测类别的概率(拥有predict_proba方法),可将平均概率最高的结果作为最终的预测结果(soft voting classifier)通常比hard voting classifier效果好。

3. 参数优化

机器学习中的一项主要工作是参数优化(俗称“调参”)。sklearn提供了GridSearchCV方法,它网格式的自动遍历提供的参数组合,通过交叉验证确定最优化结果的参数(可通过best_params_属性查看)。

(1)优化随机森林的参数

(2)优化支持向量机的参数

(3)优化梯度提升的参数

(4)优化神经网络的参数

对组合分类器模型进行训练,使用训练模型进行预测并提交结果。

最终正确率可达80.38%.

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180422G18M4F00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券