Titanic生还预测（五）

文章来源：企鹅号 - 机器学习Zero

本节根据数据每个属性的类型进行详细的特征工程，并通过组合多个不同类型的分类器进行预测。

1. 特征工程

各个特征（属性）的处理如下表

（1）数据合并

将数据合并后，求均值、众数及归一化更具有统一性。

（2）根据Title填充Age空值

Name里有Mr,Mrs,Miss等称谓，可使用称谓对应的年龄的均值来填充缺失的年龄。

（3）填充Fare与Embark的空值

（4）Age离散化

（5）Fare归一化

使用StandardScaler方法对Fare归一化处理

（6）形成新属性FamilySize

（7）One-Hot Encoding

机器学习中，将离散型特征（标称属性、序数属性）的每一种取值都看成一种状态，若该特征中有N个不相同的取值，可对该进行One-Hot Encoding（独热编码），将其转换为N个状态，只有一个状态位值为1，其他状态位都是0，即将其转换为N个二元特征。

比如Embarked字段，具有'S', 'C', 'Q'三个取值，若简单的将其映射为数值0,1,2，训练时模型会认为取值为1的数据与取值为2的数据具有线性特征。通过One-Hot Encoding可将分别其转换为[1,0,0],[0,1,0],[0,0,1]，使得模型具有较强的非线性能力。

低于Cabin展开为两个属性：数据中Cabin值为空的Cabin_null取值为1，Cabin_nnull取值为0；Cabin值不为空的Cabin_null取值为1，Cabin_nnull取值为0。

对于Sex、Pclass、Embared属性使用get_demmie方法，将其转换为One-hot 向量。

（8）形成训练数据

2. 组合分类器

组合分类器将多个不同类型的分类器（例如逻辑回归，SVM，随机森林）的预测结果进行组合，将多数分类器输出的结果作为最终的预测结果（hard voting classifier）。如果所有的分类器都能够预测类别的概率（拥有predict_proba方法），可将平均概率最高的结果作为最终的预测结果（soft voting classifier）通常比hard voting classifier效果好。

3. 参数优化

机器学习中的一项主要工作是参数优化（俗称“调参”）。sklearn提供了GridSearchCV方法，它网格式的自动遍历提供的参数组合，通过交叉验证确定最优化结果的参数（可通过best_params_属性查看）。

（1）优化随机森林的参数

（2）优化支持向量机的参数

（3）优化梯度提升的参数

（4）优化神经网络的参数

对组合分类器模型进行训练，使用训练模型进行预测并提交结果。

最终正确率可达80.38%.

发表于: 2018-04-222018-04-22 21:39:16
原文链接：http://kuaibao.qq.com/s/20180422G18M4F00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Titanic生还预测（五）

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐