泰坦尼克号将乘客分为三个等级: 三等舱位于船身较下层也最便宜; 二等舱具备与当时其他一般船只的头等舱同样的等级, 许多二等舱的乘客原先在其他船只上预定的头等舱, 却因为泰坦尼克号的航行, 将煤炭能源转移给泰坦尼克号...PassengerId
Id仅仅是用来标识乘客的唯一性, 必然是与幸存无关.
2....用某些集中趋势度量(平均数, 众数)进行对缺失值进行填充.
2. 用统计模型来预测缺失值, 比如回归模型, 决策树, 随机森林
3. 删除缺失值
4....到现在我们已经完成所有特征的分析, 接下来看一下能否在这些特征的基础上提取一些新的特征.
4.3 新特征的提取
通过以上的分析, 我们已经了解到生存率相关的特征:
Pclass, Appellation...删除重复多余的以及与Survived不相关的:
train.drop(['PassengerId', 'Name', 'GroupAge', 'SibSp', 'Parch', 'Ticket', 'GroupFare