前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >深度学习|泰坦尼克号生还数据处理

深度学习|泰坦尼克号生还数据处理

作者头像
罗罗攀
发布于 2019-01-28 07:16:31
发布于 2019-01-28 07:16:31
1.2K00
代码可运行
举报
运行总次数:0
代码可运行

之前我们用过传统的机器学习算法预测过泰坦尼克号数据的生还情况,这次我们使用神经网络算法来进行建模。

数据处理

数据情况

这里的数据来源与kaggle上的数据,读者可以自行进行下载,我们通过pandas读取,首先看看数据的基本情况。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import numpy as np
import pandas as pd

data = pd.read_csv('titanic.csv')
data.head()

我们使用的字段有下面几个:

  • Survived:是否生还
  • Pclass:船舱等级
  • Sex:性别
  • Age:年龄
  • SibSp:手足和配偶在船上的数量
  • Parch:双亲和手足在船上的数量
  • Fare:费用
  • Embarked:登船港口

我们把这些字段筛选出来。

缺失值处理

首先,我们看看数据的缺失情况。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
data.isnull().sum()

这里有两个字段有缺失值,age我们用平均值,embarked我们用最多的值进行填充。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
age_mean = data['Age'].mean()
data['Age'] = data['Age'].fillna(age_mean)
data['Embarked'] = data['Embarked'].fillna('S')
性别和embarked
  • 性别需要换成0和1
  • embarked进行哑变量
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
data['Sex']= data['Sex'].map({'female':0, 'male': 1}).astype(int)

data = pd.get_dummies(data=data,columns=['Embarked'])
划分数据集

接着我们按0.8划分数据集。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
X = data.iloc[:,1:]
Y = data.iloc[:,0]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=33)
标准化

最后我们把数据进行标准化,这样数据我们就处理完了。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn import preprocessing
scale = preprocessing.MinMaxScaler()
X_train = scale.fit_transform(X_train)
X_test = scale.transform(X_test)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019.01.19 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
泰坦尼克号幸存预测
本次项目主要围绕Kaggle上的比赛题目: "给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存" 进行数据分析
py3study
2020/01/20
1.2K0
基于决策树的泰坦尼克号幸存者分析
基于决策树的泰坦尼克号幸存者分析,几个重要的方法 缺失值的处理 将字符型数据转成数值型 特征属性数据和标签属性的分离 决策树的建模 网格搜索的建立 导入模块 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns sns.set() # setting seaborn default for plots from sklearn.tr
皮大大
2021/03/02
1.1K0
泰坦尼克号之生存预测(1)
上一节一起学习了one-hot编码,那么本节主要偏重实践,一起践行one-hot!
公众号guangcity
2019/09/20
5870
泰坦尼克号之生存预测(1)
泰坦尼克号生还率预测
首先要把 xls 文件中的数据读进来,使用 pandas 库的 read_excel():
yichen
2021/03/10
4740
Python人工智能:Python决策树分类算法实现示例——基于泰坦尼克号生存者数据集
由于乘客姓名Name、乘票信息Ticket与客舱名称Cabin特征对于乘客的存活影响很小,所以下面首先将其从train_data中剔除:
用户1143655
2023/03/21
1.3K0
Python人工智能:Python决策树分类算法实现示例——基于泰坦尼克号生存者数据集
kaggle_泰坦尼克幸存者可视化
网格搜索是将多个参数的不同取值放在一起,同时进行参数的调节,找出最匹配的值,本质上是枚举技术。
皮大大
2021/03/02
6540
经典中的经典--泰坦尼克号的乘客生存预测
数据分析/挖掘是以概率论、线性代数、统计学、信息论为基础,根据之前接触到的数据挖掘流程,可定义为:数据准备-->数据探索--> 数据预处理-->特征工程-->模型建立-->模型评估,其中数据探索、数据预处理、特征工程针对某一属性同时进行。
数据社
2020/05/25
2.1K0
泰坦尼克号之生存预测(2)
昨天写了一篇有关leetcode刷题的文章,今天接着上次的kaggle,进行特征选择,模型选择等的一系列步骤。 关于进群交流的伙伴,可以点击公众号右下角联系我,备注leetcode,进算法群;备注总群,进交流总群!
公众号guangcity
2019/09/20
5150
泰坦尼克号之生存预测(2)
泰坦尼克乘客存活状况(决策树案例)
1912年4月15日凌晨2点20分,“永不沉没”的“泰坦尼克”走完了它短暂的航程,缓缓沉入大西洋这座安静冰冷的坟墓。 欢迎你们说我幼稚荒诞,也欢迎你们继续成熟苍凉。说起来,titanic是我至今
zhaoolee
2018/04/19
8750
泰坦尼克乘客存活状况(决策树案例)
如何用Python分析泰坦尼克号生还率?
1912年当时世界上最大的豪华客轮泰坦尼克号在处女航中撞上冰山沉没,船上船员及乘客共有2224人,只有710人生还。当灾难突然降临时,所有人的生死瞬间成了魔鬼撒旦手中的骰子,一切充满了随机性,究竟什么样的人更容易获得命运之神的垂青?幸存者具有哪些共同特点?让我们一起来用Python探索问题吧!
1480
2019/07/15
8070
如何用Python分析泰坦尼克号生还率?
泰坦尼克号生存预测入门
交叉验证参数 shuffle = False,正确率就提高了,why ???求解答
Michael阿明
2020/07/13
5100
泰坦尼克号生存预测入门
Kaggle经典数据分析项目:泰坦尼克号生存预测!
最近有很多读者留言,希望能有一个完整的数据分析项目练手,这几天收集了组织成员们的推荐。其中泰坦尼克号生存预测作为最经典的启蒙数据分析项目,对于初学者来说是应该是最合适的了,后面将分享更多进阶的数据分析项目。如果已经有基础了,推荐:
Datawhale
2020/08/28
2.7K0
Kaggle经典数据分析项目:泰坦尼克号生存预测!
[数据科学从零到壹]·泰坦尼克号生存预测(数据读取、处理与建模)​​​​​​​
1.Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanic
小宋是呢
2019/06/27
7570
[sklearn数据科学浅尝]kaggle泰坦尼克号幸存预测问题(入全球前10%)
泰坦尼克号的沉没是历史上最著名的沉船之一。1912年4月15日,在她的首航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并促进了更严格的船舶安全规定产生。
小宋是呢
2019/06/27
9620
机器学习之逻辑回归
文中的所有数据集链接:https://pan.baidu.com/s/1TV4RQseo6bVd9xKJdmsNFw
润森
2019/09/17
9980
机器学习之逻辑回归
sklearn调包侠之决策树算法
决策树原理 之前我们详细讲解过决策树的原理,详细内容可以参考该链接(https://www.jianshu.com/p/0dd283516cbe)。 改进算法 但使用信息增益作为特征选择指标(ID3算法)容易造成过拟合。举一个简单例子,每个类别如果都有一个唯一ID,通过ID这个特征就可以简单分类,但这并不是有效的。为了解决这个问题,有了C4.5和CART算法,其区别如下所示: ID3 是信息增益划分 C4.5 是信息增益率划分 CART 做分类工作时,采用 GINI 值作为节点分裂的依据 实战——泰坦尼克号
罗罗攀
2018/07/03
5980
基于RandomForestClassifier的titanic生存概率分析
这个是kaggle上的一个基础项目,目的是探测泰坦尼克号上的人员的生存概率,项目地址:https://www.kaggle.com/c/titanic
obaby
2023/02/24
3310
算法入门(六)—— 一文搞懂逻辑回归(内附Kaggle实战源码与数据集)
大家好!欢迎来到我们的“算法入门”系列。今天我们要聊聊机器学习中的一位“老朋友”——逻辑回归。如果你对它的名字感觉既熟悉又陌生,别担心,今天我们会带你一起深入了解它的原理、公式以及在实践中的应用。最重要的是,我们会通过一个Kaggle实战项目,让你能够轻松上手!
万事可爱^
2025/01/23
1330
算法入门(六)—— 一文搞懂逻辑回归(内附Kaggle实战源码与数据集)
深度学习|泰坦尼克号生还数据预测(MLP)
上次分享,我们利用pandas和sklearn完成了泰坦尼克号数据的预处理,包括下面的步骤,具体可看深度学习|泰坦尼克号生还数据处理
罗罗攀
2019/01/28
9240
机器学习入门数据集--4.泰坦尼克幸存者预测
最后只选取8个维度 Pclass Age SibSp Parch Sex Cabin Fare Embarked。dummy编码进行维度扩展。
birdskyws
2019/03/04
6180
机器学习入门数据集--4.泰坦尼克幸存者预测
推荐阅读
相关推荐
泰坦尼克号幸存预测
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验