之前我们用过传统的机器学习算法预测过泰坦尼克号数据的生还情况,这次我们使用神经网络算法来进行建模。
这里的数据来源与kaggle上的数据,读者可以自行进行下载,我们通过pandas读取,首先看看数据的基本情况。
import numpy as np
import pandas as pd
data = pd.read_csv('titanic.csv')
data.head()
我们使用的字段有下面几个:
我们把这些字段筛选出来。
首先,我们看看数据的缺失情况。
data.isnull().sum()
这里有两个字段有缺失值,age我们用平均值,embarked我们用最多的值进行填充。
age_mean = data['Age'].mean()
data['Age'] = data['Age'].fillna(age_mean)
data['Embarked'] = data['Embarked'].fillna('S')
data['Sex']= data['Sex'].map({'female':0, 'male': 1}).astype(int)
data = pd.get_dummies(data=data,columns=['Embarked'])
接着我们按0.8划分数据集。
X = data.iloc[:,1:]
Y = data.iloc[:,0]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=33)
最后我们把数据进行标准化,这样数据我们就处理完了。
from sklearn import preprocessing
scale = preprocessing.MinMaxScaler()
X_train = scale.fit_transform(X_train)
X_test = scale.transform(X_test)
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有