首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

品玩SAS:泰坦尼克号之灾(上)——逃生率分析

今天我们就一起来探讨下泰坦尼克号的逃生率问题,该问题主要分为两部分,一是分析影响逃生率的因素有哪些,二是在这种因素影响下,预测另一群人逃生的概率。...2 理解数据 2.1 数据来源 本文数据取自KAGGLE泰坦尼克号生存预测比赛:https://www.kaggle.com/c/titanic/overview,其中包括训练集和测试集,训练集中包括乘客获救状态和基本信息...,测试集仅包括乘客基本信息,需根据训练集信息建立模型,对测试集乘客进行生存预测。...;年龄上集中在16至40岁之间的青壮年,儿童与老人较少。...上图给了我们一半答案,女性的存活人数显著高于死亡人数,且74.2%的存活率远高于男性的18.9%,看来歪果朋友们绅士的执行了这一规则。

1.4K20

Python从零开始第六章机器学习①逻辑回归

在本节中,您将使用机器学习算法解决泰坦尼克号预测问题:Logistic回归。 Logistic回归是一种分类算法,涉及预测事件的结果,例如乘客是否能够在泰坦尼克号灾难中幸存。...在这个学习之中,我们将用逻辑回归来预测一些人生存的可能性。用机器学习来预测哪些乘客能更幸免于难。在此用到的编程语言是Python。...在泰坦尼克号数据集中,有许多列对于构建机器学习模型并不重要。 为此,我们使用以下代码删除数据集中的列。...# drop the columns that are not useful to us df = df.drop('PassengerId', axis=1) # axis=1 means column...使字段分类 您需要在数据集中处理的下一类值是分类型数据。 分类类型是有限的固定数量的可能数值。 分类值表示Scikit了解对于这种类型的字段不进行数值运算。

56020
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    经典永不过时的句子_网红的成功案例分析

    Cabin 特征需要进一步调查,但看起来可能要从数据集中删除它,因为缺失值比例高达 77%。 测试数据集 Fare 特征只有1个缺失的值,可以很容易地填补。 Age 特征有86个缺失值。...Cabin 特征需要进一步调查,但看起来可能要从数据集中删除它,因为缺失值比例高达 77%。 测试数据集 Fare 特征只有2个缺失的值,可以很容易地填补。 Age 特征有86个缺失值。...– 删除特征 训练集中删除特征 PassengerId,因为它并不会对生存率造成什么影响。...目前不能删除测试集中 PassengerId,因为要提交。...还将把训练集分成X,代表预测变量,y 代表我们的目标变量,即 Survived 特征。 ?问题:Survived 特征合并前是 int64 的格式,为什么合并后变成了 float64 的格式 ?

    79220

    泰坦尼克号幸存预测

    泰坦尼克号将乘客分为三个等级: 三等舱位于船身较下层也最便宜; 二等舱具备与当时其他一般船只的头等舱同样的等级, 许多二等舱的乘客原先在其他船只上预定的头等舱, 却因为泰坦尼克号的航行, 将煤炭能源转移给泰坦尼克号...PassengerId Id仅仅是用来标识乘客的唯一性, 必然是与幸存无关. 2....用某些集中趋势度量(平均数, 众数)进行对缺失值进行填充. 2. 用统计模型来预测缺失值, 比如回归模型, 决策树, 随机森林 3. 删除缺失值 4....到现在我们已经完成所有特征的分析, 接下来看一下能否在这些特征的基础上提取一些新的特征. 4.3 新特征的提取 通过以上的分析, 我们已经了解到生存率相关的特征: Pclass, Appellation...删除重复多余的以及与Survived不相关的: train.drop(['PassengerId', 'Name', 'GroupAge', 'SibSp', 'Parch', 'Ticket', 'GroupFare

    1.2K21

    机器学习实战第2天:幸存者预测任务

    一.任务描述 在泰坦尼克号灾难中,了解乘客生存状况是一个重要而挑战性的任务。这个任务的目标是通过分析乘客的各种特征,构建预测模型,以预测一个乘客在沉船事件中是否幸存。...二.数据集描述 获取数据集: 幸存者预测训练集 以下是对数据集中的特征的描述 PassengerId(乘客ID): 每个乘客的唯一标识符。...这些特征提供了关于每位乘客的各种信息,可以用于分析和预测乘客在泰坦尼克号上的生存情况。通过构建机器学习模型来预测某位乘客是否在沉船事件中幸存下来。...survive = survive.dropna() 可以看到Age列有177个空值,我们将这些有缺失的行删除 4.将字符特征转化为数字特征 字符数据是无法被我们的机器学习模型学习的,我们必须将它们转化为数字特征...datasets/titanic/train.csv") survive = survive.drop(columns=["Name", "Ticket", "Embarked", "Cabin", "PassengerId

    18310

    第一次接触 Kaggle 入门经典项目泰坦尼克号就斩获前 1%,他做了什么?

    所以我们就直接切入主题吧。 一 背景 泰坦尼克号的沉没是历史上最著名的沉船事件之一。...以下是数据集中提供的特征。...另外,我做了一些数据清洗,比如从数据集中删除空值。 我继续进行特征工程,创建一个函数来获得一个人的头衔。此外,我把所有不常用的列数据归为一组。...然后我删除了一些列,如 PassengerId, name, ticket, cabin, sibSp,因为这些值对我们的预测看起来并不重要。...当我们使用大多数数据进行拟合时,会显著地减少偏差,同时也显著地减少方差,因为大多数数据也在验证集中使用。 ? 当K=5时,进行交叉验证 此步骤用于检查模型是否过拟合。

    1.4K31

    MySQL数据插入INSERT INTO与条件查询WHERE的基本用法(二)

    一、导入数据 上节课我们在firstdb数据库中创建了表titanic,现在我们想往该表中插入数据,有两种方法: 第一种,通过insert into SQL语句逐行插入。...并且第一次批量导入数据之前需要做个基本设置set global local_infile=1; 假设现在我们通过第二种方法在firstdb数据库中向titanic表批量导入了泰坦尼克号乘客数据集,每一列数据分别对应不同的字段名...,共891行记录,其中字段PassengerId是主键,如下所示。...注:PassengerId 乘客编号 Survived 是否幸存 Pclass 船票等级 Name 乘客姓名 Sex 乘客性别 Age 乘客年龄 SibSp 兄弟姐妹/配偶数量 Parch 父母/子女数量...MySQL条件查询语法结构: select * from 表名 where 条件; 注意: and意为且,表示前后条件需同时满足;or意为或,表示前后条件满足其中一个即可; 三、总结 以上就是MySQL

    4.4K30

    《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)

    泰坦尼克号在进行从英国到纽约的处女航时,不幸的撞到了冰山上并沉没。在这场比赛中,你必须预测泰坦尼克号上乘客们的命运。 在这场灾难中,惊恐的人们争先恐后地逃离正在沉没的船是最混乱的事。...我们将使用str命令: > str(train)'data.frame': 891 obs. of 12 variables: $ PassengerId: int 12345678910 ....训练集中有38%的乘客在泰坦尼克号的悲剧中幸存了下来。这意味着大多数人都遇难了。那么,你准备好进行第一次预测了吗?由于训练集中的大多数人都死掉了,因此也许可以假设测试集中的每个人都死掉了。...因此,让我们从测试集中提取这两列,将它们存在一个新数据框中,并将它们保存下来: > submit PassengerId = test$PassengerId, Survived...在泰坦尼克号比赛中,你每天最多可以提交5次结果; 这是一个好消息,因为我们在第2部分中将生成多个预测结果!

    2.4K60

    如何用Python分析泰坦尼克号生还率?

    1912年当时世界上最大的豪华客轮泰坦尼克号在处女航中撞上冰山沉没,船上船员及乘客共有2224人,只有710人生还。...旅客为这趟旅行平均花费 32 美元,最高花费 512 美元(贵族吧) 07 数据清洗(cleanse the data) 缺失值处理中,我们一般会删除缺失值。...我删除掉了 ‘Ticket’,‘Cabin’ 两列数据,实际上这两列数据对于我们分析数据并没有太多用处。...总结 本次分析主要探寻泰坦尼克号上的生还率和各因素(客舱等级、年龄、性别、上船港口等)的关系。 样本数量为 891,海难发生后,生还者还剩 342 人,生还率为 38%。...泰坦尼克号上有一/二/三等舱三种船舱类型,其中头等舱的生还概率最大,其次是二等舱,三等舱的概率最小。 891人中,男性共577人,女性314人,女性生还率远远大于男性。

    80031

    基于 mlr 包的逻辑回归算法介绍与实践(上)

    建立逻辑回归模型 在此,我们建立一个二项逻辑回归模型来预测一名乘客是否能在泰坦尼克号灾难中幸存下来。...2.1 加载泰坦尼克号数据集 该数据集在 titanic 包中,有 891 个实例和 12 个变量。...2.2 充分利用数据:特征工程和特征选择 通常我们不会使用整个数据集来进行建模。在正式建模之前,首先要对数据进行清理,包括将数据转换为正确类型、纠正错误和删除不相关数据等步骤。...2.2.2 特征工程(feature engineering) 这是一项极其重要的机器学习任务,它是对数据集中的变量进行修改,以提高它们的预测值。...2.2.3 特征选择(feature selection) 这是另一个非常重要的机器学习任务:保留增加预测价值的变量,删除没有增加预测价值的变量。

    2.3K20

    泰坦尼克号之生存预测(1)

    泰坦尼克号之生存预测(1) 0.说在前面1.数据预处理2.作者的话 0.说在前面 有几天没更新机器学习了,我终于来更新了,对的,你今天看到的就是机器学习系列内容!...昨天周末,有点时间,就来玩了一下kaggle上面的经典比赛---泰坦尼克号生存预测问题!...在接下来的几篇文章中,我将给大家介绍学习Kaggle比赛的一个完整流程,今天先来带大家一起学习一下泰坦尼克号的数据预处理部分。...train与test各列分别为: PassengerId 乘客ID Pclass 客舱等级(1/2/3等舱位) Name 乘客姓名 Sex 性别 Age 年龄 SibSp 兄弟姐妹数或配偶数...综合上述两图,我们发现女性的存活率要比男性高!Age可以作为一个重要特征!

    58520

    Kaggle金牌得主的Python数据挖掘框架,机器学习基本流程都讲清楚了

    项目背景与分析 泰坦尼克号沉没是历史上有名的沉船事件之一。1912年4月15日,在泰坦尼克号的首次航行中,与冰山相撞后沉没,使2224名乘客和机组人员中的1502人丧生。...此外,我们发现我们在年龄和票价上可能存在潜在异常值。但是,由于它们是合理的值,我们将等到完成探索性分析后再确定是否应从数据集中包括或排除。...我们正在进行有监督的机器学习,因为我们正在通过向算法展示一组功能及其对应的目标来训练我们的算法。然后,我们希望从相同的数据集中为它提供一个新的子集,并且在预测准确性方面具有相似的结果。...交叉验证 接下来是交叉验证,但是重要的是我们使用不同的子集来训练数据来构建模型,并使用测试数据来评估模型。否则,我们的模型将过拟合。...但是,为了调整模型,我们需要实际了解它。这就是为什么我在前几节中花时间向您展示预测的原理,因此你需要具体了解决策树算法的优点与不足在哪!

    56620

    Pandas 2.2 中文官方教程和指南(一)

    我们希望能够以类似字典的方式向这些容器中插入和删除对象。 另外,我们希望常见 API 函数的默认行为能够考虑到时间序列和横截面数据集的典型方向。...我们希望能够以类似字典的方式插入和删除这些容器中的对象。 此外,我们希望常见 API 函数有合理的默认行为,考虑到时间序列和横截面数据集的典型方向。...我们之前知道原始泰坦尼克号DataFrame由 891 行组成。...让我们通过检查结果DataFrame above_35的shape属性来查看满足条件的行数: In [15]: above_35.shape Out[15]: (217, 12) 我对泰坦尼克号的 2...让我们通过检查above_35的结果DataFrame的shape属性来查看满足条件的行数: In [15]: above_35.shape Out[15]: (217, 12) 我对泰坦尼克号 2

    96810

    机器学习(二) 如何做到Kaggle排名前2%

    摘要 本文详述了如何通过数据预览,探索式数据分析,缺失数据填补,删除关联特征以及派生新特征等方法,在Kaggle的Titanic幸存预测这一分类问题竞赛中获得前2%排名的具体方法。...它要求参赛选手通过训练数据集分析出什么类型的人更可能幸存,并预测出测试数据集中的所有乘客是否生还。...从上可见,数据集包含12个变量,1309条数据,其中891条为训练数据,418条为测试数据 PassengerId 整型变量,标识乘客的ID,递增变量,对预测无帮助 Survived 整型变量,标识该乘客是否幸存...部分国家的姓氏具有一定的身份识别作用 姓氏相同的乘客,可能是一家人(这一点也基于西方国家姓氏重复度较低这一特点),而一家人同时幸存或遇难的可能性较高 考虑到只出现一次的姓氏不可能同时出现在训练集和测试集中...总结 本文详述了如何通过数据预览,探索式数据分析,缺失数据填补,删除关联特征以及派生新特征等方法,在Kaggle的Titanic幸存预测这一分类问题竞赛中获得前2%排名的具体方法。

    1K31

    仅需10分钟:开启你的机器学习之路

    用 Python 实现机器学习的介绍 那么为什么是 Python 呢?根据我的经验,Python 是最容易学习的编程语言之一。...我们将在后面的教程中用到一个示例项目: 泰坦尼克:从灾难中进行机器学习(https://www.kaggle.com/c/titanic) 这就是众所周知的泰坦尼克号。...用 Python 实现机器学习的教程 在深入了解泰坦尼克号的数据之前,我们要先安装一些必需的工具。 首先当然是 Python。第一次安装 Python 需要从官网上安装。...只要在终端中输入 jupyter notebook,就可以打开如下图所示的浏览器页面: ? 你可以把代码写在绿色矩形中,而且可以交互式地编写并评价 Python 代码。 现在你已经安装了所有的工具。...这证明我们做得对。 如果某些因素之间高度相关会怎么样?我们可以删除其中的一个,新列中的信息并不能给系统提供任何新信息,因为这两者是完全一样的。

    42820
    领券