首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(二)

第二部分:使用分类变量预测存活结果 在《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)中,我们介绍了R中有关导入数据知识。...我们仅用目标变量作为预测变量,现在试着用数据集中其他变量来更有效预测结果吧。 这场灾难中,“妇女和儿童优先”是为人熟知,所以我们首先看看性别变量和年龄变量,观察一下它们能够导致生存结果不同。...方括号用于创建数据子集,在这里,双等号意思不是赋值,而是一个布尔测试,用于查看双等号两端内容是否相等。 现在,我们向Kaggle发送一个新提交,看看我们排名是否有所提高! 太棒了!...如果你在预览窗口浏览训练,你会看到那些年龄缺失乘客对应“Child”值为0。这符合我们期望,因为我们打算用年龄平均值填充缺失值,而年龄平均值大于18,因此他们不是儿童。...唯一例外是多个布尔测试之间连接符号。对于复杂布尔判断,你可以用表示“和”逻辑运算符&、表示“或”逻辑运算符“|”来连接。 好啦,让我们创建输出文件,看一看我们有没有改善预测结果。

1.2K50

python数据分析——数据选择和运算

主要有以下四种方式: 索引方式 使用场景 基础索引 获取单个元素 切片 获取子数组 布尔索引 根据比较操作,获取数组元素 数组索引 传递索引数组,更加快速,灵活获取子数据 数组索引主要用来获得数组中数据...代码如下: 2.使用join()方法合并数据 join()是最常用函数之一, join()方法用于将序列中元素以指定字符连接生成一个新字符串。...关键技术: join()函数。具体程序代码如下所示: 3使用concat()方法合并数据 concat()是最数据处理中最为强大函数之一,可用于横向和纵向合并拼接数据。...【例】对于例48给定DataFrame数据,统计数据算数平均值输出结果。...:仅数字,布尔,默认值为True interpolation:内插值,可选参数,用于指定要使用插值方法,当期望分位数为数据点i~j时。

13710
您找到你想要的搜索结果了吗?
是的
没有找到

《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)

泰坦尼克号在进行从英国到纽约处女航时,不幸撞到了冰山上沉没。在这场比赛中,你必须预测泰坦尼克号上乘客们命运。 在这场灾难中,惊恐的人们争先恐后地逃离正在沉没船是最混乱事。...恩,你也许会(自然而然)觉得使用Excel有些尴尬,使用Python又有些难,那阅读本文是非常明智。我将向您介绍一种免费且强大统计编程语言R,教会您如何用它进行预测分析。...生存比例怎么样呢?嗯,我们可以将一个函数输出作为另一个函数输入。...这个想法也许有点变态,但可以让我们打开新局面,并向Kaggle发送一个预测结果。 继续了解更多R语法。R中赋值运算符为“<-”,它用于将右侧值存储到左侧对象中。...在某些特殊情况下,例如将参数值传递函数签名中时,我们使用等号(你将在后面的课程中看到这个)。 好啦,让我们将预测变量“everyonedies”添加到测试集数据框中。

2.3K60

写给人类机器学习 2.3 监督学习 III

3) 计算 K 个最邻近房子均值。这就是你对售价(也就是ŷ)猜测。 KNN 不需要预定义参数化函数f(X),它用于将Y与X相关联。...使用这个公式,你可以计算所有训练数据点,到你尝试标注数据邻近度,选取 K 个最近邻均值或众数,来做出你预测。...现在,让我们查看一个特定数据讨论我们如何选择分割。 泰坦尼克数据 Kaggle 泰坦尼克数据大量用于机器学习入门。当泰坦尼克沉没时,2224 个乘客和乘员中有 1502 个死亡。...让我们看一看泰坦尼克变量: 来源:Kaggle 我们通过选取这些变量之一,以及根据它分割数据,来构建决策树。 第一次分割将我们数据分为男性和女性。...之后,在测试期间,你需要用特定房子遍历所有分割,取叶子节点所有房价均值(最底下节点),这些房子就会成为你售价预测

33210

用sklearn机器学习预测泰坦尼克生存概率

我们发现测试数据比训练数据少一行是因为少了survive,这个参数是最后需要和预测数据比对查看正确率,所以会缺失。...我们也可以通过散点图发现年龄和生存率关系不是很大,和上图相关系数所呈现信息保持一致。 三、数据清洗,准备 3.1 处理float64缺失值:Age,Fare 对于数值数据我们直接用平均值填充 ?...这里要清楚特征是我们提取影响生存因素,标签是生存数。 预测数据在891行之后要进行区分。...输入model.score(test_x,test_y) 输入测试特征和标签进行评估分数 8.2 用模型进行预测,并按要求输出 将前面准备预测数据特征pre_x,用模型predict方法预测生存数据...pre_y,整理成整数int数据 ?

1.2K51

UdaCity-机器学习工程师-项目0:预测泰坦尼克号乘客生还率

运行下面区域中代码加载数据使用 .head() 函数显示前几项乘客数据。 提示:你可以通过单击代码区域,然后使用键盘快捷键 Shift+Enter 或 Shift+ Return 来运行代码。...可以将 Survived 这一特征从这个数据移除,并且用一个单独变量 outcomes 来存储。它也做为我们要预测目标。...这个函数定义在名为 titanic_visualizations.py Python 脚本文件中,我们项目提供了这个文件。传递函数前两个参数分别是泰坦尼克乘客数据和乘客 生还结果。...这个链接提供了另一个使用决策树做机器学习入门例子。 决策树是许多监督学习算法中一种。在监督学习中,我们关心是使用数据特征根据数据结果标签进行预测或建模。...也就是说,每一组数据都有一个真正结果值,不论是像泰坦尼克生存数据一样标签,或者是连续房价预测。 问题5:想象一个真实世界中应用监督学习场景,你期望预测结果是什么?

95090

黑盒模型实际上比逻辑回归更具可解释性

在接下来文章中,我们将会证明,不仅不需要在能力和可解释性之间进行选择,而且强大模型甚至比那些较浅模型更容易解释。 数据 作为说明,我们将使用最著名数据之一:标志性泰坦尼克数据。...我们有很多关于泰坦尼克号乘客变量,我们想要预测每位乘客幸存可能性有多大。...从SHAP到预测概率 想要从SHAP过渡到概率,最明显方法是绘制相对于SHAP和(每个个体)预测生存概率(每个个体)。 很明显,这是一个确定性函数。...我们只要知道f()函数就可以量化年龄对预测生存概率影响:它就是f(2)-f(0)。...前5个乘客预测生存概率影响 例如,拥有一张三等舱票会降低第一个乘客生存概率-4.48%(相当于-0.36 SHAP)。请注意,3号乘客和5号乘客也在三等舱。

1.4K40

再见,Excel数据透视表;你好,pd.pivot_table

具体而言,以经典泰坦尼克数据(github下载地址为 https://github.com/hitcszq/kaggle_titanic)为例,想要探索不同性别(Sex)和不同舱位等级(Embarked...02 利用pd.pivot_table实现 Pandas作为Python数据分析瑞士军刀,实现个数据透视表自然不在话下,其接口函数为pivot_table,给出其核心参数如下: values : 待聚合列名...index : 用于放入透视表结果中行索引列名 columns : 用于放入透视表结果中列索引列名 aggfunc : 聚合统计函数,可以是单个函数,也可以是函数列表,还可以是字典格式,默认聚合函数均值...如果既需要统计不同性别各舱位下生存人数(对应Survived=1),又想统计生存率(生存人数与该分组下总人数比例),那么仅需在传入aggfunc参数时增加一个mean聚合函数即可: ?...pivot由于仅涉及行列重组和变形,所以一般更适用于分类变量;而pivot_table在重组基础上还增加了聚合统计过程,所以一般更适用于数值变量,但对于支持分类变量统计聚合函数(例如count)

2.1K51

品玩SAS:泰坦尼克号之灾(上)——逃生率分析

真正逃生又是哪些人?今天我们就一起来探讨下泰坦尼克逃生率问题,该问题主要分为两部分,一是分析影响逃生率因素有哪些,二是在这种因素影响下,预测另一群人逃生概率。...2 理解数据 2.1 数据来源 本文数据取自KAGGLE泰坦尼克生存预测比赛:https://www.kaggle.com/c/titanic/overview,其中包括训练和测试,训练集中包括乘客获救状态和基本信息...,测试仅包括乘客基本信息,需根据训练信息建立模型,对测试乘客进行生存预测。...训练总计891条数据,12个变量,即891名乘客12种基本信息,其中PassengerId、Survived、Pclass、Age、SibSp、Parch、Fare为数值, Name、Sex、Ticket...,说明票价高低差距悬殊,使得平均值被显著拉大,无法真实显示票价情况。

1.3K20

【学术】将吴恩达第一个深度神经网络应用于泰坦尼克生存数据

这篇文章包括了神经网络在kaggle泰坦尼克生存数据应用程序。它帮助读者加深他们对神经网络理解,而不是简单地执行吴恩达代码。泰坦尼克生存数据就是可以随意使用一个例子。...下载kaggle泰坦尼克生存数据,并将其保存在与“数据”文件夹相同位置。...4.加载泰坦尼克生存数据。 5.预先处理数据。...这一预测将使你跻身于参与者前30%。 ? 提交预测文件会使你进入前三名,帮助你适应kaggle竞赛 你已经将神经网络应用于你自己数据集了。现在我鼓励你使用网络中迭代次数和层数。...训练矩阵; 调整第一个图层维度以匹配特征数量; 训练神经网络保存生成参数; 通过测试数据正向传播和之前保存神经网络参数,生成对测试预测

1.3K60

Pandas教程

作为每个数据科学家都非常熟悉和使用最受欢迎和使用工具之一,Pandas库在数据操作、分析和可视化方面非常出色 为了帮助你完成这项任务Python编码更加自信,我用Pandas上一些最常用函数和方法创建了本教程...目录 导入库 导入/导出数据 显示数据 基本信息:快速查看数据 基本统计 调整数据 布尔索引:loc 布尔索引:iloc 基本处理数据 我们将研究“泰坦尼克号”数据,主要有两个原因:(1)很可能你已经对它很熟悉了...;(2)它非常小,很简单 泰坦尼克数据可以在这里下载:https://bit.ly/33tOJ2S 导入库 为了我们目的,“Pandas”库是必须导入 import pandas as pd...导入/导出数据泰坦尼克数据”指定为“data”。...布尔索引:iloc data.iloc[, ]按数字选择行和列 a) 选择数据第4行。 data.iloc[3] ? b) 从所有列中选择一个行数组。

2.8K40

本期特别推荐| 机器入门经典项目

数据:鸢尾花分类数据 https://archive.ics.uci.edu/ml/datasets/Iris Emojify –使用Python创建自己表情符号 ▍项目构想:该机器学习项目的目标是对人面部表情进行分类并将其映射为表情符号.../ 使用机器学习预测股价 ▍项目构想:有许多可用于股票市场价格数据。.../blogs/stock-price-prediction-machine-learning-project-in-python/ 泰坦尼克生存计划 ▍项目构想:这将是一个有趣项目,因为我们将预测某人是否会在泰坦尼克号飞船中幸存下来...对于这个初学者项目,我们将使用泰坦尼克数据,其中包含幸存者和在泰坦尼克号飞船中死亡的人真实数据数据:《泰坦尼克生存数据 https://www.kaggle.com/c/titanic...它将使用葡萄酒化学信息,基于机器学习模型,它将为我们提供葡萄酒质量结果。

38720

Redis-ML简介(第5部分)

决策树是用于机器学习中分类和回归问题预测模型。决策树将一系列规则建模为二叉树。树内部节点表示分割点(split)或规则,叶子表示分类或值。 树中每个规则都在数据单个特征上运行。...为了演示决策树如何工作以及如何在Redis中表示决策树,我们将使用scikit-learn Python包和Redis构建一个泰坦尼克生存预测器。...我们用于这篇文章来自Vanderbilt档案数据副本包含了泰坦尼克号上1,309名乘客记录。...我们用于构建决策树算法将会发现这些统计差异,使用它们来选择要分割特征。 建立决策树 我们将使用scikit-learn在我们数据上构建决策树分类器。我们首先将我们清理过数据分成训练和测试。...使用下面的代码,我们从特征集中分离出我们数据标签列(survived ),保留我们数据最后20条记录为测试

3.7K90

程序设计导论(Python)读书笔记

参考链接: 用于查找文件哈希Python程序 Python语言实践  函数和模块  程序设计基本元素 常见错误: Python2中默认编码格式是 ASCII 格式,在没修改编码格式时无法正确打印汉字...数据类型是一系列值及定义在这些值上一系列操作,python内置数据类型包括bool、str、int和float 布尔表达式可以用于控制程序行为 使用数值类型、内置函数python标准模块、扩展模块中函数可实现...运算符重载注意:特殊方法、算术运算符、等性运算符(引用相等和对象相等)、哈希法(条件是一个对象可以通过==运算符与其他对象比较相等性、当两个对象比较结果为相等时,其哈希码相同、一个对象哈希码在其生存期内保持不变...、比较运算符须定义一种全序关系(属性有反对称性、传递性、完全性)、其他运算符、内置函数函数是对象,意味着函数可以作为函数参数和结果返回值。 继承:定义类之间关系语言支持。...整数和浮点数:16字节用于对象开销和8个字节用于数值表示(尾数、指数和标志) 布尔值:原则上可使用内存单独一个二进制位表示一个布尔值,实际上把布尔值表示为整数,对象Ture和False都使用24字节表示

77530

Python从零开始第六章机器学习①逻辑回归

在本节中,您将使用机器学习算法解决泰坦尼克预测问题:Logistic回归。 Logistic回归是一种分类算法,涉及预测事件结果,例如乘客是否能够在泰坦尼克号灾难中幸存。...在这个学习之中,我们将用逻辑回归来预测一些人生存可能性。用机器学习来预测哪些乘客能更幸免于难。在此用到编程语言是Python。...清理数据 加载数据后,就可以清理数据了。 在泰坦尼克数据集中,有许多列对于构建机器学习模型并不重要。 为此,我们使用以下代码删除数据集中列。...清理数据后,您现在可以将数据拆分为两个不同集合:一个用于训练,另一个用于测试。...但在此之前,您需要将数据分成两个数据框:一个包含所有用于预测属性,另一个包含对象标签。

54320

机器学习实战第2天:幸存者预测任务

一.任务描述 在泰坦尼克号灾难中,了解乘客生存状况是一个重要而挑战性任务。这个任务目标是通过分析乘客各种特征,构建预测模型,以预测一个乘客在沉船事件中是否幸存。...二.数据描述 获取数据: 幸存者预测训练 以下是对数据集中特征描述 PassengerId(乘客ID): 每个乘客唯一标识符。...这些特征提供了关于每位乘客各种信息,可以用于分析和预测乘客在泰坦尼克号上生存情况。通过构建机器学习模型来预测某位乘客是否在沉船事件中幸存下来。...sklearn.model_selection (from sklearn.model_selection import train_test_split): train_test_split是scikit-learn中用于划分数据为训练和测试函数...它通过构建多个决策树综合它们预测结果来提高模型性能和鲁棒性。随机森林广泛用于分类和回归问题。它在处理大量数据、高维特征和复杂模式时表现良好,通常被用于构建强健预测模型。

13210

2020 年度最佳23个机器学习项目!(附源代码)

项目构想:有许多可用于股票市场价格数据。.../blogs/stock-price-prediction-machine-learning-project-in-python/  7.泰坦尼克生存计划  项目构想:这将是一个有趣项目,因为我们将预测某人是否会在泰坦尼克号飞船中幸存下来...对于这个初学者项目,我们将使用泰坦尼克数据,其中包含幸存者和在泰坦尼克号飞船中死亡的人真实数据。  ...数据:《泰坦尼克生存数据   https://www.kaggle.com/c/titanic  8.葡萄酒质量检测项目  项目构想:在该项目中,我们可以构建一个界面来预测红酒质量。...Xbox游戏预测项目  项目构想:人们在搜索时生成数据用于预测用户兴趣。BestBuy消费电子公司已提供了来自用户数百万次搜索数据,我们将预测用户最有兴趣购买Xbox游戏。

76110

23个机器学习最佳入门项目(附源代码)

项目构想:有许多可用于股票市场价格数据。.../blogs/stock-price-prediction-machine-learning-project-in-python/ 7.泰坦尼克生存计划 项目构想:这将是一个有趣项目,因为我们将预测某人是否会在泰坦尼克号飞船中幸存下来...对于这个初学者项目,我们将使用泰坦尼克数据,其中包含幸存者和在泰坦尼克号飞船中死亡的人真实数据。...数据:《泰坦尼克生存数据 https://www.kaggle.com/c/titanic 8.葡萄酒质量检测项目 项目构想:在该项目中,我们可以构建一个界面来预测红酒质量。...Xbox游戏预测项目 项目构想:人们在搜索时生成数据用于预测用户兴趣。BestBuy消费电子公司已提供了来自用户数百万次搜索数据,我们将预测用户最有兴趣购买Xbox游戏。

2.5K30

机器学习项目大汇总,值得收藏!

项目构想:有许多可用于股票市场价格数据。.../blogs/stock-price-prediction-machine-learning-project-in-python/ 7.泰坦尼克生存计划 项目构想:这将是一个有趣项目,因为我们将预测某人是否会在泰坦尼克号飞船中幸存下来...对于这个初学者项目,我们将使用泰坦尼克数据,其中包含幸存者和在泰坦尼克号飞船中死亡的人真实数据。...数据:《泰坦尼克生存数据 https://www.kaggle.com/c/titanic 8.葡萄酒质量检测项目 项目构想:在该项目中,我们可以构建一个界面来预测红酒质量。...Xbox游戏预测项目 项目构想:人们在搜索时生成数据用于预测用户兴趣。BestBuy消费电子公司已提供了来自用户数百万次搜索数据,我们将预测用户最有兴趣购买Xbox游戏。

52820

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

、IMDB 电影、泰坦尼克号、飞碟目击等数据。...这个数据按国家列出了酒水平均消耗量,如果想反转列序该怎么办? 最直接方式是把 ::-1 传递给 loc 访问器,与 Python 里反转列表切片法一样。 ?...重塑多重索引 Series 泰坦尼克数据里有一列标注了幸存(Survived)状态,值用 0、1 代表。计算该列均值可以计算整体幸存率。 ?...把连续数据转换为类型数据 下面看一下泰坦尼克数据年龄(Age)列。 ? 这一列是连续数据,如果想把它转换为类别数据怎么办? 这里可以用 cut 函数把年龄划分为儿童、青年、成人三个年龄段。...本例简单介绍一下 ProfileReport() 函数,这个函数支持任意 DataFrame,生成交互式 HTML 数据报告: 第一部分是纵览数据,还会列出数据一些可能存在问题; 第二部分汇总每列数据

7.1K20
领券