首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)

摘要: 你是否为研究数据挖掘预测问题而感到兴奋?那么如何开始呢,本案例选自Kaggle上的数据竞赛的一个数据竞赛项目《泰坦尼克:灾难中的机器学习》,案例涉及一个小型数据集及到一些有趣且易于理解的参数,是一个完美的机器学习入口。 泰坦尼克号在进行从英国到纽约的处女航时,不幸的撞到了冰山上并沉没。在这场比赛中,你必须预测泰坦尼克号上乘客们的命运。 在这场灾难中,惊恐的人们争先恐后地逃离正在沉没的船是最混乱的事。“女士和儿童优先”是这次灾难中执行的著名准则。由于救生艇数量不足,只有一小部分乘客存活下来。在接

06

左手用R右手Python系列——因子变量与分类重编码

今天这篇介绍数据类型中因子变量的运用在R语言和Python中的实现。 因子变量是数据结构中用于描述分类事物的一类重要变量。其在现实生活中对应着大量具有实际意义的分类事物。 比如年龄段、性别、职位、爱好,星座等。 之所以给其单独列出一个篇幅进行讲解,除了其在数据结构中的特殊地位之外,在数据可视化和数据分析与建模过程中,因子变量往往也承担中描述某一事物重要维度特征的作用,其意义非同寻常,无论是在数据处理过程中还是后期的分析与建模,都不容忽视。 通常意义上,按照其所描述的维度实际意义,因子变量一般又可细分为无序因

05
领券