首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)

摘要: 你是否为研究数据挖掘预测问题而感到兴奋?那么如何开始呢,本案例选自Kaggle上的数据竞赛的一个数据竞赛项目《泰坦尼克:灾难中的机器学习》,案例涉及一个小型数据集及到一些有趣且易于理解的参数,是一个完美的机器学习入口。 泰坦尼克号在进行从英国到纽约的处女航时,不幸的撞到了冰山上并沉没。在这场比赛中,你必须预测泰坦尼克号上乘客们的命运。 在这场灾难中,惊恐的人们争先恐后地逃离正在沉没的船是最混乱的事。“女士和儿童优先”是这次灾难中执行的著名准则。由于救生艇数量不足,只有一小部分乘客存活下来。在接

06

手把手 | 数据科学速成课:给Python新手的实操指南

大数据文摘作品 编译:王梦泽、丁慧、笪洁琼、Aileen 数据科学团队在持续稳定的发展壮大,这也意味着经常会有新的数据科学家和实习生加入团队。我们聘用的每个数据科学家都具有不同的技能,但他们都具备较强的分析背景和在真正的业务案例中运用此背景的能力。例如,团队中大多数人都曾研究计量经济学,这为概率论及统计学提供了坚实的基础。 典型的数据科学家需要处理大量的数据,因此良好的编程技能是必不可少的。然而,我们的新数据科学家的背景往往是各不相同的。编程环境五花八门,因此新的数据科学家的编程语言背景涵盖了R, MatL

05

推荐系统中模型训练及使用流程的标准化

导读:本次分享的主题为推荐系统中模型训练及使用流程的标准化。在整个推荐系统中,点击率 ( CTR ) 预估模型是最为重要,也是最为复杂的部分。无论是使用线性模型还是当前流行的深度模型,在模型结构确定后,模型的迭代主要在于特征的选择及处理方面。因而,如何科学地管理特征,就显得尤为重要。在实践中,我们对特征的采集、配置、处理流程以及输出形式进行了标准化:通过配置文件和代码模板管理特征的声明及追加,特征的选取及预处理等流程。由于使用哪些特征、如何处理特征等流程均在同一份配置文件中定义,因而,该方案可以保证离线训练和在线预测时特征处理使用方式的代码级一致性。

02

AI 技术讲座精选:如何利用 Python 读取数据科学中常见几种文件?

前 言 如果你是数据行业的一份子,那么你肯定会知道和不同的数据类型打交道是件多么麻烦的事。不同数据格式、不同压缩算法、不同系统下的不同解析方法——很快就会让你感到抓狂!噢!我还没提那些非结构化数据和半结构化数据呢。 对于所有数据科学家和数据工程师来说,和不同的格式打交道都乏味透顶!但现实情况是,人们很少能得到整齐的列表数据。因此,熟悉不同的文件格式、了解处理它们时会遇到的困难以及处理某类数据时的最佳/最高效的方法,对于任何一个数据科学家(或者数据工程师)而言都必不可少。 在本篇文章中,你会了解到数据科学家

04
领券