专栏首页大数据文摘隔离太无聊?每天一个数据科学项目,数据集都准备好了!

隔离太无聊?每天一个数据科学项目,数据集都准备好了!

大数据文摘出品

来源:medium

编译:张大笔茹、夏雅薇

首先,我想向所有的护士,医生,超市员工,公共管理人员以及其他冒着生命危险为我们服务的人致敬。

不要把这一切当成理所当然的,他们做出了很大的贡献,而我们能做的是尽可能在此期间花些时间学习新技能,读书和提高自己。对于那些对数据,数据分析或数据科学感兴趣的人,我提供了一份可以利用业余时间完成的数据科学项目清单,一共14个!

项目分为三种类型:

  • 可视化项目
  • 探索性数据分析(EDA)项目
  • 预测建模

可视化项目

最容易上手的就是数据可视化, 以下三个数据集可以用于创建一些有意思的的可视化效果并加到你的简历中。

新冠病毒可视化

学习如何使用Plotly构建动态可视化数据,展示冠状病毒是如何在全球范围内传播的。Plotly很好用,它可以做动态可视化,好看且操作简单。

难易程度:简单

数据集:

https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

教程:

https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5

澳洲大火数据可视化

2019-2020年的丛林大火季,也称为黑色夏天,由2019年6月开始的几场极端野火组成的。据维基百科统计,这场大火烧毁了约1,860万公顷的土地和5,900多座建筑物。

这是一个有趣的项目,可以利用Plotly或Matplotlib数据可视化工具来可视化野火的规模和对地理的影响。

难易程度:简单

数据集:

https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

地表温度可视化

你是否怀疑过全球变暖的观点?创建一些数据可视化效果,显示地球表面温度如何随时间变化,并可以通过创建折线图或其他动画的Choropleth贴图来实现!也可以创建一个预测模型来预测未来五十年内地球的温度。

难易程度:介于简单到中等之间

数据集:

https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

探索性数据分析项目

探索性数据分析(EDA),也称为数据挖掘,意思是数据分析过程中使用了多种技术来更好理解数据。

纽约Airbnb数据挖掘

自2008年以来,Airbnb使游客和房东出行更方便,提出更多个性化的体验世界的方式。该数据集包含有关2019年纽约出租的信息以及包含其地理信息,价格,评论数量等。

可以分析的一些角度如下:

  • 哪些区域生意最好,为什么?
  • 哪些区域的流量比其他区域大,为什么?
  • 价格,评论数量和预订天数之间是否存在一些关系?

难易程度:中等

数据集:

https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

哪些因素与员工离职和绩效有关

IBM公开了一个综合数据集,可以使用它来了解各种因素如何影响员工的流失率和满意度。一些变量包括教育程度,工作相关性,绩效评估和工作生活平衡程度等。

分析此数据集,找到任何确实影响员工满意度的变量,另外,还可以看看是否可以对变量进行重要程度排名。

难易程度:简单

数据集:

https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

世界大学排名

你认为你的国家拥有世界上最好的大学吗?成为“最好”大学的衡量标准是什么?该数据集包含三个全球大学排名方式。使用此数据,你是否可以回答以下问题:

顶尖的大学都在哪些国家?

决定世界排名的主要因素是什么?

难易程度:简单

数据集:

https://www.kaggle.com/mylesoneill/world-university-rankings

饮酒与在校表现

喝酒会影响学生的成绩吗?如果不会,那有什么别的影响吗?这个数据是从中学数学和葡萄牙语课程的学生进行的一项调查中获得的。它包含几个变量,例如饮酒量,家庭人数,参与课外活动。

利用这些数据,挖掘学校成绩与各种因素之间的关系。另外,看看是否可以根据其他变量来预测学生的成绩!

难易程度:简单

数据集:

https://www.kaggle.com/uciml/student-alcohol-consumption

宠物小精灵数据挖掘

对所有游戏玩家来说,这是一个包含来自七代802个 Pokemon的信息数据集。试着回答以下几个问题!

  • 哪一代宠物小精灵最强?哪代最弱?
  • 哪种类型神奇宝贝最强?哪种最弱?
  • 能否建立分类器来识别神奇宝贝?
  • 身体特征与力量状态(进攻,防守,速度等)之间是否有相关性?

难易程度:简单

数据集:

https://www.kaggle.com/rounakbanik/pokemon

探索影响预期寿命的因素

世卫组织建立了一段时间内所有国家健康状况的数据集,其中包括预期寿命,成人死亡率等方面的统计数据。使用此数据集,探索各种变量之间的关系,预测对预期寿命的最大影响因素是什么?

请尝试回答以下问题:

  • 最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量有哪些?
  • 预期寿命值低于(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命?
  • 婴儿和成人死亡率如何影响预期寿命?
  • 预期寿命与饮食习惯,生活方式,运动,吸烟,饮酒等是正相关还是负相关?
  • 是否接受教育对人类寿命有何影响?
  • 预期寿命与饮酒是正相关还是负相关?
  • 人口稠密的国家的预期寿命是否有降低的趋势?
  • 免疫覆盖率对预期寿命有什么影响?

难易程度:简单

数据集:

https://www.kaggle.com/kumarajarshi/life-expectancy-who

预测模型

能源消耗的时间序列预测

该数据集由美国区域传输组织PJM网站上的功耗数据组成,使用此数据集,查看是否可以构建时间序列模型来预测能耗。除此之外,还可以查看是否可以找到一天中每个小时的趋势,假日用电量以及长期趋势!

难度:中高级

数据集:

https://www.kaggle.com/robikscube/hourly-energy-consumption

贷款预测

该数据集取自Analytics Vidhya,包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。

难易程度:简单

数据集:

https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

二手车价格计算器

Craigslist是全球最大的二手车经销商,该数据集由Craigslist的抓取数据组成,每隔几个月更新一次。使用此数据集,查看是否可以创建一个数据集来预测一辆汽车价格是否被高估或低估了。

难易程度:中等

数据集:

https://www.kaggle.com/austinreese/craigslist-carstrucks-data

信用卡欺诈检测

该数据集显示了两天内发生的交易,其中284,807笔交易中有492笔欺诈。数据高度正态分布,欺诈占所有交易的0.172%。学习如何使用不正太的数据集并建立信用卡欺诈检测模型。

难易程度:中高级

数据集:

https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

皮肤癌图像检测

通过10,000多张图像来构建神经网络来检测皮肤癌。这绝对是最难的项目,需要有关神经网络和图像识别的储备知识。

难易程度:难

数据集:

https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000

相关报道:

https://towardsdatascience.com/14-data-science-projects-to-do-during-your-14-day-quarantine-8bd60d1e55e1

本文分享自微信公众号 - 大数据文摘(BigDataDigest)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 最性感职业养成记 | 想做数据科学家/工程师?从零开始系统规划大数据学习之路

    大数据文摘
  • 语言学博士、Kaggle数据分析师,她说:读研不是必选项,这4项技能学校不教

    大数据文摘
  • 还在纸上谈兵?第一份工作前获得数据科学实战经验的3种方法

    许多公司通常需要硕士学位和至少2-3年的工作经验,这对进入数据科学领域尤其困难。话虽如此,作者仍然有很多宝贵的资源想和你们分享。

    大数据文摘
  • 欢迎挑战!14个数据分析和机器学习项目!附数据集

    对于那些对数据,数据分析或数据科学感兴趣的人,提供一份可以利用业余时间完成的数据科学项目清单,一共14个!

    统计学家
  • 网站开启HSTS增强安全性

    这几天,一直在为我网站的安全证书发愁,老是没有原谅锁,只有一把黑锁,在我和度娘一番攀谈交心后终于弄好了,证书等级也A+啦,来给大家分享一下我的喜悦和方法

    HCG_Sky
  • 19个超赞的数据科学和机器学习工具,编程小白必看!(附资料)

    编程是数据科学的一个组成部分。事实上,理解编程逻辑、循环和函数的人更有可能成为成功的数据科学家。但那些在学校里从未学习过编程的人怎么办?

    数据派THU
  • 苹果Files接入的这个产品,堪称百度AI战略的前瞻布局?

    2005年,史蒂夫•乔布斯(Steve Jobs)在D3数字大会上给出了一个设想:操作系统能不能不带文件系统?他的理由是,不论是电子邮件还是iTunes还是照片...

    罗超频道
  • 用户画像准确性评测初探 ——拨开python大数据分析的神秘面纱

    第一部分会对零零散散进行了两个多月的用户画像评测做个简要回顾和总结,第二部分会对测试中用到的python大数据处理神器pandas做个整体介绍。

    腾讯移动品质中心TMQ
  • Dragos:工业控制系统安全阅读清单

    本文为国外工控安全咨询公司Dragos发布的关于工业控制系统安全能够进行网络自学习的一些清单和资源。

    时间之外沉浮事
  • NASA登月背后的女数学家去世:计算登月轨道,奥巴马授自由勋章,经历被拍成电影

    上周一,凯瑟琳·约翰逊与世长辞,享年101岁,她的一生可谓是传奇的一生:生于种族歧视的年代,10岁上高中,18岁大学毕业,曾完成水星计划和阿波罗计划飞行轨道的计...

    大数据文摘

扫码关注云+社区

领取腾讯云代金券