前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >还在纸上谈兵?第一份工作前获得数据科学实战经验的3种方法

还在纸上谈兵?第一份工作前获得数据科学实战经验的3种方法

作者头像
大数据文摘
发布2020-07-22 17:48:32
3840
发布2020-07-22 17:48:32
举报

大数据文摘出品

来源:medium

编译:青柠

事实上,拿到第一份数据科学的工作是很难的。

许多公司通常需要硕士学位和至少2-3年的工作经验,这对进入数据科学领域尤其困难。话虽如此,作者仍然有很多宝贵的资源想和你们分享。

在本文中,作者将提供三种方式,让你自己获得实际的数据科学经验。通过完成这些项目,你将深入了解SQL、Pandas和机器学习建模。

首先,作者将为你提供真实的SQL案例研究,在这些案例中,你将遇到一个业务问题,需要查询数据库来诊断问题并制定解决方案。

其次,将提供几十个Pandas的练习问题,Pandas是Python中一个用于数据操作和分析的库。这将培养你整理和清洗数据所需的技能。

最后,还提供了各种机器学习问题,你可以开发一个机器学习模型来进行预测。这样,你将学习如何处理机器学习问题,以及从头到尾开发机器学习模型所需的基本步骤。

说到这里,让我们开始吧!

1. SQL的案例研究

如果你想成为一名数据科学家,你必须有很强的SQL技能。Mode提供了三个模拟实际业务问题的SQL案例研究,以及一个可以编写和运行查询的在线SQL编辑器。

要打开Mode的SQL编辑器,请转到以下网站(https://mode.com/sql-tutorial/intro-to-intermediate-sql/ ),并点击‘Open another window to Mode’的超链接。

学习SQL

如果你是SQL新手,可以从Mode的SQL教程开始,学习基本的、中级的和高级的SQL技术。如果你已经对SQL有了很好的理解,那么可以跳过此部分。

案例研究1:调查用户参与度下降

链接:

https://mode.com/sql-tutorial/a-drop-in-user-engagement/

本案例的目的是确定Yammer项目用户参与度下降的原因。在深入研究数据之前,你要先阅读Yammer的概述(https://mode.com/sql-tutorial/sql-business-analytics-training/ )。有4个表供你使用。

该案例的链接包含有关问题,数据和需解决问题的更多详细信息。

如果你需要指导,可以查看我如何进行此案例研究:

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fsql-case-study-investigating-a-drop-in-user-engagement-510b27d0cbcc%3Fsource%3Dfriends_link%26sk%3D49cdc679e66cae75257b955db51f4fe5

案例研究2:了解搜索功能

链接:

https://mode.com/sql-tutorial/understanding-search-functionality/

该案例更侧重于产品分析。在这里,你需要深入研究数据并确定用户体验的好坏。这个案例的有趣之处在于,它取决于你来决定“好”和“坏”的含义以及如何评估用户体验。

案例研究3:验证A / B测试结果

链接:

https://mode.com/sql-tutorial/validating-ab-test-results/

最实际的数据科学应用之一是执行A/B测试。在这个案例中,你将深入研究A/B测试的结果。其中控制组和实验组之间有50%的差异,你的任务是在彻底分析之后验证结果正确或确认结果无效。

2.Pandas练习项目

当我第一次开始开发机器学习模型时,我发现缺乏Pandas技能是一个很大的限制。不幸的是,与Python和SQL不同,互联网上没有太多练习Pandas技能的资源。

然而几周前,我发现了这个资源——这是一个专门针对Pandas的练习问题。通过完成这些练习题,你将知道如何:

  • 筛选和排序数据
  • 分组汇总数据
  • apply()函数批量操作数据
  • 合并数据集
  • 以及更多

如果你能够完成这些练习题,你就可以自信地说你知道如何在数据科学项目中使用Pandas。它还会为下一节提供重要帮助。

3.机器学习模型

获得数据科学经验的最佳方法之一是创建自己的机器学习模型。这意味着要找到一个公共数据集,定义一个问题,然后用机器学习来解决这个问题。

Kaggle是世界上最大的数据科学社区之一,拥有数百个可供选择的数据集。下面是一些你可以用来入门的题目。

预测葡萄酒质量

数据集链接:

https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009

这个数据集包含了各种葡萄酒,以及它们的成分和质量数据。这可能是一个回归或分类问题,取决于你如何构建它。看看你能否在11个输入条件下预测红葡萄酒的质量(固定酸度、挥发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、二氧化硫总量、密度、pH值、硫酸盐和酒精)。

如果你需要这个数据集在机器学习模型方面的一些指导,请查看我的方法:

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fpredicting-wine-quality-with-several-classification-techniques-179038ea6434

二手车价格估计

数据集链接:

https://www.kaggle.com/austinreese/craigslist-carstrucks-data

Craigslist是世界上最大的二手车销售网站。这个数据集是由Craigslist的数据组成,每隔几个月更新一次。看看你能否利用这个数据集来预测一辆车的价格是过高还是过低。

看完这篇干货满满的文章,还不赶快收藏起来~

相关报道:

https://towardsdatascience.com/3-ways-to-get-real-life-data-science-experience-before-your-first-job-545db436ef12

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档