首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据科学家成长指南:从入门到被逼疯

数据科学家成长指南:从入门到被逼疯

作者头像
新智元
发布2019-05-08 16:58:11
9410
发布2019-05-08 16:58:11
举报
文章被收录于专栏:新智元新智元


新智元原创

来源:Medium

编辑:元子

【新智元导读】人工智能的火爆带动了对数据科学家的大量需求。看到急缺的岗位和高薪,谁能不动心呢?可是你确定想好要成为一名数据科学家了吗?你知道成为一名DS,需要具备什么技能吗?那就请准备好,下面我们要开车了!

你可能已经从媒体铺天盖地的报道中,了解到数据科学家这个抬头非常火。

根据UiPath数据显示,2018年12113个岗位争夺AI人才,数据科学家需求量排名第二。

于是很多人萌生了入行、或者转行做数据科学家的念头。那么接着就带来一个问题:如何成为一名数据科学家呢?

接下来,由《Getting Started with SQL》(O’Reilly)和《Learning RxJava》(Packt) 二书的作者、美国西南航空的企业顾问Thomas Nield,献上这份《2019年数据科学家成长指南》。

废话不多说,马上进入战斗。

Round 1:不考证完全没问题。当然考了也可以

不要把工作后宝贵的时间,浪费在考证上。「数据科学」不过是「商业分析」的一个分支,而且通常学校的知识总是和当前的科技前沿脱节。如果真的想学建议去Coursera或者可汗学院自学。

当然,证书多了终归是好事嘛。如果你非要去学校考证,建议考物理或者运筹学的研究生。我了解到很多一流的数据科学家,基本都是这俩专业毕业的。

花个几年时间研究生毕业后,明天就会更好?反正有个数据科学初创公司的创始人说:

博士学历不重要;硕士学历无可无不可;学士毕业必须有,因为用人单位最低要求就是大学毕业。 https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253

Round 2:成为一个数据科学家真的需要了解这么多领域吗?

这是一张6年前的图,里面甚至连TensorFlow都没有。

而且我觉得,数据科学发展到现在,已经非常碎片化和细分化了。根本没必要搞的这么复杂。

Round 3:我应该学哪门语言呢?需要从Linux入手吗?

数据科学家是一个跨平台物种,操作系统不重要。

语言的话,Scala早就过气了,R解决数学问题非常爽,Python才是万能的。一条Python在手,数据科学跟我走。

不过需要了解一些库,类似Pandas用来处理数据帧,matplotlib用来创建图表。

Round 4:学会Python很关键!学不会也没关系

Python学起来超简单。不过,你可能也不用非得学会Python。

作为人类,要善用工具。数据科学不止眼前的脚本和机器学习,还有远方的数据可视化。这个时候显然Tableau更好用,也更美观。

Tableau

不过涉及到数据清洗、管理、转换、加载等,就需要用到Alteryx了,鼠标拖拽就能搞定。

新智元点评:所以买个Tableau就可以称为数据科学家了?

从淘宝买个激活码岂不是要变成二手科学家?

Round 5:明明靠Excel和PPT就能搞定,为什么非要学Python呢?

首先,能为你的简历增加光环。

其次,之前也说过,Python简直万能。通过Jupyter notebook逐步完成每个数据分析阶段,让每一步都可视化,就像你正在创建一个可以与他人分享的故事。

划重点:毕竟,沟通和讲故事才是数据科学的重要组成部分。

数据科学和软件工程很大程度可以划等号。不同之处在于,数据科学必须有数据,软件工程就不一定了。

Wiki网页是一个非常好的数据来源,抓取网页并使用Beautiful Soup解析他们,就得到了大量非结构化文本数据。

Round 6:懂NoSQL行,不懂也没事

非机构化数据才能激发我们的想象力,结构化数据只能固化我们的逻辑能力。

如今像谷歌Facebook这样的大厂,拥有大量的非机构化数据,他们就像裁判一样,「数据科学」的定义权掌握在他们手里。剩下我们这些运动员,只好用无聊的SQL咯。

利用非结构化数据,大厂可以通过挖掘用户内容、邮件、故事,用于广告或者其他途径。

而我们也可以利用非结构化数据,对社交媒体上的帖子进行,做一些NLP应用比如聊天机器人。

NoSQL更擅长存储这类数据。但是对于数据科学家来说,NoSQL也不是必须要掌握的,除非做数据工程师。而且现在Apache Kafka比NoSQL更火,所以你也知道该学什么了。

有的人可能不知道,数据科学家分为两种角色。数据工程师使用生产系统并帮助使数据和模型可用;而数据科学家则负责机器学习以及数学建模。

这个时候,利用朴素贝叶斯算法,就可以去预测文本的分类。我打算建议从具有均值和标准差的正态分布开始。也许用z分数和线性回归计算一些概率或两个。

Round 7:学会线性代数很重要。不会的话……也行吧

传统智慧认为线性代数是许多数据科学的基石,因此掌握线性代数很重要。将矩阵相乘和相加(称为点积),将一直伴随着你。

听起来很无聊对吧,但这就是机器学习在做的事情。当你进行线性回归或构建自己的神经网络时,你将使用随机权重值进行大量矩阵乘法和缩放。

不过实际上,你可能也不需要学习线性代数,因为有像TensorFlow和 scikit-learn这样的框架和库,帮你解决掉最枯燥乏味的线代部分。

呃,实际上,也别用TensorFlow,用Keras。

Round 8:棒。总之都能用Excel实现,所以会用Excel就可以被称为数据科学家了?

机器学习通常在做两个任务:回归,或者分类。但技术上来说,分类就是回归。

决策树、神经网络、支持向量机、逻辑回归、线性回归都执行某种形式的曲线拟合。

所以,我们也可以不负责任的说:机器学习只是回归。神经网络实际上只是具有一些非线性函数的多层回归。图像识别也是回归。

Round 9:为什么大家现在不怎么谈论算法了?

因为这些优化问题已经在很长一段时间内得到了令人满意的解决,而且这些方法在很早以前也没太多人讨论。

运筹学已经提供了许多机器学习使用的优化算法。同时也为常见“AI”问题提供了许多解决方案。

AI炒作重新点燃了机器学习及其解决的问题类型:图像识别,自然语言处理,图像生成等。

机器学习,深度学习…今天被炒作的任何东西,通常都不能解决离散优化问题,人们尝试过,但效果非常不理想。

所以有人说深度学习是否已经达到了极限,AI寒冬又双来了。

Round 10:AI玩游戏已经超神,接下来会取代人类工作吗?

首先我们要明确一点。人们已经找到了一些巧妙的回归应用,例如计算围棋和象棋最优移动(离散优化也可以做),或自动驾驶的汽车计算转向的方向。

但是,回归只能将这么多的应用组合起来,完成单一任务。

现在我们好好思考一下,你会担心职业星际争霸选手威胁到你的工作吗?你觉得打星际,和你打Excel之间,有多少重叠的交集呢?

如果你连人类星际选手都不怕,你为什么还怕一个回归呢?AI玩星际再强,它也只会玩星际。

Round 11:一句话解释什么是数据科学家,让你爷爷也能听懂

数据科学的界限正在模糊。它可以是任何东西,也可以什么都不是。成为数据科学家你需要掌握很多东西,但就算没掌握也不会致命。

天哪❗️

不过幸好,这个世界上还是有人能说明白到底什么是数据科学和数据科学家的。一句话解释数据科学家:

数据科学家是比软件工程师更懂统计、比统计学家更懂软件工程的一个人。

Round 12:已疯

所以,2019年,你还想做数据科学家吗?

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【新智元导读】人工智能的火爆带动了对数据科学家的大量需求。看到急缺的岗位和高薪,谁能不动心呢?可是你确定想好要成为一名数据科学家了吗?你知道成为一名DS,需要具备什么技能吗?那就请准备好,下面我们要开车了!
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档