如何获得你的第一份数据科学领域的工作?

原作者 Tomi Mester

编译 CDA 编译团队

本文为 CDA 数据分析师原创作品,转载需授权

前言

想从事大数据行业的人想必都有这样一个疑问,究竟应该如何获得第一份数据科学家/分析师的工作呢?本文给出了一个较为全面的解答。

一. 对数据科学家而言,最重要的技能和工具是什么?如何获得?

在 90% 的情况下,在大学中所学的技能对于实际中的数据科学项目并不是很有用。在实际项目中,起码需要掌握以下四种编程技术:

bash / 命令行

Python

SQL

R

(有时候还可能会用到 Java )

很多情况下具体取决于公司使用哪两种或三种编程技术。但是,一旦你掌握了其中一种,那么学习其他语言则会更加容易。

所以第一个问题是:如何获得这些工具? 好消息就是所有这些工具都是免费的。这意味着,这些软件支持免费下载,安装和使用。那么你可以做好练习,完成数据项目。

二. 如何学习?

学习数据科学有两个主要方式——且都高效低成本。

1. 通过书本。

通过书本学习编程很传统,但仍然是一个很好的学习方式。通过这种方式你可以很专注,从书中可以得到非常详细的数据分析,统计,数据编码等知识。我重点推荐以下七本书,并且建议按此顺序阅读。

1. 《Lean Analytics》—— 作者 Croll,Yoskovitz

第一本要阅读的书是关于使用数据的基本业务心态。看起来本书适用于创业公司,但我觉得这不止于此。从中你将学习到选择一个关键的指标至关重要,以及了解 6 个基本的业务类型。

2.《Business value in the ocean of data》—— 作者 Fajszi,Cser,Fehér

如果《Lean Analytics》是关于创业公司的业务和数据,这本书则阐述了大型企业的商业和数据。当中有许多实用知识,例如,保险公司如何使用预测分析;银行面临哪些数据问题等等。

3. 《Naked Statistics》 —— 作者 Charles Wheelan

这本书不仅仅适合数据科学家。同时当中阐述了统计思维的基础,本书当中有很多故事,你将会了解到如何不被“如何通过改变一个字来提高我们的 1300% 转换率”等标题所蒙蔽。

4. 《Doing Data Science 》—— 作者 Schutt,O'Neil

这本书能够把你在前 3 本书中学到的东西提升到一个全新的水平。包含的内容更深入主题,包括从回归模型,垃圾邮件过滤,推荐引擎甚至到大数据。

5.《Data Science at the Command Line》 —— 作者 Janssens

我一直建议大家学习些基本编程知识,从而你能够更灵活地获取,清除,转换和分析数据。这能够扩展你数据科学的机会。并且我建议可以从命令行开始。本书是我看过的唯一一本关于数据科学和命令行的书,且这本书足以涵盖所有内容。

6. 《Python for Data Analysis》——作者 McKinney

推荐学习的第二种数据语言是 Python 。 Python 并不难,且被广泛使用。你几乎可以通过 Python 做所有事情,从分析,预测甚至到机器学习。这是一本很厚的书(超过 400 页),但涵盖了所有 Python 相关内容。

7.《I heart logs》—— 作者 Jay Kreps

最后推荐的这本书只有 60 页,但非常具有技术性。本书很全面的阐述了数据采集和处理的技术背景。可能作为分析师或数据科学家,你不会直接用到这些知识,但至少你会了解到公司的数据基础设施专家的做法。

2. 通过在线研讨会和视频课程。

数据科学在线课程通常不是很贵。而内容涵盖从数据编码到商业智能的各种主题。

三. 如何练习,如何获得实际操作经验?

这个问题有些棘手。每个公司都希望聘请有一定实际项目经验的人。如果你需要实际项目经验来获得你的第一份工作,那么该怎么做呢?答案是: pet projects 。

“ Pet project ”指的是你偶然提出了一个令人兴奋的数据项目的想法。

然后你开始构建它。可以将其视为小型创业项目,但请确保专注于该项目的数据科学部分,可以忽略业务部分。在这里列出了我过去几年的一些 pet projects :

我曾建立了一个监控房地产网站的脚本,会通过电子邮件向我发送最佳的实时交易——从而让我在其他人之前获得这些交易。

我还建立过一个脚本,它能够搜集出 ABC , BBC 和 CNN 当中针对同一主题的所有文章,从中可以看出针对同一事件 3 个不同新闻门户的文章的差异。

我通过 Python 构建了能够自主学习的聊天机器人。 (因为还没接受过系统训练,它还不太聪明 )

记住要有创意!找到一个数据科学相关的 pet project ,并开始编码!如果您遇到问题,当开始学习新的数据语言时,很容易遇到各种问题,这时只需用 google 或 stackoverflow ,可以解决大部分问题。下图可以清楚地看到 stackoverflow 多么好用。

注意时间戳! 当我提问了一个十分复杂的问题,在 7 分钟内就得到了解答。之后我只需要将代码复制到我的代码即可。

建议:

建议最好找一位导师带领自己。如果你幸运的话,你会找到一个在公司担任数据科学家的角色的人,且他能够每周或每两个星期抽出一个小时和你讨论问题、指导你编程。

四. 如何投递第一份求职简历?

如果没有找到导师,你仍然可以在你的第一家公司找到导师。这将是你第一个数据科学相关工作,所以我建议不要专注于高薪或高大上的办公环境。应该专注于寻找一个在那里你可以学习进步的地方。

对于第一份数据科学的工作,跨国公司可能不太适合。因为那里的人通常太忙,几乎没有时间和动机来帮助你(当然总是有例外)。

作为团队中的第一个数据人员加入一个小的创业公司,可能也并不是一个好主意,因为这些公司缺乏值得学习的高级数据人员。

建议找一家 50-500 人规模的公司。这样的公司不仅有高级数据科学家,而且他们有一定的精力来帮助你和教你。

好了,你已经确定了一些理想的公司,那么如何投简历呢?简历中需要注意:突出你的技能和项目,而不是你的经验。列出你掌握的编程语言,可以附上些你的相关 github 链接,以便证明你真的掌握了该语言。

在大多数情况下,一些公司也要求求职信。这是一个很好的机会来表达你对工作的热情,同时你可以添加一些实际的细节,例如如果被雇用你会在头几个星期做些什么。(例如,我认为这个____页面起了很大的作用,在我的头几个星期,我会做出___,___和___等的具体研究来证明这个假设,并深入了解它。从而帮助公司改善_____并最终推动_____ KPI 。)

希望这能够让你得到面试机会,面试时你可以聊聊你的 pet project ,你的求职信。但面试主要是测试你是否适合这份工作,以及一些基本的技能测试。相信有足够的准备,你就能够通过。

结论

我知道这听起来容易,做起来难。但如果你真的决心成为数据科学家,没有什么困难会阻止你的。祝你好运!

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2017-04-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏mini188

谈谈敏捷开发

我对敏捷开发是源于10多年前看了一本关于迭代开发的书,从而对迭代开发有了一些兴趣。从那时开始有了迭代开发的概念。随着项目经验的增加迭代的重要性也越发觉得明显。随...

19300
来自专栏DevOps时代的专栏

灰度发布,链接 Dev 与 Ops 的正确姿势

序言 在软件吞噬时间的时代,在IT基础设施多样性与分布式趋势中,部署的复杂性与规模日益增加,而大部分的软件崩溃都发生在部署过程中。目前提高部署效率与稳定性成为了...

720100
来自专栏云计算D1net

监控工具是您企业云项目成功的关键

混合云服务已经创造了一个平台,使得企业对监控工具进行投资已经成为必须,克莱夫·隆巴顿说。 许多供应商都试图通过简单地把现有的产品组合成一个云就绪归档,来搭上云计...

36190
来自专栏罗超频道

微信,3亿用户之后的默然演进

笔者之前的一篇文章《2012年互联网十大滥用》曾经说过微信的未来在2012年被评论家说太多了。但随着1月21日将发布的微信4.5版测试包的爆出的——新增...

336110
来自专栏BestSDK

Facebook推出商业API接口,用聊天机器人推送商业信息

它能够允许大型企业管理并向客户发送商务信息——如预约提醒、送货信息甚至是活动门票。目前,该平台活跃用户有300万个,但是公司的发言人拒绝透露它相关的价格信息。

17210
来自专栏服务端技术杂谈

为什么你应该先成为全栈工程师

让我觉得我应该再写一篇文章站在全栈工程师的理由是,一本书《浮现式设计》和一个单词Re-Practise。 似乎这是一个新的思考,尽管在那之前我已经写了一篇《全栈...

36350
来自专栏大数据文摘

面向产品经理的十款最佳分析工具

22940
来自专栏Thinks

用户体验杂谈(1)

最近三年一直服务于一个商业产品——腾讯云的用户体验工作。前2年是专门负责UI开发团队,最近1年半负责平台、建站、计费、运营、渠道的用户体验设计团队。这几年中有一...

7510
来自专栏靠谱PM

竞品分析怎么做?我只告诉你一个人!

前面写的文章中提到过,我们大部分产品的小伙伴接触从零到一的产品概率并不高,这时候我们更多做的是功能点的竞品分析,功能点的竞品分析一般我们会在三种情况下去做,它们...

75430
来自专栏数据科学与人工智能

【陆勤阅读】数据可视化应遵循的五条核心原则

在数字时代初期,数据只是数学家与科学家们讨论的话题。而如今,不管任何领域,任何人,都逃脱不了对数据的讨论和研究。 由于数据大潮的到来和人们关于数据使用的讨论,一...

23660

扫码关注云+社区

领取腾讯云代金券