专栏首页大数据文摘快速入行数据科学,老司机带你避开这九个大坑!

快速入行数据科学,老司机带你避开这九个大坑!

大数据文摘作品,转载要求见文末

编译 | 万如苑 大饼

如果你希望在数据科学方面开始职业生涯,你可以通过避免以下9个代价大的初学者易犯错误,来减少你数天,数周甚至数月的痛苦折磨。

但是如果你不足够小心,这些错误将会浪费你最宝贵的资源:你的时间、精力和动力。

我们将这9个错误分为三种类型:

  • 学习中的错误
  • 申请工作中的错误
  • 工作面试中的错误

在学习数据科学时

第一种错误比较隐蔽很难被发现。 它产生于人们对数据科学相关领域的错误印象,并且会慢慢地不露声色地耗尽你的时间和精力。

1.在理论上花太多的时间

许多初学者陷入了理论研究并花费了太多的时间,包括数学相关的(线性代数,统计学等)也包括机器学习相关的(算法,积分等)理论。

这种方法效率低下有三个主要原因:

首先,(学习理论)是缓慢而令人气馁的。 如果你曾经感到对所有东西都一头雾水,你可能陷入了这个学习陷阱。

第二,你也不会记住这些概念。 数据科学是一个应用领域,巩固技能的最佳方法是实践。

最后,你很可能失去动力然后放弃,如果你一直无法看到怎样将你所学的知识联系到现实世界的话。

传统上这种重理论的研究方法在学术界较普遍,但大多数从业者还是更适合结果导向的思维模式。

为了避免这个错误:

  • 平衡研究学习与实践项目。
  • 别怕知识不完整。 随着学习进度,你自然会填补空白。
  • 了解每个部分在整体框架中的作用。

2.写了太多从零开始写的算法

第二个错误也会导致学生只见树木不见森林。 一开始,你完全不需要从零开始编写每个算法。

虽然说为了学习这样写一些算法是很好的,但现实是算法正在成为商品。得益于成熟的机器学习库和基于云的解决方案,大多数从业人员事实上都不会从零开始编写算法。

今天,了解如何在合适的情况下(以正确的方式)应用正确的算法更为重要。

为了避免这个错误:

  • 使用通用机器学习库,如Scikit-Learn(Python)或Caret(R)。
  • 如果你要从零开始编写一个算法,要明白这样做是为了学习而不是提高应用操作。
  • 了解现代机器学习算法的发展前景及其优缺点。

3.直接跳进深水区

有些人进入数据科学这个领域是因为他们想要构建未来科技:无人驾驶汽车,高级机器人,计算机视觉等。 这些技术由深度学习和自然语言处理等技术驱动。

但是,掌握基本原理很重要。每个奥运跳水运动员都需要先学习如何游泳,道理是一样的。

为了避免这个错误:

  • 首先掌握作为高级课题基石的“经典”机器学习的技术和算法。
  • 知道经典机器学习仍然具有巨大的开发潜力。 虽然算法已经成熟,但我们仍然处于开发有成效的应用方法的早期阶段。
  • 学习一种系统的方法来解决任何形式的机器学习问题

非专业人士请勿模仿

申请工作时

以下错误都可能导致你在求职过程中错过一些很好的机会。即使你完全合格,你也可以通过避免这些雷区来最大限度地发挥你的优势。

4. 在简历中使用过多的技术术语

许多申请人在写简历时最大的错误是使用过多的技术术语。

相反,你的简历应该把自己描绘清楚,简历中的要点应该讲述一个故事。 你的简历应该说明你能为组织带来的影响,特别是如果你申请的是初级职位。

为了避免这个错误:

  • 不要简单地列出你使用的编程语言或编程库。描述你如何使用它们并解释结果。
  • 少即是多。 强调最重要的技能,可删除其他内容使之更突出。
  • 制作简历汇总版本,以便你可以针对不同岗位分离出不同的定制版本。 这保持每个版本干净。

5.高估学位的价值

有时,毕业生可能高估了他们学位的价值。 虽然拥有相关领域强有力的学位肯定会提高你的机会,但这并不是充分条件,也不是最重要的因素。

这里要说清楚的是,我们并不是说毕业生们傲慢自大...

在大多数情况下,学术环境中所教授的与企业中应用的机器学习是截然不同的。在企业中需要权衡截止期限、客户和技术障碍,而这些在学术界中并不需要。

为了避免这个错误:

  • 通过大量现实世界数据项目实践来辅助课程。
  • 学习一种系统的解决机器学习问题的方法。
  • 参加相关实习,即使是兼职。
  • 在领英上约当地的数据科学家出来喝咖啡聊聊天。

6. 搜索(潜在工作机会的)范围太狭窄

数据科学是一个相对较新的领域,而且这个组织仍在不断发展,以适应日益增长的数据影响。 如果你只搜索以“数据科学家”开头的职位,那么你可能漏掉了更多可能。

许多职位没有被标注为“数据科学”,但是它们可以让你在类似的岗位发展相似的技能。

为了避免这个错误:

  • 按所需技能进行搜索(机器学习,数据可视化,SQL等)。
  • 按工作职责进行搜索(预测建模,A / B测试,数据分析等)。
  • 按岗位使用的技术进行搜索(Python,R,Scikit-Learn,Keras等)。
  • 按职位进行搜索(数据分析师,量化分析师,机器学习工程师等)。

面试期间

最后一类错误则是面试中的绊脚石。 你已经披荆斩棘走到这一步,所以现在是时候完美收官了。

7.对讨论项目毫无准备

在回答“你会如何做”这类面试问题时,最保险的做法是用你参与的项目作为例子。 你应该用一些具体的例子来说明你是怎么处理某些情况而不是用假设来阐述。

此外,许多招聘经理会要求你有自立的能力,因为数据科学这个角色天然包括项目管理的要素。 这意味着你应该了解整个数据科学工作流程,并知道如何将所有内容整理在一起。

为了避免这个错误:

  • 完成完整的项目,保证你练习了每一个重要的步骤(即数据清理,模型训练等)。
  • 组织你的方法论。数据科学应该是反复论证过的,而不是偶然的。
  • 回顾并且练习描述你过去在实习,工作或课程中参与的项目。

8.低估知识领域的价值

拥有开发技术技能和机器学习知识是获得数据科学职位的基本先决条件。但是,要真正脱颖而出,你应该对你申请的具体行业了解更多。

记住,数据科学从来不存在于虚无中。

为了避免这个错误:

  • 如果你要面试一个银行的职位,请刷一些基本的财务概念。
  • 如果你要面试一个财富500强企业的战略岗位,做一些案例练习并且学习一下企业利润的驱动因素。
  • 如果你要面试一家创业公司,了解其市场,并尝试了解如何帮其获得竞争优势。
  • 简而言之,一点点额外的努力就可以带来很大的好处!

9.忽视沟通技巧

目前,在大多数企业中,与开发团队或分析师团队相比,数据科学团队仍然很小。 因此,不同于初级软件工程师被高级软件工程师直接管理,数据科学家往往在职能更交叉的岗位中工作。

而且面试官还会期待你具备与不同技术和数学背景的同事沟通的能力。

为了避免这个错误:

  • 练习向非专业人员解释技术概念。 例如,尝试向朋友解释你最喜欢的算法。
  • 准备好常见面试问题的回答要点,并练习表述你的答案。
  • 练习分析各种数据集,提取关键特征并展示你的发现。

结论

在本指南中,你学习了数据科学初学者最常犯的9个错误:

  1. 在理论上花太多的时间。
  2. 写了太多从零开始写的算法。
  3. 直接进入深水区,例如,深度学习(速度太快了!)。
  4. 在简历中使用过多的技术术语。
  5. 高估学位的价值。
  6. 搜索(潜在工作机会的)范围太狭窄。
  7. 对讨论的项目毫无准备。
  8. 低估知识领域的价值。
  9. 忽视沟通技巧。

原文链接:https://elitedatascience.com/beginner-mistakes

关于转载 如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

本文分享自微信公众号 - 大数据文摘(BigDataDigest),作者:大数据文摘

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 揭穿机器学习“皇帝的新装”

    我们常把机器学习描述为一种使用数据模式标记事物的神奇技术。听起来艰涩,但事实上,拨开层层概念,机器学习的核心简单到令人尴尬。

    大数据文摘
  • 李飞飞说,机器是又快又准确,但是人类聪明呀!除此,她还推荐你读这十个机器学习误区

    大数据文摘
  • 脑洞 | AI之间有一场“搏击赛”,邪恶 AI 能否被战胜?

    大数据文摘
  • Python 机器学习经典实例

    在如今这个处处以数据驱动的世界中,机器学习正变得越来越大众化。它已经被广泛地应用于不同领域,如搜索引擎、机器人、无人驾驶汽车等。

    用户1737318
  • 神经网络突变自动选择AI优化算法,速度提升50000倍!

    机器学习系统并非是“生而平等”的。没有一种算法能应对所有的机器学习任务,这就让寻找最优的机器学习算法成为一项艰巨又耗时的工作。不过这个问题现在有希望解决了,最近...

    新智元
  • 如何入门Python与机器学习 | 赠书

    用户1737318
  • 如何入门Python与机器学习

    本文引自电子工业出版社《Python与机器学习实战》 本书算法与代码兼顾,理论与实践结合。很丰富:7种算法,50段实现,55个实例,总代码量5295行,全面而...

    AI科技大本营
  • 如何入门Python与机器学习

    编者按:本书节选自图书《Python与机器学习实战》,Python本身带有许多机器学习的第三方库,但本书在绝大多数情况下只会用到Numpy这个基础的科学计算库来...

    小莹莹
  • MMD_5a_Clustering

    聚类概述 定义 距离的定义 算法的分类 启发式算法 概述 KEY POINTS 如何代表cluster 如何决定距离远近 没有欧氏距离怎么办 终止条件 总结 K...

    用户1147754
  • 机器学习(7) -- k-means 聚类

    根据大家的提议,从今天起每次算法介绍完之后会给大家一个用python编写的实例刚打架参考 Clustering  9. Clustering     9.1...

    昱良

扫码关注云+社区

领取腾讯云代金券