专栏首页SAMshare这5件事情我希望自己能在刚开始学习数据科学的时候就知道

这5件事情我希望自己能在刚开始学习数据科学的时候就知道


作者:Terence S 编译:ronghuaiyang

导读

这是作者在她自己的数据科学学习经历中的总结的一些见解,还是有很有道理的,确实是经验之谈,初学者可以参考。

两年来,我一直在自学数据科学,通过这个过程,我获得了许多见解,我想与刚起步的新数据科学家们分享。

你可以自由地从这篇文章中获取你想要的内容,但我只是想为那些有点迷失方向、希望得到更多指导的人分享我的观点。以下这5件事情是我希望我在开始学习数据科学时就知道的。

1) 在成为一个好的数据科学家之前先成为一个好码农和好统计人员

如果你读过我以前的文章,你可能已经听过我这样说 —— 数据科学家实际上是一个利用编程来实现统计方法的现代统计学家。

从长远来看,理解这些基本原理会让你的生活变得更容易,实际上也会节省你的时间。几乎所有的机器学习概念和算法都是基于统计和概率,而在此之上,许多其他数据科学概念,比如A/B测试,也是纯统计的。

最终,作为一名数据科学家,你有多优秀取决于你在编程和统计方面的知识有多丰富。

TLDR:在学习其他知识之前,先具备良好的编程和统计基础。从长远来看,这会为你节省更多的时间。

2) 少花点时间在网络课程上,多花点时间在自己的项目上。

我知道这可能会引起你们一些人的争议,所以让我先说几句话:

  1. 这完全是基于我的个人实践以及我从同事那里观察到的。
  2. 显然,有一些很棒的在线课程不在我所说的里面,比如deeplearning.ai的课程。
  3. 我还想说的是,如果没有别的选择,最好还是去上网课。

话虽如此,以下是网课的几个问题

  1. 就材料的深度而言,它们往往非常肤浅,不仅如此,它们还往往给人一种对所学材料理解错误的感觉。
  2. 它们在记忆信息方面也不是很好。我认为你会同意你花在学习一门学科上的时间越多,你就越有可能记住这些信息。这些网课的问题在于,尤其是那些标榜“在5周内成为专家”的网课,并没有给你足够的时间去真正理解你正在学习的东西。
  3. 最后,它们通常没有足够的挑战性。许多网课只是要求你跟随和复制他们的代码,这并不要求你批判性地和深入地思考。

为什么你应该做一些数据科学项目

个人数据科学项目是一种很好的学习方式,因为你将被迫批判性地思考问题和自己的解决方案。

通过这个,你会学到比任何网课都要多的东西。你将学习如何问正确的问题,如何回答正确的问题,如何处理适合你的数据科学项目,如何有条不紊,等等……

通过对自己的项目投入更多,你也会更有动力去学习更多,投入更多时间,创造一个积极的反馈循环。

TLDR:少花点时间在数据科学网课上,多花点时间在自己的数据科学项目上。

3) 专注于一些精选的工具,并真正擅长它们

有这么多的数据科学软件包和工具,这很酷,因为你可以自己选择你的数据科学工具包。

然而,我们很容易被想要学习尽可能多的包和工具的想法冲昏头脑。不要犯这样的错误。

如果你能熟练地使用其中一些工具,而不是使用一些你几乎不会去用的工具,那么 你将会获得更好的效果。(在简历上列出一长串的技能和工具不应该是你的最终目标!)

举个例子,现在有几个很棒的数据可视化包:Matplotlib、Seaborn、Plotly、Bokeh等等……没有必要花时间去掌握其中的每一个 —— 这是在浪费你宝贵而有限的时间。

另一个例子是,如果你想要使用pandas操作数据,那么就把pandas用的非常熟练。如果你更喜欢用NumPy,那就去好好使用它。当然,理想情况下,你想要同时擅长pandas和NumPy,但我的观点是,坚持使用其中一个并掌握它可能更好一点,而不是不断地跳来跳去。

同样的事情还有:

  • Python vs R
  • Tensorflow vs Pytorch
  • Postgresql vs MySQL

TLDR:构建你自己的数据科学工具箱并坚持使用它!熟练掌握5种工具比20种工具都会一点要好

4) 对各种机器学习算法的理解只占数据科学的一小部分。

就我个人而言,让我进入数据科学的是所有不同的机器学习模型,它们是如何工作的,以及它们在哪些应用中有用。我可能花了至少6个月的时间学习和尝试了几种机器学习模型,才意识到这只是数据科学家需要知道的一小部分。

数据建模只是整个机器学习生命周期的一部分。你还需要了解数据收集、数据准备、模型评估、模型部署和模型调优。事实上,我认为大部分时间都花在了数据准备上,而不是数据建模(机器学习建模)。

除此之外,你还需要学习其他一些东西,比如版本控制(Git)、从api提取数据、云的理解,等等。

TLDR:不要把所有的时间都花在试图掌握每一个机器学习算法上,它只占数据科学家需要知道的一小部分。

5) 作为一个数据科学家,感觉到名不副实很常见的。

从我开始学习数据科学的第一天到今天,我经常感觉到名不副实。但我知道这是完全正常的。

为什么数据科学家会经常感觉到名不副实?

  1. “数据科学”是一个模糊的术语,因为它是一个跨学科的领域,包括统计学、编程、数学、商业理解、数据工程等。除此之外,还有很多数据科学家的同义词(数据分析师、数据工程师、研究科学家、应用科学家)。我的观点是,你永远不会成为数据科学包含的所有方面的专家,而且你也不应该觉得必须成为专家。
  2. 就像编程和技术中的其他事物一样,数据科学也在不断发展。20年前,pandas还没有被创造出来Tensorflow是5年前才发布的。总是会有新的技术出现,因此你必须学习新的东西。
  3. 这和我的第一个观点有关,但因为你不太可能是所有事情的专家,这意味着总有人在你花费较少时间的事情上做得更好。这也没关系。

TLDR:作为一名数据科学家,你总是会感到名不副实,这没什么

感谢阅读!

通过阅读本文,我希望能够给你一些见解和有用的建议,帮助你消除一些误解,并使你的数据科学之旅比我的更加顺利!和往常一样,如果你不同意我说的任何话,就不要轻信。

—END—

英文原文:https://towardsdatascience.com/5-things-i-wish-i-knew-when-i-started-learning-data-science-24d6f9a2d1e0

本文分享自微信公众号 - SAMshare(gh_8528ce7b7e80),作者:Terence S

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • BDK | 一起来修炼大数据/数据仓库的内功吧

    先前有在公众号里说到了接下来自己的学习重点会放在数据仓库的设计与建设、ETL、大数据架构相关的内容了,所以今天就先开一个专栏来专门存放这类的知识,叫 BDK!聪...

    Sam Gor
  • 机器学习准备数据时如何避免数据泄漏

    本篇文章主要介绍了几种常用的数据准备方法,以及在数据准备的过程中如何避免数据泄露。

    Sam Gor
  • ML_Basic-特征预处理操作指南

    主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作

    Sam Gor
  • 数据科学新人需要知道的13个雷区

    看来你已经决定要进入数据科学这个领域了。数据正在驱动越来越多的业务,世界的联系正在变得越来越紧密,似乎每个业务都需要数据科学实践。因此,对数据科学家的需求是巨大...

    用户2769421
  • 付睿:对新事物的追寻之旅 | 优秀毕业生专访

    [ 导读 ] 清华-青岛数据科学研究院(以下简称“数据院”)自2014年4月成立以来,秉承“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”24字指...

    数据派THU
  • [译文]机器学习不是数据科学

    对于很多人来说,机器学习就是数据科学。在我这道这两个术语的含义之前,我也简单的认为数据科学只不过是机器学习一个流行的叫法而已。过了一段时间,再次考虑这个问题的时...

    小莹莹
  • 亲爱的数据工作者,教你绕开13个雷区的方法

    看来你已经决定要进入数据科学这个领域了。数据正在驱动越来越多的业务,世界的联系正在变得越来越紧密,似乎每个业务都需要数据科学实践。因此,对数据科学家的需求是巨大...

    1480
  • 进阶指南 | 如何从数据分析师转型为数据科学家?

    如何从数据分析师华丽转型,成为一名数据科学家?好比“把大象装进冰箱”,成为“数据科学家”仅需简单三步:

    用户2769421
  • 如何成为一名数据科学家?Yann LeCun的建议也许能给你答案

    AI 科技评论按:本文为雷锋字幕组编译的技术博客,原标题 16 Useful Advice for Aspiring Data Scientists,作者为 J...

    AI科技评论
  • 我们问了Yann LeCun等16个顶级数据科学家,这是他们给数据新人的建议

    大数据文摘

扫码关注云+社区

领取腾讯云代金券