前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >这5件事情我希望自己能在刚开始学习数据科学的时候就知道

这5件事情我希望自己能在刚开始学习数据科学的时候就知道

作者头像
Sam Gor
发布2020-09-30 11:31:02
4460
发布2020-09-30 11:31:02
举报
文章被收录于专栏:SAMshareSAMshare

作者:Terence S 编译:ronghuaiyang

导读

这是作者在她自己的数据科学学习经历中的总结的一些见解,还是有很有道理的,确实是经验之谈,初学者可以参考。

两年来,我一直在自学数据科学,通过这个过程,我获得了许多见解,我想与刚起步的新数据科学家们分享。

你可以自由地从这篇文章中获取你想要的内容,但我只是想为那些有点迷失方向、希望得到更多指导的人分享我的观点。以下这5件事情是我希望我在开始学习数据科学时就知道的。

1) 在成为一个好的数据科学家之前先成为一个好码农和好统计人员

如果你读过我以前的文章,你可能已经听过我这样说 —— 数据科学家实际上是一个利用编程来实现统计方法的现代统计学家。

从长远来看,理解这些基本原理会让你的生活变得更容易,实际上也会节省你的时间。几乎所有的机器学习概念和算法都是基于统计和概率,而在此之上,许多其他数据科学概念,比如A/B测试,也是纯统计的。

最终,作为一名数据科学家,你有多优秀取决于你在编程和统计方面的知识有多丰富。

TLDR:在学习其他知识之前,先具备良好的编程和统计基础。从长远来看,这会为你节省更多的时间。

2) 少花点时间在网络课程上,多花点时间在自己的项目上。

我知道这可能会引起你们一些人的争议,所以让我先说几句话:

  1. 这完全是基于我的个人实践以及我从同事那里观察到的。
  2. 显然,有一些很棒的在线课程不在我所说的里面,比如deeplearning.ai的课程。
  3. 我还想说的是,如果没有别的选择,最好还是去上网课。

话虽如此,以下是网课的几个问题

  1. 就材料的深度而言,它们往往非常肤浅,不仅如此,它们还往往给人一种对所学材料理解错误的感觉。
  2. 它们在记忆信息方面也不是很好。我认为你会同意你花在学习一门学科上的时间越多,你就越有可能记住这些信息。这些网课的问题在于,尤其是那些标榜“在5周内成为专家”的网课,并没有给你足够的时间去真正理解你正在学习的东西。
  3. 最后,它们通常没有足够的挑战性。许多网课只是要求你跟随和复制他们的代码,这并不要求你批判性地和深入地思考。

为什么你应该做一些数据科学项目

个人数据科学项目是一种很好的学习方式,因为你将被迫批判性地思考问题和自己的解决方案。

通过这个,你会学到比任何网课都要多的东西。你将学习如何问正确的问题,如何回答正确的问题,如何处理适合你的数据科学项目,如何有条不紊,等等……

通过对自己的项目投入更多,你也会更有动力去学习更多,投入更多时间,创造一个积极的反馈循环。

TLDR:少花点时间在数据科学网课上,多花点时间在自己的数据科学项目上。

3) 专注于一些精选的工具,并真正擅长它们

有这么多的数据科学软件包和工具,这很酷,因为你可以自己选择你的数据科学工具包。

然而,我们很容易被想要学习尽可能多的包和工具的想法冲昏头脑。不要犯这样的错误。

如果你能熟练地使用其中一些工具,而不是使用一些你几乎不会去用的工具,那么 你将会获得更好的效果。(在简历上列出一长串的技能和工具不应该是你的最终目标!)

举个例子,现在有几个很棒的数据可视化包:Matplotlib、Seaborn、Plotly、Bokeh等等……没有必要花时间去掌握其中的每一个 —— 这是在浪费你宝贵而有限的时间。

另一个例子是,如果你想要使用pandas操作数据,那么就把pandas用的非常熟练。如果你更喜欢用NumPy,那就去好好使用它。当然,理想情况下,你想要同时擅长pandas和NumPy,但我的观点是,坚持使用其中一个并掌握它可能更好一点,而不是不断地跳来跳去。

同样的事情还有:

  • Python vs R
  • Tensorflow vs Pytorch
  • Postgresql vs MySQL

TLDR:构建你自己的数据科学工具箱并坚持使用它!熟练掌握5种工具比20种工具都会一点要好

4) 对各种机器学习算法的理解只占数据科学的一小部分。

就我个人而言,让我进入数据科学的是所有不同的机器学习模型,它们是如何工作的,以及它们在哪些应用中有用。我可能花了至少6个月的时间学习和尝试了几种机器学习模型,才意识到这只是数据科学家需要知道的一小部分。

数据建模只是整个机器学习生命周期的一部分。你还需要了解数据收集、数据准备、模型评估、模型部署和模型调优。事实上,我认为大部分时间都花在了数据准备上,而不是数据建模(机器学习建模)。

除此之外,你还需要学习其他一些东西,比如版本控制(Git)、从api提取数据、云的理解,等等。

TLDR:不要把所有的时间都花在试图掌握每一个机器学习算法上,它只占数据科学家需要知道的一小部分。

5) 作为一个数据科学家,感觉到名不副实很常见的。

从我开始学习数据科学的第一天到今天,我经常感觉到名不副实。但我知道这是完全正常的。

为什么数据科学家会经常感觉到名不副实?

  1. “数据科学”是一个模糊的术语,因为它是一个跨学科的领域,包括统计学、编程、数学、商业理解、数据工程等。除此之外,还有很多数据科学家的同义词(数据分析师、数据工程师、研究科学家、应用科学家)。我的观点是,你永远不会成为数据科学包含的所有方面的专家,而且你也不应该觉得必须成为专家。
  2. 就像编程和技术中的其他事物一样,数据科学也在不断发展。20年前,pandas还没有被创造出来Tensorflow是5年前才发布的。总是会有新的技术出现,因此你必须学习新的东西。
  3. 这和我的第一个观点有关,但因为你不太可能是所有事情的专家,这意味着总有人在你花费较少时间的事情上做得更好。这也没关系。

TLDR:作为一名数据科学家,你总是会感到名不副实,这没什么

感谢阅读!

通过阅读本文,我希望能够给你一些见解和有用的建议,帮助你消除一些误解,并使你的数据科学之旅比我的更加顺利!和往常一样,如果你不同意我说的任何话,就不要轻信。

—END—

英文原文:https://towardsdatascience.com/5-things-i-wish-i-knew-when-i-started-learning-data-science-24d6f9a2d1e0

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SAMshare 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1) 在成为一个好的数据科学家之前先成为一个好码农和好统计人员
  • 2) 少花点时间在网络课程上,多花点时间在自己的项目上。
    • 话虽如此,以下是网课的几个问题
      • 为什么你应该做一些数据科学项目
      • 3) 专注于一些精选的工具,并真正擅长它们
      • 4) 对各种机器学习算法的理解只占数据科学的一小部分。
      • 5) 作为一个数据科学家,感觉到名不副实很常见的。
      • 感谢阅读!
      相关产品与服务
      云数据库 MySQL
      腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档