作者:Terence S 编译:ronghuaiyang
导读
这是作者在她自己的数据科学学习经历中的总结的一些见解,还是有很有道理的,确实是经验之谈,初学者可以参考。
两年来,我一直在自学数据科学,通过这个过程,我获得了许多见解,我想与刚起步的新数据科学家们分享。
你可以自由地从这篇文章中获取你想要的内容,但我只是想为那些有点迷失方向、希望得到更多指导的人分享我的观点。以下这5件事情是我希望我在开始学习数据科学时就知道的。
如果你读过我以前的文章,你可能已经听过我这样说 —— 数据科学家实际上是一个利用编程来实现统计方法的现代统计学家。
从长远来看,理解这些基本原理会让你的生活变得更容易,实际上也会节省你的时间。几乎所有的机器学习概念和算法都是基于统计和概率,而在此之上,许多其他数据科学概念,比如A/B测试,也是纯统计的。
最终,作为一名数据科学家,你有多优秀取决于你在编程和统计方面的知识有多丰富。
TLDR:在学习其他知识之前,先具备良好的编程和统计基础。从长远来看,这会为你节省更多的时间。
我知道这可能会引起你们一些人的争议,所以让我先说几句话:
个人数据科学项目是一种很好的学习方式,因为你将被迫批判性地思考问题和自己的解决方案。
通过这个,你会学到比任何网课都要多的东西。你将学习如何问正确的问题,如何回答正确的问题,如何处理适合你的数据科学项目,如何有条不紊,等等……
通过对自己的项目投入更多,你也会更有动力去学习更多,投入更多时间,创造一个积极的反馈循环。
TLDR:少花点时间在数据科学网课上,多花点时间在自己的数据科学项目上。
有这么多的数据科学软件包和工具,这很酷,因为你可以自己选择你的数据科学工具包。
然而,我们很容易被想要学习尽可能多的包和工具的想法冲昏头脑。不要犯这样的错误。
如果你能熟练地使用其中一些工具,而不是使用一些你几乎不会去用的工具,那么 你将会获得更好的效果。(在简历上列出一长串的技能和工具不应该是你的最终目标!)
举个例子,现在有几个很棒的数据可视化包:Matplotlib、Seaborn、Plotly、Bokeh等等……没有必要花时间去掌握其中的每一个 —— 这是在浪费你宝贵而有限的时间。
另一个例子是,如果你想要使用pandas操作数据,那么就把pandas用的非常熟练。如果你更喜欢用NumPy,那就去好好使用它。当然,理想情况下,你想要同时擅长pandas和NumPy,但我的观点是,坚持使用其中一个并掌握它可能更好一点,而不是不断地跳来跳去。
同样的事情还有:
TLDR:构建你自己的数据科学工具箱并坚持使用它!熟练掌握5种工具比20种工具都会一点要好
就我个人而言,让我进入数据科学的是所有不同的机器学习模型,它们是如何工作的,以及它们在哪些应用中有用。我可能花了至少6个月的时间学习和尝试了几种机器学习模型,才意识到这只是数据科学家需要知道的一小部分。
数据建模只是整个机器学习生命周期的一部分。你还需要了解数据收集、数据准备、模型评估、模型部署和模型调优。事实上,我认为大部分时间都花在了数据准备上,而不是数据建模(机器学习建模)。
除此之外,你还需要学习其他一些东西,比如版本控制(Git)、从api提取数据、云的理解,等等。
TLDR:不要把所有的时间都花在试图掌握每一个机器学习算法上,它只占数据科学家需要知道的一小部分。
从我开始学习数据科学的第一天到今天,我经常感觉到名不副实。但我知道这是完全正常的。
为什么数据科学家会经常感觉到名不副实?
TLDR:作为一名数据科学家,你总是会感到名不副实,这没什么
通过阅读本文,我希望能够给你一些见解和有用的建议,帮助你消除一些误解,并使你的数据科学之旅比我的更加顺利!和往常一样,如果你不同意我说的任何话,就不要轻信。
—END—
英文原文:https://towardsdatascience.com/5-things-i-wish-i-knew-when-i-started-learning-data-science-24d6f9a2d1e0