前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何避免数据科学领域的新手错误?

如何避免数据科学领域的新手错误?

作者头像
AI研习社
发布2019-08-09 20:38:50
7330
发布2019-08-09 20:38:50
举报
文章被收录于专栏:AI研习社AI研习社

原标题 | How to avoid rookie mistakes in the field of Data Science?

作 者 | Pritha Saha

翻 译 | CONFIDANT(福建师范大学)

编 辑 | Pita

我最近开始通过自学成为数据科学家的旅程,这条路并不总是一帆风顺的,因为没有人给我详细而有序的教学大纲。我尝试做了几件事,都没有很成功,但后来又有所收获。如果您是一位有抱负的数据科学家,本文可能会帮助您避免犯我曾经所犯的错误。

首先,永远不要试图通过死记硬背学习机器学习算法,大脑只保留了其中的一部分,掌握它们的最好方法是不断练习,没有捷径!

我犯了一个错误,在 Udemy上修“机器学习 A-Z:Python 和 R 在数据科学中的应用”这门课时我学会了课程的前半部分,但作为一个初学者,读完剩下的部分最终变得单调乏味。我确实对大多数算法有了直观的认识,但现在回头看,我觉得我本可以不学这门课。

其次,不要忽视编程,这是掌握数据科学的关键部分。你最好精通编程语言,特别是最受欢迎的Python,因为它拥有大量的库,这有助于数据科学家随时部署可用的工具。此外,大多数课程和比赛都要求我们用Python编写代码。因此,“python式”的思维模式对于数据科学的职业生涯是至关重要的!

我得到了两个资源的帮助——开始的Codecademy和后来的Datacamp。我很快就放弃了Codecademy,因为它从一个非常基本的层次开始——可能是为那些不是来自技术领域的人准备的。我订阅了一年的Datacamp,从数据科学的角度来看,这是一个很好的学习Python的资源。你最终要学习的图书馆课程有numpy、scipy等有关于数据分析和可视化的项目。同样,我们没有必要记住语法,熟悉该语言的函数和包是很重要的,而准确的语法你可以在google上搜索到。Stack Overflow是一个很好的资源,可以找到查询的答案,也可以回答其他人的问题。

此外,在不分析数据集的情况下,人们甚至不应该考虑机器学习算法。机器学习部分只有2-3行代码,其余部分用于详细的数据分析和可视化。如果不知道数据中的模式,就不可能确定哪些输入对输出很重要,从而消除数据中的噪声,最后转换数据,使其为模型使用做好准备。Kaggle是一个很好的资源,可以让您开始进行简单的机器学习练习(Titanic和房价预测),并着手进行数据清理和转换。

在后面的文章中,我将更多地介绍数据工程。在那之前,保持对成为数据科学家的憧憬,努力寻找解决遇到的任何问题!

via https://towardsdatascience.com/how-to-avoid-rookie-mistakes-in-the-field-of-data-science-3076017cdab1

封面图来源:https://www.adcreview.com/articles/big-data-in-science-which-business-model-is-suitable/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档