前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据科学新人常犯的一些错误

数据科学新人常犯的一些错误

作者头像
加米谷大数据
发布2019-04-19 14:29:17
3800
发布2019-04-19 14:29:17
举报
文章被收录于专栏:加米谷大数据加米谷大数据

  本文将讨论数据科学爱好者常犯的一些错误,我也会提供一些资源帮助大家避开数据科学学习上的陷阱。

只学习理论概念,但不应用

掌握机器学习技术背后的理论是非常好的,但是如果你不去应用它们,它们就仅仅是理论概念。

如何避免?

学习过程中保持理论和实践之间健康的平衡是非常必要的。只要学习了一个概念,请立即Google一下找到可以应用它的数据集或问题。

不了解原理或概念直接进行机器学习

在将技术应用到问题之前,你应该先了解它的工作原理。这将有助于了解算法的工作原理,以及做些什么可以对其进行微调,还可以帮助你构建现有技术。数学在这里发挥着重要作用,因此了解某些概念总是有帮助的。

在开始进行核心机器学习之前,您需要了解的四个关键概念是:线性代数、微积分、统计、概率

如何避免?

正如房子是一砖一瓦建造的,数据科学家也是所有单个部件的总和。有大量的资源可以帮助学习这些主题。

仅依赖认证和学位

招聘人员并不关心这些认证和学位,他们更看重你的知识,以及你如何在实际工作中应用。

如何避免?

不要误解我的意思。认证是很有价值的,但只有当你将这些知识应用到课堂之外并将其公之于众的时候才有价值。使用真实世界的数据集和做任何分析,都把它们写下来。

以为机器学习竞赛和实际工作相同

这是有胸怀抱负的数据科学家进来最大的误解之一。比赛和黑客松为我们提供了干净规整的数据集。现实世界的项目会有一个端到端的数据管道,涉及与一群人合作。你几乎总是要处理混乱的脏数据。关于花费70-80%的时间来整理和清洗数据的传说是真的。这是一个令人精疲力竭的工作,你很大可能不喜欢,但它最终会成为例行公事。

如何避免?

消除误解的关键因素之一是经验。你获得的经验越多(实习在这种情况下有很多帮助),你就能越好地区分两者。

在简历中使用了太多的数据科学术语

你的简历是介绍你已经完成的事情以及你是如何做到的,而不是简单罗列的事项清单。当招聘人员查看您的简历时,他希望以简洁和总括的方式了解您的背景以及您所取得的成就。

如何避免?

消除简历混乱最简单的方法是使用项目符号。仅列出你会用到去完成某些事情的技术(可能是项目或竞赛)。写一篇关于你如何使用它的文章会更有助于招聘人员理解你的想法。

给予工具和库比业务问题更高的优先级

拥有扎实的工具和库知识是非常好的,但它只能到此为止。将这些知识与领域内的业务问题相结合,才是数据科学家真正介入的地方。

如何避免?

这里有很多选择:如果您正在申请特定行业的数据科学家,尝试了解该领域的公司如何使用数据科学。如果可能,搜索特定行业中的数据集并尝试对其进行处理。

在探索和可视化数据上花的时间不够

通过花时间了解数据集并尝试用不同的图表展示,您将更深入的了解您要解决的挑战或问题,你会惊讶地发现你可以获得这么多洞察!可以看到模式和趋势,以及隐藏的规律。可视化是向客户展示洞察的最佳方式。

如何避免?

实践!下次处理数据集时,请花更多时间在此步骤上。

不能用结构化的方法来解决问题

参加数据科学面试时,将不可避免地需要分析案例,测算、估计等。由于面试时充满压力的气氛和时间限制,面试官会考察你的思维结构如何,以达到最终评估。大多数情况下,对是否获得这份工作来说,这可能是一锤定音的因素。

如何避免?

可以通过简单的训练和规范的方法获得结构化的思维方式。

一次性尝试学习多个工具

由于每个工具提供的独特功能和局限性不同,人们倾向于一次性的学习所有工具。这是个坏主意,最终无法掌握它们中任何一个。

如何避免?

选择一个工具并坚持学习直到你掌握它为止。如果你已经开始学习R,那么不要被Python所诱惑。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档