前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >想做数据科学家,这13个错误可别犯

想做数据科学家,这13个错误可别犯

作者头像
加米谷大数据
发布2019-01-09 14:35:26
3250
发布2019-01-09 14:35:26
举报
文章被收录于专栏:加米谷大数据加米谷大数据

当下越来越多的企业需要数据支持其决策,世界也变得越来越紧密,几乎每个企业都需要大量的数据科学实践。因此,对数据科学家的需求是巨大的。当然,人才短缺也是业内所公认的。

成为一名数据科学家并不容易。它需要解决问题的能力、结构化思维、编码以及各种技术技能,才能真正成功。

在本文中,我将讨论业余数据科学家所犯的常见错误,旨在帮助您避免数据科学中的这些陷阱。

目录

• 学习理论概念而不应用它们

• 不学习先决知识而直接学习机器学习技术

• 完全依靠认证和学位

• 误以为你在机器学习竞赛中看到的是真实的工作现状

• 注重模型的精度胜过其适用性和可解释性

• 在简历中使用过多的数据科学术语

• 优先考虑该使用的工具和各种库而不是业务本身要解决的问题

• 没有花费足够的时间去探索和可视化数据

• 缺乏结构化的方法来解决问题

• 试图一次学习多个工具

• 不能坚持学习

• 远离讨论和竞赛

• 不去提升沟通技巧

解读

1、学习理论概念而不应用它们

掌握机器学习技术背后的理论是很好的,但如果你不应用它们,它们只是理论。

因此有机会应用我所学的知识去解决面临的挑战或问题时,却忘了一大半!我们需要学习的东西有很多,比如算法、推导、研究论文等。你很有可能在中途失去学习动力并放弃。我已经看到这种情况发生在很多试图进入这个领域的人身上。

如何避免这个问题?

你必须在理论和实践之间保持一个平衡。一旦你学习了一个概念,请立即访问 Google,找到可以使用它的数据集或问题。你会发现这样做之后可以更好地理解理论知识。您还可以使用 AV 的 DataHack 平台,完成上面的练习题和参与比赛。

2、不学习先决知识而直接学习机器学习技术

大多数立志要成为数据科学家的人都受到机器人视频或有趣的预测模型的鼓舞,当然也有些人是在高薪诱惑下入行的。

在应用一项技术解决问题之前你应该了解其背后的工作原理,这样做将有助于你了解算法如何工作,知道如何去微调它,并且还将帮助你在现有技术的基础上搭建新的技术。数学在里面发挥着重要作用,因此了解某些概念总是有帮助的。

如果您有好奇心或想要进入研究领域,那么在深入了解机器学习的核心技术之前,您需要了解的四个关键组件是:

• 线性代数

• 微积分

• 统计学

• 概率论

如何避免这个问题?

正如房子是一砖一瓦建造的,数据科学家的看家本领也是由掌握一个一个知识点开始的。有大量的资源可以帮助您学习这些知识点。

3、完全依靠认证和学位

自从数据科学变得非常受欢迎以来,各地的认证和学位几乎都出现了,给招聘经理和招聘人员增加了不少烦恼。虽然得到这些认证并非易事,但完全依赖它们也是非常危险的。

招聘经理对这些证书并不那么看重, 他们更加重视你的知识结构,以及你如何在现实生活中应用它们。与客户打交道、处理项目截止日期、了解数据科学项目的生命周期如何工作、如何设计模型以适应现有业务框架,这些只是你作为一个成功的数据科学家所要做好的工作的一部分,而这些仅仅只有课程认证或学位是不够的。

如何避免这个问题?

不要误解我的意思:认证是很有价值的,但只有当你将这些知识应用到课堂之外并将其展示出来时才有价值。不管你对真实数据做何种分析,确保你写下它。创建自己的博客、在 LinkedIn 上发布,并征求社区的反馈意见。

4、误以为你在机器学习竞赛中看到的是真实的工作现状

这是近来数据科学家们最大误解之一。竞赛和黑客马拉松提供了相当干净、一尘不染的数据集(好吧,说得是有点过了,懂我的意思就好)。即使这些数据集有一些缺失数值的数据列也不会多么麻烦,找到一种插补技术然后填空就好。

不幸的是真实世界里的项目并不这样。真实世界中有一条涉及与一群人一起工作的端到端的流程。你几乎总得和混乱、未清洗的数据打交道。它最终会变成你日常工作的一部分。

如何避免这个问题?

令人尴尬的是避开这个误区的重要因素是经验,你获得越多经验(这种情况下实习会大有助益),你越能区分这两者。这就是社交媒体的方便之处:多跟数据科学家们聊聊,问问他们的经验。

5、注重模型的精度胜过其适用性和可解释性

精确度并不总是业务所追求的。固然一个能以 95% 的精确度预测贷款违约的模型相当不错,但若你无法解释这个模型如何做到这一点,什么特性使其如此,以及你在建构模型时的思路是什么,你的客户就会拒绝这个模型。

另一个关键方面是你的模型能否契合组织业已存在的框架。如果开发环境不能支持你使用的 10 种不同的工具和库,这将相当失败,你将不得不用一种更简单的方法从零开始重新设计并重建模型。

如何避免这个问题?

避免这个错误的最好方法便是与业界人士交流,没有比经验更好的老师。此外,练习构建简单的模型并向非技术人员解释它们。随后提升模型的复杂度并继续这么做,直到即使是你也不能理解其表层之下发生着什么。这将教会你何时停止,以及为何现实世界的应用中简单的模型总是更受青睐。

6、 在简历中使用过多的数据科学术语

如果你之前这么干过,你就应该知道我指的是什么。如果你的简历现在就有这个问题,请立即修正!你或许清楚一堆技术和工具,但只是简单地罗列他们无异于使潜在的招聘经理对你失去兴趣。

你的简历是对你取得的成就以及你如何做到的概括,而不是不是简单罗列的事情清单。当招聘官查看简历的时候,他/她希望能以简洁明快的方式了解你的背景知识以及你所取得的成就。

如何避免这个问题?

使简历变得整洁的最简单方法便是使用项目符号。只列出你用来完成某件事情(可以是项目或竞赛)的技术。扼要地阐述你是如何使用它们的,这将帮助招聘官理解你的想法。

7、 优先考虑该使用的工具和各种库而不是业务本身要解决的问题

有着库和工具的坚实基础是件好事,但这也只能在一定程度上帮到你。将这些知识与领域提出的业务问题结合起来才是真正的数据科学家所做的,你应该了解你感兴趣(或正谋求职位)的领域中的基本挑战。

如何避免这个问题?

这里有不少选择:

• 如果你正在谋求某个特定领域中的数据科学家职位,去关注该领域的公司如何应用数据科学。

• 若可行,寻找特定领域的数据集并着手处理它们。这会是你的简历中一个非常突出的要点。

8、 没有花费足够的时间去探索和可视化数据

数据可视化是数据科学中的一个重要方面,但许多渴望成功的数据科学家都倾向于草草了事并进入后续的模型构建阶段。这种方法或许能在竞赛中奏效,但绝对会在现实世界中失败。理解你的数据是你要去做的最重要的事情,你的模型的输出会反映这一点。

如何避免这个问题?

练习!

下次处理一个数据集的时候花更多时间在这个步骤上,你会惊讶于它给你带来的洞见。提出问题,并请教你的经理、领域中的专家,在互联网上寻求解决方案。

9、 缺乏结构化的方法来解决问题

结构化思考对数据科学家有诸多好处:

• 让你将一个问题从逻辑上分为几个部分

• 让你将问题如何发展以及如何设计你的方法的过程可视化

• 让你以逻辑化和易于理解的方式帮助用户或客户理解你框架的流程

有更多的理由认为具有结构化的思维方式是非常有帮助的。可以想象,没有结构化的思维方式是违反直觉的。

如何避免这个问题?

你可以通过简单的培训和严谨的方法获得结构化的思维方式。

10、试图一次学习多个工具

由于每个工具都有其缺点和其独特的功能,人们倾向于尝试一次学习所有的工具。这是个坏主意,因为你最终掌握不了它们中的任何一个。工具只是实现数据科学的一种手段而不是最终目标!

如何避免这个问题?

选择一个工具并坚持下去,直到你掌握它为止。

11、不能坚持学习

这个问题适用于所有数据科学家而不仅仅是新手,那就是我们容易分心。如果数据科学就像打开教科书和塞满一切一样容易,那么到今天,每个人都能成为数据科学家。然而事实上它需要长期的努力和学习,这是人们容易忽视的一点,直到为时已晚。

如何避免这个问题?

为自己设定目标。绘制出时间表并贴在墙上:计划你想要学习的方式和内容,并为自己设定截止日期。

12、远离讨论和竞赛

这一节是对我们上述其中几点的一个总结。渴望成功的数据科学家倾向于回避在社区中发布他们的分析,因为他们担心受到批评。但是如果你不收到社区的反馈,你就不会成长为数据科学家。

数据科学是一个需要讨论、思考和头脑风暴的领域。你不能坐在井底工作,你需要合作并理解其他数据科学家的观点。

如何避免这个问题?

开始参加讨论和比赛!没有进入前 5%是没什么问题的。如果你从整个过程中学到一个新技术,那么你就是靠自己赢得了胜利。

13、不去提升沟通技巧

沟通技巧是最容易被数据科学家低估和忽略的一项能力,我还没有遇到一个强调这一点的课程。你可以学到所有的最新技术,掌握多种工具并制作出最好看的图表,但如果你无法向客户解释你的分析结果,你不会成为一个出色的数据科学家。

如何避免这个问题?

目前大多数数据科学家来自计算机科学背景,所以我理解这可能是一项令人生畏的技能。但要成为一名成功的数据科学家并取得职业提升,你别无选择,只能磨练自己的个性。

我认为最有用的一点是向非技术人员解释数据科学术语,它可以帮助我衡量我对问题阐述的清晰度。如果你在中小型公司工作,请在营销或销售部门找一个人并与他们一起做这个练习。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、Presto、Iceberg、Elasticsearch、StarRocks 等,以快速构建企业级数据湖仓。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档