避免五大误区丨数据科学家新手进阶之路

作者 Jan Zawadzki

编译 Mika 本文为 CDA 数据分析师原创作品,转载需授权

你为成为数据科学家做好了充分的准备。你参加Kaggle比赛,看了大量的Coursera课程。你感觉已经准备好了,但数据科学家的实际工作将与你的预期大不相同。

本文探讨了数据科学家新手的5个常见误区。这是我在Sébastien Foucaud博士的帮助下一起总结的,他在学术界和行业领域指导年轻数据科学家有超过20年的经验。本文旨在帮助你更好地走向数据科学家进阶之路。

误区1 热衷参加Kaggle比赛

你通过参与Kaggle比赛练习了数据科学技能。如果你掌握决策树和神经网络那就更好了。但其实作为数据科学家,你不需要完成那么多模型融合。通常,你将花80%的时间进行数据预处理,剩下20%的时间用于构建模型。

参加Kaggle比赛的好处在于,给出的数据都很干净,从而你有更多的时间调整模型。但是在实际工作中很少出现这种情况,你需要使用不同的格式和命名方式来汇总不同来源的数据。

你需要做的是,熟练掌握你大部分时间将要做的事,即数据预处理。例如抓取图像或从API收集图像;从Genius收集歌词数据等。为解决特定问题准备所需的数据,然后将其输入到计算机中开始机器学习生命周期。精通数据预处理无疑将大大帮助你成为一名出色的数据科学家,从而让你在公司制定决策中起到关键作用。

误区2 神经网络能搞定一切

深度学习模型在计算机视觉和自然语言处理领域优于其他机器学习模型,但也有明显的缺点。

神经网络需要大量数据。如果样本较少,那么使用决策树或逻辑回归模型效果会更好。众所周知,神经网络难以说明和解释,因此也被称为”黑匣子“。当产品负责人或主管对模型输出产生质疑时,你需要进行解释,而传统的模型更容易解释。

有很多出色的统计学习模型,你需要了解其优缺点,并根据具体任务应用相关模型。除非是用于计算机视觉或自然语音识别等专业领域,否则传统的机器学习算法的成功率会更高。你很快就会发现,像逻辑回归等简单模型是最好的模型。

来源:来自scikit-learn.org的算法表

误区3 机器学习是产品

在过去十年里,机器学习大受吹捧,许多创业公司都认为机器学习能解决任何存在的问题。

来源:过去5年中机器学习的谷歌指数趋势

机器学习永远不应该是产品。机器学习是强大的工具,用于生产满足客户需求的产品。机器学习可以用于让客户收到精准的商品推荐;准确识别图像中的对象;帮助企业向用户展示有价值的广告。

作为数据科学家,你必须以满足客户需求为目标制定计划,在此基础上你才能充分利用机器学习。

误区4 混淆因果关系与相关性

大约90%的数据是在过去几年中产生的。随着大数据的出现,机器学习从业者能够获得大量数据。由于有大量的数据需要分析评估,学习模型也更容易发现随机的相关性。

来源:http://www.tylervigen.com/spurious-correlations

上图显示了美国小姐的年龄与蒸汽、热蒸汽和发热物体导致的谋杀总数。根据这些数据,算法会发现美国小姐的年龄与某些物体导致谋杀间的模式。然而,这些数据点实际上是无关的,并且这两个变量对其他变量没有任何预测作用。

当在数据中发现模式时,要应用你的专业知识。当中是相关性还是因果关系?回答这些问题是从数据中得出分析见解的关键。

误区5 优化错误的指标

开发机器学习模型遵循敏捷的生命周期。首先,你定义概念和关键指标。然后,将结果原型化。接着,不断进行改进直到指标令你满意。

在构建机器学习模型时,记得要进行手动错误分析。虽然这个过程繁琐且费时费力,但可以帮助你在迭代中有效地改进模型。

结语

年轻的数据科学家能为公司提供巨大价值。他们通常是自学成才,因为很少有大学设有数据科学学位。同时他们具有强烈的好奇心,并且对自己选择的领域充满热情,并渴望了解更多的知识。对于刚入行的数据科学家来说,一定要注意以上提到的误区。

注意以下几点:

· 练习数据管理

· 研究不同模型的优缺点

· 让模型尽可能简单

· 检查结论中的因果性和相关性

· 优化最有希望的指标

原文链接:

https://towardsdatascience.com/top-5-mistakes-of-greenhorn-data-scientists-90fa26201d51

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2018-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人称T客

第四次产业革命:始于人工智能 | 周末长文

T客汇官网:tikehui.com 撰文 | 徐婧欣 ? 「最近十年,我们一直在建立一个移动优先(mobile-first)的世界,而接下来的十年里,我们的将转...

3606
来自专栏ATYUN订阅号

Deepmind重大突破:训练AI学习人类大脑导航技巧

英国研究人员团队开发了一个人工智能项目,可以学习在迷宫里走捷径以实现目标。在这一过程中,程序开发出类似人脑的结构,学习导航技巧。

743
来自专栏PPV课数据科学社区

深度 | 地平线罗恒:应用深度学习的门槛是在降低吗?

导读: 地平线机器人资深算法研究员罗恒参加了钛坦白第33期,与百度资深工程师、Paddle API重构设计负责人于洋及第四范式联合创始人、首席研究科学家陈雨强一...

3216
来自专栏CDA数据分析师

入门 | 做数据科学如烤蛋糕?不服来看

面部识别、自动驾驶、机器人统治世界?!还有那个令人毛骨悚然的机器人女孩,索菲亚。emmm…还有黑镜?

982
来自专栏PPV课数据科学社区

AI时代就业指南:如何成为一名优秀的算法工程师?

1、算法工程师是做什么的? 广义上是指搞软件算法的,也就是开发和应用软件算法实现工业控制和程序处理。除了机器学习之外 还包括控制算法、图形算法等,狭义上现在谈算...

5418
来自专栏CSDN技术头条

AI 迟早灭了程序员

就目前的 AI 来看,判断某项工作是不是会被机器替代,有俩前提,大前提:可以获得足够的有效数据(能自动生成数据则无敌),也就是说机器有快速进化的基础;小前提:人...

1402
来自专栏数据科学与人工智能

【机器学习】理解深度学习 vs 机器学习 vs 模式识别

本文我们来关注下三个非常相关的概念(深度学习、机器学习和模式识别),以及他们与2015年最热门的科技主题(机器人和人工智能)的联系。 ? 图1 人...

2058
来自专栏人工智能快报

科学家研制出具有更好自学能力的计算机

物理研究门户网站phys.org发文称科学家开发出了一种基于神经启发的模拟计算机,它能够在执行任务时通过自我训练将自己变得更好。这个基于一种名为“储备池计算”的...

2786
来自专栏人工智能快报

脸书采用无监督机器学习提供翻译服务

由于缺少从一种语言到另一种语言的很多翻译示例——例如从英语到乌尔都语(Urdu),Facebook(脸书)公司已经开始使用无监督的机器学习来翻译其平台上的内容。

944
来自专栏人工智能头条

AI 迟早灭了程序员

就目前的 AI 来看,判断某项工作是不是会被机器替代,有俩前提,大前提:可以获得足够的有效数据(能自动生成数据则无敌),也就是说机器有快速进化的基础;小前提:人...

712

扫码关注云+社区

领取腾讯云代金券