每个数据科学家都应该学习4个必备技能

摘要: 作为一个数据科学家你必须要掌握的四个必备技能,值得每个想要成为数据科学家和已经成为数据科学家的人去学习。

这篇文章对应之前发表过的一篇关于如何成长为一名具备其他技能的高级数据科学家的文章。希望通过高级数据科学家在业务经理和技术数据科学家之间搭起一座沟通的桥梁,以保证随着新技术的不断发展,技术与业务之间的沟通顺畅。

如图,IT知识和商业知识有着知识鸿沟

随着科学技术的不断发展,数据科学家们也在不断的成长,在他们成长过程中他们需要更多的关注设计决策和与管理层的沟通。于是,有经验的数据科学家可以帮助年轻的数据科学家,可以利用自己的经验帮助决定最合适的设计决策,能够更好地为自己和公司带来好处。而作为数据科学家在成长的过程中,需要掌握以下4个技能。

1.能够简化复杂的东西

数据科学家倾向于使用每个问题和每个解决方案中所知的每种技术和算法。反过来,这又会造成难以维护的复杂系统。数据科学确实需要复杂和抽象的建模以及大量复杂的技术(从Hadoop到Tensorflow)。由于这个领域周围的复杂性,这使得开发系统和算法也很复杂。但是,像大多数其他涉及工程设计的领域,综合考虑,减少其自身的复杂性往往效果更好。

埃尔温·薛定谔(ErwinSchrÖdinger)和阿尔伯特·爱因斯坦(Albert Einstein)可以帮助我们理解数学和物理学领域的复杂性。

工程师的角色是简化任务。如果你 曾经建造或看过Rube Goldberg机器,你 将会理解什么是过度设计一项简单任务。制造更简单的系统意味着系统将随着时间的推移变得更容易维护,并为未来的数据科学家提供需要添加和移除模块的空间。

简单的算法和系统也允许更容易的加法和减法。因此,随着技术的变化和更新需要或模块需要被取出。一个可怜的未来的数据科学家不会用你的代码来玩Jenga游戏(原因之一就是怕技术债务)。

2.指导如何在没有主键的情况下将数据网格化

厉害的数据专家应该提供的重要价值之一是将可能不具有主要或明显联系的数据集捆绑在一起。如果数据科学家有能力在这些数据中查找统计模式,那么他将有能力帮助决策者做出明智的选择。但是,这种能力是非常难得的。

与数据打过交道的人知道它们并不总是很好地集成在一个数据库中。财务数据通常与IT服务管理数据分开,外部数据源可能不具有相同的聚合级别。而有时候数据所存在的价值需要与其他部门和系统的数据一起才能显现,因此这成为了一个难题。

数据网格划分需要以相同的粒度级别构建块,可以用图中很多小拼图拼成了大拼图来对比想象。

例如,如果你提供医疗索赔,信用卡和社区犯罪率,并想弄清楚这些社会经济因素如何影响病人?一些数据集可能按人员级别,而另一些数据集可能在街道或城市级别,没有明确的方法来连接数据集。进行的最好的方式是什么?这成为一个必须记录和考虑的设计问题。

每种情况都有所不同,因为有多种方式来进行数据网格划分,这可能是基于地区、特点、消费习惯等。在这里经验就显得十分重要了,因为他们已经尝试了数百种不起作用的方法,一位经验丰富的数据科学家会拥有判断如何加入数据的直觉。

3.有选择优先项目的能力

作为一名数据科学家,你 必须知道如何解释可能不会实现的项目的投资回报率。这是关于能够拥有—清楚地说明价值以及优先考虑长期目标与短期目标的沟通能力。团队中总是有很多的项目和项目要求,使他们应接不暇。有经验的团队需要有成员带头帮助他们的经理人,去决定哪些项目是值得的。

在这种情况下,需要一个决策矩阵来帮助简化流程。

项目的经典决策矩阵之一是一个2*2的矩阵,即重要性和紧迫性。这个矩阵可以在大多数商业课程中找到,它非常简单。这就是为什么它是伟大的!

如果一切都是优先事项,那么什么都不是

许多其他公司都有这个问题,这就需要数据科学团队中经验丰富的成员清楚地说明现在应该完成哪些项目的原因。

4.能够开发健全的和最优的系统

制定在受控环境下运行的算法或模型是一回事。把一个强大的模型整合到一个现场处理大量数据的系统中是另外一回事。根据公司的不同,有时数据科学家只需要开发算法本身,然后开发人员或机器学习工程师将负责投入生产。

但是,对于小型公司或团队可能会让数据科学小组将代码投入生产。这意味着该算法需要能够以合理的速度管理数据流量。因此,良好的系统设计和优化是必要的。

数据科学是一个复杂的领域,需要了解数据,统计数据,编程和主题。为了发展,数据科学家需要能够将这些复杂的东西简化并提炼成算法。他们需要能够更多地关注设计决策。这有助于最大限度地发挥他们的知识和经验。

原文:https://medium.com/m/global-identity?redirectUrl=https://hackernoon.com/4-must-have-skills-every-data-scientist-should-learn-8ab3f23bc325?spm=5176.100239.blogcont351128.18.3d4f963TWs6m0

本文来自企鹅号 - AI讲堂媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

图灵奖得主 Joseph Sifakis : 物联网领域的自主系统设计 | CCF-GAIR 2018

AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了...

1202
来自专栏PPV课数据科学社区

编译 | 机器学习的趋势和人工智能的未来

数据飞轮,算法经济,和智能云托管的融合意味着每家公司现在可以是一个数据公司,每家公司现在可以访问算法智能,并且每一个应用程序可以是一个智能应用。 ? 每家公司现...

4499
来自专栏人工智能头条

百度沈国龙:BML百度大规模机器学习云平台实践

1888
来自专栏AI科技评论

AI NEXT | 微软首席 AI 科学家邓力:对话系统的分类与发展历程

AI科技评论按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届“A...

3837
来自专栏简书专栏

数据分析入门

用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并加以消化,以求最大化的开发数据功能,发挥数据的作用。数据分析可用于现状分析,原因分析,预测...

2032
来自专栏机器人网

一台电脑也可打造你所需要的人工智能大脑

当Google使用16000台机器建造了一个可以正确识别出YouTube视频中是否有猫的仿真“大脑”时,这就标志着人工智能(AI)技术迎来了一个转折点。这种新兴...

3387
来自专栏企鹅号快讯

AI与机器人有关部分的科技研究领域是什么?

理解自然语言 自然语言处理是人工智能早期研究领域之一。已经编写出能够从内部数据可问答用英语提出问题的程序,这些程序通过阅读文本材料和建立内部数据库,能够把句子从...

3855
来自专栏BestSDK

微信智能语音服务上线,集成语音识别、语音合成、声纹识别等功能

编辑导语 近日,腾讯云正式上线智能语音服务。智能语音是由腾讯微信AI团队自主研发的语音处理技术,可以满足语音识别、语音合成、声纹识别等需求。 这是继微信支付提速...

1K8
来自专栏PPV课数据科学社区

网络大数据的统计和分析利用

大数据给互联网带来的是空前的信息大爆炸,它不仅改变了互联网的数据应用模式,还将深深影响着人们的生产生活。深处在大数据时代中,人们认识到大数据已经将数据分析的认识...

2915
来自专栏镁客网

微软前副总裁谈人工智能:人类依然不可或缺

1445

扫码关注云+社区

领取腾讯云代金券