作为一名数据科学家Python需要掌握到什么程度?

之前一直用R,最近正在学python,因为没有什么工作经验,也只能谈谈自己的感悟。

数据科学家算是统计师和程序员的结合体,来源也主要是这两个专业的毕业生。不过这两个群体的思维方式还真的是不一样。可以认为,统计的人更加偏爱R,程序员更偏爱python。

其实python有了pandas才能使数据分析变的像R那样简单。数据科学家能把python用的像R一样我觉得就好了。不过如果除了数据分析,公司要求代码的重用性,或者直接嵌入到产品中(比如网站推荐系统),那么对编程的要求就更高了。

其实数据科学家在做数据分析的时候,起码80%的时间是在做数据整理和清洗,同意 @唐学伟说的熟练使用pandas就好,这意味着能熟练的清理掉不必要数据,读取主要的数据格式文件,数据的合并汇总归类和切片等等。数据整理好比学编程要最起码能控制if-else和for循环,命令简单但是实用。

数据整理好了,对于各种算法包里的函数,其实就是input output的问题了。

另外一个常用的就是数据可视化也就是绘图了(目前主要是matplotlib)。这个步骤对于input的数据就是数据探索化的过程,查看数据是否有不合理性,数据的分布等等,对于output的数据就是结果呈现的过程,这样更有助于分析。

总而言之,数据科学家熟悉python的基本语法,熟练pandas(基于numpy),能利用python熟练的获取数据,整理数据,并会使用matplotlib展现数据是一个基本的要求。对于要做科学计算或者机器学习来说,数据整理好了,编程不是问题,数学才是。

说到这里看工作需求了,如果你所在的部门/实验室都用R/SAS/java/c++之类的,会用py进行预处理基本就可以了;如果主要用py来进行挖掘,需要掌握的就多一些,比如:numpy/scipy/mattplotlib/ipython/scikit-learn等。

DS需要统计+计算机。数据科学家这么高端的名词,不是只拿工具做上层的应用

业务分析做的好,这样只能说是好的分析师,程序编的溜,才可以说是好的工程师。

(Via:知乎问答)

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-05-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

谷歌Edge TPU专用芯片横空出世!抢攻IoT欲一统物联网江湖

【新智元导读】谷歌今天宣布推出用于边缘计算的Edge TPU,作为Cloud TPU的补充,目前Edge TPU仅用于推理,专为在边缘运行TensorFlow ...

742
来自专栏西安软件开发

大数据应用技术学习不应做盲人摸象,闭门造车的实验室派

随着科技的高速发展,数据在人类生活和决策中所占的比重越来越大,大数据的兴起只是说明了一种现象,面对如此广度和深度的大数据技术栈和工具集,如何学习和掌握好大数据分...

764
来自专栏灯塔大数据

当HR遇上大数据,我们看看腾讯是如何做的?

? 搜索一下“HR+大数据”,可以轻松得到几百万条记录,可见大数据在HR领域并不是一个陌生的话题,遗憾的是,热度有余而深度不足。北大光华的穆胜博士在其写的《大...

3215
来自专栏ATYUN订阅号

深度学习算法可以去掉视频的缓冲轮,观看速度将变得更加流畅

当你在看视频的时候,不断地缓冲提示是不是让你感到很烦躁?麻省理工学院的研究人员正在用基于人工智能的流媒体算法开辟新的领域,这些算法可能会导致缓冲轮消失,让我们大...

3015
来自专栏企鹅号快讯

新手程序员想要成功需要做的事情

1、解决你自己的问题 从外面获取答案和自己解决问题、找到答案,这两种方式是有区别的。 当你自己解决一个问题时,你不仅解决了这一个问题,也意味着解决了跟它类似的数...

1858
来自专栏华章科技

从数据沉淀、数据挖掘和数据呈现这三个概念了解大数据

对于国内数据分析市场,我们感觉如下: 1. 市场巨大。 许多企业(无论是互联网的新锐还是传统的企业)都在讨论这个,也有实际的需求并愿意为此付钱,但是比较零碎尚不...

932
来自专栏灯塔大数据

数据思维丨关于数据驱动设计的6个误区

不少人喜欢谈做设计要让数据说话,但对于什么才是数据驱动的设计,往往莫衷一是。甚至在同一个团队中,由于收集的数据质量不一,理解上有差异或缺乏共同语言,单就是关于...

3495
来自专栏ATYUN订阅号

【业界】研究表明:人工智能是理解量子系统的关键

AiTechYun 编辑:nanan 当研究人员用量子计算机进行实验时,他们基本上是在黑暗中工作。我们目前的电脑速度太慢,无法验证任何超出最基本的量子实验的结果...

2555
来自专栏大数据挖掘DT机器学习

【方法】如何基于数据挖掘进行数据库营销

提起数据库营销可能还有许多人并不了解“他”,其实我们虽然不了解什么是数据库营销,但是数据库营销却时时刻刻在影响我们的生活,比如你每天E-mail可能会...

2654
来自专栏EAWorld

基于人工智能场景的移动平台工程化实践

持续关注我们公众号的人可能会留心到我们在移动平台和人工智能的结合上进行过多方面的尝试,也发布过两篇专题文章。分别是《智能化的Conversational UI是...

891

扫码关注云+社区