作为一名数据科学家Python需要掌握到什么程度?

之前一直用R,最近正在学python,因为没有什么工作经验,也只能谈谈自己的感悟。

数据科学家算是统计师和程序员的结合体,来源也主要是这两个专业的毕业生。不过这两个群体的思维方式还真的是不一样。可以认为,统计的人更加偏爱R,程序员更偏爱python。

其实python有了pandas才能使数据分析变的像R那样简单。数据科学家能把python用的像R一样我觉得就好了。不过如果除了数据分析,公司要求代码的重用性,或者直接嵌入到产品中(比如网站推荐系统),那么对编程的要求就更高了。

其实数据科学家在做数据分析的时候,起码80%的时间是在做数据整理和清洗,同意 @唐学伟说的熟练使用pandas就好,这意味着能熟练的清理掉不必要数据,读取主要的数据格式文件,数据的合并汇总归类和切片等等。数据整理好比学编程要最起码能控制if-else和for循环,命令简单但是实用。

数据整理好了,对于各种算法包里的函数,其实就是input output的问题了。

另外一个常用的就是数据可视化也就是绘图了(目前主要是matplotlib)。这个步骤对于input的数据就是数据探索化的过程,查看数据是否有不合理性,数据的分布等等,对于output的数据就是结果呈现的过程,这样更有助于分析。

总而言之,数据科学家熟悉python的基本语法,熟练pandas(基于numpy),能利用python熟练的获取数据,整理数据,并会使用matplotlib展现数据是一个基本的要求。对于要做科学计算或者机器学习来说,数据整理好了,编程不是问题,数学才是。

说到这里看工作需求了,如果你所在的部门/实验室都用R/SAS/java/c++之类的,会用py进行预处理基本就可以了;如果主要用py来进行挖掘,需要掌握的就多一些,比如:numpy/scipy/mattplotlib/ipython/scikit-learn等。

DS需要统计+计算机。数据科学家这么高端的名词,不是只拿工具做上层的应用

业务分析做的好,这样只能说是好的分析师,程序编的溜,才可以说是好的工程师。

(Via:知乎问答)

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-05-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

机器学昨天,我们介绍了专知的核心结构-《主题知识树》。 我们基于网络采集聚合抽取、众包机制贡献、先验知识融合的三种知识来源方式进行融合并专家审核构建完成人工智能...

3354
来自专栏陈树义

浅谈重构中踩过的坑

? 最近重构了公司一个将近10年的核心功能模块,踩了不少坑。在做这个重构的时候好几次都觉得做不下去,好几次压力都非常大,心想着我该不会做着做着就退出编程届了吧...

3237
来自专栏斑斓

【敏捷实践】推行TDD的思考

目前来看,推行TDD的障碍大约有如下几点: 开发人员的质量意识; 分析需求并进行任务分解的能力; 将测试作为开发起点的开发习惯; 开发人员的重构能力,包括如何识...

2796
来自专栏Cloud Native - 产品级敏捷

敏捷开发下的软件架构设计与持续优化

过往的软件开发, 往往都是由架构师将他对产品的理解,利用 UML 来体现软件的架构设计。 这种方式的问题是:因缺乏使用者与团队成员间的互动参与,使得对外并未能完...

1859
来自专栏BestSDK

30年经久不衰,为你揭开身份证、银行卡、便利贴等卡片式设计的秘密

什么是卡片式设计 我们在各个APP中常常见到的那些承载着图片、文字等内容的矩形区块就是我们所说的卡片,它们作为不同类型内容的入口而存在,当你点击它的时候能够看到...

2714
来自专栏软件测试经验与教训

关于测试用例的几个观点

3448
来自专栏大数据文摘

王昊奋:大规模知识图谱技术

3075
来自专栏AI科技评论

学界 | 继佩奇和布林的开山论文之后,谷歌团队又有哪篇经典入了WWW大会的法眼?

2017 年的The Seoul Test-of-Time Award 颁给了《Graph Structure in the Web》,这可谓是实至名归。 AI...

2525
来自专栏九彩拼盘的叨叨叨

多和好该如何选择?

这样看似乎各有优势。但在在这个信息爆炸的时代,越多,意味着越难真正想找的,意味更多的时间在查找上,也意味着负担。多,往往也容易杂乱。

762
来自专栏无原型不设计

为什么我越来越喜欢画低保真原型?

身在这个行业已经三年了,接触了不少的产品经理。最近公司新招了几个产品经理,非常喜欢用高保真原型来讨论方案。刚进公司,他们就励志要好好学习画原型,但是每次谈论完...

2774

扫描关注云+社区