作为一名数据科学家Python需要掌握到什么程度?

之前一直用R,最近正在学python,因为没有什么工作经验,也只能谈谈自己的感悟。

数据科学家算是统计师和程序员的结合体,来源也主要是这两个专业的毕业生。不过这两个群体的思维方式还真的是不一样。可以认为,统计的人更加偏爱R,程序员更偏爱python。

其实python有了pandas才能使数据分析变的像R那样简单。数据科学家能把python用的像R一样我觉得就好了。不过如果除了数据分析,公司要求代码的重用性,或者直接嵌入到产品中(比如网站推荐系统),那么对编程的要求就更高了。

其实数据科学家在做数据分析的时候,起码80%的时间是在做数据整理和清洗,同意 @唐学伟说的熟练使用pandas就好,这意味着能熟练的清理掉不必要数据,读取主要的数据格式文件,数据的合并汇总归类和切片等等。数据整理好比学编程要最起码能控制if-else和for循环,命令简单但是实用。

数据整理好了,对于各种算法包里的函数,其实就是input output的问题了。

另外一个常用的就是数据可视化也就是绘图了(目前主要是matplotlib)。这个步骤对于input的数据就是数据探索化的过程,查看数据是否有不合理性,数据的分布等等,对于output的数据就是结果呈现的过程,这样更有助于分析。

总而言之,数据科学家熟悉python的基本语法,熟练pandas(基于numpy),能利用python熟练的获取数据,整理数据,并会使用matplotlib展现数据是一个基本的要求。对于要做科学计算或者机器学习来说,数据整理好了,编程不是问题,数学才是。

说到这里看工作需求了,如果你所在的部门/实验室都用R/SAS/java/c++之类的,会用py进行预处理基本就可以了;如果主要用py来进行挖掘,需要掌握的就多一些,比如:numpy/scipy/mattplotlib/ipython/scikit-learn等。

DS需要统计+计算机。数据科学家这么高端的名词,不是只拿工具做上层的应用

业务分析做的好,这样只能说是好的分析师,程序编的溜,才可以说是好的工程师。

(Via:知乎问答)

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-05-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

揭秘47万微信群和2亿微信用户背后的数字规律

微信群已经进入到我们的日常生活中,成为社交关系的主要纽带。但微信群有自己的规律,长期群能存活很长的时间,临时群则转瞬即逝。来自清华大学、康奈尔大学、腾讯公司和香...

351
来自专栏灯塔大数据

【揭秘】47万微信群和2亿微信用户背后的数字规律

导读 这是一篇来自清华大学、康奈尔大学、腾讯公司和香港科技大学的研究人员采用“机器学习算法”,分析了47万+微信群、2亿+微信用户、6亿+好友关系和200万+邀...

2834
来自专栏VRPinea

仅供娱乐,iPad上线可预测死亡时间的AR应用

2716
来自专栏木东居士的专栏

你了解你的数据吗(开篇):总览

2124
来自专栏大数据挖掘DT机器学习

Python、 R 语言、SAS、SPSS 的优缺点比较

(致各位挚爱的数粉,因近期小编忙于处理其他急事,未能及时回复给大家资料链接,且微信公众号目前已经限制必须在48小时内回复,否则公众号后台消息发不出去,导致现在仍...

4139
来自专栏机器之心

赛灵思推出reVISION堆栈,进军广泛的视觉导向机器学习领域

机器之心原创 作者:高静宜 2017 年 3 月 13 日,通过名为 reVISION™的堆栈,All programmable 技术和器件公司赛灵思(Xili...

3569
来自专栏腾讯游戏云的专栏

如何做好游戏内实时语音体验

本文即针对移动游戏环境下实时语音所面对的挑战,介绍一些语音预处理、流媒体协议等通用的解决方案。

3.9K41
来自专栏人工智能快报

DeepMind开源面向对象的神经网络库Sonnet

信息技术新闻网站techcrunch发布消息称,谷歌旗下的DeepMind科技公司公开了Sonnet的源代码,使得人们可以更快地在人工智能系统TensorFlo...

3286
来自专栏新智元

【独家揭秘】机器学习分析 47 万微信群,发现 9 大规律

【新智元导读】微信群已经进入到我们的日常生活中,成为社交关系的主要纽带。但微信群有自己的规律,长期群能存活很长的时间,临时群则转瞬即逝。来自清华大学、康奈尔大学...

3696
来自专栏企鹅号快讯

你了解你的数据吗

0x00 前言 你了解你的数据吗? 前几天突然来了点灵感,想梳理一下自己对数据的理解,因此便有了这篇博客或者说这系列博客来聊聊数据。 数据从业者有很多,比如说数...

20910

扫码关注云+社区