数据科学入门 选Python还是R

作者BrianRay对于想入门数据科学的新手来说,选择学Python还是R语言是一个难题,本文对两种语言进行了比较,希望能帮助你做出选择。我是德勤的数据科学家主管,多年来我一直在使用Python和R语言,并且与Python社区密切合作了15年。本文是我对这两种语言的一些个人看法。第三种选择

针对这个问题,Studio的首席数据科学家HtleyWickham认为,比起在二者中选其一,更好的选择是让两种语言合作。因此,这也是我提到的第三种选择,我在文本最后部分会探讨。如何比较R和Python对于这两种语言,有以下几点值得进行比较:·历史:R和Python的发展历史明显不同,同时有交错的部分。·用户群体:包含许多复杂的社会学人类学因素。·性能:详细比较以及为何难以比较。

只有50%的Python用户在同时使用R。假设使用R语言的程序员都用R进行相关“科学和数字”研究。可以确定无论程序员的水平如何,这种统计分布都是真实。这里回到第二个问题,有哪些用户群体。整个科学和数字社区包含几个子群体,当中存在一些重叠。

在大多数任务中Python运行速度更快。可以看到,Python+Pandas比原生的R语言DataFrames更快。注意,这并不意味着Python运行更快,Pandas是基于Numpy用C语言编写的。可视化

这里将ggplot2与matplotlib进行比较。matplotlib是由JohnD.Hunter编写的,他是我在Python社区中最敬重的人之一,他也是教会我使用Python的人。Matplotlib虽然不易学习但能进行定制和扩展。ggplot难以进行定制,有些人认为它更难学。如果你喜欢漂亮的图表,而且无需自定义,那么R是不错的选择。

之后可以传递pandas的数据框,接着通过rpy2自动转换为R的数据框,并用“-idf”转换:

来源:预测Kaggle上有人对开发者使用R还是Python写了一个Kernel。他根据数据发现以下有趣的结果:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180710A03VF400?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券