作者BrianRay对于想入门数据科学的新手来说,选择学Python还是R语言是一个难题,本文对两种语言进行了比较,希望能帮助你做出选择。我是德勤的数据科学家主管,多年来我一直在使用Python和R语言,并且与Python社区密切合作了15年。本文是我对这两种语言的一些个人看法。第三种选择
针对这个问题,Studio的首席数据科学家HtleyWickham认为,比起在二者中选其一,更好的选择是让两种语言合作。因此,这也是我提到的第三种选择,我在文本最后部分会探讨。如何比较R和Python对于这两种语言,有以下几点值得进行比较:·历史:R和Python的发展历史明显不同,同时有交错的部分。·用户群体:包含许多复杂的社会学人类学因素。·性能:详细比较以及为何难以比较。
只有50%的Python用户在同时使用R。假设使用R语言的程序员都用R进行相关“科学和数字”研究。可以确定无论程序员的水平如何,这种统计分布都是真实。这里回到第二个问题,有哪些用户群体。整个科学和数字社区包含几个子群体,当中存在一些重叠。
在大多数任务中Python运行速度更快。可以看到,Python+Pandas比原生的R语言DataFrames更快。注意,这并不意味着Python运行更快,Pandas是基于Numpy用C语言编写的。可视化
这里将ggplot2与matplotlib进行比较。matplotlib是由JohnD.Hunter编写的,他是我在Python社区中最敬重的人之一,他也是教会我使用Python的人。Matplotlib虽然不易学习但能进行定制和扩展。ggplot难以进行定制,有些人认为它更难学。如果你喜欢漂亮的图表,而且无需自定义,那么R是不错的选择。
之后可以传递pandas的数据框,接着通过rpy2自动转换为R的数据框,并用“-idf”转换:
来源:预测Kaggle上有人对开发者使用R还是Python写了一个Kernel。他根据数据发现以下有趣的结果:
领取专属 10元无门槛券
私享最新 技术干货