机器学习巅峰之战,python最火,R最具潜力

关于哪种语言更适合数据科学的问题有一个非常热门的争论:R还是Python。答案是两个。人们经常比较R和Python的特性而感到困惑,但我们需要明白,单靠功能本身并不能定义任何语言的适用性。R和Python都有适合数据科学和分析应用程序的特定功能。在某些情况下,一种语言比另一种更优先,但这并不意味着其他语言是无用的。

数据平台 Kaggle 近日发布了 2017 机器学习及数据科学调查报告,这也是 Kaggle 首次进行全行业调查。调查共收到超过 16000 份回复,受访内容包括最受欢迎的编程语言、不同国家数据科学家的平均年龄、不同国家的平均年薪等。

下面主要看看工具使用方面的结果。请注意,该报告包含多个国家的数据,可能存在收集不够全面的情况,仅供参考。

年龄

从全球范围来看,本次调查对象的平均年龄在 30 岁左右。当然,各个国家的数值会有差异,中国的机器学习从业者年龄的中位数是 25 岁。

全球全职工作者为 65.7% ,其中中国为 53.% ,美国占比较高,达 70.9% 。

在工具语言使用方面,Python是数据科学家使用最多的语言。同时,统计学家对 R 语言的忠诚度很高。

R和Python都有很多优点。这两种语言的最大优点之一就是它们的图形可视化系统。R支持许多专业级可视化软件包,如googleVis,ggvis和rCharts。这些软件包可以定制,以完善统计数据的图形表示。Python也有许多强大的可视化库,如Pygal,Seaborn和Bokeh。

让R如此有用的东西就是它的生态系统。这两种语言都有一个活跃的社区,总是乐于帮助,而且这两种语言都在不断更新,以适应新的特性和技术。这些语言是非常容易学习的多用途工具。

有趣的是,只使用 Python 或只使用 R 的都觉得他们做出了正确的选择。 但是,如果你去询问那些既使用 Python 也使用 R 的人,推荐使用 Python 的可能会是 R 的两倍。

在机器学习和数据分析中的python

相较于 R ,Python 的语法结构与其他编程语言更加类似,便于上手。此外,就像是口头语一样, Python 代码的可读性也是无人能及的。这种代码的可读性更加强调提高生产力,而 R 非标准的代码可能会导致在编程进程中的磕绊。

Python 是一种很灵活的编程语言,所以如果你打算把已经完成的机器学习或者数据分析的项目移植到其他领域,那么使用 Python 可以使你不必再去学习新的编程语言。

Python 的灵活性也使得它非常适用于生产。举个例子,当数据分析的任务需要与 Web 应用程序相整合的时候,你仍然可以使用 Python 且不需要和其他编程语言相整合。而虽然 R 是一个很好的数据分析的工具,但它在数据分析之外的领域却有所限制。

如果你刚入门编程,对那些 “标准化” 的语法并不熟悉,那么无论哪种编程语言的学习曲线对你而言都差不多。但要是你希望跨过机器学习和数据分析的门槛,Python 可能是更好的选择。特别是 Python 有 scikit-learn 库的加持。这个库表现良好且更新频繁。 R 可能有很多包,但显得有些凌乱且一致性较差。

我搜索了“机器学习”和“数据科学”结合使用的技能,其中显著的是编程语言 Java、C、C++以及 Java。我还加入了 Python 和 R,因为我知道这两者是机器学习和数据科学的流行语言,以及 Scala,考虑到它与 Spark 的联系,以及 Julia,有人认为它是下一个热门语言。结果如下:

只关注机器学习的情况下,得到类似的数据:

从数据上看,Python 显然人气最高,其次是 Java,然后是 R,然后是 C++。Python 在今年开始超过 Java,并且人气仍在快速升高,而 Java 和 R 之间的差距在减小。我必须承认,看到 Java 位于第二位我其实相当惊讶,希望 R 取代它升上第二位。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171225A0EGEO00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区