无冕王者NumPy:GitHub 2018 机器学习年度官方报告

选自 Github

作者:Thomas

参与:路、张倩

近日,GitHub 发布了 2018 年度机器学习和数据科学具体报告。报告显示,Python 是机器学习 repo 中最常用的语言,Numpy 是最流行的机器学习&数据科学包,最受欢迎项目的桂冠则毫无悬念地由 TensorFlow 摘取。

在 GitHub 的 2018 年度报告中,机器学习和数据科学是 GitHub 上的热门话题。TensorFlow 是贡献者最多的项目之一,PyTorch 是增长最快的项目之一,Python 是 GitHub 上第三流行的语言。

为了深入研究 GitHub 上的机器学习和数据科学现状,GitHub 发布了关于二者的具体报告,统计了 2018 年 1 月 1 日到 12 月 31 日的贡献数据,包括 push 代码、打开 issue 或 pull request、评论 issue 等。至于最流行的包,GitHub 使用了来自依赖图的数据,包括所有开放 repo 和依赖图中现有的私有 repo。

编程语言

GitHub 查看了「machine-learning」相关 repo 的贡献者,对这些 repo 最常用的语言进行了排序。Python 是机器学习 repo 中最常用的语言,也是 GitHub 平台上第三流行的语言。但是,并非所有机器学习 repo 都使用 Python:GitHub 上的一些常用语言也是机器学习项目的常用语言。C++、JavaScript、Java、C#、Shell 和 TypeScript 都在 GitHub 常用语言前十名中,同时也是机器学习项目常用语言前十名。Julia、R 和 Scala 仅为机器学习项目前十,但在 GitHub 平台的使用率并没有那么高。Julia 和 R 是数据科学家常用的语言,Scala 在和大数据系统(如 Apache Spark)互动时的使用率逐渐提高。

流行的机器学习和数据科学包

GitHub 从依赖图中抓取数据,计算机器学习或数据科学项目导入不同流行 Python 包的比例。上述列表展示了这些项目导入包的 top 10。从中,我们可以看到:

  • 支持在多维数据上的数学运算的 Numpy 包是最常导入的包,几乎 1/3 的机器学习和数据科学项目使用了 Numpy 包。
  • 用于科学计算的 Scipy 包、用于管理数据集的 pandas、可视化库 matplotlib 在机器学习和数据科学项目中的使用率均超过 40%。
  • Scikit-learn 是流行的机器学习包,包含大量机器学习算法的实现,几乎 40% 的机器学习和数据科学项目使用该包。
  • 接近 1/4 的机器学习和数据科学项目使用用于处理神经网络的 tensorflow 包。

前十名中的其余各包是实用程序包:six 是 Python 2 和 3 兼容库,python-dateutil 和 pytz 是处理日期的包。

最受欢迎的机器学习项目

GitHub 还查看了 2018 年「机器学习」标签下贡献者最多的开源项目。tensorflow 是目前最受欢迎的项目,贡献者人数是第二名 scikit-learn 的 5 倍。前十名中的 explosion/spaCy 和 RasaHQ/rasa_nlu 项目聚焦于自然语言处理问题,CMU-Perceptual-Computing-Lab/openpose、thtrieu/darkflow、ageitgey/face_recognition 和 tesseract-ocr/tesseract 聚焦于图像处理问题。Julia 语言源代码也是 2018 年贡献者最多的项目之一。

原文链接:https://github.blog/2019-01-24-the-state-of-the-octoverse-machine-learning/

本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏wfaceboss

Python 小知识点(7)--类的创建方式

(1)f对象是Foo类的一个实例,Foo类对象是 type 类的一个实例,即:Foo类对象 是通过type类的构造方法创建。 (2)type的起源是pyth...

8830
来自专栏wfaceboss

Python 小知识点(10)--异常结构记录

7730
来自专栏wfaceboss

Python 小知识点(8)-- __new__

对比上述两种结果:可以得出__new__是用来实例化,在__new__中调用了__init__,简而言之,在实例化是是__new__触发了__init__方法。...

7630
来自专栏Python爬虫与数据挖掘

盘点几个在手机上可以用来学习编程的软件

前天在悟空问答的时候,很荣幸被邀请参加回答“在手机上可以用来学习编程的软件有哪些?”这个问题,当时在回答的首页看到一个头条大微(小小猿爱嘻嘻)的回答,觉得十分受...

38140
来自专栏小美娜娜

迭代器,生成器(generator)和Promise的“微妙”关系

本文主要讲述(iterator)和生成器*/yield之间的联系和各自的用法,以及生成器的高配版本async/await的使用。

8440
来自专栏用户2119464的专栏

爬虫入门篇(上手即用)

若有些网址设有反爬机制,请求若没有headers就会报错。 可以通过chrome浏览器的F12-network查看request的headers,将该网页的h...

15140
来自专栏wfaceboss

Python小知识点(4)--模块相关

定义:用来从逻辑上组织python代码(变量,函数,类,逻辑:实现一个功能),本质就是以.py结尾的python文件(文件名:test.py,对应的模块名:te...

9430
来自专栏ai_houzi

go语言基础1-变量

// 前变量后类型 var a string //值为“” var b int //值为0 var a string = "123" //直接定义,...

7630
来自专栏wfaceboss

Python小知识点(5)--面向对象部分

世间万物,皆可分类。--------------------手机《--------------某一个分类

7240
来自专栏CNN

Windows中Python与OpenCV C++之间Mat传递

将stdafx.h、targetver.h、dllmain.cpp、MyDLL.cpp、stdafxc.pp删除。

28570

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励