首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GitHub 2018 年最热门的机器学习语言、项目、软件包

在2018年的 GitHub Octoverse报告中,机器学习和数据科学是GitHub上的两大热门话题。Tensorflow是贡献者最多的项目之一,Pytorch是增长速度最快的项目之一,Python是GitHub上人气第三旺的语言。

2018年1月1日至2018年12月31日之间贡献方面的数据。贡献包括推送代码、打开问题单或合并请求、评论问题单或拉取请求,或者审核合并请求。对于大多数导入的软件包而言,我们使用来自依赖项关系图(dependency graph)的数据,这包括选择加入依赖项关系图的所有公共代码库和任何私有代码库。

2018年GitHub上热门的机器学习语言:

GitHub分析了标有“机器学习”主题的代码库的贡献者,对代码库最常见的主要语言进行了排名。Python是机器学习代码库中最常见的语言,也是GitHub上总体第三常见的语言。然而,并非所有机器学习都使用Python:GitHub上一些最常见的语言也是机器学习项目的常见语言。C++、JavaScript、Java、C#、Shell和TypeScript都跻身于GitHub上的十大语言和机器学习项目十大语言。 Julia、R和Scala都跻身于机器学习项目的十大语言,但未跻身于GitHub整体的十大语言。Julia和R都是数据科学家常用的语言;处理Apache Spark之类的大数据系统时,Scala变得越来越常见。

流行的机器学习和数据科学软件包

根据 GitHub来自依赖项关系图的数据,计算带有导入流行Python软件包的机器学习或数据科学主题的项目所占的百分比。上图显示了这些项目导入的十大软件包。

Numpy是一个支持多维数据数学运算的软件包,是导入最多的软件包,用于近四分之三的机器学习和数据科学项目。

Scipy这个科学计算软件包、pandas这个管理数据集的软件包和matplotlib这个可视化库都用于40%以上的机器学习和数据科学项目。

Scikit-learn是一种流行的机器学习软件包,实现了大量的机器学习算法,它被近40%的项目所使用。

Tensorflow是一种用于处理神经网络的软件包,用于近四分之一的软件包。

前十名的其余部分是实用程序软件包:six是一种Python 2和3兼容库,python-dateutil和pytz是用于处理日期的软件包。

GitHub上热门的机器学习项目

GitHub还研究了2018年哪些带有“机器学习”标签的开源项目的贡献者最多。Tensorflow无疑是是人气最旺的项目,贡献者数量比人气第二旺的项目scikit-learn多出五倍不止。explosion/spaCy和RasaHQ/rasa_nlu这两个项目专注于自然语言处理问题。另外四个项目:CMU-Perceptual-Computing-Lab/openpose、thtrieu/darkflow、ageitgey/face_recognition和tesseract-ocr/tesseract专注于图像处理。Julia语言源代码还是2018年贡献给项目最多的源代码之一。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190126A0HMRV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券