原文标题:15 Trending Data Science GitHub Repositories you can not miss in 2017
作者:SUNIL RAY
翻译:杨金鸿
校对:闵黎
本文长度为3400字,建议阅读5分钟
本文为你分享2017年最热门的GitHub项目列表。
简介
GitHub最初的只是一个控制软件版本的工具,如今已经发展成为由来自不同背景的GitHub使用者共享他们自己开发的工具/库,甚至是有用代码库。
GitHub是一座蕴藏了丰富资源的知识宝库,您不仅可以看到最优秀的开源贡献项目,还可以看到这些项目的代码是如何编写和实现的。作为一名狂热的数据科学爱好者,我在2017年末我整理了一份最热门的GitHub项目列表。快来享受和坚持学习吧!
目录
一、学习资源库
1.强大的数据科学
2.机器学习/深度学习手册
3. 牛津深度自然语言处理课程讲座
4. PyTorch——教程
5. NIPS 2017资源
二、开源软件
1. TensorFlow
2. TuriCreate-一个简化的机器学习库
3. OpenPose
4. DeepSpeech
5. 移动深度学习
6. Visdom
7. 深度照片类型转换
8. CycleGAN
9.Seq2seq
10.Pix2code
一、学习资源库
1. 强大的科学数据科学
GitHub库是数据科学首选的终极资源指南。多年来,它是建立在多个不同的开源的资源项目基础之上,这些资源包括从入门指南、信息图表到人们的社交资源网站如:twitter、facebook、Instagram等。不管你是新手还是老手,这里都有大量的项目资源等待着你学习。
从GitHub库的目录结构中可以看出,所有的Github库都是与各种资源库的深度集合。
Github库的连接地址:
https://github.com/bulutyazilim/awesome-datascience
2. 机器学习/深度学习参考指南
这个资源库把常用的工具和技术以参考指南的形式组织起来。这些参考指南内容从非常简单的工具(如pandas)到非常复杂的技术(如深度学习)应有尽有。当你提供了一颗星星或分支一个资源库之后,就不再需要通过谷歌浏览器来搜索常用的提示和小技巧。
让我们来看一看有哪些不同类型的参考指南,例如pandas, numpy, scikit learn, matplotlib, ggplot, dplyr, tidyr, pySpark 和神经网络等。
这些参考指南资料的链接地址:
https://github.com/kailashahirwar/cheatsheets-ai
3. 牛津大学深度自然语言处理课程
斯坦福大学的NLP课程一直是人们想要进入自然语言处理领域的黄金课程。但是随着深度学习的出现,NLP已经取得了巨大的进步,这一切都要归功于像RNN和LSTMs这样的深度学习架构。
基于牛津大学NLP课程的资源库把NLP的学习带向了新的高度。这些课程涵盖了与实践操作相关的技术和术语,例如使用RNNs进行语言建模,语音识别,语音合成文本等。这个资源库是牛津课程所有教材的一站式存储,为实践操作提供了必备的资料。
这个库的链接地址:
https://github.com/oxford-cs-deepnlp-2017/lectures
4. PyTorch——教程
到目前为止,PyTorch是Tensorflow唯一的竞争对手。PyTorch的Python化的编码风格、动态计算和快速的原型设计赢得了盛赞,因此获得了深度学习社区的高度关注。
这个资源库包含了用于深度学习的工作代码,例如在PyTorch中创建一个神经网络这样的基本任务,以及编写RNN、GANs和神经风格迁移算法的代码。大多数模型的功能实现只需要30行代码。这说明PyTorch所提供的抽象化功能,使研究人员能够集中精力快速寻找正确的模型,而不是纠缠于编程语言或工具选择这些细节的问题。
PyTorch库的链接地址:
https://github.com/yunjey/pytorch-tutorial
5. NIPS 2017资源
这个资源库提供了NIPS 2017大会的资源列表,包括了所有邀请的会谈、教程讲座和研讨会上的资料和幻灯片。NIPS (Neural Information Processing Systems), 是专门为机器学习和计算神经科学领域举办的年度顶级国际会议。
在过去几年中,在数据科学行业中发生的大多数突破性研究成果都是在这个会议上提出的。如果你想立于数据科学的潮头,那么这里是你获得正确资源的源头。
二、开源软件
1. TensorFlow
TensorFlow正式发布已经有2年了,但它一直保持着顶尖的机器学习/深度学习库的地位。Google大脑和TensorFlow开发的社区一直在积极地作出贡献,并保持与最新的技术发展同步,特别是在深度学习领域。
TensorFlow最初是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。但是从TensorFlow的发展现状看,可以说它是一个构建深度学习模型的完整资源库。虽然TensorFlow主要支持Python,但它也支持C、C++、Java等语言,最要的是它可以在移动平台上运行。
TensorFlow的链接地址:
https://github.com/tensorflow/tensorflow
2. TuriCreate-一个简化的机器学习库
最近最热的话题是苹果公司的开源贡献项目TuriCreate。它简化了机器学习模型的创建和部署,可用于复杂的任务,如对象检测、活动分类和推荐系统。
作为一名数据科学爱好者,我记得Turi创建了GraphLab——一个神奇的机器学习库,因而被苹果公司收购。数据科学行业的每个人都在期待这种爆炸性的事情发生。
TuriCreate是专门为Python的使用者开发的。它提供的最好的功能之一是可以轻松地将机器学习模型部署到Core ML(苹果公司的另一个开源软件)中,使用在iOS、macOS、watchOS和tvOS的应用程序中。
TuriCreate的链接地址:
https://github.com/apple/turicreate
3. OpenPose
OpenPose是一个多目标人体关键点检测库,它可以帮助你实时检测图像或视频中人的位置。OpenPose由CMU的感知计算实验室开发,下面这个例子很好地说明了开源的研究项目也可以很容易被工业界接受。
领取专属 10元无门槛券
私享最新 技术干货