GitHub上15 个优秀开源项目告诉你如何上手数据科学!

关键时刻,第一时间送达!

作为一名狂热的数据科学爱好者,本文作者整理了 2017 年 Github 上尤为实用的数据科学资源,希望和大家共同学习。

学习资源

Awesome Data Science

这个 GitHub 库是数据科学的终极资源指南。 多年来,它建立在各种各样的贡献之上,包括入门指南、信息图、以及人们在 Twitter,Facebook,Instagram 等社交网站上关注的学习内容。无论你是刚刚入门的新手还是经验丰富的数据科学家,都有很多资源可供参考学习。

目录如下:

项目地址:https://github.com/bulutyazilim/awesome-datascience

Machine Learning / Deep Learning Cheat Sheet

该项目以速查表形式介绍了机器学习/深度学习的常用工具和技术。本速查表手册的范围很广,从非常简单的工具到深度学习等技术。

不同类型的速查表有 Panda、Numpy、scikit、matplotlib、ggplot、dplyr、tidyr、pySpark 和神经网络。

项目地址:https://github.com/kailashahirwar/cheatsheets-ai

牛津大学自然语言处理高级课程

在自然语言处理(NLP)领域,斯坦福大学的研究一直是名列前茅。但是随着深度学习的到来,NLP 已经取得了巨大的进步,这都归功于 RNN 和 LSTMs 等深度学习体系结构的能力。

这个基于牛津大学 NLP 课程的资源库将 NLP 的教育提升到一个新的水平。本课程是一门实践性的课程,涵盖了诸如使用 RNNs 进行语言建模、语音识别、文本转语音等方面的技术。该存储库是为所有的牛津讲座提供的一站式服务,为实际应用提供授课材料。

项目地址:https://github.com/oxford-cs-deepnlp-2017/lecture

PyTorch – Tutorial

截至目前,PyTorch 是 TensorFlow 的唯一竞争对手,且在维护和声誉方面使其成为了颇具竞争力的深度学习框架。因为 Pythonic 风格编程、动态计算以及更快的原型开发,Pytorch 已经获得了深度学习社区的广泛关注。

该资源库包含了用于深度学习任务代码, 从基础地创建一个PyTorch 的神经网络到编码RNNs、GANs 和神经类型迁移。其中的大多数模型已经实现了 30 多行代码。这充分说明了 PyTorch 的抽象能力,以便研究人员可以专注于迅速找到正确的模型,而无需纠缠于编程语言和工具选择等细节。

项目地址:https://github.com/yunjey/pytorch-tutorial

Resources of NIPS 2017

该资源库是 NIPS 2017 年会议上的资源和所有受邀演讲、教程和研讨会的 PPT。

NIPS 是一年一度的机器学习和计算神经科学会议。

近几年来,数据科学领域内的突破性研究都曾作为研究结果出现在 NIPS 大会上。如果你想保持领先的地位,那么这个就是很好的学习资源!

项目地址:https://github.com/hindupuravinash/nips2017

开源软件库

TensorFlow

TensorFlow 发布已有 2 年的时间,它一直保持着机器学习和深度学习顶级库的地位。Google Brain 和 TensorFlow 社区一直在积极地贡献并保持最新的发展,尤其是在深度学习领域。

TensorFlow 最初是使用数据流图进行数值计算的开源软件库,但从目前来看,它已经成为构建深度学习模型的完整框架。虽然 TensorFlow 主要支持 Python,但它也支持诸如 C、C++ 和 Java 等语言。此外,它也可以在移动平台上运行!

项目地址:https://github.com/tensorflow/tensorflow

TuriCreate:一个简化的机器学习库

TuriCreate 是苹果最近贡献的一个开源项目,它为机器学习模型提供易于使用的创建方法和部署方法,这些机器学习模型包括目标检测、人体姿势识别和推荐系统等复杂任务。

可能我们作为机器学习爱好者会比较熟悉 GraphLab Create,一个非常简便高效的机器学习库,而当初创建该库的公司 TuriCreate 被苹果收购时,造成了很大反响。

TuriCreate 是针对 Python 开发的,且它最强的的特征是将机器学习模型部署到 Core ML 中,用于开发 iOS、macOS、watchOS 和 tvOS 等应用程序。

项目地址:https://github.com/apple/turicreate

OpenPose

OpenPose 是一个多人关键点检测库,它可以帮助我们实时地检测图像或视频中某个人的位置。OpenPose 软件库由 CMU 的感知计算实验室开发并维护,对于说明开源研究如何快速应用于部署到工业中,它是非常好的一个案例。

OpenPose 的一个使用案例是帮助解决活动检测问题,即演员完成的动作或活动能被实时捕捉到。然后这些关键点和它们的动作可用来制作动画片。OpenPose 不仅有 C++的 API 以使开发者能快速地访问它,同时它还有简单的命令行界面用来处理图像或视频。

项目地址:https://github.com/CMU-Perceptual-Computing-Lab/openpose

DeepSpeech

DeepSpeech 是百度开发的开源实现库,它提供了当前顶尖的语音转文本合成技术。它基于 TensorFlow 和 Python,但也可以绑定到 NodeJS 或使用命令行运行。

Mozilla 一直是构建 DeepSpeech 和开源软件库的主要研究力量,Mozilla 技术战略副总裁 Sean White 在一篇博文中写道:「目前只有少数商用质量的语音识别引擎是开源的,它们大多数由大型公司主宰。这样就减少了初创公司、研究人员和传统企业为它们的用户定制特定的产品与服务。但我们与机器学习社区的众多开发者和研究者共同完善了该开源库,因此目前 DeepSpeech 已经使用了复杂和前沿的机器学习技术创建语音到文本的引擎。」

项目地址:https://github.com/mozilla/DeepSpeech

Mobile Deep Learning

该资源库将数据科学中的当前最佳技术移植到了移动平台上。该 repo 由百度研究院开发,目的是将深度学习模型以低复杂性和高速度部署到移动设备(例如 Android 和 IOS)上。

下图解释了一个简单的用例,即目标检测。它可以识别目标(例如一张图像中的手机)的准确位置,很棒不是吗?

项目地址:https://github.com/baidu/mobile-deep-learning

Visdom

Visdom 支持图表、图像和文本在协作者之间进行传播。你可以用编程的方式组织可视化空间,或者通过 UI 为实时数据创建仪表盘,检查实验结果,或者调试实验代码。

绘图函数中的输入会发生改变,尽管大部分输入是数据的张量 X(而非数据本身)和(可选)张量 Y(包含可选数据变量,如标签或时间戳)。它支持所有基本图表类型,以创建 Plotly 支持的可视化。

Visdom 支持使用 PyTorch 和 Numpy。

项目地址:https://github.com/facebookresearch/visdom

Deep Photo Style Transfer

这个 repo 是基于近期论文《Deep Photo Style Transfer》,该论文介绍了一种用于摄影风格迁移的深度学习方法,可处理大量图像内容,同时有效迁移参考风格。该方法成功克服了失真,满足了大量场景中的摄影风格迁移需求,包括时间、天气、季节、艺术编辑等场景。

项目地址:https://github.com/luanfujun/deep-photo-styletransfer

CycleGAN

CycleGAN 是一个有趣且功能强大的库,展现了最先进技术的潜力。举例来说,下图大致展示了该库的能力:调整图像景深。这里的关键点在于,你并没有实现告诉算法哪一部分需要重点关注。算法完全一高自己做到了!

目前该库用 Lua 编写,但是它也可以在命令行中使用。

项目地址:https://github.com/junyanz/CycleGAN

Seq2seq

Seq2seq 最初是为机器翻译而开发的,但后来被开发用于其他各种任务,包括摘要生成、对话建模和图像捕捉。只要一个问题的结构是将输入数据编码为一种格式,并将其解码为另一种格式,就可以使用 Seq2seq 框架。它使用 Python 所有流行的 TensorFlow 库进行编程。

项目地址:https://github.com/google/seq2seq

Pix2code

这是一个非常令人兴奋的深度学习项目,它尝试为给定的 GUI 自动生成代码。在构建网站或移动设备界面时,前端工程师通常必须编写大量重复的代码,这比较费时且低效率。实质上,这阻碍了开发者将大部分时间用于实现其正在构建软件的功能及逻辑。Pix2code 的目的是通过将过程自动化来克服这一困难。它基于一种新颖的方法,允许以单个 GUI 截图作为输入来生成计算机 token。

Pix2code 是使用 Python 编写,可将移动设备和网站界面的捕捉图像转换成代码。

项目地址:https://github.com/tonybeltramelli/pix2code

原文:15 Trending Data Science GitHub Repositories you can not miss in 2017

链接:https://www.analyticsvidhya.com/blog/2017/12/15-data-science-repositories-github-2017/

作者: SUNIL RAY

编译:苏宓

本文来自企鹅号 - CSDN媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏快乐八哥

Markdown编辑器入门

欢迎使用博客园的Markdown编辑器 ? 前言 今天早上起来在Ubuntu下操作,所以不能使用Windows Live Writer。所以就直接使用博客园...

30360
来自专栏快乐八哥

Vagrant使用

常用命令 命令说明 vagrant up 运行vm vagrant status 查看当前虚拟机运行状态 vagrant suspend 暂停...

25660
来自专栏菩提树下的杨过

大众点评cat系统的搭建笔记

项目地址:https://github.com/dianping/cat 编译步骤: 这个项目比较另类,把编译需要的jar包,单独放在git分支mvn-repo...

32660
来自专栏偏前端工程师的驿站

Javascript Prototypes之旅(A Plain English Guide to JavaScript Prototypes译文)

  当我第一次学习Javascript的对象模型时,我的反应时困惑。因为这是我第一次接触基于原型的语言,所以我完完全全被原型弄得糊里糊涂(译者语:在看这篇文章前...

20990
来自专栏菩提树下的杨过

gradle项目与maven项目相互转化

gradle这几年发展迅猛,github越来越多的项目都开始采用gradle来构建了,但是并不是所有人都对gradle很熟悉,下面的方法可以把gradle转成m...

22460
来自专栏偏前端工程师的驿站

意译:自调用函数表达式

一、写在前面   本文将一如既往地遵循从自身理解出发,而非100%按原文逐句翻译的方式进行“伪翻译”,若有谬误请各位指正,谢谢!! 二、介绍   IIFE(th...

22180
来自专栏偏前端工程师的驿站

ClojureScript魔法堂:搭建开发环境

一、前言                                 当看到Lisp等函数式编程语言的语法是 (say (concat "hello" "w...

20890
来自专栏菩提树下的杨过

netty-socketio 示例代码

socket.io是一个不错的websocket项目,github上有它的java实现:netty-socketio 及 示例项目 netty-socketio...

2.7K60
来自专栏偏前端工程师的驿站

JS魔法堂:Data URI Scheme介绍

一、前言                                   上周五公司内部的Any Topic Conf.上我和同事们分享了这个主题,有同事说...

24670
来自专栏菩提树下的杨过

ActiveMQ笔记(1):编译、安装、示例代码

一、编译 虽然ActiveMQ提供了发布版本,但是建议同学们自己下载源代码编译,以后万一有坑,还可以尝试自己改改源码。 1.1 https://github.c...

33750

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励