Github 上评价最高的 5 个机器学习项目

AI研习社

发布于 2019-08-05 14:02:11

7870

发布于 2019-08-05 14:02:11

文章被收录于专栏：AI研习社

机器学习作为一个领域，正以惊人的速度发展。Github 是全世界开发者都在关注的网站，最高质量的代码被定期发布在这里。

照片由 Morgan Harper Nichols 发布在 Unsplash 上

显然，在机器学习的世界里，不可能跟踪所有的事情。但是在 Github 上你可以跟踪所有的项目，Github 对每个项目都有 star 评定。基本上，如果你为一个 repo 打上 star，那么就表示你对这个项目感兴趣，并跟踪你感兴趣的 repo。

这样，star 数量就可以成为了解最受关注项目的指标之一，让我们来看看 5 个高评级的项目吧。

1. face-recognition —— 25858★

Github 地址：

https://github.com/ageitgey/face_recognition

世界上最简单的面部识别工具。它为 python 和命令行提供了一个应用程序编程接口（API）。它对于识别和处理图像中的人脸特别有用。它是使用 dlib 最先进的人脸识别算法构建的。深度学习模型在「Labeled Faces in the Wild」数据集（http://vis-www.cs.umass.edu/lfw/）的上的识别精度为 99.38%。

它还提供了一个简单的人脸识别命令行工具，这个工具让你可以从命令行本身对文件夹中的图像进行人脸识别！

你可以用它来找到图像中出现的人脸：

import face_recognition
image = face_recognition.load_image_file("your_file.jpg")
face_locations = face_recognition.face_locations(image)

也可以用它来查找面部特征，了解人的眼睛、鼻子、嘴和下巴的位置和轮廓：

import face_recognition
image = face_recognition.load_image_file("your_file.jpg")
face_landmarks_list = face_recognition.face_landmarks(image)

可以化妆：

可以识别图片中的人是谁：

import face_recognition
known_image = face_recognition.load_image_file("biden.jpg")
unknown_image = face_recognition.load_image_file("unknown.jpg")
biden_encoding = face_recognition.face_encodings(known_image)[0]
unknown_encoding = face_recognition.face_encodings(unknown_image)[0]
results = face_recognition.compare_faces([biden_encoding], unknown_encoding)

这个库还可以进行实时人脸识别

相关代码可以查看：https://github.com/ageitgey/face_recognition/blob/master/examples/facerec_from_webcam_faster.py

2. fastText by FacebookResearch — 18,819 ★

Github 地址：

https://github.com/facebookresearch/fastText

fastText 是 Facebook 团队的一个开源免费库，用于单词表达的高效学习。它是轻量级的，允许用户学习文本表示和句子分类。它在标准的通用硬件上工作。模型甚至可以缩小到在移动设备上使用。

文本分类是许多应用程序要解决的核心问题，如垃圾邮件检测、情感分析或智能答案。文本分类的目标是将文档（如电子邮件、文章、文本消息、产品评论等）分配到多个类别。

单词分类示例来源：alterra.ai

它是对 NLP 爱好者来说非常有用的资源。

其目录如下：

1.资源

模型
补充数据
问答
备忘清单

2.使用要求

3.构建 fastText

获取源码
使用 make 创建 fastText（推荐）
使用 cmake 创建 fastText
使用 Python 创建 fastText

4.用例

词表示学习
获取词汇库之外的词汇向量
文本分类

5.完整文档

6.参考资料

用字信息丰富字向量
有效的文本分类技巧
FastText.zip：压缩文本分类模型

7.加入 fastText 社区

8.证书

这里面的资源非常丰富。例如，在第一部分——资源里面，有最新的英语单词向量、在 Wikipedia 和 Crawl 上训练的 157 种语言的词向量、用于语言识别和各种监督任务的模型。

后面的部分还介绍了补充数据集、常见的问题及对应的答案以及这个工具的使用要求等，解释非常详细，且都附有代码~

3. awesome-tensorflow — 14,424 ★

Github 地址：

https://github.com/jtoy/awesome-tensorflow

这是一组帮助你理解和使用 TensorFlow 的资源。Github repo 包含一个很棒的 TensorFlow 实验、库和项目的管理列表。

TensorFlow 是由 Google 发布的一个端到端的开源机器学习平台。它拥有一个由工具、库和社区资源组成的综合生态系统，使研究人员能够使用 ML 中最先进的技术。IT 开发人员可以通过使用它，轻松地构建和部署 ML 驱动的应用程序。

该资源的目录如下：

目录分为：

教程
模型/项目
由 TensorFlow 提供支持
库
工具
教学视频
论文
博客文章
社区
图书推荐

在第一部分——教程里面，介绍了很多 Tensorflow 的基础知识和基本原理、应用，包括框架的介绍，代码示例和案例讲解，概念方法讲解等，还提供了视频和详细文档。

后面还推荐了很多项目，书籍以及优秀博文，尤其是学习视频这块，资源非常详尽，从 Tensorflow 的安装到深度学习和图像识别都进行了讲解，对初学者真的非常友好，感兴趣的同学可以打开看看：

TensorFlow Guide 1 - 安装使用指南
TensorFlow Guide 2 - 第一个视频的后续
TensorFlow Basic Usage - 基本用法介绍指南
TensorFlow Deep MNIST for Experts - 理解 Deep MNIST
TensorFlow Udacity Deep Learning - 在拥有 1 GB 数据的 Cloud 9 上在线免费安装 Tensorflow 的方法
Why Google wants everyone to have access to TensorFlow - 谷歌为什么希望所有人都能访问 Tensorflow
Videos from TensorFlow Silicon Valley Meet Up 1/19/2016
Videos from TensorFlow Silicon Valley Meet Up 1/21/2016
Stanford CS224d Lecture 7 - Introduction to TensorFlow - Richard Socher 在Stanford 的演讲，关于自然语言处理和深度学习
Diving into Machine Learning through TensorFlow - Pycon 2016 Portland Oregon, Slide & Code by Julia Ferraioli, Amy Unruh, Eli Bixby
Large Scale Deep Learning with TensorFlow - Jeff Dean 的视频
Tensorflow and deep learning - without at PhD - by Martin Görner
Tensorflow and deep learning - without at PhD, Part 2 (Google Cloud Next '17) - by Martin Görner
Image recognition in Go using TensorFlow - by Alex Pliutau

4. predictionio by Apache — 11852 ★

Github 地址：

https://github.com/apache/predictionio

ApachePredictionIO 是一个面向开发人员、数据科学家和最终用户的开源机器学习框架。用户可以使用这个框架来构建、部署和测试真实的 ML 应用程序。

它甚至支持事件收集、评估和查询预测结果。它是基于 Hadoop、HBase 等可扩展的开源服务的。

就机器学习领域而言，它减轻了开发人员的负担。

在这个 repo 里面，对 ApachePredictionIO 的安装、如何快速开始、如何解决错误、相关文档以及社区等等都进行了说明：

这个工具的网站打开界面如下：

左侧详细地解释了工具的使用方法，比如，打开「Installing Apache PredictionIO」，可以看到很详细的安装教程：

如果你想开始使用它，可以点击这个网址：http://predictionio.apache.org/

5. Style2Paints — 9184 ★

Github 地址：https://github.com/style2paints

网站：https://style2paints.github.io/

这个 repo 与上述所有 repo 略有不同，因为它由于缺少资金而被关闭了！这是一个非常有趣的概念，用人工智能来给图像上色。

他们声称，Style2paints V4 是当前最佳的人工智能驱动线条艺术着色工具。

他们还谈到，Style2Paints 不同于以前的端到端、图像到图像的翻译方法，因为它是第一个在现实人类工作流程中对线条艺术进行着色的系统。大多数人类艺术家都熟悉这个工作流程。

打开网站，可以看到上面有很详细的图文告诉大家如何去使用这个工具。你可以控制渲染模式，还可以选择细心和粗心模式，保存进度。当然，上面还有关于常见问题的解答。

Style2Paints V4 非常的好用！任何人都能在十分钟内学会！首先你需要下载一张线稿，在工具上保存、上传之后，再选择自己喜欢的人工智能画师，就可以对上传的线稿进行渲染了。

在最新版本里面，还有careful mode （细心模式）和 careless mode （粗心模式）。在细心模式（careful mode）中，人工智能会细心的涂抹平滑，精细的颜色。但是这个模式下的人工智能会限制自我的发挥来迎合人类。在粗心模式（careless mode）中，人工智能会自己发挥，但是可能细节上会出现丢失。同时可能人工智能会反抗你的提示。