数据科学家不能错过的顶级 Github 代码仓库 & Reddit 讨论串（六月榜单盘点）

AI研习社

发布于 2018-08-06 14:31:59

6140

发布于 2018-08-06 14:31:59

文章被收录于专栏：AI研习社

本文为 AI 研习社编译的技术博客，原标题 The Top GitHub Repositories & Reddit Threads Every Data Scientist should know (June 2018)，作者为 PRANAV DAR。翻译 | 付腾、程添杰校对 | 彭艳蕾

引言

2018 年已经过半，是时候来发布六月版的 GitHub 项目库和 Reddit 版块 TOP 榜单。在撰写本文的过程中，我已经学习了不少机器学习的知识，有从开源代码中学到的，也有从世界顶级数据科学头脑之间的宝贵讨论中学到的。

让 GitHub 如此独特的原因可不只是因为它具有为数据科学家托管代码或者社会协作的功能。它不仅降低了开源世界的准入门槛，并且在知识的扩散以及扩大机器学习社区的过程中扮演了重要角色。

六月，我们看到有一些非常好的开源项目代码（在 GitHub上）被公开了。其中最奇妙的一个项目库就是「NLP Progress」（自然语言处理）。这个库的目标就是为了能让大家更好的接触到目前业界最新的信息。Facebook 也开源了它非常受欢迎的 DensePose 框架，该框架很有可能改变姿势建模（也称“姿势估计”）领域的游戏规则。

说到 Reddit, 它集合了来自全球不同地域的数据科学家和机器学习专家的知识和见解。在本文中，你会看到很多讨论，包括强化学习的实例，机器学习的构建，一个优秀的计算机视觉的案例，以及更多。我强烈建议读者参加这些讨论，以此提高自己的专业技能。

你可以通过以下链接来获取之前五个月的 TOP 榜单。

一月 https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/
二月 https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018/
三月 https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018/
四月 https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/
五月 https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/

Github 代码仓库

Facebook 的 DensePose

链接：https://github.com/facebookresearch/DensePose

人体姿势建模在今年的深度学习社区中引起了很多关注。尤其当 Facebook 开源了他们备受欢迎的姿势建模框架 ' DensePose ' 时，该领域被提升到一个新的水平。该框架能够识别人体框架中的超过 5000 个节点（作为对比，其他的姿势建模方案只能识别 10 到 20 个关节（译者注：比如微软的 Kinect SDK，是以关节节点作为姿势建模的基准））。看看上图就能对该技术有个比较直观的认识。

DensePose 已经集成到 Detectron 框架内，并且以 Caffe2 作为计算后台。除了基本代码之外，这个项目库还包含了示例 notebook 来展示对 DensePose-COCO 数据进行可视化的操作。通过该链接查看更多细节。

NLP 新进展

链接：https://github.com/sebastianruder/NLP-progress

自然语言处理（NLP）是一个入门门槛很高的领域，尽管它很有吸引力。开发者需要处理大量的非结构化文本，这项工作可不容易。这个项目库就是专门用于跟踪 NLP 领域中的最新进展。它包含了一系列非常有用的数据集列表和当前最前沿的 NLP 研究方向，比如语境依赖解析，词性标注，阅读理解等。

哪怕你对 NLP 领域不是很了解，也要收藏一下这个项目库的网页，保证你能跟上最新的 NLP 领域的热点。还有很多 NLP 任务可以（并且将会）添加到此列表中，如信息提取，关系提取，语法错误纠正等。如果你觉得你能为此项目库做贡献，该项目创建者会非常热于讨论新的点子和建议，所以你可以畅所欲言。

MLflow

链接：https://github.com/databricks/mlflow

如何将你的模型转变成产品？这对于刚入行的数据科学家来说是个最大的挑战。设计和训练模型无疑是吸引开发者进入机器学习领域的重要一环，但是如果开发者不能够将模型转变成产品，那么模型也只是一堆无用的代码。

基于以上原因，Databricks（由 Apache Spark creators 创建）决定为所有 ML 框架的挑战来创建并开源了一种解决方案，并命名为 MLflow。MLflow 是一个能够管理整个机器学习生命周期（从创建项目到产品化）的平台，并且它从一开始就被设计成能够与任何机器学习框架或库进行兼容。自从该项目开源，它已经获得了巨大的关注（GitHub上已经有 1355 个收藏该项目网页的开发者）。更多详情可以点击查看此链接。

Salesforce 的 decaNLP

链接：https://github.com/salesforce/decaNLP

又是一个 NLP 项目库出现在我们的榜单中！通常来说，为了某个特定 NLP 任务比如情感分析，或者机器翻译而建立的模型，只能是针对该特定任务的。那么你是否曾经训练过一个原本用来做情感分析的模型，但同时也能同时完成其他任务诸如语义分析和问答？那么你来对地方了，salesforce 的研究员们把这方面的研究成果放到了这个项目库中。

他们发表了一篇研究论文，描述了一个可以同时完成 10 个不同 NLP 任务的模型。在该论文中，他们向广大同行社区抛出了一个挑战（他们称之为 decaNLP）- 你能否创建出具有相似功能的模型，并且在我们提供的算法上有所改进呢？现在 Salesforce 训练的模型被称为「NLP 界的瑞士军刀」。

点击此链接了解更多相关细节（https://www.analyticsvidhya.com/blog/2018/06/salesforce-has-developed-one-single-model-to-deal-with-10-different-nlp-tasks/）。

强化学习 Notebook 系列

链接：https://github.com/Pulkit-Khandelwal/Reinforcement-Learning-Notebooks

强化学习日渐流行，开源社区对其的关注也是如此。这个项目库是一个合集，内容涵盖了 Richard Sutton 和 Andrew Barto 的书（Reinforcement Learning: An Introduction）和其他一些学术论文上的强化学习算法。这些算法以 Notebook 的形式呈现。

这个项目库的创建者建议在你阅读书的时候使用这些 notebook, 因为它们将显著加深你对这些知识的理解。这些笔记是十分详细的，任何进入这个领域的人都应该参考一下这个合集。

Reddit 讨论

使用 YOLOv3 玩转扑克牌识别

视频内容

链接：https://old.reddit.com/r/MachineLearning/comments/8p9car/p_playing_card_detection_with_yolov3_trained_on/

上面的视频会激起你对这篇讨论的兴趣，它让整个Reddit的机器学习分区陷入疯狂，收到了超过 100 条评论！这篇讨论有很多关于如何构建这项技术的实用信息（包括了来自其作者的逐步解释），例如训练它需要多久、它还能做哪些其他事等等。你将在这篇讨论里学到很多计算机视觉的知识。

这项技术和视频的作者同时也在 Github 上开源了他的代码。那么打开你的 Jupyter notebook 来动手试试吧！

OpenAI Five

链接：https://old.reddit.com/r/MachineLearning/comments/8tr11j/r_openai_five/

OpenAI Five 是一个由 5 个神经网络组成的 Dota2 队伍，其被设计和改进以击败知名游戏 Dota2 里的人类选手。它由 Elon Musk（特斯拉的CEO）联合创立的 OpenAI 基金会开发，这也印证了为什么自其发布以来就备受关注。

我之所以会推荐这篇，是因为数据科学家们在留言区写了许多关于从这项技术中可以延伸出其他哪些东西的讨论，或是关于其和 DeepMind 开发的 AlphaGo 算法的比较，或是关于需要多少的算力来实现这个想法。这里面的讨论会让你受益匪浅。

此外，你也在这里可以阅读我们报道 OpenAI Five 的文章。

哪些机器学习设想是你所感兴趣的，并希望其他人研究他们？

链接：https://old.reddit.com/r/MachineLearning/comments/8rue4t/d_what_machine_learning_hypothesis_are_you/

如果你对这个主题不感兴趣，讨论开头的几条评论绝对会改变你的看法。这篇讨论更像是一个愿望清单，涵盖了数据科学家和机器学习从业者期待从整个社区看到的东西。这篇讨论被列入了我的榜单，因为它当中每个观点下的讨论都很多。一旦有人把他的观点加入了讨论中，很多网友都回复了他们的看法——或是关于如何实施这些想法，或是关于是否已经存在了相关研究。

这是一篇必读讨论——对爱好者和实践者来说都是。花点时间来浏览，你将获得很多知识（以及可能更多的问题）。

数据科学家们用于机器学习的电脑配置

链接：https://old.reddit.com/r/MachineLearning/comments/8omn0u/d_what_is_your_setup_for_ml/

你所用于机器学习的硬件配置对你的模型的性能有重要影响，尤其是当被用于训练模型的数据量很大时。阅读这篇讨论以了解其他数据科学家的配置情况。原文列举了一个结构化的问题清单，以使整篇讨论简洁明了。这些问题具体如下所示：

台式机还是笔记本？
训练什么模型？
是否需要 GPU?
哪种操作系统？
哪种编程语言？
哪种机器学习架构？
你所从事的是哪种工作或研究？

你也可以参与讨论或是使用这篇文章下的评论区告诉我们你的配置！

强化学习的应用场景

链接：https://www.reddit.com/r/MachineLearning/comments/8u6wo4/d_what_are_practical_use_cases_for_reinforcement/

如上所述，强化学习最近正在成为一个流行的领域。但是鉴于其工作的复杂程度，大多数的研究和应用场景局限于游戏和实验环境。在这篇讨论中，该领域的现有工作者就不久之后强化学习的应用场景，给出了他们的观点。尽管部分评论持更加怀疑的态度，但仍然值得一看，以便了解专家和爱好者对强化学习的看法。

后记

终于！上个月需要阅读和学习的内容竟然有这么多。这份清单涵盖了很多人的需求——自然语言处理、强化学习、你所能下载和使用的开源代码、计算机视觉、机器学习相关事物的讨论，以及更多。请使用下方的评论区，赶快来告诉我们哪一个项目库或是讨论是你最感兴趣的吧！

原文链接：

https://www.analyticsvidhya.com/blog/2018/07/top-github-reddit-data-science-machine-learning-june-2018/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-07-27，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 AI研习社微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度