数据科学家不能错过的顶级 Github 代码仓库 & Reddit 讨论串(六月榜单盘点)

本文为 AI 研习社编译的技术博客,原标题 The Top GitHub Repositories & Reddit Threads Every Data Scientist should know (June 2018),作者为 PRANAV DAR。 翻译 | 付腾、程添杰 校对 | 彭艳蕾

引言

2018 年已经过半,是时候来发布六月版的 GitHub 项目库和 Reddit 版块 TOP 榜单。在撰写本文的过程中,我已经学习了不少机器学习的知识,有从开源代码中学到的,也有从世界顶级数据科学头脑之间的宝贵讨论中学到的。

让 GitHub 如此独特的原因可不只是因为它具有为数据科学家托管代码或者社会协作的功能。它不仅降低了开源世界的准入门槛,并且在 知识的扩散 以及扩大机器学习社区的过程中扮演了重要角色。

六月,我们看到有一些非常好的开源项目代码(在 GitHub上)被公开了。其中最奇妙的一个项目库就是「NLP Progress」(自然语言处理)。这个库的目标就是为了能让大家更好的接触到目前业界最新的信息。Facebook 也开源了它非常受欢迎的 DensePose 框架,该框架很有可能改变姿势建模(也称“姿势估计”)领域的游戏规则。

说到 Reddit, 它集合了来自全球不同地域的数据科学家和机器学习专家的知识和见解。 在本文中,你会看到很多讨论,包括强化学习的实例,机器学习的构建,一个优秀的计算机视觉的案例,以及更多。我强烈建议读者参加这些讨论,以此提高自己的专业技能。

你可以通过以下链接来获取之前五个月的 TOP 榜单。

  • 一月 https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/
  • 二月 https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018/
  • 三月 https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018/
  • 四月 https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/
  • 五月 https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/

Github 代码仓库

Facebook 的 DensePose

链接:https://github.com/facebookresearch/DensePose

人体姿势建模在今年的深度学习社区中引起了很多关注。尤其当 Facebook 开源了他们备受欢迎的姿势建模框架 ' DensePose ' 时,该领域被提升到一个新的水平。该框架能够识别人体框架中的超过 5000 个节点(作为对比,其他的姿势建模方案只能识别 10 到 20 个关节(译者注:比如微软的 Kinect SDK,是以关节节点作为姿势建模的基准))。看看上图就能对该技术有个比较直观的认识。

DensePose 已经集成到 Detectron 框架内,并且以 Caffe2 作为计算后台。除了基本代码之外,这个项目库还包含了示例 notebook 来展示对 DensePose-COCO 数据进行可视化的操作。通过该链接查看更多细节。

NLP 新进展

链接:https://github.com/sebastianruder/NLP-progress

自然语言处理(NLP)是一个入门门槛很高的领域,尽管它很有吸引力。开发者需要处理大量的非结构化文本,这项工作可不容易。这个项目库就是专门用于跟踪 NLP 领域中的最新进展。它包含了一系列非常有用的数据集列表和当前最前沿的 NLP 研究方向,比如语境依赖解析,词性标注,阅读理解等。

哪怕你对 NLP 领域不是很了解,也要收藏一下这个项目库的网页,保证你能跟上最新的 NLP 领域的热点。还有很多 NLP 任务可以(并且将会)添加到此列表中,如信息提取,关系提取,语法错误纠正等。如果你觉得你能为此项目库做贡献,该项目创建者会非常热于讨论新的点子和建议,所以你可以畅所欲言。

MLflow

链接:https://github.com/databricks/mlflow

如何将你的模型转变成产品?这对于刚入行的数据科学家来说是个最大的挑战。设计和训练模型无疑是吸引开发者进入机器学习领域的重要一环,但是如果开发者不能够将模型转变成产品,那么模型也只是一堆无用的代码。

基于以上原因,Databricks(由 Apache Spark creators 创建)决定为所有 ML 框架的挑战来创建并开源了一种解决方案, 并命名为 MLflow。MLflow 是一个能够管理整个机器学习生命周期(从创建项目到产品化)的平台,并且它从一开始就被设计成能够与任何机器学习框架或库进行兼容。自从该项目开源,它已经获得了巨大的关注(GitHub上已经有 1355 个收藏该项目网页的开发者)。更多详情可以点击查看此链接。

Salesforce 的 decaNLP

链接:https://github.com/salesforce/decaNLP

又是一个 NLP 项目库出现在我们的榜单中!通常来说,为了某个特定 NLP 任务比如情感分析,或者机器翻译而建立的模型,只能是针对该特定任务的。那么你是否曾经训练过一个原本用来做情感分析的模型,但同时也能同时完成其他任务诸如语义分析和问答?那么你来对地方了,salesforce 的研究员们把这方面的研究成果放到了这个项目库中。

他们发表了一篇研究论文,描述了一个可以同时完成 10 个不同 NLP 任务的模型。在该论文中,他们向广大同行社区抛出了一个挑战(他们称之为 decaNLP)- 你能否创建出具有相似功能的模型,并且在我们提供的算法上有所改进呢?现在 Salesforce 训练的模型被称为「NLP 界的瑞士军刀」。

点击此链接了解更多相关细节(https://www.analyticsvidhya.com/blog/2018/06/salesforce-has-developed-one-single-model-to-deal-with-10-different-nlp-tasks/)。

强化学习 Notebook 系列

链接:https://github.com/Pulkit-Khandelwal/Reinforcement-Learning-Notebooks

强化学习日渐流行,开源社区对其的关注也是如此。这个项目库是一个合集,内容涵盖了 Richard Sutton 和 Andrew Barto 的书(Reinforcement Learning: An Introduction)和其他一些学术论文上的强化学习算法。这些算法以 Notebook 的形式呈现。

这个项目库的创建者建议在你阅读书的时候使用这些 notebook, 因为它们将显著加深你对这些知识的理解。这些笔记是十分详细的,任何进入这个领域的人都应该参考一下这个合集。

Reddit 讨论

使用 YOLOv3 玩转扑克牌识别

视频内容

链接:https://old.reddit.com/r/MachineLearning/comments/8p9car/p_playing_card_detection_with_yolov3_trained_on/

上面的视频会激起你对这篇讨论的兴趣,它让整个Reddit的机器学习分区陷入疯狂,收到了超过 100 条评论!这篇讨论有很多关于如何构建这项技术的实用信息(包括了来自其作者的逐步解释),例如训练它需要多久、它还能做哪些其他事等等。你将在这篇讨论里学到很多计算机视觉的知识。

这项技术和视频的作者同时也在 Github 上开源了他的代码。那么打开你的 Jupyter notebook 来动手试试吧!

OpenAI Five

链接:https://old.reddit.com/r/MachineLearning/comments/8tr11j/r_openai_five/

OpenAI Five 是一个由 5 个神经网络组成的 Dota2 队伍,其被设计和改进以击败知名游戏 Dota2 里的人类选手。它由 Elon Musk(特斯拉的CEO)联合创立的 OpenAI 基金会开发,这也印证了为什么自其发布以来就备受关注。

我之所以会推荐这篇,是因为数据科学家们在留言区写了许多关于从这项技术中可以延伸出其他哪些东西的讨论,或是关于其和 DeepMind 开发的 AlphaGo 算法的比较,或是关于需要多少的算力来实现这个想法。这里面的讨论会让你受益匪浅。

此外,你也在这里可以阅读我们报道 OpenAI Five 的文章。

哪些机器学习设想是你所感兴趣的,并希望其他人研究他们?

链接:https://old.reddit.com/r/MachineLearning/comments/8rue4t/d_what_machine_learning_hypothesis_are_you/

如果你对这个主题不感兴趣,讨论开头的几条评论绝对会改变你的看法。这篇讨论更像是一个愿望清单,涵盖了数据科学家和机器学习从业者期待从整个社区看到的东西。这篇讨论被列入了我的榜单,因为它当中每个观点下的讨论都很多。一旦有人把他的观点加入了讨论中,很多网友都回复了他们的看法——或是关于如何实施这些想法,或是关于是否已经存在了相关研究。

这是一篇必读讨论——对爱好者和实践者来说都是。花点时间来浏览,你将获得很多知识(以及可能更多的问题)。

数据科学家们用于机器学习的电脑配置

链接:https://old.reddit.com/r/MachineLearning/comments/8omn0u/d_what_is_your_setup_for_ml/

你所用于机器学习的硬件配置对你的模型的性能有重要影响,尤其是当被用于训练模型的数据量很大时。阅读这篇讨论以了解其他数据科学家的配置情况。原文列举了一个结构化的问题清单,以使整篇讨论简洁明了。这些问题具体如下所示:

  • 台式机还是笔记本?
  • 训练什么模型?
  • 是否需要 GPU?
  • 哪种操作系统?
  • 哪种编程语言?
  • 哪种机器学习架构?
  • 你所从事的是哪种工作或研究?

你也可以参与讨论或是使用这篇文章下的评论区告诉我们你的配置!

强化学习的应用场景

链接:https://www.reddit.com/r/MachineLearning/comments/8u6wo4/d_what_are_practical_use_cases_for_reinforcement/

如上所述,强化学习最近正在成为一个流行的领域。但是鉴于其工作的复杂程度,大多数的研究和应用场景局限于游戏和实验环境。在这篇讨论中,该领域的现有工作者就不久之后强化学习的应用场景,给出了他们的观点。尽管部分评论持更加怀疑的态度,但仍然值得一看,以便了解专家和爱好者对强化学习的看法。

后记

终于!上个月需要阅读和学习的内容竟然有这么多。这份清单涵盖了很多人的需求——自然语言处理、强化学习、你所能下载和使用的开源代码、计算机视觉、机器学习相关事物的讨论,以及更多。请使用下方的评论区,赶快来告诉我们哪一个项目库或是讨论是你最感兴趣的吧!

原文链接:

https://www.analyticsvidhya.com/blog/2018/07/top-github-reddit-data-science-machine-learning-june-2018/

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-07-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

2017年,机器学习在Quora的五大应用场景

作者|Nikhil Dandekar 翻译|薛命灯 2015 年,Quora 的工程主席 Xavier Amatriain 非常精彩地回答了 Quora 上的一...

27860
来自专栏大数据文摘

【干货】推荐系统原理介绍

489120

数据整合和机器学习深入客户见解

本文精选与新的DZone人工智能指南中。免费获取更有深度的文章,行业统计,以及更多!

24780
来自专栏点滴积累

人工智能入门

前言 这个名字起的非常大,但是本文只能从一些概念和我自己的理解上介绍一下什么是人工智能。本文只是给从未接触过此块的人一个大致的印象和思路,其余人请直接略过。 一...

48070
来自专栏牛客网

热乎的腾讯数据分析实习生面经

早上九点半,五星级酒店房间里一对一面试。 面试官是个笑起来很好看的南方美女,我猜应该是搞推荐算法的。 开场是常规,自我介绍,介绍简历中的项目经历。很失败,被批用...

38470
来自专栏人工智能头条

猜你喜欢-----推荐系统原理介绍

23720
来自专栏机器之心

知乎:源自社区又服务于社区的 AI 技术

每次知乎的技术负责人公开谈及人工智能技术,「智能社区」都是一个绕不开的词汇。然而「智能社区」也是一个相对陌生的概念:如今研究者与工程师们明确了深度神经网络在语音...

13700
来自专栏AI派

数据驱动型阿尔法模型在量化交易中的应用

数据驱动型策略一般是指通过使用机器学习算法,数据挖掘技术对选定的数据进行分析来预测未来市场的走向。相比于理论驱动型策略,数据驱动型策略相对难以理解,并且使用的数...

418100
来自专栏机器人网

MIT分布式运算革新机器学习算法

从语音识别系统到自助停车等人工智能领域,“机器学习”的最新进展总能吸引大众的眼球。 所谓机器学习,就是让计算机在数据库中搜索特定模型从而获得新技能,以及让自主机...

34860
来自专栏ATYUN订阅号

世界上最大的大脑:拥有一百万个处理核心的神经形态计算机

科学家刚刚激活了世界上最大的“大脑”:一台拥有一百万个处理核心和1,200个互连电路板的超级计算机,它们像人脑一样运作。科学家宣布,这是世界上最大的神经形态计算...

9610

扫码关注云+社区

领取腾讯云代金券