专栏首页新智元过去5年最受欢迎机器学习论文+代码速查

过去5年最受欢迎机器学习论文+代码速查


新智元编译

来源:paperswithcode.com

编辑:肖琴

【新智元导读】Papers with Code网站将ArXiv上的最新机器学习论文与GitHub上的代码联系起来。这个项目索引了大约5万篇论文和1万个GitHub库,你可以按标题关键词查询,也可以按流行程度、GitHub星星数排列“热门研究”,跟上ML社区流行的最新动态。

网站地址:https://paperswithcode.com

在阅读一篇论文时,我们很自然地想看看论文中提出的算法和模型实现的代码。然而,机器学习领域虽然有开源的优良传统,但提出新算法的最新论文中,真正公开算法代码的着实不多,找到对应论文的相关代码库也不容易。

去年在AAAI会议上,挪威一名计算机科学家报告了一项调查的结果:过去几年发表的AI顶会论文提出的400种算法中,只有6%的研究者公开了算法的代码。另外,只有三分之一的人分享了他们测试算法的数据,而只有一半分享了“伪代码”。

CREDITS: (GRAPHIC) E. HAND/SCIENCE; (DATA) GUNDERSEN AND KJENSMO, ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL INTELLIGENCE 2018

via新智元报道:【AI幽灵】超90%论文算法不可复现,你为何不愿公开代码?

现在,有一个找到论文代码的“神器”出现了。Reddit用户rstoj做了一个网站,将ArXiv上的最新机器学习论文与GitHub上的代码(TensorFlow/PyTorch/MXNet /等)对应起来。你可以按标题关键词查询,也可以按流行程度、GitHub星星数排列“热门研究”。这个网站能让你跟上ML社区流行的最新动态。

网站地址:https://paperswithcode.com/

这个项目索引了大约5万篇论文(最近5年发布在arxiv上的论文)和1万个GitHub库。网站刚刚上线,功能还有些单一,作者表示未来还将增加标签索引、链接媒体文章和教程等功能。以下介绍按GitHub星星数排列的Top 10研究,来先睹为快吧!

1. Caffe:一个快速、开源的深度学习框架

star:24,596

代码:https://github.com/BVLC/caffe

论文:http://arxiv.org/abs/1408.5093v1

Caffe 是一个深度学习框架,在设计时将表达式、速度和模块化考虑在内。这个热门的计算机视觉框架由 Berkeley AI Research(BAIR)和社区贡献者开发。贾扬清在UC Berkeley博士期间创建了这个项目。Caffe 可为学术研究项目、新创公司原型和大规模行业应用程序提供强大的视觉、语音和多媒体支持。

Caffe是一个采用BSD许可证发布的C ++库,使用Python和MATLAB绑定,可在商用架构上有效训练和部署通用卷积神经网络和其他深层模型。Caffe通过CUDA GPU计算满足行业和互联网规模的媒体需求,在单个K40或Titan GPU上,媒体处理超过4000万张图像。

2. Neural Style:神经风格转换算法

A Neural Algorithm of Artistic Style

star:15,840

代码:https://github.com/jcjohnson/neural-style

论文:http://arxiv.org/abs/1508.06576v2

在艺术,特别是绘画中,人类已经掌握了通过图像风格来创造独特的视觉体验的技巧。在这篇论文中,研究人员提出一种算法,用卷积神经网络将一幅图像的内容与另一幅图像的风格进行组合。下面是一个将梵高《星夜》的艺术风格转移到斯坦福大学校园夜景的照片中的效果:

3. Detectron

star:14,795

代码:https://github.com/facebookresearch/detectron

论文:http://arxiv.org/abs/1703.06870v3

Detectron是Facebook AI Research(FAIR)的物体检测研究平台,这个代码库包含许多最新对象检测算法的实现,包括了Mask R-CNN和RetinaNet等流行算法。

4. 使用子字信息丰富词汇向量

Enriching Word Vectors with Subword Information

star:14,565

代码:https://github.com/facebookresearch/fastText

论文:http://arxiv.org/abs/1607.04606v2

在大型未标记语料库上训练的连续词表示对许多自然语言处理任务都很有用。一个向量表示与每个字符n-gram相关联; 单词被表示为这些向量表示的总和。

5. FastText.zip:压缩文本分类模型

FastText.zip: Compressing text classification models

star:14,565

代码:https://github.com/facebookresearch/fastText

论文:http://arxiv.org/abs/1612.03651v1

这是为文本分类生成紧凑的体系结构的问题,从而使整个模型可以在有限的内存中使用。在思考了由哈希方法启发的不同解决方案之后,我们提出了一种基于产品量化来存储词嵌入的方法。

6. 高效的文本分类技巧包

Bag of Tricks for Efficient Text Classification

star:14,565

代码:https://github.com/facebookresearch/fastText

论文:http://arxiv.org/abs/1607.01759v3

这篇文章探讨了一种简单有效的文本分类基准。实验表明,我们的快速文本分类器fastText在准确率上可以与深度学习分类器相媲美,并且在训练和评估上速度快了几个数量级。

(注:以上3篇论文都链接到fastText的GitHub库)

7. 多目标强化学习:挑战机器人环境和研究要求

Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

star:12,481

代码:https://github.com/openai/gym

论文:http://arxiv.org/abs/1802.09464v2

这篇技术报告有两个目的:首先,它基于现有的机器人硬件,引入了一套具有挑战性的连续控制任务(与OpenAI Gym集成),包括用机器人手臂进行推动、滑动,拾物和放置等。第二部分,研究人员提出一套改进RL算法的具体研究思路,其中大部分与多目标RL和事后经验回放(Hindsight Experience Replay)有关。

8. OpenAI Gym

star:12,481

代码:https://github.com/openai/gym

论文:http://arxiv.org/abs/1606.01540v1

OpenAI Gym是强化学习研究的工具包。它包括越来越多的基准问题集,引入一个通用的接口,以及一个可以让人们在上面分享他们的结果并比较算法的性能的网站。

9. XGBoost:一种可扩展的基于树的Boosting系统

XGBoost: A Scalable Tree Boosting System

star:12,449

代码:https://github.com/dmlc/xgboost

论文:http://arxiv.org/abs/1603.02754v3

在这篇论文中,我们描述了一个名为XGBoost的可扩展端到端的tree boosting系统,该系统已经被数据科学家广泛使用,实现了许多机器学习挑战的最新成果。我们提出了一种新的用于稀疏数据的sparsity-aware 算法。

10. 使用深度卷积网络的图像超分辨率

Image Super-Resolution Using Deep Convolutional Networks

star:11,432

代码:https://github.com/nagadomi/waifu2x

论文:http://arxiv.org/abs/1501.00092v3

该映射表示为一个深度卷积神经网络(CNN),它将低分辨率图像作为输入,并输出高分辨率图像。我们进一步证明传统的基于稀疏编码的SR方法也可以被看作是一个深度卷积网络。

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 10款必备神器:机器学习开源工具助你从新手到高手

    在厦门人工智能峰会上,依图科技联合创始人、CEO朱珑介绍到短短的5年时间机器的算法水平又提升了100万倍!过去或许只能从1万人中识别出1个人,后来发展到1000...

    新智元
  • 【一文看尽200篇干货】2018最新机器学习、NLP、Python教程汇总!

    【新智元导读】本文收集并详细筛选出了一系列机器学习、自然语言处理、Python及数学基础知识的相关资源和教程,数目多达200种!来源既包括斯坦福、MIT等名校,...

    新智元
  • 7 月机器学习10大热文,机器自动编程领先

    【新智元导读】数据科学家 Flavian Hautbois 评选出了 7 月份他最喜爱的人工智能和数据处理相关论文的 Top 10。让我们来看看吧! 数据科学家...

    新智元
  • 「官方」async_await将在Rust 1.39稳定版中发布

    Read More: https://github.com/rust-lang/rust/pull/63209#issuecomment-523113079

    MikeLoveRust
  • 2020前端性能优化清单(三)

    最好先了解你要处理的内容。盘点出所有资源的清单( JavaScript 、图片、字体、第三方脚本和页面上开销较大的模块,例如轮播、复杂的信息图和多媒体内容),然...

    桃翁
  • 2020前端性能优化清单(三)

    最好先了解你要处理的内容。盘点出所有资源的清单( JavaScript 、图片、字体、第三方脚本和页面上开销较大的模块,例如轮播、复杂的信息图和多媒体内容),然...

    WecTeam
  • 关于移动web教程免费发布

    各位老铁大家好,最近经历了太多太多,精力一直不能集中做自己愿意做的事情。 移动Web课程一开始设置收费10块,其实本意是让大家感觉有支出,就会相对珍惜好好学习,...

    老马
  • Red Team 工具集之辅助工具

    上图是一个 Red Team 攻击的生命周期,整个生命周期包括:信息收集、攻击尝试获得权限、持久性控制、权限提升、网络信息收集、横向移动、数据分析(在这个基础上...

    信安之路
  • 勒索病毒防范措施与应急响应指南

    此前我写过一篇文章《企业中了勒索病毒该怎么办?可以解密吗?》,里面介绍了很多解密的网站,并教了大家如何快速识别企业中了哪个勒索病毒家族,以及此勒索病毒是否有解密...

    FB客服
  • 关于 Markdown 的一些奇技淫巧

    自从几年前开始在 GitHub 玩耍,接触到 Markdown 之后,就一发不可收拾,在各种文档编辑上,有条件用 Markdown 的尽量用,不能用的创造条件也...

    mzlogin

扫码关注云+社区

领取腾讯云代金券