【2017年末AI最新论文精选】词向量fasttext,CNN is All,强化学习,自回归生成模型, 可视化神经网络损失函数

【导读】专知内容组整理出最近arXiv放出的五篇论文,包括《Tomas Mikolov新作词向量表示,CNN Is All You Need,强化学习库, 自回归生成模型, 揭开神经网络中损失函数的神秘面纱》,每篇都有干货,值得大家收藏阅读。

▌1. Tomas Mikolov新作:高质量的词向量表示


  • 题目: Advances in Pre-Training Distributed Word Representations
  • 作者:Tomas Mikolov, Edouard Grave, Piotr Bojanowski, Christian Puhrsch, Armand Joulin(from Facebook AI Research)
  • 目标:训练高质量的词向量表示。
  • 链接:https://arxiv.org/abs/1712.09405

Tomas Mikolov的文章必属精品,现在许多自然语言处理任务都非常依赖在大型文本语料库(如新闻语料集,维基百科和爬取得网页)上预训练好的词向量。

在本文中,作者展示了如何通过将已有的各种技巧组合来训练高质量的词向量,而这些技巧通常很少被一起使用。 主要成果是提供一系列公开可用的预训练模型,这些模型在许多任务上大大优于现有技术。

▌2. 一个CNN就够了


  • 标题:CNN Is All You Need

  • 作者:Qiming Chen, Ren Wu(来自美国NovuMind公司)

  • 目标:PoseNet显著提高基于CNN的序列到序列学习的准确性
  • 链接:https://arxiv.org/abs/1712.09662

继Attention is All You Need 之后,这一篇题目取CNN Is All You Need,卷积神经网络(CNN)已经在音频,图像和文本学习方面表现出强大的优势; 最近它又在序列到序列(sequence-to-sequence)的学习领域中对流行的基于长期短期记忆单元(LSTM)的递归神经网络(RNN)发出了挑战。之所以要用CNN做序列模式建模,是因为CNN的计算容易并行化,而涉及到RNN的计算大多是连续的、不可并行的,这导致RNN方法遇到性能瓶颈。

与RNN不同,原始版本的CNN结构缺乏对序列转换所需历史信息的敏感性; 因此增强顺序意识(sequential order awareness)或位置敏感性成为CNN向更一般化的深度学习模型转化的关键。在这项工作中,作者引入一个扩展的CNN模型,称为PoseNet,其加强了对位置信息的敏感程度。 PoseNet的一个显著特点是编码器和解码器中位置信息的不对称处理。实验表明,PoseNet能显着提高基于CNN的序列到序列学习的准确性,在WMT 2014英语到德语翻译任务中获得大约33-36的BLEU分数,在英语到法语翻译任务中获得44-46的BLEU分数。

▌3. Ray RLLib库:一个可组合、可伸缩的强化学习库



  • 标题:Ray RLLib: A Composable and Scalable Reinforcement Learning Library
  • 作者:Eric Liang, Richard Liaw, Robert Nishihara, Philipp Moritz, Roy Fox, Joseph Gonzalez, Ken Goldberg, Ion Stoica(来自加州大学伯克利分校)
  • 目标:一个可组合、可伸缩的强化学习库
  • 链接:https://arxiv.org/abs/1712.09381
  • 代码:https://github.com/ray-project/ray/

强化学习(RL)算法涉及不同组件的深层嵌套,其中每个组件为分布式计算提供了可能。当前的RL库在整个程序层面进行并行, 这种方法将所有组件连接在一起,使单个组件难以扩展、组合和重用。本文中,作者通过在单个组件中封装并行的资源来构建可以灵活组合的RL模块,具体可以基于灵活任务导向的编程模型来实现。

作者通过在Ray之上构建Ray RLLib来证明这一原理,并证明了可以通过组合和重用少数标准组件来实现各种最先进的算法。这种可组合性不以性能为代价,在文章的实验中,RLLib达到或超过了参考方法的性能。 Ray RLLib可作为Ray的一部分使用:参考https://github.com/ray-project/ray/。

▌4. 自回归生成模型:PixelSNAIL



  • 标题:PixelSNAIL: An Improved Autoregressive Generative Model
  • 作者:Xi Chen, Nikhil Mishra, Mostafa Rohaninejad, Pieter Abbeel (from Skolkovo Institute of Science and Technology and University of Oxford)
  • 目标:PixelSNAIL: 改进的自回归生成模型
  • 链接:https://arxiv.org/abs/1712.09763
  • 代码:https://github.com/neocxi/pixelsnail-public

自回归生成模型在对高维度数据(比如图像或音频)进行密度估计任务中一直都有不错的效果。他们把密度估计作为一个序列建模的任务,其中递归神经网络(RNN)模拟下一个元素在它之前的所有元素的条件分布。在这一模式中,瓶颈在于RNN能在多大程度上建模比较长的依赖关系,而最成功的方法依赖于因果卷积,因为它对序列中比较早期部分的访问比传统的RNNs做的更好。

最近的元强化学习的工作中处理长期依赖关系也是必不可少的,受此启发,作者引入了一种新的生成模型架构,它将因果卷积与self attention相结合。在本文中,其在CIFAR-10(2.85 bits per dim)和32×32 ImageNet(3.80 bits per dim)数据集中进行了实验比较。

本文的实现可以在这个网址中找到:https://github.com/neocxi/pixelsnail-public。

▌5.揭开神经网络中损失函数的神秘面纱


  • 标题:Visualizing the Loss Landscape of Neural Nets
  • 作者:Hao Li, Zheng Xu, Gavin Taylor, Tom Goldstein(来自University of Maryland, 和 United States Naval Academy)
  • 目标:神经网络中损失函数可视化面面观
  • 链接:https://arxiv.org/abs/1712.09913

神经网络训练依赖于发现高度非凸损失函数的“好的”极小值的能力。 众所周知,某些网络体系结构(例如,跳跃式连接)能产生更容易训练的损失函数,并且选择好的训练参数(batchsize,学习率,优化方法)能产生更好的最小化值。 然而,这些参数造成结果不同的原因,以及它们对损失函数的影响,目前尚不清楚。 在本文中,文章中使用一系列可视化方法,分析神经网络的损失函数,以及损失函数对泛化性能的影响。

首先,作者介绍一个简单的“滤波器归一化”方法,它能够将损失函数曲率进行可视化,并对损失函数进行各方面的比较。 然后,使用各种可视化方法,探索网络结构是如何影响损失函数,以及训练参数是如何影响极小值的形状(the shape of minimizers)。

参考链接:

https://arxiv.org/abs/1712.09405

https://arxiv.org/abs/1712.09662

https://arxiv.org/abs/1712.09381

https://arxiv.org/abs/1712.09763

https://arxiv.org/abs/1712.09913

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2017-12-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | textgenrnn:只需几行代码即可训练文本生成网络

选自GitHub 作者:minimaxir 机器之心编译 参与:Geek AI、路 本文是一个 GitHub 项目,介绍了 textgenrnn,一个基于 K...

2866
来自专栏IT派

资源 | textgenrnn:只需几行代码即可训练文本生成网络

通过简简单单的几行代码,使用预训练神经网络生成文本,或者在任意文本数据集上训练你自己的任意规模和复杂度的文本生成神经网络。

1353
来自专栏CDA数据分析师

机器学习算法一览(附python和R代码)

“谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更聪明,更人性化的技术,机器学习。 ” —— 埃里克 施密特(谷歌首席执行官) 当计算...

3707
来自专栏AI研习社

禅与奶罩识别艺术(下)

编者按:本文接上期禅与奶罩识别艺术(上),作者 Kaiser,景略集智总经理,原文载于集智网专栏,雷锋网 AI 研习社已获授权。 过拟合/欠拟合 之前介绍了...

4327
来自专栏AI研习社

小白学CNN以及Keras的速成

为何要用Keras 如今在深度学习大火的时候,第三方工具也层出不穷,比较出名的有Tensorflow,Caffe,Theano,MXNet,在如此多的第三方...

3004
来自专栏机器之心

深度 | 使用三重损失网络学习位置嵌入:让位置数据也能进行算术运算

我们 Sentiance 开发了一款能接收加速度计、陀螺仪和位置信息等智能手机传感器数据并从中提取出行为见解的平台。我们的人工智能平台能学习用户的模式,并能预测...

1211
来自专栏一心无二用,本人只专注于基础图像算法的实现与优化。

水下图像增强相关算法的一个简单小结。

最近一直没有找到感兴趣的研究课题,下了几个最新的去雾的论文,随便看了下,觉得都是为了写论文而做的论文,没有什么创新性,也就没有想法去实现他们。偶尔看到了一些关...

5217
来自专栏人工智能

词向量fasttext,CNN is All,强化学习,自回归生成模型,可视化神经网络损失函数

【导读】专知内容组整理出最近arXiv放出的五篇论文,包括《Tomas Mikolov新作词向量表示,CNN Is All You Need,强化学习库, 自回...

2685
来自专栏AI科技评论

开发 | 小白学CNN以及Keras的速成

AI 科技评论按:本文作者Sherlock,原文载于其知乎专栏深度炼丹,AI 科技评论已获得其授权发布。 一、为何要用Keras 如今在深度学习大火的时候,第三...

3486
来自专栏企鹅号快讯

TensorFlow 资源大全中文版

编译:伯乐在线 - Yalye,英文:jtoy http://blog.jobbole.com/110558/ jtoy 发起整理的 TensorFlow 资源...

25410

扫码关注云+社区