学术丨深度学习零基础进阶第四弹​

AI 科技评论曾编译了《干货分享 | 深度学习零基础进阶大法!》系列,相信读者一定对深度学习的历史有了一个基本了解,其基本的模型架构(CNN/RNN/LSTM)与深度学习如何应用在图片和语音识别上肯定也不在话下了。今天这一部分,我们将通过新一批论文,让你对深度学习在不同领域的运用有个清晰的了解。由于第三部分的论文开始向细化方向延展,因此你可以根据自己的研究方向酌情进行选择。AI 科技评论对每篇论文都增加了补充介绍。这一弹主要从自然语言处理以及对象检测两方面的应用进行介绍。

本文编译于外媒 github,原文标题《Deep Learning Papers Reading Roadmap》,原作者 songrotek。

1. NLP(自然语言处理)

Antoine Bordes 等人撰写了论文《Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing》。通常来说,模拟是减轻强化学习的高样本复杂性的好策略。从科学方法论上看,对于反事实的场景,模拟的环境是数据集的模拟,因此它们可以使用共同的指标,允许重复性实验和创新民主化。Antoine Bordes 主张使用一个可实现的模拟问题的集合(对于多种问题,哪一种完美的性能是可能实现的,哪一种能表现出明显不同的能力。)在这篇论文中,你可以对这个问题有所了解。

[1] https://www.hds.utc.fr/~bordesan/dokuwiki/lib/exe/fetch.php?id=en%3Apubli&cache=cache&media=en:bordes12aistats.pdf

词嵌入是目前无监督学习的成功应用之一。它们最大的好处无疑是它们不需要昂贵的人工标注,而是在从未标注的现成大数据集中派生的。然后预训练的词嵌入就可以运用在仅使用少量有标注数据的下游任务中了。《Distributed representations of words and phrases and their compositionality 》 是 Mikolov 等人编著的论文。其中介绍了 2013 年创立的 word2vec,这是一个允许无缝训练和使用预训练嵌入的工具套件。

[2] http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

这是由 Sutskever 等人编写的《Sequence-to-Sequence Learning with Attentional Neural Networks(使用注意神经网络的序列到序列学习)》。2014 年,seq2seq 的神经网络模型开始用于机器翻译。在带有(可选)注意(attention)的标准 seq2seq 模型的 Torch 实现中,其编码器-解码器(encoder-decoder)模型是LSTM。编码器可以是一个双向 LSTM。此外还能在字符嵌入(character embeddings)上运行一个卷积神经网络然后再运行一个 highway network,从而将字符(而不是输入的词嵌入)作为输入来使用。

[3] http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

这是 Ankit Kumar 所写的《 Ask Me Anything: Dynamic Memory Networks for Natural Language Processing》,其中介绍了应用偶发性修正存储的想法,期望模型能够借此学到一些逻辑推理的能力。论文比较有趣。

[4] https://arxiv.org/abs/1506.07285

Yoon Kim 所写的《Character-Aware Neural Language Models》。论文提出一个仅建立在字符输入上的一个神经语言模型(NLM),预测还是在词水平上进行。当输入一个LSTM循环神经网络语言模型(RNN-LM)时,该模型在字符上启用了一个卷积神经网络(CNN),也可选择让该CNN的输出通过一个 Highway Network,这样就能提升表现。

[5] https://arxiv.org/abs/1508.06615

Jason Weston 等人所写的《Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks》,内容主要针对 bAbI 数据集。

[6] https://arxiv.org/abs/1502.05698

Google DeepMind 团队在 NIPS 2015 发表了一篇题为 “Teaching Machines to Read and Comprehend” 的论文 ,这篇论文想解决的问题是:如何让计算机回答提问。具体来说,输入一篇文章(d)和一句提问(q),输出文章中的一个词组,作为回答(a)。

[7] https://arxiv.org/abs/1506.03340

在许多自然语言处理任务中起到主导地位的方法是循环神经网络(RNN,尤其是长短时间记忆网络,LSTM)和卷积神经网络(ConvNets)。然而,相比于深度卷积网络在计算机视觉领域中取得的巨大成功,这些网络结构还是太过浅层了。

Alexis Conneau 等人所写的论文《Very Deep Convolutional Networks for Natural Language Processing》 提出了一种直接在字符级别上进行文本处理的新结构,但仅仅用了很少的卷积和池化操作。实验结果表明模型的性能与网络深度成正比,一直用到 29 层卷积层,在多个文本分类任务中取得了重大的效果提升。据了解,这是深度卷积网络第一次应用在自然语言处理任务中。

[8] https://arxiv.org/abs/1606.01781

自动文本处理在日常计算机使用中相当关键,在网页搜索和内容排名以及垃圾内容分类中占重要组成部分,当它运行的时候你完全感受不到它。随着在线数据总量越来越大,需要有更灵活的工具来更好的理解这些大型数据集,来提供更加精准的分类结果。

为了满足这个需求,Facebook FAIR 实验室开源了资料库 fastText,声称相比深度模型,fastText 能将训练时间由数天缩短到几秒钟。fastText 能针对文本表达和分类帮助建立量化的解决方案。论文《Bag of Tricks for Efficient Text Classification》介绍了 fastText 的具体实现原理。

[9] https://arxiv.org/abs/1607.01759

2. Object Detection (对象检测)

Ross Girshick 所写的《Rich feature hierarchies for accurate object detection and semantic segmentation》。Ross Girshick 是首个提出的基本参数区域卷积神经网络的学者。五星推荐。

[1] http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

计算科学家一直在努力建立世界上最精确的计算机视觉系统,但是过程困难而缓慢。微软研究院在论文《Spatial pyramid pooling in deep convolutional networks for visual recognition》中介绍了,在保持准确性不变的条件下,微软研究团队是如何将深度学习目标检测系统加速了到 100 倍的。

[2] https://arxiv.org/pdf/1406.4729.pdf

选自 2015 年 IEEE 国际大会上 CV 领域的论文集,介绍了图像识别领域最先进的框架 Faster R-CNN 相关知识。

[3] https://pdfs.semanticscholar.org/8f67/64a59f0d17081f2a2a9d06f4ed1cdea1a0ad.pdf

任少卿是世界上最广泛使用的物体检测框架 Faster RCNN 的提出者。本篇论文《Faster R-CNN: Towards real-time object detection with region proposal networks》是由他主笔而成。

[4] http://papers.nips.cc/paper/5638-analysis-of-variational-bayesian-latent-dirichlet-allocation-weaker-sparsity-than-map.pdf

Redmon 和 Joseph等合著《You only look once: Unified, real-time object detection》 ,提出了 YOLO 算法,号称和 Faster RCNN 精度相似但速度更快。五星推荐。

[5] http://homes.cs.washington.edu/~ali/papers/YOLO.pdf

论文《SSD: Single Shot MultiBox Detector》介绍了在 arXiv上出现的算法 Single Shot MultiBox Detector (SSD)。它是 YOLO 的超级改进版,吸取了 YOLO的精度下降的教训,同时保留速度快的特点。SSD 能达到 58 帧每秒,精度有 72.1。速度超过 Faster R-CNN 有 8 倍,但也能达到类似的精度。

[6] https://arxiv.org/pdf/1512.02325.pdf

Via github ,关于深度学习其他领域的应用,还请关注 AI 科技评论后续文章。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-01-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与理论

最新姿态估计研究进展

最新姿态估计研究进展 自上而下:就是先检测包含人的框,即human proposal,然后对框子中的人进行姿态估计。一般RCNN(区域CNN就是这个思路) 自下...

6886
来自专栏目标检测和深度学习

【史上最有趣论文】物体检测经典模型YOLO新升级,就看一眼,速度提升 3 倍!

新智元编译 作者:Joseph Redmon、Ali Farhadi 翻译:肖琴 【新智元导读】你肯定很少见到这样的论文,全文像闲聊一样,不愧是YO...

34415
来自专栏新智元

Yoshua Bengio最新演讲:Attention 让深度学习取得巨大成功(46ppt)

【新智元导读】机器翻译是深度学习技术最切近实际的应用之一,现在在互联网上有很广泛的使用。此外,不久前,许多科技大公司也相应地推出了为图片或视频自动生成字幕的应用...

3044
来自专栏大数据文摘

熬过深宫十几载,深度学习上位这五年

1824
来自专栏机器之心

业界 | 谷歌发布MobileNetV2:可做语义分割的下一代移动端计算机视觉架构

选自Google Blog 作者:Mark Sandler、Andrew Howard 机器之心编译 参与:黄小天、思源 深度学习在手机等移动端设备上的应用是机...

2626
来自专栏CVer

[计算机视觉论文速递] 2018-03-14

通知:这篇推文有18篇论文速递信息,涉及图像分割、目标检测、图像分类、显著性检测、姿态估计和GAN等方向 前文回顾: [计算机视觉] 入门学习资料 [计算机视...

37015
来自专栏机器之心

学界 | 用单张图片推理场景结构:UC Berkeley提出3D景深联合学习方法

选自BAIR Blog 作者:Shubham Tulsiani、Tinghui Zhou 机器之心经授权编译 参与:smith、蒋思源、李泽南 最近,UC Be...

2775
来自专栏新智元

【史上最有趣论文】物体检测经典模型YOLO新升级,就看一眼,速度提升 3 倍!

【新智元导读】你肯定很少见到这样的论文,全文像闲聊一样,不愧是YOLO的发明者。物体检测领域的经典论文YOLO(You Only Look Once)的两位作者...

3028
来自专栏CVer

[计算机视觉论文速递] 2018-06-13 图像分割专场

这篇文章有4篇论文速递,都是图像分割(image segmentation)方向,其实3篇是对U-Net网络进行了改进。

1105
来自专栏AI研习社

提高网络模型的泛化能力!深度学习之父Geoffrey Hinton的神经网络第九课(中文字幕)

作为深度学习祖师,Geoffrey Hinton 的每一句每一言,都使学习者如奉纶音。浓缩其毕生所学的《Neutral Network for Machine ...

3835

扫描关注云+社区