首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

MIT课程全面解读2019深度学习最前沿

人类公元纪年2019年伊始,深度学习技术也同样处在一个新的“开端”,宜review、宜展望。

MIT正在进行中的深度学习课程就全面描绘了当下的状态。

最近一节课,Lex Fridman老师展现了深度学习各方向的最领先状态,也回顾了过去两年间通往前沿的一步步进展。涉及自然语言处理、深度强化学习、训练和推断的加速等等。

这里的“领先”,只谈想法方向,无关基准跑分。

面对课上展现的大进展,甚至有网友说:

课前喝一杯?机器学习进展如此巨大,简直值得来一两瓶。

视频放出一天多,收获感谢无数。

量子位上完课,结合PPT写了笔记一份,分享给大家。

正式开始前,先来一份小目录

这节课涉及的重大进展,共12个方面,分别是:

BERT和自然语言处理(NLP)

特斯拉Autopilot二代(以上)硬件:规模化神经网络

AdaNet:可集成学习的AutoML

AutoAugment:用强化学习做数据增强

用合成数据训练深度神经网络

用Polygon-RNN++做图像分割自动标注

DAWNBench:寻找快速便宜的训练方法

BigGAN:最领先的图像合成研究

视频到视频合成

语义分割

AlphaZero和OpenAI Five

深度学习框架

我们一个一个细说。

BERT和NLP

2018年是自然语言处理之年。很多圈内人把2012年称为深度学习的ImageNet时刻,因为这一年,AlexNet带来了计算机视觉领域的性能飞跃,激励着人们去探索深度学习在这一领域的更多可能性。

2016年到18年,NLP的发展也类似,特别是BERT的出现。

NLP的发展要从编码器-解码器架构说起。

上图展示了一个用于神经机器翻译的序列到序列(seq2seq)模型。RNN编码器负责将输入序列编码成固定大小的向量,也就是整个句子的“表征”,然后把这个表征传递给RNN解码器。

这个架构在机器翻译等领域很管用。

接下来发展出了注意力(Attention)。这种机制,不强迫网络将所有输入信息编码城一个固定长度的向量,在解码过程中还能重新引入输入序列,还能学习输入序列和输出序列中哪一部分互相关联。

比较直观的动态展示是这样的:

再进一步,就发展到了自注意力(Self-Attention),和谷歌“Attention is all you need”论文提出的Transformer架构。

Transformer架构的编码器用自注意力机制为输入序列生成一组表征,解码过程也使用注意力机制。

说完注意力的发展,我们再看一下NLP的一个关键基础:词嵌入。

词嵌入的过程,就是把构成句子的词表示成向量。传统的词嵌入过程用无监督方式将词映射成抽象的表征,一个词的表征参考了它后边的序列。

这是一个语言建模(language modeling)过程。

后来,有了用双向LSTM来做词嵌入的ELMo。

双向LSTM不仅考虑词后边的序列,也考虑它前边的。因此,ELMo词嵌入考虑了上下文,能更好地表征这个词。

接下来出现了OpenAI Transformer。

也就是用先预训练一个Transformer解码器来完成语言建模,然后再训练它完成具体任务。

经过这些进展的积累,2018年出现了BERT,在NLP的各项任务上都带来了性能的明显提升。

它可以用在各种各样的NLP任务上,比如说:

像ELMo一样创建语境化词嵌入;

句子分类;

句对分类;

计算句对的相似度;

完成选择题形式的问答任务;

给句子打标签;

完成普通的问答任务。

量子位之前有回顾2018年深度学习进展、NLP进展的文章,也都详细谈了BERT。

特斯拉AutoPilot二代硬件

特斯拉的出现毫不意外,量子位之前介绍过,Lex老师是

马斯克的小迷弟

作为神经网络大规模应用的代表,也的确值得一提。

Autopilot二代硬件使用了英伟达的Drive PX 2,还搭载了8个摄像头获取输入数据。

Drive PX 2上运行着Inception v1神经网络,运用摄像头获取的各种分辨率数据进行各种来计算,比如分割可以前进的区域,物体检测等等。

这套系统,已经把神经网络带进了车主们的日常生活中。

AdaNet:可集成学习的AutoML

AutoML是机器学习界的梦想:

将机器学习的一方面或者整个流程自动化,扔一个数据集进去,让系统自动决定所有的参数,从层数、模块、结构到超参数……

谷歌的神经架构搜索,无论从效率还是准确率来看成绩都不错。

2018年,AutoML又有了一些新进展,AdaNet就是其中之一。

它是一个基于Tensorflow的框架,AutoML一样,也是用强化学习方法。不过,AdaNet不仅能搜索神经网络架构,还可以学习集合,将最优的架构组合成一个高质量的模型。

要进一步了解AdaNet,可以参考量子位之前的文章:

AutoAugment:用强化学习增强数据

从2012年的“ImageNet时刻”到现在,图像识别的新算法层出不穷,成绩一直在提升。

而在计算机视觉里,数据量非常重要,数据增强(data augmentation)也是重要的提升识别率的方法。但是,关于数据增强的研究却不多。

2018年,Google继自动搜索神经架构之后,把数据增强这个步骤也自动化了。

AutoAugment能根据数据集学习这类图像的“不变性”,知道哪些特性是最核心的,然后,神经网络在增强数据时应该让核心特性保持不变。

比如说,它自动增强门牌号数据集的时候,会常用剪切、平移、反转颜色等方法,而在ImageNet这种自然照片数据集上,就不会剪切或者翻转颜色,只会微调颜色、旋转等等。

这个过程和计算机视觉里常用的迁移学习差不多,只不过不是迁移模型权重,而是迁移大型数据集体现出的数据增强策略。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190122B00D3S00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券