Andrew NG 在2016 NIPS 上tutorial 简单总结

Andrew NG 在2016 NIPS 上tutorial 简单总结

水平有限,如有错误,请不吝指正,谢谢! 视频地址youtube

神经网络已经出现很多年,为什么最近广泛应用起来

  1. 大数据
  2. 计算机能力的增强

DL分类

  1. 普通DL(全连接)
  2. 1-D序列模型(RNN,LSTM,GPU)
  3. 图像模型,2-D,3-D, CNN
  4. 其它类别:无监督学习,增强学习。

趋势

  • 模型规模不断增大
  • 端到端学习 (Rich output)
    • 现在大多数机器学习算法只是输出一个值,但深度学习可以干更复杂的事,输出富文本(image->caption, audio->transcript, english->frence, parameters->image)

端到端学习

端到端学习并不能解决所有事情。 拿语音识别举例: 传统方法: audio -> phonemes -> transcript 端到端:audio -> transcript

如果想让端到端学习工作的话,需要大量的标签数据。(X,Y)

另一个例子:通过手的X-ray图像判断小孩的年龄 传统方法:x-ray image -> bones lengths -> age 端到端: image -> age 应用端到端方法,碰到的问题是,没有足够的训练数据去训练一个好的网络。DL用的更多的地方是传统方法的:x-ray image -> bones lengths 这个过程。

?多少数据才够,数据不够的话,小心使用端到端学习

碰到问题时,应该怎么解决。(bias/variance)

Goal: 人类水平的语音识别系统

定义biasvariancebias : 训练集错误率 <–> 人类水平错误率 variance: dev-set错误率 <–> train-set错误率

human error

train-set error

dev-set error

test-set error

问题

1%

5%

6%

high bias

1%

2%

6%

high variance

1%

5%

10%

high bias, high variable

基本workflow:

Created with Raphaël 2.1.0StartTraining error is low?Dev error is low?DoneMore data, Regularization, New Model architecture.Bigger model,Train longer, new Model architecture.yesnoyesno

Bigger ModelMore Data 总是会得到好结果。

建议:unified data warehouse

问题:当前,用于训练的数据分布,和测试集数据分布很有可能属于不同分布 假设50000h的语音数据(但不是来自测试分布的数据),和10h的语音数据(来自于测试分布)。如何组织你的train, dev, test set? 第一种方案: 将50000h分为train, dev set,10h 作为测试数据(bad idea) 第二种方案:50000h作为train set,10h分为dev,test set。(devtest set应该服从同一分布) 第三种方案:50000h 分为 train-set, train-dev-set,10h分为 dev-set,test-set

重新定义bias variancebias : 训练集错误率 <–> 人类水平错误率 variance: train-dev-set错误率 <–> train-set错误率 train-test mismatchtrain-dev-set <—> dev-set overfitting of dev: dev-set <–> test-set

human-level

train-set

train-dev-set

dev-set

test-set

问题

1%

10%

10.1%

10.1%

10.2%

high bias

1%

2%

2.1%

10%

train-test mismatch

基本workflow:

Created with Raphaël 2.1.0StartTraining error is low?Train-Dev error is low?Dev error is low?Test error is low?DoneGet more dev data.More data similar to test, Data Synthesis/Augmentation, New Architecture.More data, Regularization, New Model architecture.Bigger model,Train longer, new Model architecture.yesnoyesnoyesnoyesno

提高模型准确率

如何定义human level error:专家团错误率。

  • 当模型准确率低于人类水平时
    • 从人类获得更多的数据
    • 错误分析(看哪些样本分错了)
    • 评估 bias/variance 影响。

AL/DL 可以干什么?

1) 人类在一秒中可以干的事情,深度学习可以做(给数据打标签)。 2) 预测序列时间的下一个输出。 3) 人工智能应该干人类无法干的事(马云)

如何学习机器学习

  • ML course
  • DL schoole
  • Phd student process
    • read papers
    • replicate results
  • dirty work
    • downloading data, clean data
    • downloading piece of data, tuning the parameters and see what happend

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

光流flownet2视频介绍及代码 及两篇中文文章

http://blog.csdn.net/hysteric314/article/details/50529804

1152
来自专栏人工智能

通过协同绘制用GAN合成高分辨率无尽道路

来源:arXiv 编译:Bing 生成对抗网络一直是深度学习的重要工具,经过近几年的发展,GANs也衍生出了许多不同的模式,例如DCGANs、Wasserste...

1867
来自专栏机器之心

深度 | 可视化线性修正网络:看Fisher-Rao范数与泛化之间的关系

33511
来自专栏计算机视觉战队

论文阅读——Selective Search for Object Recognition

今天认真把Selective Search for Object Recognition这篇文章阅读完,想来写写自己的见解与想法。如果有错,希望得到大牛们的指点...

28710
来自专栏生信小驿站

factoextra包 聚类分析(2)

聚类分析是一种数据贵呀技术,旨在揭露数据集中观测值的子集。它可以把大量的观测值归为若干个类。这里的类被定义为若干个观测值组成的群组,群组内观测值的相似度比群间的...

702
来自专栏雷经纬的专栏

老司机带你检测相似图片

本文从从图片的dhash,ahash,phash,颜色分布向量到基于语义的sift,surf,gist特征,构建一套分层相似图片检测系统。本文致力于零基础单机快...

2K2
来自专栏SIGAI学习与实践平台

场景文本检测—CTPN算法介绍

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。

3763
来自专栏机器之心

ECCV 2018 | UBC&腾讯AI Lab提出首个模块化GAN架构,搞定任意图像PS组合

作者:Bo Zhao、Bo Chang、Zequn Jie、Leonid Sigal

531
来自专栏机器之心

资源 | Distill详述「可微图像参数化」:神经网络可视化和风格迁移利器!

图像分类神经网络拥有卓越的图像生成能力。DeepDream [1]、风格迁移 [2] 和特征可视化 [3] 等技术利用这种能力作为探索神经网络内部原理的强大工具...

662
来自专栏深度学习自然语言处理

一文轻松搞懂-条件随机场CRF

根据实验室师兄,师姐讲的条件随机场CRF,我根据我的理解来总结下。有什么疑问的尽管在评论里指出,我们共同探讨 ? 总说 CRF(Conditional Rand...

31910

扫码关注云+社区