开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >台大李宏毅最新深度学习课程：机器学习及其深层与结构化（347PPT）

台大李宏毅最新深度学习课程：机器学习及其深层与结构化（347PPT）

新智元

发布于 2018-03-27 16:56:37

1.2K0

发布于 2018-03-27 16:56:37

举报

文章被收录于专栏：新智元新智元

【新智元导读】 台大李宏毅老师的深度学习课程以其深入浅出和全面性而受到大家的欢迎。是不可多得的、较为全面的系统的深度学习中文教材。目前，他们在网上贴出了2017年的最新课程《机器学习及其深层与结构化》，包括 TensorFlow 介绍、深度学习模型的基础架构、用于反向传播的计算图、深度学习语言模型、深度学习芯片等等。我们第一时间带来课程设置和相关资源。

2017年台大李宏毅中文深度学习课程来了。课程名称是“机器学习及其深层与结构化（NTUEE Machine Learning and having it Deep and Structured）”。我们先来看一下李老师对于课程名称的解释。

可以看出，其中的“深度”描述了机器学习的方法，也就是说本门课程主要内容是关于深度学习的，而“结构化”则是深度学习的任务。

课程目录

课程介绍
作业0
TensorFlow 介绍例1- Word2vector模型例2-卷积神经网络（CNN）
深度学习模型的基础架构
用于反向传播的计算图
深度学习语言模型
作业1-语言模型
特殊的深度学习架构
RNN条件生成
作业2
自然语言对话的深度学习
深度学习和芯片
评分

视频地址：

https://www.youtube.com/playlist?list=PLJV_el3uVTsPMxPbjeX7PicgWbY7F8wW9

李宏毅老师简介

李宏毅老师于2012年从台北 National Taiwan University (NTU) 博士毕业。2012年9月—2013年8月，在 Sinica Academia 的 Research Center for Information Technology Innovation 做博士后。2013年9月—2014年7月，在 MIT Computer Science and ArtificialIntelligence Laboratory (CSAIL) 的 Spoken Language Systems Group 做访问学者。现任 Department of Electrical Engineering of National TaiwanUniversity 副教授。主要研究领域为机器学习（特别是深度学习）、口语语义理解和语音识别。

第一章课程介绍

结构化的（输出）学习；

机器学习就是去寻找一个函数 f

回归

分类

机构化学习

输出序列:以语音到文本的转换为例

输出矩阵：以图像到图像、文字到图像的转换为例

结构化输出的挑战：

输出空间是非常稀疏的

因为输出组件有依存性，应该对他们进行全局考虑

第二章 TensorFlow介绍

流程结构

总原则

导入模块

Session1

Session2

变量和范围1

变量和范围2

变量和范围3

变量和范围4

变量和范围5

占位符 1

占位符 2

定义添加层

例1- Word2vector模型

例2-卷积神经网络（CNN）

第三章深度学习模型的基础架构

深度学习三步走：神经网络--成本函数--优化

完整的连接层

不同层输出之间的的关系

递归神经网络

深度RNN

三角RNN

Naive RNN

LSTM

堆叠RNN

第四章用于反向传播的计算图

反向传播：一种计算梯度的高效方法

通过计算图（computational graph）理解反向传播：Tensorflow, Theano, CNTK, etc.

计算图：一种描述函数的“语言”

节点：变量（标量、向量、张量……）
边线：操作（简单函数）

参数共享：相同的参数出现在不同的节点

前馈网络计算图

前馈网络的损失函数

损失函数的梯度

计算梯度需要：计算偏导数，使用反向模式→输出总是一个标量（scalar）

递归网络计算图

参考资料

第五章语言建模

语言模型：预估单词序列的概率

应用：语音识别（不同的单词序列可能发音相同）；句子生成

N-gram

怎样预估P(w₁, w₂ , w₃, …., wn)

收集大量文本数据作为训练数据（但单词序列 w₁，w₂，…，wn可能没有出现在训练数据中）

N-gram 语言模型： P(w₁, w₂ , w₃, …., wn ) = P(w₁ |START)P(w₂ |w₁ ) …... P(wn |wn-₁ ) ← 这是 2-gram

3-gram, 4-gram …… 也很容易生成

NN -based LM

RNN-based LM：为长期信息建模

也可以用深度 RNN 或 LSTM

N-gram 的挑战：估计的概率不一定准确（尤其当 n-gram 中 n 的数值非常大时）

原因是数据稀疏性：大的模型，不充分的数据

这叫做“语言模型平滑”（language model smoothing）

语言模型的神经图灵机

更多参考资料

第六章特殊深度学习结构

Spatial Transformer Layer

图像转换

递归结构

应用：情感分析

循环结构：是递归结构的特殊形式
递归结构：如何堆栈函数 f 是已经确定的

递归模型

递归神经张量网络

实验：5-class 情感分类 ( -- , - , 0 , + , ++ )

矩阵-向量递归网络

Tree LSTM

第七章 RNN 条件生成

生成

句子由字符/单词组成

利用 RNN，每次生成一个字符/单词

图像由像素组成

利用 RNN，每次生成一个像素

条件生成

我们不希望只是简单生成一些随机的句子，希望根据当前条件生成句子。

应用：生成图说；聊天机器人

注意力：动态条件生成

机器翻译：基于注意力的模型

语音识别

图像说明生成

课程地址：http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2017-04-10，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

语音识别

腾讯云语音识别（Automatic Speech Recognition，ASR）是将语音转化成文字的PaaS产品，为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用，适用于录音质检、会议实时转写、语音输入法等多个场景。

产品介绍产品文档

录音文件识别、一句话识别等多款语音产品新用户14.9元起