\nabla_{\theta} J(\theta)=\left[\begin{array}{c}{\nabla_{W_{1}}} \\ {\vdots} \\ {\nabla_{W_{d a r d v a r k}}} \\ {\vdots} \\ {\nabla_{x_{z e b r a}}}\end{array}\right] \in \mathbb{R}^{C d + V d}

其中， Vd 是数量很大的参数。

1.11 神经计算

神经计算

An artificial neuron
神经网络有自己的术语包
但如果你了解 softmax 模型是如何工作的，那么你就可以很容易地理解神经元的操作
Neural computation：神经计算
Neural selectivity：神经选择性
Hierarchy of neural processing：神经处理层次

1.12 单个神经元：可视作二元逻辑回归单元

单个神经元：可视作二元逻辑回归单元

h_{w, b}(x)=f(w^{T}x+b)

f(z)=\frac{1}{1+e^{-z}}

b ：我们可以有一个“总是打开”的特性，它给出一个先验类，或者将它作为一个偏向项分离出来。
w , b 是神经元的参数。

1.13 一个神经网络：多个逻辑回归组合

一个神经网络：多个逻辑回归组合

如果我们输入一个向量通过一系列逻辑回归函数，那么我们得到一个输出向量。
但是我们不需要提前决定这些逻辑回归试图预测的变量是什么。

一个神经网络：多个逻辑回归组合

我们可以输入另一个logistic回归函数。
损失函数将指导中间隐藏变量应该是什么，以便更好地预测下一层的目标。

一个神经网络：多个逻辑回归组合

我们添加更多层的神经网络，就得到了多层感知器。

1.14 单层神经网络的矩阵形态表示

单层神经网络的矩阵形态表示

a_{1}=f(W_{11} x_{1}+W_{12} x_{2}+W_{13} x_{3}+b_{1})

a_{2}=f(W_{21} x_{1}+W_{22} x_{2}+W_{23} x_{3}+b_{2})

z=Wx+b

a=f(z)

f([z_{1}, z_{2}, z_{3}])=[f(z_{1}), f(z_{2}), f(z_{3})]

f(x) 在运算时是 element-wise 逐元素的

1.15 非线性变换的必要性

非线性变换的必要性

例如：函数近似，如回归或分类
没有非线性，深度神经网络只能做线性变换
多个线性变换，也还是组成一个线性变换 W_1 W_2 x=Wx
因为线性变换是以某种方式旋转和拉伸空间，多次的旋转和拉伸可以融合为一次线性变换
对于非线性函数而言，使用更多的层，他们可以近似更复杂的函数

2.命名实体识别

2.1 命名实体识别(NER)

命名实体识别(NER)

可能的用途
跟踪文档中提到的特定实体(组织、个人、地点、歌曲名、电影名等)
对于问题回答，答案通常是命名实体
许多需要的信息实际上是命名实体之间的关联
同样的技术可以扩展到其他 slot-filling 槽填充分类
通常后面是命名实体链接/规范化到知识库

2.2 句子中的命名实体识别

句子中的命名实体识别

我们通过在上下文中对单词进行分类，然后将实体提取为单词子序列来预测实体。

2.3 NER的难点

NER的难点

很难计算出实体的边界
- 第一个实体是 “First National Bank” 还是 “National Bank”
很难知道某物是否是一个实体
- 是一所名为“Future School” 的学校，还是这是一所未来的学校？
很难知道未知/新奇实体的类别
- “Zig Ziglar” ? 一个人
实体类是模糊的，依赖于上下文
- 这里的“Charles Schwab” 是 PER 不是 ORG

3.基于窗口数据的分类预测

3.1. 词-窗分类

词-窗分类

思路：为在上下文中的语言构建分类器
- 一般来说，很少对单个单词进行分类
例如，上下文中一个单词的命名实体分类
- 人、地点、组织、没有
在上下文中对单词进行分类的一个简单方法，可能是对窗口中的单词向量进行平均，并对平均向量进行分类
- 问题：这会丢失位置信息

3.2 窗口分类器：softmax

窗口分类器：softmax

训练softmax分类器对中心词进行分类，方法是在一个窗口内将中心词周围的词向量串联起来
例子：在这句话的上下文中对“Paris”进行分类，窗口长度为2
结果向量 x_{window}=x \in R^{5d} 是一个列向量

3.3 最简单的窗口分类器：Softmax

最简单的窗口分类器：Softmax

对于 x=x_{window} ，我们可以使用与之前相同的softmax分类器

如何更新向量？

简而言之：就像之前讲的那样，求导和优化

3.4 稍微复杂一点：多层感知器

稍微复杂一点：多层感知器

假设我们要对中心词是否为一个地点，进行分类
与word2vec类似，我们将遍历语料库中的所有位置。但这一次，它将受到监督，只有一些位置能够得到高分。
例如，在他们的中心有一个实际的NER Location的位置是“真实的”位置会获得高分

3.5 神经网络前馈计算

神经网络前馈计算

使用神经激活 a 简单地给出一个非标准化的分数

score(x)=U^{T} a \in \mathbb{R}

我们用一个三层神经网络计算一个窗口的得分

s = score("museums \ in \ Paris \ are \ amazing”)

s=U^{T} f(W x+b)

x \in \mathbb{R}^{20 \times 1}
W \in \mathbb{R}^{8 \times 20}
U \in \mathbb{R}^{8 \times 1}

之前的例子

X_{window} = [X_{museums} \quad X_{in} \quad X_{paris} \quad X_{are} \quad X_{amazing}]

3.6 附加层

附加层

中间层学习输入词向量之间的非线性交互

X_{window} = [X_{museums} \quad X_{in} \quad X_{paris} \quad X_{are} \quad X_{amazing}]

例如：只有当“museum”是第一个向量时，“in”放在第二个位置才重要

4.基于pytorch实现的分类器

4.1 使用合页损失替换

使用合页损失替换

关于训练目标的想法：让真实窗口的得分更高，而其他窗口的得分更低(直到足够好为止)

s = score(museums \quad in \quad Paris \quad are \quad amazing)

$ >$ s_c = score(Not \quad all \quad museums \quad in \quad Paris) $$

最小化： J=max(0,1-s+s_c)

这是不可微的，但它是连续的 → 我们可以用SGD

补充解析

单窗口的目标函数为 J=max(0,1-s+s_c)
每个中心有NER位置的窗口的得分应该比中心没有位置的窗口高1分
要获得完整的目标函数：为每个真窗口采样几个损坏的窗口。对所有训练样本窗口求和
类似于word2vec中的负抽样

4.2 随机梯度下降

随机梯度下降

\theta ^{new}= \theta ^{old}-\alpha \nabla_{\theta} J(\theta)

\alpha 是步长或是学习率

4.3 课堂手推

Gradients，Jacobian Matrix： Generalization of the Gradient

Chain Rule，Example Jacobian： Elementwise activation Function

Other Jacobians，Back to our Neural Net!，Break up equations into simple pieces

Apply the chain rule

Derivative with respect to Matrix： Output shape，Derivative with respect to Matrix

Why the Transposes?，What shape should derivatives be?

反向传播

5.视频教程

可以点击 B站查看视频的【双语字幕】版本

深度学习与自然语言处理教程 ◉ 斯坦福CS224n最全笔记

斯坦福NLP课程 | 第3讲 - 神经网络知识回顾

引言

本篇内容覆盖

1. 神经网络基础

1.1 分类问题基础

1.2 分类问题直观理解

1.3 softmax分类器的细节

1.4 softmax和交叉熵损失

1.5 交叉熵损失理解

1.6 完整数据集上的分类

1.7 传统的机器学习优化算法

1.8 神经网络分类器

1.9 神经网络非线性切分

1.10 基于词向量的分类差异

1.11 神经计算

1.12 单个神经元：可视作二元逻辑回归单元

1.13 一个神经网络：多个逻辑回归组合

1.14 单层神经网络的矩阵形态表示

1.15 非线性变换的必要性

2.命名实体识别

2.1 命名实体识别(NER)

2.2 句子中的命名实体识别

2.3 NER的难点

3.基于窗口数据的分类预测

3.1. 词-窗分类

3.2 窗口分类器：softmax

3.3 最简单的窗口分类器：Softmax

3.4 稍微复杂一点：多层感知器

3.5 神经网络前馈计算

3.6 附加层

4.基于pytorch实现的分类器

4.1 使用合页损失替换

4.2 随机梯度下降

4.3 课堂手推

5.视频教程

6.参考资料

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐