我正在尝试理解TensorFlow使用的学习算法是如何工作的。
我在过去读过关于这些方法的论文(几年前,很抱歉,我的术语很差),它们似乎能够区分AI权重和偏差中每个值的损失函数。这将告诉学习算法将AI的参数移动到哪个方向以减少损失。
为了根据损失函数区分AI的参数,学习算法首先需要生成一个描述这种关系的方程。我的问题是:这个等式是如何生成的?
发布于 2020-03-28 11:38:46
当训练具有单个隐藏层(具有$m$隐藏节点)的密集网络进行二进制分类时,我们最小化代价函数
$$L(W_1,W_2) = \sum_{i=1}^N \ell(y_i,\sigma(W_2 a(W_1 \hat x_i)),$$
其中$x_i \in \mathbb R^d$是训练数据集中的$i$th特征向量,$\hat x_i \in \mathbb R^{d+1}$是通过将$1$前置到$x_i$获得的扩展特征向量,$W_1$是包含隐藏层的权重和偏差的$m \times (d+1)$矩阵,$a$是将ReLU激活函数应用于其每个输入的函数(并且还有一个等于$1 $的附加输出),$W_2$是包含输出层的权重和偏差的$1\x m$矩阵。这里,$\sigma$是逻辑函数,$\ell$是二进制交叉熵损失函数。
编辑: mathjax在这个网站上不能工作吗?
https://stackoverflow.com/questions/60895421
复制相似问题