深度网络背后的数学奥秘，揭秘

文章来源：企鹅号 - 顾盼的浅吻

为了更多地了解神经网络地原理，我决定写一篇文章，一部分是为了我自己，一部分为了帮助其他人理解这些有时难以理解地概念。对于那些对代数和微积分不太熟悉地人，我会尽量详细一些，但正如标题所示，这是一篇涉及很多数学地文章。

例如，我们将解决如图1所示地数据集二分类问题，两种类别地点形成圆圈，这种排列对于许多传统地ML算法来说是不方便地，但是一个简单地神经网络却可以很棒地解决这个问题。为了解决这个问题，我们将使用一个神经网络，结构如图2所示。

首先，我将介绍一个最流行地机器学习库之一KERAS

正如我在介绍中提到地，只要导入一些库和几行代码就足以构建和训练一个模型，该模型对训练集进行分类地准确率基本上可以达到100%。我们地任务归根结底是根据所选择地架构提供超参数(层数、层内神经元数、激活函数或epoch数)。

更重要地一点是:当我们写单个单元地等式时，我们使用x和y-hat来分别表示特征地列向量和预测值。在切换到层地通用符号时，使用向量a——表示对应层地激活。

为了清楚起见，写出第2层对应地方程：

就像看见地那样，对于每个层地操作原理都差不多。在这里使用for循环并不十分有效，因此为了加快计算速度，我们将使用向量化来进行加速。

到目前为止我们列出地方程只涉及到一个样本。在学习神经网络地过程中，你通常要处理大量地数据，多达数百万个样本。

激活函数是神经网络地关键要素之一。没有它们，我们地神经网络就会变成线性函数地组合，那么它本身还是一个线性函数。

关于学习过程地基本信息来源是损失函数。一般来说，损失函数是用来衡量我们离“理想”地解决方案有多远。

神经网络学习过程即改变W和b参数地值，使损失函数最小化。为了实现这一目标，我们将借助于微积分，使用梯度下降法来求出函数地最小值。

反向传播是一个允许我们计算非常复杂地梯度地算法，根据以下公式调整神经网络地参数。

在上面地等式中,α表示学习率——是调整变量地一个超参数。选择一个学习率是至关重要地——如果我们设置地太低，神经网络学习地非常缓慢，我们设置地太高，我们将无法找到最小值。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货