为什么隐藏状态的值具有对称性意味着神经网络是非凸的?我还没有找到一个直观的答案。
另外,如果我们考虑一个完全连通的ReLU非线性(它是凸的),那么它是凸函数的一个组合,ReLU也是不递减的。然而,总体优化问题仍然是非凸的。
发布于 2021-01-15 16:39:21
来自简历线程神经网络的代价函数是非凸的?:
这与我们的神经网络有什么关系?成本函数J(W,b)也有许多局部最大值和极小值,例如,您可以在这幅画中看到。J有多个极小值的事实也可以用一种很好的方式来解释。在每个层中,使用分配不同参数的多个节点来使成本函数变小。除了参数的值外,这些节点是相同的。因此,您可以将一个层中的第一个节点的参数与同一层中的第二个节点的参数进行交换,并在随后的层中考虑到这一变化。您最终会得到一组不同的参数,但是成本函数的值不能通过以下方法来区分(基本上,您只是将一个节点移动到另一个位置,但是所有的输入/输出保持不变)。
来自神经网络的非凸性:
我不记得我是在哪里听到这种争论的,但这是一个非常有趣的论点,我不记得所有的推理,所以当我开始思考的时候,我想出了其中的一些,我相信它是相当合理的。我们都认为神经网络很难优化,因为它们是非凸的(或非凹的)。我们不多说的是为什么它们是非凸的。它可能有更简单的答案,你会争论一些有关非线性的问题。这篇文章与一个更有趣的答案有关。要理解这种推理,我们必须证明,如果函数至少有两个局部极小,使得它们的中点不是局部极小,则函数是非凸的。形式上,\text{If > }\exists x,y \in Dom(f) \hspace{5pt }s.t.\hspace{5pt} g(x) = g(y) = 0 > 和\forall z\in [x,y] \text{ s.t. } g(z) \neq 0 ,其中g(x)是x上的次梯度函数是非凸的.根据中点值定理和凸性的定义,这是非常简单的。考虑一个具有几个层的神经网络F(\cdot),并将三层L_1, L_2和L_3命名为L_1中的节点a和b,以及L_2.Let中的c和d,将节点i连接到j的参数称为w_{ij}。对功能的论证可以认为是A=[\cdots w_{ac}, > w_{ad}, \cdots , w_{bc}, w_{bd}\cdots],而功能评价则是f(A)。考虑一下B=[\cdots w_{ad}, w_{ac},\cdots, w_{bd}, w_{bc}, > \cdots]。可以说,存在一个B,即w_{ad}, > w_{ac}和w_{bd}, w_{bc} 分别交换的情况下,存在其他权值的排序(置换其他边),从而使函数的求值保持不变。很容易看出这是怎么可能是真的。查看下面的图片,其中reg边缘进入一个节点,绿色进入另一个节点。
供参考
将来自L_2的所有边缘从L_1连接到节点d到节点c,反之亦然,然后将所有传出边缘的起源从节点c转移到L_3到节点d,反之亦然。您已经完成的是网络,您可以通过您的手握住这两个节点,并手动交换他们的位置,同时保持连接边完整。还有沃拉!现在您有了A, B \in > dom(F) where F(A) = F(B) 。现在,在边缘被移动之后,看看它们。
..。这个有效的意思是,如果神经网络确实是凸的,就会有一个值,这个值可以给出一个层中的所有节点,但是这个网络代表了一个局部最优。这是非常荒谬的,如果您考虑一个分类网络,在输入层中的所有节点中,最终输出不应该具有相同的值(这也是函数论证的一部分),这是非常荒谬的。要将其推广到任何神经网络,您必须查看激活函数及其性质。您将试图验证的声明是,一个最优点的两个排列的平均值不一定是最优的。我想这是个有趣的读物。有趣的是,如果神经网络在同一层中至少有两个不同的节点值,它就不可能有唯一的最优值。太棒了,不是吗?
https://datascience.stackexchange.com/questions/87961
复制相似问题