博士一把年纪,理论物理已经没心读下去了,不知廉耻来知乎卖萌,还是深度学习卖萌,才转行半年多就敢出来卖,好羞耻呀~喵~
目前本萌关注深度学习方面的机理和优化,转行时间不长,水平一般,一直知乎隐性埋名当安静的萌喵,相对各位科班白美,富帅作目标检测,视频分析,NLP等好玩的,有钱拿的,KPI导向型的。本萌目前的研究仍然缺乏工程属性(没钱刷ImageNet),而且毫无竞争力可言(HR说,博士发不出ML文章给本科生待遇。。。),苦逼只能给个知乎文章水一水情怀。
好了开始正经的讨论,话说优化这个坑,本萌并不打算钻研各类大规模机器学习优化问题,或者数值优化算法,本萌只关心非常深的网络的优化问题。针对此类问题,本萌打心里觉得,网络结构+数据才是王道,至于各种数值优化算法,本来就不是针对深度,宽度学习也可,用用只是锦上添花。下面开始本萌的叨絮:
,增加宽度带来的局部优是指数暴涨的,相比之下,增加深度带来的局部优增长却缓慢多了。我们知道局部优过多会有过拟合的风险,加深换取容度比加宽换取容度,理论上更加经济,过拟风险更低。同时,按照这个理论,极深网络的性能瓶颈很可能不在于过拟合上。这样,欢天喜地的,深度学习就是要深。(这不废话呀~喵喵喵!)
,这一步已经够weight layer的bias来回访问紧邻数据点多次。梯度强度这东西,前期搞得大大的用来翻山越岭可以理解,后期还搞减少学习率搞退火,这时候还理解梯度衰减为跑不动,语意上岂不是矛盾吗?其实,本萌想说,梯度衰减是下面提到的祸根。
t是步数。到了SGD,是醉汉行走,你走了2步,可能回折一步,有效步数为1步,按照扩散理论估计出来的有效行走距离 L 和行走次数 t 是
, 所以达到相同精度需要更多步数,bound大致是
(实际下界还会依赖函数convex的属性)。目前也能够控制SGD的bound到
收敛。然而,不管怎样说,GD类型的优化是landscape依赖的,不是数据分布依赖的。什么叫landscape依赖的,打个比方说,你在山上,要到海边,然而你畏惧地形,选了一条拐来拐去的路。换到度规上来说,丧失数据流形的导向,前景充满未知的优化只能选择局部和贪心类型的,没法沿着全局测地线狂奔。而数据分布依赖的优化是靠fisher information,fisher information规定了一种保分布优化,目标一直在,从山上到海边不再是按照局部梯度方向,而是按照类似测地线的方式行走