FTRL

week·腾讯算法工程师

一、算法原理

二、算法逻辑

三、个人理解

从loss function的形式来看：FTRL就是将RDA-L1的“梯度累加”思想应用在FOBOS-L1上，并施加一个L2正则项。【PS：paper上是没有加L2正则项的】
这样达到的效果是：
- 累积加和限定了新的迭代结果W**不要离“已迭代过的解”太远**；

-  因为调整后的解不会离迭代过的解太远，所以保证了每次找到让之前所有损失函数之和最小的参数；

-  保留的RDA-L1中关于累积梯度的项，可以看作是当前特征对损失函数的贡献的一个估计【累积梯度越大，贡献越大。】

-  由于使用了累积梯度，即使某一次迭代使某个重要特征约束为0，但如果后面这个特征慢慢变得稠密，它的参数又会变为非0；

-  保留的RDA-L1中关于累积梯度的项，与v相加，总会比原来的v大，加起来的绝对值更容易大于L1的阈值，保护了重要的特征；

-  因为这个参数，保证了FTRL在不使用L1时和SGD保持了一致性。

-  如果特征稠密，learning\_rate就小一点；

-  稀疏靠RDA-L1，保留有效特征靠FOBOS-L1和RDA-L1的累积梯度思想。

-  t+1次迭代的解，不能离0太远；

-  是对具体约束的表达。

小结：

-  调整后的梯度不能与零点太远；