版权声明:本文为博主-姜兴琪原创文章,未经博主允许不得转载。 https://cloud.tencent.com/developer/article/1368807
一、算法原理
二、算法逻辑
三、个人理解
- 因为调整后的解不会离迭代过的解太远,所以保证了每次找到让之前所有损失函数之和最小的参数;
- 保留的RDA-L1中关于累积梯度的项,可以看作是当前特征对损失函数的贡献的一个估计【累积梯度越大,贡献越大。】
- 由于使用了累积梯度,即使某一次迭代使某个重要特征约束为0,但如果后面这个特征慢慢变得稠密,它的参数又会变为非0;
- 保留的RDA-L1中关于累积梯度的项,与v相加,总会比原来的v大,加起来的绝对值更容易大于L1的阈值,保护了重要的特征;
- 因为这个参数,保证了FTRL在不使用L1时和SGD保持了一致性。
- 如果特征稠密,learning\_rate就小一点;
- 稀疏靠RDA-L1,保留有效特征靠FOBOS-L1和RDA-L1的累积梯度思想。
- t+1次迭代的解,不能离0太远;
- 是对具体约束的表达。
小结:
- 调整后的梯度不能与零点太远;