FTRL

版权声明:本文为博主-姜兴琪原创文章,未经博主允许不得转载。 https://blog.csdn.net/jxq0816/article/details/83721843

一、算法原理

二、算法逻辑

三、个人理解

  • 从loss function的形式来看:FTRL就是将RDA-L1的“梯度累加”思想应用在FOBOS-L1上,并施加一个L2正则项。【PS:paper上是没有加L2正则项的】
  • 这样达到的效果是:
    • 累积加和限定了新的迭代结果W**不要离“已迭代过的解”太远**;
    • 因为调整后的解不会离迭代过的解太远,所以保证了每次找到让之前所有损失函数之和最小的参数;
    • 保留的RDA-L1中关于累积梯度的项,可以看作是当前特征对损失函数的贡献的一个估计【累积梯度越大,贡献越大。】
    • 由于使用了累积梯度,即使某一次迭代使某个重要特征约束为0,但如果后面这个特征慢慢变得稠密,它的参数又会变为非0;
    • 保留的RDA-L1中关于累积梯度的项,与v相加,总会比原来的v大,加起来的绝对值更容易大于L1的阈值,保护了重要的特征;
  • FTRL的巧妙之处在于:
    • 在MSE的前面乘以了一个和learning_rate有着神奇关系的参数σ_s。
    • 因为这个参数,保证了FTRL在不使用L1时和SGD保持了一致性。
  • FTRL使用的自适应learning_rate,其思想和 Adagrad Optimizer 类似的自适应思想:
    • 如果特征稀疏,learning_rate就大一点;
    • 如果特征稠密,learning_rate就小一点;
  • FTRL中为什么要同时兼顾FOBOS-L1和RDA-L1??
    • 因为不是为了产出稀疏而进行变化,真正的目的是产出有效的稀疏解。即稀疏又保留有效特征!!!
    • 稀疏靠RDA-L1,保留有效特征靠FOBOS-L1和RDA-L1的累积梯度思想。
  • 本质上,FTRL只是一种适用于online-learning的optimizer;
  • FTRL-Proximal中的Proximal的含义:
    • t+1次迭代的解,不能离t次迭代的解太远;
    • t+1次迭代的解,不能离0太远;
    • 是对具体约束的表达。

小结:

  • FOBOS-L1:使用MSE+L1对w_{t+1/2}进行建模,目标是使调整后的梯度在离SGD结果附近的基础上,产出稀疏解;
  • RDA-L1:使用累积平均梯度 + L1 + L2进行建模,这里使用L2有两方面的理解:
    • 能产出极小值点;
    • 调整后的梯度不能与零点太远;

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏MyBlog

Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记(1)

如今一些深度神经网络对于一些对抗性样本(Adversarial sample)是弱势的, 对抗性样本就是指我们对输入进行特定的改变, 通过原有的学习算法最终导致...

2733
来自专栏AI科技评论

王宇龙:如何通过关键数据通路去理解网络行为?

AI科技评论按:神经网络长久以来的“黑盒”属性,导致人们一直无法理解网络的内部是如何运作的,针对这个困扰已久的问题,学界主要存在三种研究方向:数据归因模式、特征...

623
来自专栏目标检测和深度学习

用 TensorFlow 实现物体检测的像素级分类

雷锋网 AI 科技评论按:本文作者 Priyanka Kochhar 从事数据科学十多年,现在在运营一家深度学习咨询公司,她曾帮助多家创业公司完成人工智能解决方...

4366
来自专栏marsggbo

DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试、正则化以及优化--Week2优化算法

1. Mini-batch梯度下降法 介绍 假设我们的数据量非常多,达到了500万以上,那么此时如果按照传统的梯度下降算法,那么训练模型所花费的时间将非常巨大,...

2196
来自专栏CreateAMind

以假乱真的生成图片的效果

昨天发的图片是训练到6小时的效果LS-GAN非常棒的效果!,今天略微调整继续训练:也出现了生成网络跟不上判别网络的情况,加快生成网络训练循环。

912
来自专栏机器学习算法与Python学习

CS231n课程笔记翻译:图像分类笔记(下)

用于超参数调优的验证集 k-NN分类器需要设定k值,那么选择哪个k值最合适的呢?我们可以选择不同的距离函数,比如L1范数和L2范数等,那么选哪个好?还有不少选择...

3678
来自专栏数据派THU

无人驾驶机器学习算法大全(决策矩阵、聚类、回归……)

来源:机器人圈 作者:多啦A亮 本文长度为4600字,建议阅读6分钟 本文全面概述了无人驾驶现阶段使用的机器学习技术。 [导读]无人驾驶被认为是未来人工智能技术...

3247
来自专栏CVer

论文精读 | LaneNet 端到端车道线检测的实例分割方法

关注CVer微信公众号的同学,应该知道CVer有个主题系列是“论文速递”,旨在分享计算机视觉相关领域最新的论文,每次推文近数篇论文,只是整理论文最精华的部分“摘...

1.1K5
来自专栏IT派

随机森林之美

导语:随机森林和决策树相比,能更好的防止过拟合。虽然每个基分类器很弱,但最后组合的结果通常很强,这也类似于:“三个臭皮匠顶个诸葛亮”的思想。对比发现Random...

4444
来自专栏机器之心

学界 | 继图像识别后,图像标注系统也被对抗样本攻陷!

3016

扫码关注云+社区

领取腾讯云代金券