优化算法——截断梯度法(TG)

一、L1正则的表达形式

   在机器学习中,几乎无人不知无人不晓L1正则与L2正则,L1正则与L2正则都有参数控制的作用,对模型起到约束的作用,防止过拟合。但是L1正则与L2正则也有区别,L1正则更容易产生稀疏解,使得某些参数等于0,而L2正则却没有这样的优势,只能使得参数趋近于0。利用这样的优势可以使得L1具有特征选择的作用,若某些特征的系数为0表示该维特征对于模型没什么作用,故此可以丢弃。

L1正则与L2正则相比具有了更多的优点,同时,L1正则的优化相对L2正则来讲,也变得更加难。对于L2正则,由于正则项是可导的,因此博客中的基于梯度的优化算法,如梯度下降法,牛顿法,拟牛顿法(DFP算法,BFGS算法,L-BFGS算法)都可以直接用于求解带有L2正则的优化问题。L1正则项是不可导的,因此前面的这些算法无法直接对其进行求解,因此需要对其进行修改才能用来求解带有L1约束的优化问题。带有L1正则的表达式主要有以下两种:

1、convex-constraint formulation

二、处理大数据的方法

    由于数据量比较大,可能已经超出了内存的大小,此时无法将数据全部装入到内存中参与计算,主要有两种方法处理大数据问题

  1. 在很多机器上并行批学习
  2. 利用流式的在线学习

1、流式在线学习的流程

2、随机梯度下降法  

三、截断梯度法(Truncated Gradient)

正如上面所讲,L1正则可以使得某些特征的系数为0,具有特征选择的能力,这便称为稀疏性(Sparsity)。L1正则能够产生稀疏的解。为了能够在利用在线学习的同时产生稀疏解,最直接的想法是采用截断的方法,截断,即通过某个阈值来控制系数的大小,若系数小于某个阈值便将该系数设置为0,这便是简单截断的含义。

1、简单截断(Simple coefficient Rounding)

2、L1-Regularized Subgradient(次梯度)

有关次梯度的概念将会在另一篇文章中涉及,L1-Regularized Subgradient形式也比较直观,具体的形式如下:

其中,函数

是一个符号函数,其具体形式如下:

这样的次梯度的方法的主要缺点是在很少的情况下能够产生稀疏的解,主要的原因是前后两部分做加减法能够等于0的概率很小。

3、截断梯度法(Truncated Gradient)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | AI 黑箱难题怎么破?基于神经网络模型的算法使机器学习透明化

编者按:人们可以训练人工智能 (AI)和机器人完成任务,但整个过程在黑箱中运作。我们并不知道 AI 和机器人是如何决策的。一家名为 OptimizingMind...

34570
来自专栏人工智能LeadAI

Scikit-learn使用总结

在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-lea...

53270
来自专栏人工智能LeadAI

关联规则挖掘算法

关联规则挖掘是一种基于规则的机器学习算法,该算法可以在大数据库中发现感兴趣的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用...

56850
来自专栏人工智能LeadAI

机器学习实战 | 数据探索(变量变换、生成)

1.1、什么是变量变换? 在数据建模中,变换是指通过函数替换变量。 例如,通过平方/立方根或对数x替换变量x是一个变换。 换句话说,变换是一个改变变量与其他变量...

44760
来自专栏AI科技评论

业界 | 吴恩达写给产业界的一份信:《你要弄明白人工智能能做什么,不能做什么》

许多高管问我人工智能能够做什么? 这些人想知道 AI 是如何颠覆他们从处的行业,以及他们该如何利用 AI 重塑自己的公司。这段日子,有媒体在描述人工智能时总是夹...

35670
来自专栏人工智能LeadAI

机器学习实战 | 数据探索

数据的输入质量决定了输出的最后结果,数据的探索、预处理、特征选择、降维等特征工程占了项目的70%的时间。那么如果我们确定了商业目的,该如何一步一步渐进式进行特征...

39650
来自专栏人工智能LeadAI

大数据和机器学习相关概念

01 大数据的定义 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发...

37470
来自专栏人工智能LeadAI

机器学习实战 | 数据探索(缺失值处理)

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接 接着上一篇:《机器学习实战-数据探索》介绍,机器学习更多内容可以关注github项目...

46760
来自专栏人工智能LeadAI

TensorFlow从1到2 | 第一章 消失的梯度

上一主题 《TensorFlow从0到1》介绍了人工神经网络的基本概念与其TensorFlow实现,主要基于浅层网络架构,即只包含一个隐藏层的全连接(FC,Fu...

38550
来自专栏AI科技评论

CNCC 2016 | 山世光:深度化的人脸检测与识别技术—进展与展望

编者注:本文根据山世光在 CNCC 2016 可视媒体计算论坛上所做的报告《深度化的人脸检测与识别技术:进展与问题》编辑整理而来,在未改变原意的基础上略有删减。...

38940

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励