logistic regression一点理解

全文共1268个字,36张图,预计阅读时间10分钟。

关于logistic regression一些常见问题,整理出来,方便大家应对各种坑爹的面试官。

01

为什么用sigmoid函数?

the odds of experiencing an event

如果我们想预测每天股票涨多少,可以假设线性模型

要解决这个问题,我们先理解一个概念the odds of experiencing an event: 假设我们认为股票涨的概率为p,对于伯努利分布而言,不涨的概率即为1-p。那么我们构造了p/(1-p),就是the odds of experiencing an event胜率,

趋向负无穷。这就又转化为可以用线性模型预测的问题了:即为对数胜率。当我们坚信它会涨的情况下,p趋于1,

趋向正无穷;当我们坚信它不会涨的情况下,p趋向0,

趋于负无穷。这就又转化为可以用线性模型预测的问题了:

展开就可以得到:

。这就解释了为什么说logistic regression是线性模型,因为它的决策边界是线性的;这就解释了为什么想到了要用sigmoid作为压缩函数。

exponential model

就这一种办法么?当然不是: 假设第i个特征对涨的贡献是

,则记数据点(

,属于涨的概率为

正比于

假设第i个特征对不涨的贡献是

,则记数据点(

属于不涨的概率为

,正比于

所以,令涨=1则有:

,上下同除以

且令

,则依旧得到了

的sigmoid结果。

exponential family

如果大家对数学有点点研究的话,exponential family指出:如果一类分布(a class of distribution)属于exponential family,那么它能写成如下形式:

伯努利分布可以写成:

把后面的

展开,就有了sigmoid形式出现了:

对应上方的exponential family的形式,

,这不又回到了the odds of experiencing an event胜率的问题了嘛。

02

为什么要用交互熵做损失函数?

极大似然角度

我们假设预测结果服从伯努利分布,那么可以把一个case预测结果写成:

其中

为给定前提

率值要使当前参数下所有事情发生的概率最大,联合分布为各边缘分布的乘积,得到:

其中

取log后方便计算:

这个就是我们最初的交互熵的形式。

信息熵角度

用来衡量信息量大小,熵越大,越不稳定,信息量越大。

KL散度

用来衡量两份数据的相似程度,KL散度越大,越不相似。

从公式上,我们就可以看出:

其实很好理解的,对应训练数据traindata分布,和未知的真实数据分布越一致越好;同理,模型预测的分布,和训练数据traindata分布也是越一致越好,所以用KL散度来度量就是一个不错的方法。

至于为什么不直接最小化

而是选择了最小化H(A,B),我是觉得就和交互熵求导前面加上1/2一样,为了简化计算量,本质上是一致的。

原文链接:https://www.jianshu.com/p/61ac39a57f9d

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2018-08-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 与模型无关的元学习,UC Berkeley提出一种可推广到各类任务的元学习方法

选自BAIR Blog 作者:Chelsea Finn 机器之心经授权编译 参与:路雪、蒋思源 学习如何学习一直是机器学习领域内一项艰巨的挑战,而最近 UC B...

38890
来自专栏机器之心

学界 | Yoshua Bengio与MIT发表新论文:深度学习中的泛化

选自arXiv 机器之心编译 参与:路雪、刘晓坤 日前,MIT 和 Bengio 发表新论文,探讨深度学习中的泛化。该论文解释了深度学习能够实现较好泛化的原因,...

28280
来自专栏机器之心

神经风格迁移研究概述:从当前研究到未来方向(附论文和代码)

选自arXiv 作者:Yongcheng Jing 等 机器之心编译 风格迁移是近来人工智能领域内的一个热门研究主题,机器之心也报道了很多相关的研究。近日,来...

46050
来自专栏AI科技评论

深度 | 谷歌的新CNN特征可视化方法,构造出一个华丽繁复的新世界

AI 科技评论按:深度神经网络解释性不好的问题一直是所有研究人员和商业应用方案上方悬着的一团乌云,现代CNN网络固然有强大的特征抽取能力,但没有完善的理论可以描...

37680
来自专栏企鹅号快讯

深度学习模型、概念思维导图分享

[何在的天启德鑫私募]唯一微信公众账号 深度学习是机器学习大家族的一员,与任务指向性的算法不同,深度学习主要学习数据的表示(分布)。学习方法分为监督式,半监督式...

37070
来自专栏华章科技

揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性

近年来,深度学习大获成功,尤其是卷积神经网络(CNN)在图像识别任务上的突出表现。然而,由于黑箱的存在,这种成功一度让机器学习理论学家颇感不解。本文的目的正是要...

8320
来自专栏机器之心

揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性

42790
来自专栏专知

何去何从:从经典深度学习模型探讨图像识别新方向

【导读】1月22日,深度学习工程师George Seif发布一篇文章,主要介绍了一些经典的用于图像识别的深度学习模型,包括AlexNet、VGGNet、Goog...

45060
来自专栏UAI人工智能

深度学习入门教程 第三讲

12040
来自专栏机器之心

学界 | 世界权威评测冠军:百度人脸检测算法PyramidBox

选自arXiv 机器之心编译 近日,百度凭借全新的人脸检测深度学习算法 PyramidBox,在世界最权威的人脸检测公开评测集 WIDER FACE 的「Eas...

43050

扫码关注云+社区

领取腾讯云代金券