首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为什么使用交叉作为损失函数?

版权声明:本文博主原创文章,未经博主允许不得转载。...data​,这一部分对每个特定数据集来说是一个定值,为了简化去掉该部分我们最后得到了交叉。...另外,在梯度计算层面上,交叉对参数的偏导不含对sigmoid函数的求导,而均方误差(MSE)等其他则含有sigmoid函数的偏导项。...大家知道sigmoid的值很小或者很大时梯度几乎零,这会使得梯度下降算法无法取得有效进展,交叉则避免了这一问题。...综上所述,最小化交叉能得到拥有一致性和统计高效性的最大似然,而且在计算上也比其他损失函数要适合优化算法,因此我们通常选择交叉作为损失函数。

1.8K30
您找到你想要的搜索结果了吗?
是的
没有找到

直观理解为什么分类问题用交叉损失而不用均方误差损失?

交叉损失与均方误差损失 常规分类网络最后的softmax层如下图所示,传统机器学习方法以此类比, ?...对这个样本,交叉(cross entropy)损失 image.png 均方误差损失(mean squared error,MSE) image.png 则 (m) 个样本的损失...\ell = \frac{1}{m} \sum_{i=1}^m L_i 对比交叉损失与均方误差损失,只看单个样本的损失即可,下面从两个角度进行分析。...而对交叉损失,既然类别间复杂的相似度矩阵是难以量化的,索性只能关注样本所属的类别,只要 image.png 越接近于1就好,这显示是更合理的。...image.png image.png 综上,对分类问题而言,无论从损失函数角度还是softmax反向传播角度,交叉都比均方误差要好。

3.2K20

机器学习笔记之为什么逻辑回归的损失函数是交叉

逻辑回归反向传播伪代码; 大家可以思考下能不能回答/推导出,但这次讨论的问题是: 为什么逻辑回归损失函数是交叉? 初看这个问题感觉很奇怪,但是其中的知识包含了LR的推导与理解。...如此,就得到了Logistic回归的损失函数,即机器学习中的「二元交叉」(Binary crossentropy): ?...此时转变为以负对数似然函数目标函数的最优化问题,采用梯度下降法进行优化。 0x02 KL散度 KL散度这个概念知道的人可能相对极大似然估计更少一点,具体可以看机器学习笔记---信息。...在信息论中,「相对」,也就是KL散度可以衡量两个概率分布的差异性。具体公式: ? 并且简单转化,可以得到: ? ?...因为交叉越大,KL散度越大,也可以用交叉来衡量两个概率分布之间的距离,所以逻辑回归使用交叉作为逻辑回归的损失函数。

1K10

机器学习 | 为什么LR模型损失函数使用交叉不用均方差?

损失函数一般有四种,平方损失函数,对数损失函数,HingeLoss0-1损失函数,绝对值损失函数。将极大似然函数取对数以后等同于对数损失函数。...在逻辑回归这个模型下,对数损失函数的训练求解参数的速度是比较快的。至于原因大家可以求出这个式子的梯度更新 这个式子的更新速度只和 ,yi相关。和sigmod函数本身的梯度是无关的。...为什么不选平方损失函数的呢?因为如果你使用平方损失函数,你会发现梯度更新的速度和sigmod函数本身的梯度是很相关的。...如果当前模型的输出接近0或者1时,σ ′ ( z ) 就会非常小,接近0,使得求得的梯度很小,损失函数收敛的很慢。 如果使用均方差作为损失函数

50910

logistic regression一点理解为什么用sigmoid函数?为什么要用交互损失函数?

,这就解释了为什么说logistic regression是线性模型,因为它的决策边界是线性的;这就解释了为什么想到了要用sigmoid作为压缩函数。...---- 为什么要用交互损失函数? 极大似然角度: 我们假设预测结果服从伯努利分布,那么可以把一个case预测结果写成: ? 其中 ? 给定前提 ? 下 ?...概率值 要使当前参数下所有事情发生的概率最大,联合分布各边缘分布的乘积,得到: ? 其中 ? 取log后方便计算: ? 这个就是我们最初的交互的形式。...信息角度: 用来衡量信息量大小,越大,越不稳定,信息量越大。 ? KL散度 用来衡量两份数据的相似程度,KL散度越大,越不相似。 ? 从公式上,我们就可以看出: ?...至于为什么不直接最小化 ? 而是选择了最小化H(A,B),我是觉得就和交互求导前面加上1/2一样,为了简化计算量,本质上是一致的。

1K40

为什么交叉和KL散度在作为损失函数时是近似相等的

来源:DeepHub IMBA本文约900字,建议阅读5分钟在本文中,我们将介绍、交叉和 Kullback-Leibler Divergence [2] 的概念,并了解如何将它们近似相等。...尽管最初的建议使用 KL 散度,但在构建生成对抗网络 [1] 时,在损失函数中使用交叉是一种常见的做法。这常常给该领域的新手造成混乱。...当我们有多个概率分布并且我们想比较它们之间的关系时,和 KL 散度的概念就会发挥作用。 在这里我们将要验证为什么最小化交叉而不是使用 KL 散度会得到相同的输出。... 是系统不确定性的度量。直观地说它是从系统中消除不确定性所需的信息量。系统各种状态的概率分布 p 的可以计算如下: 交叉 交叉是指存在于两个概率分布之间的信息量。...总结 在本文中,我们了解了、交叉和 kl-散度的概念。然后我们回答了为什么这两个术语在深度学习应用程序中经常互换使用。我们还在 python 中实现并验证了这些概念。

87440

深度学习中的激活函数完全指南:在数据科学的诸多曲线上进行现代之旅

Softmax:多分类+ 多元交叉 结语 为什么要使用激活函数?...Leaky ReLU在数学上的表达式如下: LeakyReLU(x) = max(0, x) + min(0.01⋅ x, 0) 这样,一个负值信号不会被完全丢弃,在“Leaky因子”的作用下会保留一部分负值信号的特征...通常与 L2 损失结合使用。 Sigmoid:用于二分类问题中。将输出压缩到 [0, 1] 范围内。大部分时候都与二元交叉损失一起使用。...这意味着所有值都在 [0, 1] 范围内,且总和 1。可与多元交叉损失一起使用。 正如您所看到的,给出一个问题,选择使用哪个激活函数是非常简单的事情。...此外,选定激活函数也表明了应使用或考虑哪些损失函数。

86810

机器学习基础——详解机器学习损失函数之交叉

我们利用这个不等式试着证明: 首先,我们对原式进行变形: 然后我们利用不等式: 所以KL散度是一个非负值,但是为什么当P和Q相等时,能取到最小值呢?我们单独拿出右边,我们令。...我们令 所以上式可以变形: 这个式子就是我们在机器学习书上最常见到的二分类问题的交叉的公式在信息论上的解释,我们经常使用,但是很少会有资料会将整个来龙去脉完整的推导一遍。...仍然存在一个问题,我们把真实类别和预测类别计算均方差不能作为损失函数吗?而且还有其他的一些损失函数,为什么我们训练模型的时候单单选择了交叉呢,其他的公式不行吗?为什么呢?...如果我们将损失函数换成交叉呢? 我们回顾一下交叉求梯度之后的公式: 我们带入上面具体的值,可以算出来如果使用交叉上来训练,我们算出来的梯度1.96,要比上面算出来的0.04大了太多了。...显然这样训练模型的收敛速度会快很多,这也是为什么我们训练分类模型采用交叉作为损失函数的原因。 究其原因是因为如果我们使用MSE来训练模型的话,在求梯度的过程当中免不了对sigmoid函数求导。

86810

简单的交叉损失函数,你真的懂了吗?

为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉函数是否有其它变种?也许很多朋友还不是很清楚!没关系,接下来我将尽可能以最通俗的语言回答上面这几个问题。 1....交叉损失函数的其它形式 什么?交叉损失函数还有其它形式?没错!我刚才介绍的是一个典型的形式。接下来我将从另一个角度推导新的交叉损失函数。...那么就可以定义相应的损失函数: L=−logg(ys)L=−logg(ys) L=-log g(ys) 还记得 Sigmoid 函数的表达式吧?...如果是 N 个样本,其交叉损失函数: L=∑i=1Nlog (1+e−ys)L=∑i=1Nlog (1+e−ys) L=\sum_{i=1}^Nlog\ (1+e^{-ys}) 接下来,我们从图形化直观角度来看...同样,s 越接近真实样本标签 -1,损失函数 L 越小;s 越接近 +1,L 越大。 4. 总结 本文主要介绍了交叉损失函数的数学原理和推导过程,也从不同角度介绍了交叉损失函数的两种形式。

2.1K10

深度学习: 目标函数

yiyiy_{i}:分类正确时1,错误时0; hyihyih_{y_{i}}:分类正确的那一个 hjhjh_{j},可能为负值。...Softmax损失函数 Softmax损失函数(softmax function),又名 交叉损失函数 (CE) 。 该函数 是重要的 深度学习目标函数,也是 Sigmoid函数 的一种 推广。...效果略逊于交叉损失函数。 坡道损失函数 坡道损失函数,ramp loss function。 亮点是 增强了 抗噪能力 。...坡道损失函数 和 Tukey’s biweight 损失函数 并称 鲁棒损失函数 。 大间隔交叉损失函数 引入了SVM的思想,即在 要求 分类正确 之外,还 额外要求 分开的类 需保持较大间隔 。...但在 分类性能 方面 优于 交叉损失函数 和 合页损失函数。 中心损失函数 在 大间隔交叉损失函数 的 基础上,更进一步要求 减小类内差异 。 ?

1.8K40

学点基本功:机器学习常用损失函数小结

时,分位数损失退化为 MAE 损失,从这里可以看出 MAE 损失实际上是分位数损失的一个特例 — 中位数回归(这也可以解释为什么 MAE 损失对 outlier 更鲁棒:MSE 回归期望值,MAE 回归中位数...对似然取对数,然后加负号变成最小化负对数似然,即为交叉损失函数的形式 ? 下图是对二分类的交叉损失函数的可视化,蓝线是目标值 0 时输出不同输出的损失,黄线是目标值 1 时的损失。...分类中为什么不用均方差损失?上文在介绍均方差损失的时候讲到实际上均方差损失假设了误差服从高斯分布,在分类任务下这个假设没办法被满足,因此效果会很差。为什么是交叉损失呢?...其中第一项分布p 的信息,第二项分布p 和q 的交叉。将最优分布 ? 和输出分布 ? 带入p 和 ? 得到 ? 由于我们希望两个分布尽量相近,因此我们最小化 KL 散度。...合页损失的公式如下 ? 下图是y 正类, 即 ? 时,不同输出的合页损失示意图 ? 可以看到当y 正类时,模型输出负值会有较大的惩罚,当模型输出正值且在(0.1) 区间时还会有一个较小的惩罚。

1.3K00

机器学习常用损失函数小结

时,分位数损失退化为 MAE 损失,从这里可以看出 MAE 损失实际上是分位数损失的一个特例 — 中位数回归(这也可以解释为什么 MAE 损失对 outlier 更鲁棒:MSE 回归期望值,MAE 回归中位数...对似然取对数,然后加负号变成最小化负对数似然,即为交叉损失函数的形式 ? 下图是对二分类的交叉损失函数的可视化,蓝线是目标值 0 时输出不同输出的损失,黄线是目标值 1 时的损失。...分类中为什么不用均方差损失?上文在介绍均方差损失的时候讲到实际上均方差损失假设了误差服从高斯分布,在分类任务下这个假设没办法被满足,因此效果会很差。为什么是交叉损失呢?...其中第一项分布 ? 的信息,第二项分布 ? 和 ? 的交叉。将最优分布 ? 和输出分布 ? 带入 ? 和 ? 得到 ?...合页损失的公式如下 ? 下图是 ? 正类, 即 ? 时,不同输出的合页损失示意图 ? 可以看到当 ? 正类时,模型输出负值会有较大的惩罚,当模型输出正值且在 ?

68410

深度学习常用损失函数的基本形式、原理及特点

特别地,当 时,分位数损失退化为 MAE 损失,从这里可以看出 MAE 损失实际上是分位数损失的一个特例 — 中位数回归(这也可以解释为什么 MAE 损失对 outlier 更鲁棒:MSE 回归期望值...将两条式子合并成一条 假设数据点之间独立同分布,则似然可以表示 对似然取对数,然后加负号变成最小化负对数似然,即为交叉损失函数的形式 下图是对二分类的交叉损失函数的可视化,蓝线是目标值 0...分类中为什么不用均方差损失?上文在介绍均方差损失的时候讲到实际上均方差损失假设了误差服从高斯分布,在分类任务下这个假设没办法被满足,因此效果会很差。为什么是交叉损失呢?...给定分布 和分布 , 两者的 KL 散度公式如下 其中第一项分布 的信息,第二项分布 和 的交叉。...合页损失的公式如下 下图是 正类, 即 时,不同输出的合页损失示意图 可以看到当 正类时,模型输出负值会有较大的惩罚,当模型输出正值且在 区间时还会有一个较小的惩罚。

84430

六个深度学习常用损失函数总览:基本形式、原理、特点

特别地,当  时,分位数损失退化为 MAE 损失,从这里可以看出 MAE 损失实际上是分位数损失的一个特例 — 中位数回归(这也可以解释为什么 MAE 损失对 outlier 更鲁棒:MSE 回归期望值...将两条式子合并成一条 假设数据点之间独立同分布,则似然可以表示 对似然取对数,然后加负号变成最小化负对数似然,即为交叉损失函数的形式 下图是对二分类的交叉损失函数的可视化,蓝线是目标值 0...分类中为什么不用均方差损失?上文在介绍均方差损失的时候讲到实际上均方差损失假设了误差服从高斯分布,在分类任务下这个假设没办法被满足,因此效果会很差。为什么是交叉损失呢?...给定分布  和分布  , 两者的 KL 散度公式如下 其中第一项分布  的信息,第二项分布  和  的交叉。...合页损失的公式如下 下图是  正类, 即  时,不同输出的合页损失示意图 可以看到当  正类时,模型输出负值会有较大的惩罚,当模型输出正值且在  区间时还会有一个较小的惩罚。

5.3K20

机器学习----交叉(Cross Entropy)如何做损失函数

不同的任务类型需要不同的损失函数,例如在回归问题中常用均方误差作为损失函数,分类问题中常用交叉作为损失函数。 2.均值平方差损失函数 定义如下: 意义:N样本数量。...在机器学习中,交叉表示真实概率分布与预测概率分布之间的差异。其值越小,模型预测效果就越好。 交叉损失函数的公式: 其中,y表示样本的真实标签,\hat{y}表示模型预测的标签。...结合多分类的交叉损失函数公式可得,模型 1 的交叉: sample 1 loss = -(0 * log(0.3) + 0 * log(0.3) + 1 * log(0.4)) = 0.91...三.交叉损失函数的原理及推导过程 表达式 输出标签表示10,1}时,损失函数表达式: 二分类 二分类问题,假设 正例:...公式4 我们希望 越大越好,即让负值 越小越好, 得到损失函数 公式5 补充 上面说的都是一个样本的时候,多个样本的表达式是:多个样本的概率即联合概率,等于每个的乘积

27010

神经网络中的损失函数

为了便于不同损失函数的比较,常将其表示单变量的函数,在回归问题中这个变量y−f(x),在分类问题中则为yf(x)。...越高,表示能传输的信息越多,越少,表示传输的信息越少,可以直接将理解信息量。...Cross Entropy loss损失函数,或负对数损失,衡量输出0到1之间的概率值的分类模型的性能,常用于二分类和多分类问题中。交叉损失随着预测的概率值远离实际标签而增加。...Triplet Loss是机器学习算法的一种损失函数,其中一个参考输入(称为锚)与一个匹配输入(称为正值)和一个非匹配输入(称为负值)进行比较。 考虑训练神经网络识别人脸的任务(例如进入高安全区域)。...在这种情况下,平均绝对误差将是一个理想的选择,因为它没有考虑到异常值的方向(不切实际的高正值或负值)。 L1损失函数用于最小化误差,是以绝对误差作为距离。

57030

想学好深度学习,你需要了解——

以一个最简单的单符号二元信源例,该信源中的符号U仅可以取值a或b。其中,取a的概率p,则取b的概率1-p。该信源的信息可以记为H(U)=pI(p)+(1-p)I(1-p)。...7.7.4 交叉 (Cross entropy) 交叉在神经网络中常用于计算分类模型的损失。...这也是为什么要用交叉作为损失函数的原因。 在变分自编码中,使用相对来计算损失,该损失函数用于指导生成器模型输出的样本分布更接近于高斯分布。...因为目标分布不再是常数(不是来自于固定的样本集),所以无法用交叉来代替。这也是为什么变分自编码中使用KL散度的原因。...(3)非负性:共享信息要么有,要么没有,所以互信息量不会出现负值

1.8K10
领券