Focal Loss和Balanced CE(样本比例不均衡问题)
当越不可能的事件或者相关程度越高的事件(今天中午总统吃什么,与我们相关程度低,信息量小;但是对于想应聘总统厨师的人来说,这件事的信息量就很大)发生了,我们获取到的信息量就越大,反之信息量越小。
样本不足会导致模型信息量不足,从而不能很好的拟合数据
熵用来表示一个系统中所有信息量的期望,也可以用来表示一个系统的混乱程度
用来衡量两个分布的差异,或者说是一个分布变换到另一个分布需要的信息增量
在机器学习中,预测分布Q在训练的过程中信息量不足,虽然可以大致描述,但是描述得有偏差,需要额外的一些信息增量才能达到和样本真实分布一样的描述。经过反复训练后,信息量足够描述后就不需要额外的信息增量了。
相对熵=p的熵-pq交叉熵:
评估标签和预测值之间的差距,而相对熵中p的熵是不变的,所以只需关注交叉熵即可
在机器学习中常用交叉熵作loss
一张图片只被归为一个标签,对应的一个batch的loss就是:
一张图片可能会被归为多个标签,每个Label都是独立分布的,可以用交叉熵对每个独立的类别进行计算,每个类别只有是或不是两种可能,服从弄二项分布,每个类别对应的交叉熵为:
如果一张图片中同时存在青蛙和老鼠,且预测结果如下:
* | 猫 | 青蛙 | 老鼠 |
---|---|---|---|
Label | 0 | 1 | 1 |
Predicted | 0.1 | 0.7 | 0.8 |
则loss=loss猫+loss蛙+loss_鼠,而损失方式计算如下:
总结
对于多分类任务(包括二分类)的交叉熵损失为:
其中y_i表示真实概率,p_i表示预测概率
focal loss最初用于图像领域解决是数据不平衡造成的模型性能问题。
例如,在欺诈识别的案例中,好坏样本的比例为10000 : 1,这样模型很容易学习到一个把所有样本都预测为好的模型,也就是模型没有拟合到极大似然,而是只学习到了先验(样本分布),导致模型欠拟合。
影响
样本不均衡带来的根本影响是:模型会学习到样本比例这个先验信息,类别不均衡下的分类边界会侵占少数样本类的区域,也就是影响模型学习的更本质的特征,影响模型的鲁棒性。
问题分析
减少模型学习样本分布(先验信息),让模型学习数据的本质特征,这样就能解决样本不均衡问题。
必要性
从分类效果出发,不均衡对于分类结果的影响不一定是不好的(除了在预测精度要求比较高等环境下),什么时候需要解决样本不均衡(抑制先验影响)呢?
样本不均衡问题解决
在学习任务有些难度的情况下,我们可以通过一些方法使得不同类别的样本对模型学习时的loss贡献权重均衡,从而消除模型对不同类别的偏向性,学到更为本质的特征。
我们现在就开始探讨这些解决方法:
imgaug
库
缺点及解决方案
损失函数层面主流的方法就是代价敏感学习(cost-sensitive),即为不同分类损失给予不同的惩罚力度(权重),在调节类别平衡的同时,也不会增加计算复杂度。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有