深度学习: 目标函数

JNingWei

发布于 2018-09-27 15:15:53

2K0

发布于 2018-09-27 15:15:53

文章被收录于专栏：JNing的专栏

Introduction

目标函数是 深度学习之心，是 模型训练 的 发动机 。

目标函数 (object function) = 损失函数 (loss function) = 代价函数 (cost function)

其中，模型loss 统称为 non-decay loss ，正则loss 称为 decay loss 。

作用：

计算预测结果与真实标记之间的误差，并通过 误差反向传播 算法，指挥着 模型参数 哗啦啦地刷新。

目标函数类型

主要分为 分类任务目标函数 和 回归任务目标函数。此外往往会加上 附加任务目标函数 (为了防止过拟合/求得稀疏解而加入的 正则项 )。

分类任务

假设某分类任务共 NNN 个训练样本，针对网络最后分类层的第 iii 个样本的输入特征为 xixix_{i} ，其对应的真实标记为 yi∈{1,2,...,C}yi∈{1,2,...,C}y_{i}\in{1, 2, ..., C} ，另 h=(h1,h2,...,hC)Th=(h1,h2,...,hC)Th={(h_{1}, h_{2}, ..., h_{C})}^{T} 为网络的最终输出，即样本 iii 的预测结果，其中 CCC 为分类任务类别数。

yiyiy_{i}：分类正确时为1，错误时为0；

hyihyih_{y_{i}}：分类正确的那一个 hjhjh_{j}，可能为负值。

Softmax损失函数

Softmax损失函数（softmax function），又名 交叉熵损失函数 (CE) 。

该函数是重要的深度学习目标函数，也是 Sigmoid函数的一种推广。可转换为交叉熵误差 (CE) 。

CE(y^)=−1n∑k=1nI{y=y′}log(pt)CE(y^)=−1n∑k=1nI{y=y′}log⁡(pt)

CE(\hat{y}) = - \frac{1}{n} \sum_{k=1}^n I {y=y'} \log(p_t)

是 最常用 的分类任务目标函数。

合页损失函数

合页损失函数，hinge loss，主要被运用于SVM中。

L=1N∑i=1Nmax{0,1−hyi}L=1N∑i=1Nmax{0,1−hyi}

L={\frac{1}{N}}{\sum_{i=1}^N}\max{0, 1-h_{y_{i}}}

max{0,1−hyi}max{0,1−hyi}\max{0, 1-h_{y_{i}}}：保证了每个单样本的损失值不为负。

效果略逊于交叉熵损失函数。

坡道损失函数

坡道损失函数，ramp loss function。

亮点是增强了 抗噪能力 。

坡道损失函数和 Tukey’s biweight 损失函数并称 鲁棒损失函数 。

大间隔交叉熵损失函数

引入了SVM的思想，即在要求 分类正确 之外，还额外要求 分开的类需保持较大间隔 。

较难训练。

但在 分类性能 方面优于交叉熵损失函数和合页损失函数。

中心损失函数

在大间隔交叉熵损失函数的基础上，更进一步要求 减小类内差异 。

Focal Loss损失函数

对Softmax损失函数进行“类别平衡”约束。

回归任务

预测误差，即残差，用于衡量 模型预测值 与 真实标记 的 靠近程度 。

假设回归问题中，对应第 iii 个输入特征 xixix_{i} 的真实标记为 yi=(y1,y2,...,yM)Tyi=(y1,y2,...,yM)Ty^{i} = (y_{1}, y_{2}, ..., y_{M})^{T} ， MMM 为标记向量总维度，则 litltil_{t}^{i} 即表示样本 iii 上网络回归预测值 (y^i)(y^i)(\hat{y}^{i}) 与其真实标记在第 ttt 维的预测误差 (亦称残差) ：

lit=yit−y^itlti=yti−y^ti

l_{t}^{i} = y^{i}_{t} - \hat{y}^{i}_{t}

	L1损失函数	L2损失函数
回归精度		少数情况下略优，大部分情况下差不多
收敛速度		略快
运用程度	较常用	最常用

L1损失函数

L=1N∑i=1N∑t=1M|lit|L=1N∑i=1N∑t=1M|lti|

L={\frac{1}{N}} {\sum_{i=1}^N} {\sum_{t=1}^M} \vert l_{t}^{i} \vert

Detection中常用的是 Smooth L1 。

L2损失函数

L=1N∑i=1N∑t=1M(lit)2L=1N∑i=1N∑t=1M(lti)2

L={\frac{1}{N}} {\sum_{i=1}^N} {\sum_{t=1}^M} ( l_{t}^{i} ) ^{2}

Tukey’s biweight 损失函数

可克服 离群点样本 和 噪声样本 所带来的干扰，鲁棒性强。

其他任务

某些无法被简单划归为分类或回归的任务，需要设计其他的目标函数。

Summary

	分类任务	回归任务
真实标记	二值向量	实数向量

1(http://lamda.nju.edu.cn/weixs/book/CNN_book.html)

2(https://blog.csdn.net/jningwei/article/details/79843205)

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018年02月01日，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度