LogSoftmax + NLLLoss的CrossEntropyLoss等价性

基础概念

LogSoftmax 和 NLLLoss（Negative Log Likelihood Loss）是深度学习中常用的两个函数，通常组合使用来实现分类任务中的损失计算。CrossEntropyLoss 是另一种常用的损失函数，用于衡量模型输出的概率分布与真实标签之间的差异。

等价性

LogSoftmax + NLLLoss 与 CrossEntropyLoss 在数学上是等价的。具体来说：

LogSoftmax：将输入向量通过 softmax 函数转换为概率分布，然后取对数。公式如下： [ \text{LogSoftmax}(x_i) = \log\left(\frac{\exp(x_i)}{\sum_j \exp(x_j)}\right) ]
NLLLoss：计算给定概率分布和真实标签的对数似然损失。公式如下： [ \text{NLLLoss}(y, \hat{y}) = -\log(\hat{y}_y) ] 其中 ( y ) 是真实标签，( \hat{y} ) 是经过 LogSoftmax 处理后的概率分布。
CrossEntropyLoss：直接计算模型输出的对数概率分布与真实标签之间的损失。公式如下： [ \text{CrossEntropyLoss}(y, \hat{y}) = -\sum_y \hat{y}_y \log(\hat{y}_y) ]

优势

LogSoftmax + NLLLoss：分开计算 LogSoftmax 和 NLLLoss 可以提供更好的数值稳定性，特别是在输入值较大时。
CrossEntropyLoss：通常更方便，因为它直接计算最终损失，减少了中间步骤。

应用场景

这两种方法在分类任务中广泛应用，特别是在神经网络的最后一层。选择哪种方法取决于具体需求和实现细节。

示例代码

以下是使用 PyTorch 实现 LogSoftmax + NLLLoss 和 CrossEntropyLoss 的示例代码：

import torch
import torch.nn as nn
import torch.optim as optim

# 示例数据
inputs = torch.randn(3, 5)  # 3个样本，5个类别
targets = torch.tensor([1, 0, 4])  # 真实标签

# LogSoftmax + NLLLoss
log_softmax = nn.LogSoftmax(dim=1)
nll_loss = nn.NLLLoss()
log_softmax_output = log_softmax(inputs)
nll_loss_value = nll_loss(log_softmax_output, targets)
print("LogSoftmax + NLLLoss:", nll_loss_value)

# CrossEntropyLoss
cross_entropy_loss = nn.CrossEntropyLoss()
cross_entropy_loss_value = cross_entropy_loss(inputs, targets)
print("CrossEntropyLoss:", cross_entropy_loss_value)

参考链接

通过上述代码和解释，可以看出 LogSoftmax + NLLLoss 和 CrossEntropyLoss 在计算上是等价的，并且在深度学习分类任务中广泛应用。

页面内容是否对你有帮助？

有帮助

没帮助

基础概念

等价性

优势

应用场景

示例代码

参考链接

相关·内容

【BK】一文了解交叉熵（CrossEntropyLoss）

PyTorch8：损失函数

Pytorch_第六篇_深度学习 (DeepLearning) 基础 ---神经网络常用的损失函数

损失函数

深度学习基础知识（六）--- 损失函数

Pytorch 的损失函数Loss function使用详解

PyTorch内置损失函数汇总！！

Pytorch里的CrossEntropyLoss详解

矩阵范数的等价性（原创）

Pytorch模型训练实用教程学习笔记：三、损失函数汇总

Softmax和Cross-entropy是什么关系？

Pytorch - Cross Entropy Loss

PyTorch 学习 -6- 损失函数

pyTorch入门（二）——常用网络层函数及卷积神经网络训练

13 | PyTorch全连接网络识别飞机、全连接在图像分类上的缺陷

最完整的PyTorch数据科学家指南（2）

pytorch中的nn.CrossEntropyLoss()计算原理

「深度学习一遍过」必修11：优化器的高级使用+学习率迭代策略+分类优化目标定义

Pytorch Debug指南：15条重要建议

BERT代码实现及解读

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐