开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

稍微调整一下Pytorch中加权L1损失的L1损失，梯度计算还能正常工作吗？

Requests to the ChatCompletions_Create Operation under Azure OpenAI API version 2024-02-15-preview have exceeded token rate limit of your current OpenAI S0 pricing tier. Please retry after 3 seconds. Please go here: https://aka.ms/oai/quotaincrease if you would like to further increase the default rate limit.

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

刹车与油门：PyTorch Autograd 的赛车之旅

前面通过简单的实操上手 Pytorch：# 轻松上手：PyTorch 预测书店销售趋势，本篇带来 Pytorch 核心引擎：autograd。

01

PyTorch进阶之路（二）：如何实现线性回归

这篇文章将讨论机器学习的一大基本算法：线性回归。我们将创建一个模型，使其能根据一个区域的平均温度、降雨量和湿度（输入变量或特征）预测苹果和橙子的作物产量（目标变量）。训练数据如下：

03

训练深度神经网络，使用反向传播算法，产生梯度消失和梯度爆炸问题的原因？

反向传播是神经网络训练的精髓。它是根据上一个迭代获得的误差（即损失）对神经网络的权重进行微调的做法。权重的适当调整可确保较低的误差，从而通过提高模型的泛化能力使其变得可靠。反向传播算法的核心思想和工作原理可分为以下几个方面：

00

【前沿】Purdue&UCLA提出梯度Boosting网络，效果远好于XGBoost模型！

Gradient Boosting Neural Networks: GrowNet

04

Purdue&UCLA提出梯度Boosting网络，效果远好于XGBoost模型！

Gradient Boosting Neural Networks: GrowNet

01

手把手教你从零搭建深度学习项目（可下载PDF版）

第一部分：启动一个深度学习项目 1. 应该选择什么样的项目？很多人工智能项目其实并没有那么严肃，做起来还很有趣。2017 年初，我着手启动了一个为日本漫画上色的项目，并作为我对生成对抗网络 ( GAN ) 研究的一部分。这个问题很难解决，但却很吸引人，尤其是对于我这种不会画画的人来说！在寻找项目时，不要局限于增量性改进，去做一款适销对路的产品，或者创建一种学习速度更快、质量更高的新模型。 2. 调试深度网络（DN）非常棘手训练深度学习模型需要数百万次的迭代，因此查找 bug 的过

04

【Pytorch 】笔记七：优化器源码解析和学习率调整策略

疫情在家的这段时间，想系统的学习一遍 Pytorch 基础知识，因为我发现虽然直接 Pytorch 实战上手比较快，但是关于一些内部的原理知识其实并不是太懂，这样学习起来感觉很不踏实，对 Pytorch 的使用依然是模模糊糊，跟着人家的代码用 Pytorch 玩神经网络还行，也能读懂，但自己亲手做的时候，直接无从下手，啥也想不起来，我觉得我这种情况就不是对于某个程序练得不熟了，而是对 Pytorch 本身在自己的脑海根本没有形成一个概念框架，不知道它内部运行原理和逻辑，所以自己写的时候没法形成一个代码逻辑，就无从下手。这种情况即使背过人家这个程序，那也只是某个程序而已，不能说会 Pytorch，并且这种背程序的思想本身就很可怕，所以我还是习惯学习知识先有框架（至少先知道有啥东西）然后再通过实战（各个东西具体咋用）来填充这个框架。而「这个系列的目的就是在脑海中先建一个 Pytorch 的基本框架出来，学习知识，知其然，知其所以然才更有意思 ;)」。

04

AAAI 2020 | 计算所&微信AI：改进训练目标，提升非自回归模型翻译质量（已开源）

本文是对计算所冯洋组和腾讯微信AI团队共同完成，被 AAAI2020 录用的论文《Minimizing the Bag-of-Ngrams Difference for Non-Autoregressive Neural Machine Translation》进行解读，相关工作已开源。

01

用于实现真实世界时间一致性视频超分的运动引导潜在扩散模型

视频超分辨率 (VSR) 旨在从给定的低分辨率 (LR) 视频序列重建高分辨率 (HR) 视频。得益于深度学习技术的快速发展，VSR 在过去十年中取得了长足的进步，出现了包括 EDVR 等基于滑动窗口的方法、BasicVSR 等基于递归的方法以及最新的基于 Transformer 的方法。然而，上述大多数方法都假设在 LR 和 HR 视频之间进行简单的退化。因此，这种 VSR 模型很难推广到真实世界的 LR 视频中，因为真实世界的退化要复杂得多。

01

如何从零开始构建深度学习项目？这里有一份详细的教程

选自Medium 作者：Jonathan Hui 机器之心编译在学习了有关深度学习的理论课程之后，很多人都会有兴趣尝试构建一个属于自己的项目。本文将会从第一步开始，告诉你如何解决项目开发中会遇到的各类问题。本文由六大部分组成，涵盖深度学习 ( DL ) 项目的整个过程。我们将使用一个自动漫画着色项目来说明深度学习的设计、程序调试和参数调整过程。本文主题为「如何启动一个深度学习项目？」，分为以下六个部分：第一部分：启动一个深度学习项目第二部分：创建一个深度学习数据集第三部分：设计深度模型第四部分

08

手把手教你从零搭建深度学习项目（附链接）

本文共1万+字，建议阅读10+分钟。本文将会从第一步开始，教你解决项目开发中会遇到的各类问题。

03

如何从零开始构建深度学习项目？这里有一份详细的教程

导读：在学习了有关深度学习的理论之后，很多人都会有兴趣尝试构建一个属于自己的项目。本文将会从第一步开始，告诉你如何解决项目开发中会遇到的各类问题。

04

如何从零开始构建深度学习项目？这里有一份详细的教程

选自Medium 作者：Jonathan Hui 机器之心编译在学习了有关深度学习的理论课程之后，很多人都会有兴趣尝试构建一个属于自己的项目。本文将会从第一步开始，告诉你如何解决项目开发中会遇到的各类问题。本文由六大部分组成，涵盖深度学习 ( DL ) 项目的整个过程。我们将使用一个自动漫画着色项目来说明深度学习的设计、程序调试和参数调整过程。本文主题为「如何启动一个深度学习项目？」，分为以下六个部分：第一部分：启动一个深度学习项目第二部分：创建一个深度学习数据集第三部分：设计深度模型第四部分

08

手把手教你从零到一搭建深度学习项目

在学习了有关深度学习的理论之后，很多人都会有兴趣尝试构建一个属于自己的项目。本文将会从第一步开始，告诉你如何解决项目开发中会遇到的各类问题。

03

经验之谈 | 如何从零开始构建深度学习项目？

在学习了有关深度学习的理论课程之后，很多人都会有兴趣尝试构建一个属于自己的项目。本文将会从第一步开始，告诉你如何解决项目开发中会遇到的各类问题。

01

大模型入门指南：基本技术原理与应用

随着计算能力的提升和数据量的增加，深度学习领域的大型神经网络模型（Big Model）在各种任务上取得了显著的性能提升，包括计算机视觉、自然语言处理、语音识别等。本文带着大家初步了解一下大模型的基本技术原理，包括深度神经网络、激活函数、损失函数、优化算法、正则化和模型结构等。

01

Gradient Harmonized Single-stage Detector

虽然两级检测器取得了巨大的成功，但是单级检测器仍然是一种更加简洁和高效的方法，在训练过程中存在着两种众所周知的不协调，即正、负样本之间以及简单例子和困难例子之间在数量上的巨大差异。在这项工作中，我们首先指出，这两个不和谐的本质影响可以用梯度的形式来概括。此外，我们提出了一种新的梯度协调机制(GHM)来对冲不协调。GHM背后的原理可以很容易地嵌入到交叉熵(CE)等分类损失函数和smooth l1 (SL1)等回归损失函数中。为此，我们设计了两种新的损失函数GHM-C和GHM-R来平衡梯度流，分别用于anchor分类和bounding box细化。MS COCO的消融研究表明，无需费力的超参数调整，GHM-C和GHM-R都可以为单级探测器带来实质性的改进。在没有任何附加条件的情况下，该模型在COCO test-dev set上实现了41.6 mAP，比目前最先进的Focal Loss(FL) + SL1方法高出0.8。

01

全面整理！机器学习常用的回归预测模型（表格数据）

线性回归是一种线性模型，通过特征的线性组合来预测连续值标签。线性回归通过拟合系数

00

大模型的模型压缩与有效推理综述

本文对大型语言模型的压缩和效率推理进行了综述。大型语言模型基于Transformer架构，具有强大的性能，但也带来了巨大的内存和计算成本。本文从算法角度对大型语言模型的压缩和效率推理方法进行了分类，包括量化、剪枝、知识蒸馏、紧凑架构设计和动态网络。大型语言模型有两个显著特点：

01

FastAI 之书（面向程序员的 FastAI）（七）

本章开始了一段旅程，我们将深入研究我们在前几章中使用的模型的内部。我们将涵盖许多我们以前见过的相同内容，但这一次我们将更加密切地关注实现细节，而不那么密切地关注事物为什么是这样的实际问题。

01

头疼！卷积神经网络是什么？CNN结构、训练与优化一文全解

卷积神经网络（Convolutional Neural Networks, CNN）的复杂性和灵活性使其成为深度学习领域的核心研究主题之一。在本引言部分中，我们将深入探讨CNN的历史背景、基本原理、重要性以及其在科学和工业领域的影响。

02

20道深度学习面试题，有你不知道的吗？

首先权值共享就是滤波器共享，滤波器的参数是固定的，即是用相同的滤波器去扫一遍图像，提取一次特征特征，得到feature map。在卷积网络中，学好了一个滤波器，就相当于掌握了一种特征，这个滤波器在图像中滑动，进行特征提取，然后所有进行这样操作的区域都会被采集到这种特征，就好比上面的水平线。

01

图深度学习入门教程（四）——训练模型的原理

深度学习还没学完，怎么图深度学习又来了？别怕，这里有份系统教程，可以将0基础的你直接送到图深度学习。还会定期更新哦。

01

深度学习面试题及参考答案

首先权值共享就是滤波器共享，滤波器的参数是固定的，即是用相同的滤波器去扫一遍图像，提取一次特征特征，得到feature map。在卷积网络中，学好了一个滤波器，就相当于掌握了一种特征，这个滤波器在图像中滑动，进行特征提取，然后所有进行这样操作的区域都会被采集到这种特征，就好比上面的水平线。

02

深度学习相关概念：5.交叉熵损失

我在学习深度学习的过程中，发现交叉熵损失在分类问题里出现的非常的频繁，但是对于交叉熵损失这个概念有非常的模糊，好像明白又好像不明白，因此对交叉熵损失进行了学习。

02

ChatGPT入门：解锁聊天机器人、虚拟助手和NLP的强大功能

安装虚拟环境：为了隔离依赖并防止与其他Python项目冲突，最好为ChatGPT开发创建一个虚拟环境。

03

深度学习基础知识（四）--损失函数小结

均方差损失也称为L2 loss，常用于回归任务。模型输出与真实值误差服从高斯分布的假设下，最小化均方差损失函数与极大似然估计本质一致。所以L1 loss一般用于满足假设场景的任务，比如回归任务。而分类任务不满足此假设，所以如上文一般用交叉熵损失。

02

Adaboost, GBDT 与 XGBoost 的区别

最近总结树模型，尝试将主流 Boosting 实现方式做一个分析汇总，文中部分内容借鉴了知乎答案，已于参考链接中标识。

03

工业应用中如何选取合适的损失函数（MAE、MSE、Huber）-Pytorch版

来源：计算机视觉与机器学习作者丨小可乐大魔王@知乎https://zhuanlan.zhihu.com/p/378822530本文约2800字，建议阅读5分钟文章总结了如何针对应用场景选择合适损失函数、对比不同损失函数的优缺点及相关pytorch代码。先上结果：图片截选自本文末尾正文：无论在机器学习还是深度学习领域中,损失函数都是一个非常重要的知识点。损失函数有许多不同的类型，根据具体模型和应用场景需要选择不同的损失函数，如何选择模型的损失函数，是作为算法工程师实践应用中最基础也是最关键的能力之一

02

RF(随机森林)、GBDT、XGBoost算法简介

一、概念 RF、GBDT和XGBoost都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。二、关系根据个体学习器的生成方式，目前的集成学习方法大致分为两大类：即个体学习器之间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表就是Boosting，后者的代表是Bagging和“随机森林”（Random Forest）三、RF 1.1 原理　　提到随机森林，

OpenMMLab 第二版发布：吸引业界「目光」的史上最完整的目标检测工具箱

AI 科技评论按：去年 10 月，香港中文大学-商汤联合实验室在 OpenMMLab 的首版计划中，开放了 MMCV 和 MMDetection（初期版本）。其初衷是为了在计算机视觉的一些重要方向建立统一而开放的代码库，并不断把新的算法沉淀其中。在过去的半年多时间，这些代码库已经产生了重要影响，越来越多的 MMLab 以外的研究团队开始把 MMDetection 作为实现新的目标检测算法的基础，并不断将其新算法回馈到 MMDetection 中。

02

业界 | OpenMMLab 第二版发布：吸引业界「目光」的史上最完整的目标检测工具箱

AI 科技评论按：去年 10 月，香港中文大学-商汤联合实验室在 OpenMMLab 的首版计划中，开放了 MMCV 和 MMDetection（初期版本）。其初衷是为了在计算机视觉的一些重要方向建立统一而开放的代码库，并不断把新的算法沉淀其中。在过去的半年多时间，这些代码库已经产生了重要影响，越来越多的 MMLab 以外的研究团队开始把 MMDetection 作为实现新的目标检测算法的基础，并不断将其新算法回馈到 MMDetection 中。

02

机器学习算法（一）：逻辑回归模型（Logistic Regression, LR）[通俗易懂]

2.1.1 为什么损失函数不用最小二乘？即逻辑斯蒂回归损失函数为什么使用交叉熵而不是MSE？

01

CVPR2020最佳目标分类 | AdderNet（加法网络）含论文及源码链接

与简单的加法运算相比，乘法运算具有更高的计算复杂度。深度神经网络中广泛使用的卷积正好是来度量输入特征和卷积滤波器之间的相似性，这涉及浮点值之间的大量乘法。现在作者提出了加法网络(AdderNets)来交换深度神经网络中的这些大规模乘法，特别是卷积神经网络(CNNs)，以获得更简易的加法以降低计算成本。

02

6万字解决算法面试中的深度学习基础问题

真的是千呼万唤始出来emmmm，去年春招结束写了篇面试的经验分享。在文中提到和小伙伴整理了算法岗面试时遇到的常见知识点及回答，本想着授人以渔，但没想到大家都看上了我家的！但因本人执行力不足，被大家催到现在才终于想着行动起来分享给大家，笔者在这里给各位读者一个大大的抱歉，求原谅呜呜~~相信今年参加秋招的小伙伴们一定都拿到理想的offer啦，明年准备找工作的小盆友如果觉得本文还有些用可以收藏哈。

01

最基本的25道深度学习面试问题和答案

近年来，对深度学习的需求不断增长，其应用程序被应用于各个商业部门。各公司现在都在寻找能够利用深度学习和机器学习技术的专业人士。在本文中，将整理深度学习面试中最常被问到的25个问题和答案。如果你最近正在参加深度学习相关的面试工作，那么这些问题会对你有所帮助。

01

RF(随机森林)、GBDT、XGBoost面试级整理

由于本文是基于面试整理，因此不会过多的关注公式和推导，如果希望详细了解算法内容，敬请期待后文。　　RF、GBDT和XGBoost都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。　　根据个体学习器的生成方式，目前的集成学习方法大致分为两大类：即个体学习器之间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表就是Boosting，后者的代表是Bagg

04

RF、GBDT、XGBoost面试级整理

RF、GBDT和XGBoost都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。　　根据个体学习器的生成方式，目前的集成学习方法大致分为两大类：即个体学习器之间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表就是Boosting，后者的代表是Bagging和“随机森林”（Random Forest）。 1、RF 1.1 原理　　提到随机森林，就不得不提Ba

06

RF、GBDT、XGBoost面试级整理

由于本文是基于面试整理，因此不会过多的关注公式和推导，如果希望详细了解算法内容，敬请期待后文。

02

深度学习基础知识（六）--- 损失函数

总的说来，它是把目标值（Yi）与估计值（f(xi)）的绝对差值的总和（S）最小化：

03

大卷积核大有用处 | LSKNet + DiffusionDet更高更强的目标检测模型

空中图像中的物体检测已成为一个动态且关键的研究领域，主要关注通过空中平台（如卫星、无人机或飞机）捕获的高分辨率图像中物体的识别和定位。这种技术在众多领域得到应用，包括但不限于城市规划，精确农业，灾害管理，以及军事监视。

01

RF、GBDT、XGBoost面试级整理

由于本文是基于面试整理，因此不会过多的关注公式和推导，如果希望详细了解算法内容，敬请期待后文。　　RF、GBDT和XGBoost都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。　　根据个体学习器的生成方式，目前的集成学习方法大致分为两大类：即个体学习器之间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表就是Boosting，后者的代表是Bagging和“随机森林”（Random Forest）。

02

深度学习基础知识点归纳总结

1. 最小化代价函数优化方法：BGD、SGD、MBGD、动量、NAG、Adagrad、AdaDelta、Adam、AMSGrad、牛顿法；

03

引入鲁棒性，这种新的损失函数实现了自适应、随时变换（附论文下载链接）

损失函数是机器学习里最基础也是最为关键的一个要素，其用来评价模型的预测值和真实值不一样的程度。最为常见的损失函数包括平方损失、指数损失、log 对数损失等损失函数。这里回顾了一种新的损失函数，通过引入鲁棒性作为连续参数，该损失函数可以使围绕最小化损失的算法得以推广，其中损失的鲁棒性在训练过程中自动自我适应，从而提高了基于学习任务的性能。

01

引入鲁棒性作为连续参数，这种新的损失函数实现了自适应、随时变换

选自towardsdatascience 作者：Saptashwa Bhattacharyya 机器之心编译编辑：陈萍损失函数是机器学习里最基础也是最为关键的一个要素，其用来评价模型的预测值和真实值不一样的程度。最为常见的损失函数包括平方损失、指数损失、log 对数损失等损失函数。这里回顾了一种新的损失函数，通过引入鲁棒性作为连续参数，该损失函数可以使围绕最小化损失的算法得以推广，其中损失的鲁棒性在训练过程中自动自我适应，从而提高了基于学习任务的性能。这篇文章对 CVPR 2019 的一篇论文《A

01

【干货】树算法对比：RF、GBDT、XGBoost

RF、GBDT和XGBoost都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。根据个体学习器的生成方式，目前的集成学习方法大致分为两大类：个体学习器之间存在强依赖关系、必须串行生成的序列化方法；个体学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表就是Boosting，后者的代表是Bagging和“随机森林”（Random Forest）。 1、RF 1.1 原理提到随机森林，就不得不提Bagg

03

深度学习与CV教程(7) | 神经网络训练技巧 (下)

本系列为斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记，对应的课程视频可以在这里查看。更多资料获取方式见文末。

06

CVPR2020最佳目标检测 | AdderNet（加法网络）含论文及源码链接

CVPR2020收录的结果已经早早公布，想必很多同学都有知晓一些，“计算机视觉战队”今天从中又挑选了一篇目标检测类的文献，和大家分享这篇文献中的新算法框架！

02

引入鲁棒性作为连续参数，这种新的损失函数实现了自适应、随时变换（附论文下载链接）

损失函数是机器学习里最基础也是最为关键的一个要素，其用来评价模型的预测值和真实值不一样的程度。最为常见的损失函数包括平方损失、指数损失、log 对数损失等损失函数。这里回顾了一种新的损失函数，通过引入鲁棒性作为连续参数，该损失函数可以使围绕最小化损失的算法得以推广，其中损失的鲁棒性在训练过程中自动自我适应，从而提高了基于学习任务的性能。

03

CNN图像处理常用损失函数对比评测

尽管早在上世纪80年代末，神经网络就在手写数字识别上表现出色。直到近些年来，随着深度学习的兴起，神经网络才在计算机视觉领域呈现指数级的增长。现在，神经网络几乎在所有计算机视觉和图像处理的任务中都有应用。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭