开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用MultivariateNormalTriL发行版时，Tensorflow GradientTape返回NaNs

是由于梯度计算过程中出现了数值不稳定的情况，导致结果为NaN（Not a Number）。

MultivariateNormalTriL是Tensorflow中用于表示多元正态分布的类，它通过给定的均值和下三角矩阵来参数化分布。在使用MultivariateNormalTriL发行版时，可能会遇到梯度计算过程中的数值不稳定问题，导致梯度计算结果为NaN。

要解决这个问题，可以尝试以下几个步骤：

检查输入数据：确保输入数据没有缺失值或异常值，这可能会导致数值计算错误。
检查梯度计算过程：使用Tensorflow的GradientTape进行梯度计算时，确保计算过程中没有除以零或其他数值不稳定的操作。可以检查相关代码，确保所有计算都是数值稳定的。
调整模型参数：尝试调整MultivariateNormalTriL的参数，例如调整均值和下三角矩阵的值，以获得更稳定的梯度计算结果。
使用数值稳定的优化算法：如果问题仍然存在，可以尝试使用数值稳定的优化算法来替代GradientTape。例如，可以尝试使用Tensorflow的Adam优化器或其他稳定性更好的优化算法。

总之，当使用MultivariateNormalTriL发行版时，Tensorflow GradientTape返回NaNs的问题可能是由于数值不稳定导致的。通过检查输入数据、梯度计算过程，调整模型参数以及使用数值稳定的优化算法，可以尝试解决这个问题。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

一网打尽！深度学习常见问题！

在传统软件工程中，程序问题（即Bugs）会导致程序崩溃，但开发人员可以通过检查错误来了解原因。

01

自动微分技术

几乎所有机器学习算法在训练或预测时都归结为求解最优化问题，如果目标函数可导，在问题变为训练函数的驻点。通常情况下无法得到驻点的解析解，因此只能采用数值优化算法，如梯度下降法，牛顿法，拟牛顿法。这些数值优化算法都依赖于函数的一阶导数值或二阶导数值，包括梯度与Hessian矩阵。因此需要解决如何求一个复杂函数的导数问题，本文讲述的自动微分技术是解决此问题的一种通用方法。关于梯度、Hessian矩阵、雅克比矩阵，以及梯度下降法，牛顿法，拟牛顿法，各种反向传播算法的详细讲述可以阅读《机器学习与应用》，清华大学出版社，雷明著一书，或者SIGAI之前的公众号文章。对于这些内容，我们有非常清晰的讲述和推导。

03

深度学习的方法有哪些？看这篇就够了

训练之前一定要执行参数初始化，否则可能减慢收敛速度，影响训练结果，或者造成Nan数值溢出等异常问题。

03

MNIST 机器学习入门（TensorFlow）

本文是为既没有机器学习基础也没了解过TensorFlow的码农、序媛们准备的。如果已经了解什么是MNIST和softmax回归本文也可以再次帮助你提升理解。在阅读之前，请先确保在合适的环境中安装了TensorFlow（windows安装请点这里，其他版本请官网找），适当编写文章中提到的例子能提升理解。

02

开发 | 紧跟未来深度学习框架需求，TensorFlow推出Eager Execution

AI科技评论按：Google的TensorFlow是AI学习者中使用率最高、名气也最大的深度学习框架，但由于TensorFlow最早是基于Google的需求开发的，在实际使用上也会存在如文档乱、调试难等诸多缺点，而且开发时间比较早未能及时对一些新的需求进行反应（据AI科技评论了解，由于缺乏类似PyTroch、DyNet的动态图功能，Lecun就不止一次吐槽过TensorFlow是“过时的深度学习框架”（yesterday deep learning framework）），而针对用户的需求，Google也在

06

紧跟未来深度学习框架需求，TensorFlow 推出 Eager Execution

Google 的 TensorFlow 是 AI 学习者中使用率最高、名气也最大的深度学习框架，但由于 TensorFlow 最早是基于 Google 的需求开发的，在实际使用上也会存在如文档乱、调试难等诸多缺点，而且开发时间比较早未能及时对一些新的需求进行反应（据AI研习社了解，由于缺乏类似 PyTroch、DyNet 的动态图功能，Lecun 就不止一次吐槽过 TensorFlow 是 “过时的深度学习框架”（yesterday deep learning framework）），而针对用户的需

07

caffe+报错︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization

版权声明：博主原创文章，微信公众号：素质云笔记,转载请注明来源“素质云博客”，谢谢合作！！ https://blog.csdn.net/sinat_26917383/article/details/54232791

06

深度学习利器之自动微分(1)

本文和下文以 Automatic Differentiation in Machine Learning: a Survey 这篇论文为基础，逐步分析自动微分这个机器学习的基础利器。

03

训练的神经网络不工作？一文带你跨过这37个坑

选自Medium 作者：Slav Ivanov 机器之心编译参与：黄小天、Smith 近日，Slav Ivanov 在 Medium 上发表了一篇题为《37 Reasons why your Neural Network is not working》的文章，从四个方面（数据集、数据归一化／增强、实现、训练），对自己长久以来的神经网络调试经验做了 37 条总结，并穿插了不少出色的个人想法和思考，希望能帮助你跨过神经网络训练中的 37 个大坑。机器之心对该文进行了编译，原文链接请见文末。神经网络已经持续训

Tensorflow入门

Tensorflow是由Google开发的开源深度学习框架，可以实现各种机器学习和深度学习任务。它提供了丰富的工具和库，使得开发者可以方便地构建、训练和部署机器学习模型。本文将介绍Tensorflow的基本概念和使用方法，帮助读者入门。

03

深度学习优化器总结

每次更新我们需要计算整个数据集的梯度，因此使用批量梯度下降进行优化时，计算速度很慢，而且对于不适合内存计算的数据将会非常棘手。批量梯度下降算法不允许我们实时更新模型。

03

梯度下降优化算法概述

感谢阅读「美图数据技术团队」的第 11 篇原创文章，关注我们持续获取美图最新数据技术动态。

01

机器学习学习笔记（22）深度模型中的优化

用于深度模型训练的优化算法与传统的优化算法在几个方面有所不同。机器学习通常是简接作用的，再打所述机器学习问题中，我们关注某些性能度量P，其定义于测试集上并且可能是不可解的。因此，我们只是间接地优化P，我们希望通过降低代价函数

03

特征归一化！！

特征归一化是数据预处理中的一项重要任务，旨在将不同特征的数据范围和分布调整到相似的尺度，以确保机器学习模型能够更好地训练和收敛。

03

我的神经网络不工作了！我应该做什么? 详细解读神经网络的11种常见问题

“当你正在深入研究深度学习的下一个重大突破时，或许会遇到一个不幸的挫折:你的神经网络不起作用。你去找你的老板/主管，但他们也不知道如何去解决这个问题——他们和你一样都是新手。那么现在该怎么办呢?” 因

03

如何成为一名成功的“炼丹师”——DL训练技巧

---- ---- 今天给大家讲讲DNN（深度神经网络）在训练过程中遇到的一些问题，然后我们应该怎么去注意它，并学会怎么去训练它。 1、数据集的准备：必须要保证大量、高质量且带有准确标签的数据，没有该条件的数据，训练学习很困难的（但是最近我看了以为作者写的一篇文章，说明不一定需要大量数据集，也可以训练的很好，有空和大家来分享其思想---很厉害的想法）； 2、数据预处理：这个不多说，就是0均值和1方差化，其实还有很多方法； 3、Minibatch：这个有时候还要根据你的硬件设备而定，一般建议用128,

04

从梯度下降到 Adam！一文看懂各种神经网络优化算法

每天给你送来NLP技术干货！ ---- 编译：王小新，来源：量子位在调整模型更新权重和偏差参数的方式时，你是否考虑过哪种优化算法能使模型产生更好且更快的效果？应该用梯度下降，随机梯度下降，还是Adam方法？这篇文章介绍了不同优化算法之间的主要区别，以及如何选择最佳的优化方法。什么是优化算法？优化算法的功能，是通过改善训练方式，来最小化(或最大化)损失函数E(x)。模型内部有些参数，是用来计算测试集中目标值Y的真实值和预测值的偏差程度的，基于这些参数，就形成了损失函数E(x)。比如说，权重(W)

03

你的神经网络不起作用的37个理由

有一个网络已经训练了12个小时。一切看起来都很好：梯度是逐渐变化的，损失在减少。但接下来的预测：都是零，所有的图像背景都没有被检测到。“我做错了什么？”——我问我的电脑，但它没有回答我。

00

深度学习最常用的学习算法：Adam优化算法

听说你了解深度学习最常用的学习算法：Adam优化算法？-深度学习世界。深度学习常常需要大量的时间和机算资源进行训练，这也是困扰深度学习算法开发的重大原因。虽然我们可以采用分布式并行训练加速模型的学习，但所需的计算资源并没有丝毫减少。而唯有需要资源更少、令模型收敛更快的最优化算法，才能从根本上加速机器的学习速度和效果，Adam 算法正为此而生！ Adam 优化算法是随机梯度下降算法的扩展式，近来其广泛用于深度学习应用中，尤其是计算机视觉和自然语言处理等任务。本文分为两部分，前一部分简要介绍了 Adam 优化

09

教程 | 听说你了解深度学习最常用的学习算法：Adam优化算法？

选自arXiv 机器之心编译参与：蒋思源深度学习常常需要大量的时间和机算资源进行训练，这也是困扰深度学习算法开发的重大原因。虽然我们可以采用分布式并行训练加速模型的学习，但所需的计算资源并没有丝毫减少。而唯有需要资源更少、令模型收敛更快的最优化算法，才能从根本上加速机器的学习速度和效果，Adam 算法正为此而生！ Adam 优化算法是随机梯度下降算法的扩展式，近来其广泛用于深度学习应用中，尤其是计算机视觉和自然语言处理等任务。本文分为两部分，前一部分简要介绍了 Adam 优化算法的特性和其在深度学习中

08

独家 | 你的神经网络不起作用的37个理由（附链接）

有一个网络已经训练了12个小时。一切看起来都很好：梯度是逐渐变化的，损失在减少。但接下来的预测：都是零，所有的图像背景都没有被检测到。“我做错了什么？”——我问我的电脑，但它没有回答我。

02

Tensorflow 笔记：搭建神经网络

目标：搭建神经网络，总结搭建八股一、基本概念 1:基于 Tensorflow 的 NN：用张量表示数据，用计算图搭建神经网络，用会话执行计算图，优化线上的权重（参数），得到模型。 2:TensorFlow的张量: 张量就是多维数组（列表），用“阶”表示张量的维度。 0 阶张量称作标量，表示一个单独的数；举例 S=123 1 阶张量称作向量，表示一个一维数组；举例 V=[1,2,3] 2 阶张量称作矩阵，表示一个二维数组，它可以有 i 行 j 列个元素，每个元素可以用行号和列号共同索引到；举例 m=

03

基础入门：“炼丹师”——深度学习训练技巧

在设计和应用DNN到一个特定的问题上可能会遇到很多挑战。为了达到现实世界应用所需的性能标准，对数据准备，网络设计，训练和推断等各个阶段的正确设计和执行至关重要。

03

深度学习中的网络优化与正则化

最近参加面试时被问到了神经网络优化方面的问题，由于平时没有好好总结，导致直接拉胯。这篇文章对当前神经网络训练中的常见优化方法进行了比较全面的总结，文章的大部分内容均来自邱锡鹏老师的《神经网络与深度学习》[1] ，部分地方加入了自己的理解。整篇文章的思维导图如下：

01

人工智能基础——模型部分：模型介绍、模型训练和模型微调！！

本文将从什么是模型？什么是模型训练？什么是模型微调？三个问题，来展开介绍人工智能基础的模型部分。

01

深度模型的优化参数初始化策略

有些优化算法本质上是非迭代的，只是求解一个解点。有些其他优化算法本质上是迭代的，但是应用于这一类的优化问题时，能在可接受的时间内收敛到可接受的解，并且与初始值无关。深度学习训练算法通常没有这两种奢侈的性质。深度学习模型的训练算法通常是迭代的，因此要求使用者指定一些开源迭代的初始点。此外，训练深度模型的训练算法通常是迭代的问题，以至于大多数算法都很大程度地受到初始化选择的影响。初始点能够决定算法是否收敛时，有些初始点十分不稳定，使得该算法会遭遇数值困难，并完全失败。当学习收敛时，初始点可以决定学习收敛得多快，以及是否收敛到一个代价高或低的点。此外，差不多代价的点可以具有区别极大的泛化误差，初始点也可以影响泛化。

03

经验分享 | 解决NN不work的37个方法

和这篇文章的作者一样，有时想到一个很棒的点子，辛苦写好代码，终于运行正常了，但是效果就是不咋地，不免懊恼地产生一种“难道我的点子不行？”的想法。真的是点子不行吗？未必，NN不work的原因有很多种，作者在这篇博客中根据自己的实践经验分享了很多宝贵的建议。

02

Tensorflow 笔记：搭建神经网络

用张量表示数据，用计算图搭建神经网络，用会话执行计算图，优化线上的权重（参数），得到模型。

05

「深度学习一遍过」必修11：优化器的高级使用+学习率迭代策略+分类优化目标定义

优化算法，尤其是填入的这几个参数无法阻止模型梯度发散，所以决定换个优化算法试试，具体见下文。

02

凸优化（9）——近端牛顿方法；矩阵论/数值线性代数基础：浮点数运算

这一节我们会接着上一节，介绍完近端牛顿方法（Proximal Newton Method），剩下的时间会拿来介绍一些基本的矩阵论和数值计算的知识，用于对之后介绍高阶方法的铺垫～

01

使用TensorFlow Probability实现最大似然估计

TensorFlow Probability是一个构建在TensorFlow之上的Python库。它将我们的概率模型与现代硬件(例如GPU)上的深度学习结合起来。

02

with torch.autograd.set_detect_anomaly(True)

在深度学习中，自动微分是训练神经网络的关键技术之一。PyTorch作为一个广泛使用的深度学习框架，提供了强大的自动微分功能。然而，在处理复杂的模型或计算图时，可能会出现梯度计算错误或其他异常。为了帮助调试这些问题，PyTorch提供了torch.autograd.set_detect_anomaly(True)函数，用于启用自动微分异常检测。

01

独家 | 你的神经网络不起作用的37个理由（附链接）

有一个网络已经训练了12个小时。一切看起来都很好：梯度是逐渐变化的，损失在减少。但接下来的预测：都是零，所有的图像背景都没有被检测到。“我做错了什么？”——我问我的电脑，但它没有回答我。

01

算法优化之道：避开鞍点

凸函数比较简单——它们通常只有一个局部最小值。非凸函数则更加复杂。在这篇文章中，我们将讨论不同类型的临界点（ critical points），当你在寻找凸路径（ convex path ）的时候可

03

【干货笔记】22张精炼图笔记，深度学习专项学习必备

来源丨https://blog.csdn.net/sophia_11/article/details/103005821

02

「深度学习一遍过」必修26：机器学习与深度学习基础知识汇总

同时评估了生成图像的质量和多样性仅评估图像生成模型，没有评估生成图像与原始图像之间的相似度，不能保证生成的使我们想要的图像

01

神经网络中的梯度优化算法

对于大规模的神经网络训练我们经常采用mini-batch Gradient Descent，但是在MBGD中如何选择合适的学习率是一个非常困难的问题。Learning Rate设置太小会导致神经网络收敛缓慢，Learning Rate设置太大可能导致神经网络在最小值附近波动甚至发散。

02

动手学DL——MLP多层感知机【深度学习】【PyTorch】

加入一个或多个隐藏层+激活函数来克服线性模型的限制，使其能处理更普遍的函数关系类型，这种架构通常称为多层感知机（multilayer perceptron）。

04

优化器怎么选？一文教你选择适合不同ML项目的优化器

优化器是深度学习领域的重要组成模块之一，执行深度学习任务时采用不同的优化器会产生截然不同的效果。这也是研究者们不遗余力「炼丹」的原因之一。常见的优化算法包括梯度下降（变体 BGD、SGD 和 MBGD）、Adagrad、Adam、Momentum 等，如此繁多的优化器应该如何做出抉择呢？

03

Adam优化算法「建议收藏」

深度学习常常需要大量的时间和计算机资源进行训练，这也是困扰深度学习算法开发的重大原因。虽然我们可以采用分布式并行训练加速模型的学习，但需要的计算资源并没有丝毫减少。而唯有需要资源更少、令模型收敛更快的最优化算法，才能从根本上加速机器的学习速度和效果，Adam算法正为此而生！

02

一文看懂各种神经网络优化算法：从梯度下降到Adam方法

王小新编译自 Medium 量子位出品 | 公众号 QbitAI 在调整模型更新权重和偏差参数的方式时，你是否考虑过哪种优化算法能使模型产生更好且更快的效果？应该用梯度下降，随机梯度下降，还是Adam方法？这篇文章介绍了不同优化算法之间的主要区别，以及如何选择最佳的优化方法。什么是优化算法？优化算法的功能，是通过改善训练方式，来最小化(或最大化)损失函数E(x)。模型内部有些参数，是用来计算测试集中目标值Y的真实值和预测值的偏差程度的，基于这些参数，就形成了损失函数E(x)。比如说，权重(W)

07

挑战性能极限小显卡大作为，教你如何在有限资源下运行大型深度学习模型，GPU显存估算并高效利用全攻略！

“10b”、“13b”、“70b” 等术语通常指的是大型神经网络模型的参数数量。其中的 “b” 代表 “billion”，也就是十亿。表示模型中的参数量，每个参数用来存储模型的权重和偏差等信息。例如：

01

从零开始深度学习（十六）：批归一化（Batch Normalization）

文章首发于本人CSDN账号:https://blog.csdn.net/tefuirnever

03

深度学习的这些坑你都遇到过吗？神经网络11大常见陷阱及应对方法

如果你的神经网络不工作，该怎么办?本文作者列举了搭建神经网络时可能遇到的11个常见问题，包括预处理数据、正则化、学习率、激活函数、网络权重设置等，并提供解决方法和原因解释，是深度学习实践的有用资料。

07

深度学习的这些坑你都遇到过吗？神经网络 11 大常见陷阱及应对方法

【新智元导读】如果你的神经网络不工作，该怎么办？本文作者列举了搭建神经网络时可能遇到的11个常见问题，包括预处理数据、正则化、学习率、激活函数、网络权重设置等，并提供解决方法和原因解释，是深度学习实践的有用资料。如果你的神经网络不工作，该怎么办？作者在这里列出了建神经网络时所有可能做错的事情，以及他自己的解决经验。忘记规范化数据忘记检查结果忘记预处理数据忘记使用正则化使用的batch太大使用了不正确的学习率在最后层使用了错误的激活函数你的网络包含了Bad Gradients 初始化网络权重

04

深度学习这些坑你都遇到过吗？

原文地址：My Neural Network isn't working! What should I do? 如果你的神经网络不工作，该怎么办？本文作者列举了搭建神经网络时可能遇到的11个常见问题

05

训练神经网络的7个技巧

神经网络模型使用随机梯度下降进行训练，模型权重使用反向传播算法进行更新。通过训练神经网络模型解决的优化问题非常具有挑战性，尽管这些算法在实践中表现出色，但不能保证它们会及时收敛到一个良好的模型。

01

为什么深度神经网络这么难训练？

导读：本文内容节选自《深入浅出神经网络与深度学习》一书，由Michael Nielsen所著，他是实验媒体研究工作室的联合创始人，曾是 YC Research 的 Research Fellow。。

04

大语言模型高效训练基础知识：优化器AdamW和Adafator

Adam相信很多读者已经了解了，Weight Decay解释起来也比较容易，为了防止过拟合，在计算损失函数时需要增加L2正则项：

03

梯度下降优化算法综述

本文翻译自Sebastian Ruder的“An overview of gradient descent optimization algoritms”，作者首先在其博客中发表了这篇文章，其博客地址为：An overview of gradient descent optimization algoritms，之后，作者将其整理完放在了arxiv中，其地址为：An overview of gradient descent optimization algoritms，在翻译的过程中以作者发布在Arxiv

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭