为什么损失会减少，而准确率保持不变？_为什么损失继续减少，而性能保持不变？_训练损失正在减少，但准确率保持不变 - 腾讯云开发者社区

作者：George Seif 机器之心编译参与：Nurhachu Null、刘晓坤这篇文章可以作为一个设计指南，为特定分类任务的 CNN 设计提供指导。作者围绕准确率、速度、内存消耗三个指标的权衡，从网络类型、架构设计、数据处理和迁移学习等方面介绍了 CNN 设计过程中使用的方法。你想开始做图像分类，但是无从着手。应该使用哪个预训练网络？如何修改网络以使其满足需求？你的网络应该包含 20 层还是 100 层？哪些是最快的、最准确的？这些是你为图像分类选择最好的 CNN 时会遇到的众多问题。当选择

不是每张图都要高清，华为诺亚动态分辨率网络入选NeurIPS 2021

该论文指出识别每张图片所需要的最小分辨率是不同的，而现有方法并没有充分挖掘输入分辨率的冗余性，也就是说输入图片的分辨率不应该是固定的。论文进一步提出了一种动态分辨率网络 DRNet，其分辨率根据输入样本的内容动态决定。一个计算量可以忽略的分辨率预测器和我们所需要的图片分类网络一起优化训练。在推理过程中，每个输入分类网络的图像将被调整到分辨率预测器所预测的分辨率，以最大限度地减少整体计算负担。

您找到你想要的搜索结果了吗？

是的

没有找到

Kmeans、数据稀疏问题、标签不均衡

TensorFlow 模型优化工具包 — 训练后整型量化

模型优化工具包是一套先进的技术工具包，可协助新手和高级开发者优化待部署和执行的机器学习模型。自推出该工具包以来，我们一直努力降低机器学习模型量化的复杂性

学界 | Hinton提出的经典防过拟合方法Dropout，只是SDR的特例

作者：Noah Frazier-Logue、Stephen José Hanson

学界 | Hinton提出的经典防过拟合方法Dropout，只是SDR的特例

作者：Noah Frazier-Logue、Stephen José Hanson

不使用先验知识与复杂训练策略，从头训练二值神经网络！

作者：Joseph Bethge、Marvin Bornstein、Adrian Loy、Haojin Yang、Christoph Meinel

从MNIST入门深度学习

这段时间在百度的AIStudio上学习了MNIST数据集上的手写数字识别的课程，就简单做一下笔记吧！

论文赏析[NAACL19]一个更好更快更强的序列标注成分句法分析器

Better, Faster, Stronger Sequence Tagging Constituent Parsersgodweiyang.com

ICLR 2018 | 深度可逆网络i-RevNet：信息丢弃不是泛化的必要条件

选自openreview 作者：Jörn-Henrik Jacobsen 机器之心编译参与：Nurhachu Null、刘晓坤本文介绍了一种可逆网络架构 i-RevNet，证明对于分类网络的泛化能力，通过信息丢弃构造信息瓶颈并不是必要条件，该结论甚至对 ImageNet 这样的大型数据集也是成立的；此外，通过保留中间表征的所有信息，使得逆向完全地恢复原图变得可行。虽然卷积神经网络（CNN）在进行图像分类的时候特别有效（He et al., 2016; Krizhevsky et al., 2012），

利用LSTM思想来做CNN剪枝，北大提出Gate Decorator

还记得在理解 LSTM 的时候，我们会发现，它用一种门控机制记住重要的信息而遗忘不重要的信息。在此之后，很多机器学习方法都受到了门控机制的影响，包括 Highway Network 和 GRU 等等。北大的研究者同样也是，它们将门控机制加入到 CNN 剪枝中，让模型自己决定哪些滤波器不太重要，那么它们就可以删除了。

观点 | 1cycle策略：实践中的学习率设定应该是先增再降

选自GitHub 作者：Sylvain Gugger 机器之心编译参与：Tianci LIU、思源深度模型中的学习率及其相关参数是最重要也是最难控制的超参数，本文将介绍 Leslie Smith 在设置超参数（学习率、动量和权重衰减率）问题上第一阶段的研究成果。具体而言，Leslie Smith 提出的 1cycle 策略可以令复杂模型的训练迅速完成。它表示在 cifar10 上训练 resnet-56 时，通过使用 1cycle，能够在更少的迭代次数下，得到和原论文相比相同、甚至更高的精度。通过采用

改进Hinton的Dropout：可以用来减轻欠拟合了

机器之心报道机器之心编辑部深度学习三巨头之一 Geoffrey Hinton 在 2012 年提出的 dropout 主要用来解决过拟合问题，但近日的一项工作表明，dropout 能做的事情不止于此。 2012 年，Hinton 等人在其论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出了 dropout。同年，AlexNet 的出现开启了深度学习的新纪元。AlexNet 使用 dropout

DeepSparse: 通过剪枝和稀疏预训练，在不损失精度的情况下减少70%的模型大小，提升三倍速度

这篇论文提出了一种高稀疏性基础大型语言模型（LLMs）的新方法，通过有效的预训练和部署，实现了模型在保持高准确度的同时，显著提升了处理速度。

利用LSTM思想来做CNN剪枝，北大提出Gate Decorator

图神经网络让预估到达准确率提升50%，谷歌地图实现新突破

很多人使用谷歌地图（Google Maps）获取精确的交通预测和预估到达时间（Estimated Time of Arrival，ETA）。这是很重要的工具，尤其是当你将途经交通拥堵路段或者需要按时参加重要的会议。

深度神经网络对脑电信号运动想象动作的在线解码

近年来，深度学习方法的快速发展使得无需任何特征工程的端到端学习成为可能，这有利于BCI运动想象应用的发展。慕尼黑工业大学和澳大利亚研究发展团队(Research and Development, Integrated Research, Sydney 2060) 在论文中将深度学习方法与传统分类算法在数据集上进行了验证比较。

12倍端到端加速，陈天奇创业公司OctoML提出克服二值网络瓶颈新方法

Riptide 是一种新的模型量化方法，可以将模型量化至 1、2 位。研究团队今年三月在 MLSys 上介绍了 Riptide，这篇文章主要讲一下为什么要构建 Riptide，并快速了解它的幕后工作原理。团队计划来年将 Automatic ultra low-bit 功能添加到 Octomizer 中。在此之前，读者可以使用开源 Riptide 项目和 MLSys 论文中的信息来进行模型优化。

26秒单GPU训练CIFAR10，Jeff Dean也点赞的深度学习优化技巧

运行速度和算力一直是制约深度学习模型发展的瓶颈。研究人员一直在研究如何能够进一步提升模型的训练和推断速度，并减少对硬件性能的依赖。今日，一位名为 David Page 的 myrtle.ai 科学家和他的团队对 ResNet 训练进行了一系列改造，将在单 GPU 上训练 CIFAR10 数据集并达到 94% 准确率所需的时间减少到了 26 秒，比 DAWNBench 排行榜现在的第一名高了 10 秒以上。这一项目获得了 Jeff Dean 的点赞。

26秒单GPU训练CIFAR10，Jeff Dean也点赞的深度学习优化技巧

从FBNetv1到FBNetV3：一文看懂Facebook在NAS领域的轻量级网络探索

FBNet系列是完全基于NAS方法的轻量级网络系列，分析当前搜索方法的缺点，逐步增加创新性改进，FBNet结合了DNAS和资源约束，FBNetV2加入了channel和输入分辨率的搜索，FBNetV3则是使用准确率预测来进行快速的网络结构搜索

Gaussian YOLOv3 : 对bbox预测值进行高斯建模输出不确定性，效果拔群 | ICCV 2019

**论文: Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization

机器学习模型评估

本文图片皆引自吴恩达机器学习教学视频，是对视频内容的提炼和总结，本文内容适合正在入门的初学者。

将330亿参数大模型「塞进」单个消费级GPU，加速15%、性能不减

预训练大语言模型（LLM）在特定任务上的性能不断提高，随之而来的是，假如 prompt 指令得当，其可以更好的泛化到更多任务，很多人将这一现象归功于训练数据和参数的增多，然而最近的趋势表明，研究者更多的集中在更小的模型上，不过这些模型是在更多数据上训练而成，因而在推理时更容易使用。

三行代码无损加速40%，尤洋团队AI训练加速器入选ICLR Oral论文

今年的深度学习顶会ICLR上，新加坡国立大学尤洋教授团队的一项成果被收录为Oral论文。

最优化和深度学习的区别

如今训练神经网络最常见的方法是使用梯度下降或 Adam 等变种。梯度下降是寻找函数极小值的迭代优化算法。简单的说，在最优化问题中，我们对某个度量 P 感兴趣，想找到一个在某些数据（或分布）D上最大化（或最小化）该度量的函数（或函数的参数）。这听起来就像是机器学习或深度学习。我们有一些指标，例如准确率，甚至更好的精度/召回率或F1值；有一个带有可学习参数的模型（我们的网络）；还有数据（训练和测试集）。使用梯度下降，我们将“搜索”或“优化”模型的参数，从而最终使训练和测试集上的数据指标（准确率）最大化。

【深度学习】③--神经网络细节与训练注意点

1. 权重的初始化 1.1 fine-tuning 神经网络的训练的有两种方式，第一种是自己从头到尾训练一遍；第二种是使用别人训练好的模型，然后根据自己的实际需求做改动与调整。后者我们叫做fine-tuning. 在model zoo有大量训练好的模型（不知道的可以百度一下model zoo) fine-tuning相当于站在巨人的肩膀上，使用别人已经训练好了的优秀的模型去实现自己的需求。一般分为以下两种调整方式： 1.只修改FC（全连接层），比如原来的模型是1000个类别，而你实际上只需要分2个类别，那

十亿参数，一键瘦身！「模型减重」神器增强型 SmoothQuant，让大模型狂掉 3/4

本文介绍了可提升大语言模型的训练后量化表现的增强型 SmoothQuant 技术，说明了这项技术的用法，并证明了其在准确率方面的优势。此方法已整合至英特尔® Neural Compressor(1) 中。

课后作业（二）：如何用一个只有一层隐藏层的神经网络分类Planar data

来源：sandipanweb 编译：Bot 编者按：之前，论智曾在TOP 10：初学者需要掌握的10大机器学习（ML）算法介绍了一些基础算法及其思路，为了与该帖联动，我们特从机器学习热门课程HSE的Introduction to Deep Learning和吴恩达的Neural Networks and Deep Learning中挑选了一些题目，演示Python、TensorFlow和Keras在深度学习中的实战应用。 “课后作业”第二题如何用一个只有一层隐藏层的神经网络分类Planar data，来自吴

Alex Graves新作贝叶斯流网络，解决离散数据生成问题，满论文都是数学公式

近来，大规模神经网络彻底改变了生成式模型，使模型具有前所未有的捕捉许多变量之间复杂关系的能力，例如建立高分辨率图像中所有像素的联合模型。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐