真的有必要以批量大小的倍数的块来输入神经网络吗？ - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

一番实验后，有关Batch Size的玄学被打破了

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥更好性能，因此设置成 16、32、64、128 … 时，往往要比设置为其他倍数时表现更优。后者是否是一种

一番实验后，有关Batch Size的玄学被打破了

作者：Sebastian Raschka 机器之心编译编辑：泽南有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥更好性能，因此设置成 16、32、64、128 … 时，往往要比设置为其他倍数时表现更优。后者是否是一种玄

02

您找到你想要的搜索结果了吗？

是的

没有找到

一番实验后，有关Batch Size的玄学被打破了

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G 有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥

02

如何在GPU上设计高性能的神经网络

gpu对于机器学习是必不可少的。可以通过AWS或谷歌cloud轻松地启动这些机器的集群。NVIDIA拥有业内领先的GPU，其张量核心为 V100和 A100加速哪种方法最适合你的神经网络?为了以最低的

01

干货 | 史上最好记的神经网络结构速记表（上）

本文提供了神经网络结构速查表，盘点了神经网络的大量框架，并绘制了直观示意图进行说明，是人手必备的神经网络学习小抄。新的神经网络结构不断涌现，我们很难一一掌握。哪怕一开始只是记住所有的简称（ DCIG

史上最好记的神经网络结构速记表（上）

翻译 / 陈俊雅校对 / 李傲整理 / 雷锋字幕组本文提供了神经网络结构速查表，盘点了神经网络的大量框架，并绘制了直观示意图进行说明，是人手必备的神经网络学习小抄。新的神经网络结构不断涌现，我们很难一一掌握。哪怕一开始只是记住所有的简称（ DCIGN，BiLSTM，DCGAN ），也会让同学们吃不消。所以我决定写篇文章归纳归纳，各种神经网络结构。它们大部分都是神经网络，也有一些是完全不同的结构。虽然所有结构说起来都是新颖而独特的，但当我画出结点的结构图时……它们之间的内在联系显得更有意思。总表

大会 | 斯坦福ICLR2018录用论文：高效稀疏Winograd卷积神经网络

AI 科技评论按：ICLR 2018 于 5 月初在加拿大温哥华举办。论文「Efficient Sparse-Winograd Convolutional Neural Networks」被 ICLR 2018 录用，第一作者、斯坦福大学的博士生刘星昱为 AI 科技评论撰写了独家解读稿件，未经许可不得转载。

03

自创数据集，用TensorFlow预测股票教程 !（附代码）

来源：机器之心本文长度为4498字，建议阅读8分钟本文非常适合初学者了解如何使用TensorFlow构建基本的神经网络。 STATWORX 团队近日从 Google Finance API 中精选出了 S＆P 500 数据，该数据集包含 S＆P 500 的指数和股价信息。有了这些数据，他们就希望能利用深度学习模型和 500 支成分股价预测 S&P 500 指数。STATWORX 团队的数据集十分新颖，但只是利用四个隐藏层的全连接网络实现预测，读者也可以下载该数据尝试更加优秀的循环神经网络。本文非

07

训练过程–Batchsize（总之一般情况下batchsize能设多大就设多大）[通俗易懂]

1）内存利用率提高了，大矩阵乘法的并行化效率提高。 2）跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。 3）在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。随着 Batch_Size 增大，处理相同数据量的速度越快。随着 Batch_Size 增大，达到相同精度所需要的 epoch 数量越来越多。” 由于最终收敛精度会陷入不同的局部极值，因此 Batch_Size 增大到某些时候，达到最终收敛精度上的最优。

04

详解循环神经网络RNN（理论篇）

让我们从一个问题开始，你能理解下面这句英文的意思吗？“working love learning we on deep”，答案显然是无法理解。那么下面这个句子呢？“We love working on deep learning”，整个句子的意思通顺了！我想说的是，一些简单的词序混乱就可以使整个句子不通顺。那么，我们能期待传统神经网络使语句变得通顺吗？不能！如果人类的大脑都感到困惑，我认为传统神经网络很难解决这类问题。

03

你的batch size是2次方吗？奇葩选手：我用2的8.5次方

---- 新智元报道编辑：LRS 【新智元导读】你的batch size是多少？最近有大佬做实验表示没必要非得2次方，训练速度影响微乎其微，但评论区却吵翻天了！你有没有疑惑过，为啥batch size都是2的幂数？有人觉得是「习惯」，也有人说这算是一种约定俗成的标准，因为从「计算」的角度来看，batch size为2的幂数有助于提高训练效率。但计算机科学就是一门实践的学科，理论再完美也需要实验结果来验证。最近一位AI研究者Sebastian动手试了一下所有的batch size，结果发

02

学界 | Facebook 新研究：大批量SGD准确训练ImageNet仅需1小时

选自arXiv 机器之心编译参与：蒋思源由于近来互联网数据越来越大，深度学习模型越来越复杂，执行训练的时间也越来长。因此近日 Facebook 提出了一种将批量大小提高的分布式同步 SGD 训练方法，希望能有助于解决越来越长的训练时间。以下机器之心对该文论进行了部分编译，该论文详细内容请查看论文链接。论文：Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour 论文链接：https://research.fb.com/wp-content

07

11种主要神经网络结构图解

随着深度学习的快速发展，人们创建了一整套神经网络结构来解决各种各样的任务和问题。尽管有无数的神经网络结构，这里有十一种对于任何深度学习工程师来说都应该理解的结构，可以分为四大类: 标准网络、循环网络、卷积网络和自动编码器。

02

深度 | 可视化线性修正网络：看Fisher-Rao范数与泛化之间的关系

选自inFERENCe 作者：Ferenc Huszár 机器之心编译参与：程耀彤、思源深度模型的泛化性能一直是研究的主题。最近，Twitter 的机器学习研究员 Ferenc Huszár 发表了一篇文章专门讨论泛化与 Fisher-Rao 范数之间的关系，它先分析了提出 Fisher-Rao 度量方法的论文，包括带偏置项和不带偏置项的分段线性网络的可视化，然后再讨论了其它如 Fisher-Rao 范数是否会成为有效的正则化器等问题。在上周发布的关于泛化之谜的文章之后，有研究者向我介绍了最近将 F

全连接网络到卷积神经网络逐步推导（组图无公式）

摘要：在图像分析中，卷积神经网络（Convolutional Neural Networks, CNN）在时间和内存方面优于全连接网络（Full Connected, FC）。这是为什么呢？卷积神经网络优于全连接网络的优势是什么呢？卷积神经网络是如何从全连接网络中派生出来的呢？卷积神经网络这个术语又是从哪里而来？这些问题在本文中一一为大家解答。

02

深度学习入门必须理解这25个概念

神经网络基础 1、神经元（Neuron）——就像形成我们大脑基本元素的神经元一样，神经元形成神经网络的基本结构。想象一下，当我们得到新信息时我们该怎么做。当我们获取信息时，我们一般会处理它，然后生成

03

自创数据集，使用TensorFlow预测股票入门

选自Medium 机器之心编译参与：蒋思源、李亚洲、刘晓坤 STATWORX 团队近日从 Google Finance API 中精选出了 S＆P 500 数据，该数据集包含 S＆P 500 的指数和股价信息。有了这些数据，他们就希望能利用深度学习模型和 500 支成分股价预测 S&P 500 指数。STATWORX 团队的数据集十分新颖，但只是利用四个隐藏层的全连接网络实现预测，读者也可以下载该数据尝试更加优秀的循环神经网络。本文非常适合初学者了解如何使用 TensorFlow 构建基本的神经网络，

07

自创数据集，使用TensorFlow预测股票入门

机器之心编译参与：蒋思源、李亚洲、刘晓坤 STATWORX 团队近日从 Google Finance API 中精选出了 S＆P 500 数据，该数据集包含 S＆P 500 的指数和股价信息。有了这些数据，他们就希望能利用深度学习模型和 500 支成分股价预测 S&P 500 指数。STATWORX 团队的数据集十分新颖，但只是利用四个隐藏层的全连接网络实现预测，读者也可以下载该数据尝试更加优秀的循环神经网络。本文非常适合初学者了解如何使用 TensorFlow 构建基本的神经网络，它全面展示了构建一

07

NeurIPS 2018提前看：可视化神经网络泛化能力

作者 Yuanyuan Li：几次转行，本科国际贸易，研究生转向统计，毕业后留在比利时，选择从事农用机械研发工作，主要负责图像处理，实现计算机视觉算法的落地。欣赏一切简单、优雅但有效地算法，试图在深度学习的簇拥者和怀疑者之间找到一个平衡。我追求生活的宽度，这也是为什么在工作之外，我也是机器之心的一名技术分析师。希望在这里和大家分享自己对于技术的理解，通过思想的碰撞拓宽思路和眼界。

04

2D和3D卷积网络应用于视频数据比较

本文目的是研究使用神经网络对视频帧进行分类的方法，特别是研究将时间信息与视频帧的空间信息一起考虑的体系结构。我们旨在证明，仅将标准卷积神经网络单独应用于视频的每个帧，对于可以捕获视频帧之间的时间模式的模型而言是一种较差的方法。

03

深度学习入门笔记系列 ( 六 ) ——卷积神经网络（CNN）学习笔记

本系列将分为 8 篇。本次为第 6 篇，介绍在计算机视觉中使用广泛并且十分基础的卷积神经网络。

02

Batch大小不一定是2的n次幂！ML资深学者最新结论

羿阁编译整理量子位 | 公众号 QbitAI Batch大小不一定是2的n次幂？是否选择2的n次幂在运行速度上竟然也相差无几？有没有感觉常识被颠覆？这是威斯康星大学麦迪逊分校助理教授Sebastian Raschka（以下简称R教授）的最新结论。在神经网络训练中，2的n次幂作为Batch大小已经成为一个标准惯例，即64、128、256、512、1024等。一直有种说法，是这样有助于提高训练效率。但R教授做了一番研究之后，发现并非如此。在介绍他的试验方法之前，首先来回顾一下这个惯例究竟是怎

01

全连接网络到卷积神经网络逐步推导（组图无公式）

摘要：在图像分析中，卷积神经网络（Convolutional Neural Networks, CNN）在时间和内存方面优于全连接网络（Full Connected, FC）。这是为什么呢？卷积神经网络优于全连接网络的优势是什么呢？卷积神经网络是如何从全连接网络中派生出来的呢？卷积神经网络这个术语又是从哪里而来？这些问题在本文中一一为大家解答。

03

具有mxnetR的前馈神经网络

本文介绍了如何使用MXNet库创建前馈神经网络、卷积神经网络和递归神经网络，并使用示例数据集进行训练和预测。主要内容包括：定义神经网络层、选择激活函数、定义损失函数和优化器、训练神经网络、使用API进行预测以及创建混淆矩阵。

01

继1小时训练ImageNet之后，大批量训练扩展到了3万2千个样本

选自arXiv 机器之心编译参与：蒋思源、李亚洲、路雪自 Facebook 发布 1 小时训练 ImageNet 论文以来，很多研究者都在关注如何使用并行训练来提高深度学习的训练速度。Facebook 提出了一种提高批量大小的分布式同步 SGD 训练方法，而 Yang You 等人在 Facebook 的论文上更进一步采用层级对应的适应率缩放（LARS）来对每一层网络使用不同的学习率。他们在 AlexNet 和 ResNet-50 模型上分别实现了 8129 和 32768 的批量大小，而且在加速训练的

05

深度 | 向手机端神经网络进发：MobileNet压缩指南

选自Machine Think 作者：Matthijs Hollemans 机器之心编译参与：机器之心编辑部随着 MobileNet 等面向移动设备的模型不断出现，机器学习正在走向实用化。不过，由于深度学习等方法需要消耗大量计算资源的因素，目前我们距离真正的移动端人工智能应用还有一段距离。在硬件之外，我们也需要对模型本身进行压缩，最近，荷兰工程师 Matthijs Hollemans 向我们展示了他压缩 MobileNet 的方法：通过删除卷积层的部分滤波器，他在保证准确性不变的情况下，让模型体量缩小了

08

深度学习中的网络优化与正则化

最近参加面试时被问到了神经网络优化方面的问题，由于平时没有好好总结，导致直接拉胯。这篇文章对当前神经网络训练中的常见优化方法进行了比较全面的总结，文章的大部分内容均来自邱锡鹏老师的《神经网络与深度学习》[1] ，部分地方加入了自己的理解。整篇文章的思维导图如下：

01

技巧只能源码找？李沐带你纵览卷积网络实战中的惊艳技艺

作者：Tong He、Zhi Zhang、Hang Zhang、Zhongyue Zhang、Junyuan Xie、Mu Li

04

76分钟训练BERT！谷歌大脑新型优化器LAMB加速大批量训练

尽管 BERT效果惊人，但它所需的计算量非常大，原作者在论文中也表示每次只能预测 15% 的词，因此模型收敛得非常慢。如果我们想保留这种 Mask 机制，那么就需要寻找另一种加速方法了。

04

深度学习「CV」学习实践指南！

深度学习的发展不仅突破了许多视觉难题，也加速了计算机视觉领域相关技术的进步。本文主要从CV数据处理、CV模型（CNN）、CV模型训练流程以及CV模型集成对计算机视觉的基础知识和基本环节进行了讲解。

03

IJCAI2023 | 高效训练Transformers的方法

深度学习是近年来最重要的方法之一，它彻底改变了机器学习和人工智能，并引领着第四次工业革命。训练GPT-3（1750亿参数）需要355个GPU年，并且至少花费460万美元。

01

怎样构建深度学习模型？六步走，时刻小心过拟合 | 入门指南

夏乙栗子编译自 Khanna.cc 量子位报道 | 公众号 QbitAI 想要训练个深度神经网络，也准备好了可以直接用的数据，要从哪里开始上手？来自美国的Harry Khanna，精心编织了

02

教你在经典计算机上搭建一个量子神经网络，已开源

本文将教你搭建简单的二分类量子神经网络，并在经典计算机上运行，该项目已经开源。构建量子神经网络与传统的方式并不完全相同——它没有使用带权重和偏置的神经元，而是将输入数据编码为一系列量子比特，应用一系列量子门，并改变门的参数，使损失函数最小化。

02

深度学习入门必须理解这25个概念

1）神经元（Neuron）：就像形成我们大脑基本元素的神经元一样，神经元形成神经网络的基本结构。想象一下，当我们得到新信息时我们该怎么做。当我们获取信息时，我们一般会处理它，然后生成一个输出。类似地，在神经网络里，神经元接收输入，处理它并产生输出，而这个输出被发送到其他神经元用于进一步处理，或者作为最终输出进行输出。

03

深度学习入门必须理解这25个概念

1）神经元（Neuron）：就像形成我们大脑基本元素的神经元一样，神经元形成神经网络的基本结构。想象一下，当我们得到新信息时我们该怎么做。当我们获取信息时，我们一般会处理它，然后生成一个输出。类似地，在神经网络里，神经元接收输入，处理它并产生输出，而这个输出被发送到其他神经元用于进一步处理，或者作为最终输出进行输出。

02

深度学习的这些坑你都遇到过吗？神经网络11大常见陷阱及应对方法

如果你的神经网络不工作，该怎么办?本文作者列举了搭建神经网络时可能遇到的11个常见问题，包括预处理数据、正则化、学习率、激活函数、网络权重设置等，并提供解决方法和原因解释，是深度学习实践的有用资料。

07

深度学习的这些坑你都遇到过吗？神经网络 11 大常见陷阱及应对方法

【新智元导读】如果你的神经网络不工作，该怎么办？本文作者列举了搭建神经网络时可能遇到的11个常见问题，包括预处理数据、正则化、学习率、激活函数、网络权重设置等，并提供解决方法和原因解释，是深度学习实践的有用资料。如果你的神经网络不工作，该怎么办？作者在这里列出了建神经网络时所有可能做错的事情，以及他自己的解决经验。忘记规范化数据忘记检查结果忘记预处理数据忘记使用正则化使用的batch太大使用了不正确的学习率在最后层使用了错误的激活函数你的网络包含了Bad Gradients 初始化网络权重

04

深度学习入门必须理解这25个概念

1）神经元（Neuron）：就像形成我们大脑基本元素的神经元一样，神经元形成神经网络的基本结构。想象一下，当我们得到新信息时我们该怎么做。当我们获取信息时，我们一般会处理它，然后生成一个输出。类似地，在神经网络里，神经元接收输入，处理它并产生输出，而这个输出被发送到其他神经元用于进一步处理，或者作为最终输出进行输出。

01

深度学习这些坑你都遇到过吗？

原文地址：My Neural Network isn't working! What should I do? 如果你的神经网络不工作，该怎么办？本文作者列举了搭建神经网络时可能遇到的11个常见问题

05

【干货】怎样用深度学习做语音识别

【新智元导读】吴恩达曾经预测当语音识别的准确率从95%上升到99%时，语音识别将会成为人类与计算机交互的新方式。归功于深度学习，这4%的准确率的提升使得语音识别从难以实际应用的技术变成有无限的应用潜力

08

深度剖析YOLO系列的原理

本文系作者原创，转载请注明出处:https://www.cnblogs.com/further-further-further/p/12072225.html

01

RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测|附代码数据

2017 年年中，R 推出了 Keras 包 _，_这是一个在 Tensorflow 之上运行的综合库，具有 CPU 和 GPU 功能

00

常见深度学习模型总结「建议收藏」

Lenet 是最早的卷积神经网络之一,并且推动了深度学习领域的发展，最初是为手写数字识别建立的网络。

02

神经网络速记概念解释

1、将输入图像传递到第一个卷积层中，卷积后以激活图形式输出。图片在卷积层中过滤后的特征会被输出，并传递下去 2、每个过滤器都会给出不同的特征，以帮助进行正确的类预测。因为需要保证图像大小的一致，所以使用同样的填充（零填充），否则填充会被使用，因为它可以帮助减少特征的数量零填充，可以理解为特征稀疏化，留下来的特征更能代表这个图像 3、随后加入池化层进一步减少参数的数量 4、在预测最终提出前，数据会经过多个卷积和池化层的处理。卷积层会帮助提取特征，越深的卷积神经网络会提取越具体的特征，越浅的网络提取越浅显的特征 5、CNN 中的输出层是全连接层，其中来自其他层的输入在这里被平化和发送，以便将输出转换为网络所需的参数 6、随后输出层会产生输出，这些信息会互相比较排除错误。损失函数是全连接输出层计算的均方根损失。随后我们会计算梯度错误 7、错误会进行反向传播，以不断改进过滤器（权重）和偏差值 8、一个训练周期由单次正向和反向传递完成

02

研学社·系统组 | 实时深度学习的推理加速和持续训练

机器之心原创作者：Yanchen Wang 参与：蒋思源、李亚洲作者 Yanchen 毕业于普林斯顿大学机器学习方向，现就职于微软Redmond总部，从事大规模分布式机器学习和企业级AI研发工作。在该篇文章中，作者介绍了实时深度学习的推理加速和持续性训练。引言深度学习变革了许多计算机视觉和自然语言处理（NLP）领域内的任务，它为越来越多的消费者和工业产品提供更强大的智能，并潜在地影响了人们在日常经验和工业实践上的标准流程。从理论上来说，深度学习和其他基于统计机器学习方法的自动化系统十分类似，它们都可

09

深度学习必须理解的25个概念

作者 | Star先生（CSDN博客专家）作者专栏：http://dwz.cn/80rGi5 编辑：AI科技大本营 ▌神经网络基础 1）神经元（Neuron）：就像形成我们大脑基本元素的神经元一

06

RoomNet - 一个轻量级的ConvNet（700 KB）

卷积神经网络对房屋/公寓的不同房间的图片进行分类，在1839幅图像上具有88.9％的验证准确度。

04

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

选自arXiv 作者：吴育昕、何恺明机器之心编译自 Facebook 在 2017 年 6 月发布 1 小时训练 ImageNet 论文以来，很多研究者都在关注如何使用并行训练来提高深度学习的训练速度，其研究所使用的批尺寸也呈指数级上升。近日，FAIR 研究工程师吴育昕、研究科学家何恺明提出了组归一化（Group Normalization）方法，试图以小批尺寸实现快速神经网络训练，这种方法对于硬件的需求大大降低，并在实验中超过了传统的批归一化方法。批归一化（Batch Norm/BN）是深度学习中非

06

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

选自arXiv 作者：吴育昕、何恺明机器之心编译自 Facebook 在 2017 年 6 月发布 1 小时训练 ImageNet 论文以来，很多研究者都在关注如何使用并行训练来提高深度学习的训练速度，其研究所使用的批尺寸也呈指数级上升。近日，FAIR 研究工程师吴育昕、研究科学家何恺明提出了组归一化（Group Normalization）方法，试图以小批尺寸实现快速神经网络训练，这种方法对于硬件的需求大大降低，并在实验中超过了传统的批归一化方法。批归一化（Batch Norm/BN）是深度学习中非

07

深度学习中的9种归一化方法概述

深度学习模型正在创建一些复杂任务的最先进模型，包括语音识别、计算机视觉、机器翻译等。然而，训练深度学习模型（如深度神经网络）是一项复杂的任务，因为在训练阶段，各层的输入不断变化。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭