首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

何在GPU设计高性能的神经网络

NVIDIA拥有业内领先的GPU,其张量核心为 V100和 A100加速哪种方法最适合你的神经网络?为了以最低的成本设计出最快的神经网络,机器学习架构师必须解决许多问题。...作为一个机器学习架构师,你应该如何设计神经网络来最大化GPU的性能? 在本文中,我们将深入了解机器学习架构师实现性能最大化的手段。...事实,除了第一层(L1)之外,我们在每一层都执行了3次矩阵乘法。如果神经网络有n层,则需要进行3n-1个矩阵-矩阵乘法,即时,它随神经网络的大小线性增长。...NVBLAS是GEMM的Nvidia实现,它利用了内部的GPU架构,实现了平铺/块矩阵乘法。PyTorch和TensorFlow链接到Nvidia GPU的这个库。类库为你做所有繁重的工作。...作为一名机器学习架构师,在您寻求提高性能的过程中,您将不可避免地面临是否要从Volta升级到Ampere并支付更高的成本的决定。为此,必须使用Roofline模型确定神经网络是算术界限还是内存界限。

1.1K10

案例分享 | Yelp 如何在 Kubernetes 运行 Kafka(第 1 部分 - 架构

我们最近通过在 PaaSTA (Yelp 自己的平台即服务)运行集群,对 Kafka 部署架构进行一些改进。...架构改进及动机 过去,我们所有的 Kafka 集群都在 AWS 的专用 EC2 实例运行。Kafka 直接部署在这些主机上,配置管理高度依赖 Puppet 仓库。...新的部署架构利用 PaaSTA 池(或主机组)作为底层基础设施。Kafka 代理 pod 调度在 Kubernetes 节点,并且代理 pod 具有可分离的 EBS 卷。...每个 Kafka 集群都有自己专用的 Cruise Control 实例,每个集群的 Operator 与其 Cruise Control 实例交互以执行生命周期管理操作,检查集群的健康状况、重新平衡主题分区和添加...缩小规模的方案 架构设计好后,我们会做什么? 在设计了这个架构之后,我们构建了一个将 Kafka 集群从 EC2 无缝迁移到 PaaSTA 的流程。

54220
您找到你想要的搜索结果了吗?
是的
没有找到

机器学习研究人员需要了解的8个神经网络架构

我们不知道要写什么程序,因为我们不知道它是如何在我们的大脑中完成的。即使我们知道如何去做,这个程序可能会非常复杂。 很难编写一个程序来计算信用卡交易欺诈的可能性。可能没有任何既简单又可靠的规则。...在这篇博客文章中,我想分享我认为机器学习研究人员应该熟悉的课程中的8个神经网络架构,以推进他们的工作。...递归神经网络是建模时序数据的一种非常自然的方法。它们相当于每个时间片具有一个隐藏层的非常深的网络; 除了它们在每个时间片使用相同的权重并且它们在每个时间片都得到输入。...因为它们服从能量函数,所以它们在做的事情也受到更多的限制。没有隐藏单元的对称连接的网络被称为“霍普菲尔德网络”。具有隐藏单元的对称连接网络称为“玻尔兹曼机器”。...随着核心越来越便宜,数据集越来越大,大型神经网络将比老式计算机视觉系统提高得更快。 下文我们继续介绍另外6种神经网络架构,希望可以给大家带来帮助。

54620

TensorFlow R1.2 中文文档

TensorFlow R1.2 中文文档是一个粗略版本,在后期学习中由ApacheCN志愿者进行迭代更新。...pageId=10030122 TensorFlow R1.2 中文文档 安装 在Ubuntu安装TensorFlow 在Mac OS X安装TensorFlow 在Windows安装TensorFlow...初始化,保存和加载 张量等级,形状和类型 共享变量 线程和队列 阅读数据 Supervisor: 长期训练的训练帮手 TensorFlow Debugger(tfdbg)命令行界面教程:MNIST 如何在...卷积神经网络 字的矢量表示 循环神经网络 序列到序列模型 具有TensorFlow的大规模线性模型 TensorFlow线性模型教程 TensorFlow广泛深度学习教程 Mandelbrot集 部分微分方程...TensorFlow服务 分布式TensorFlow 如何在Hadoop运行TensorFlow 延伸 TensorFlow架构 添加新的操作 添加自定义文件系统插件 自定义数据读取器 在tf.contrib.learn

1.8K70

李飞飞等人提出Auto-DeepLab:自动搜索图像语义分割架构

深度神经网络已经在很多人工智能任务取得了成功,包括图像识别、语音识别、机器翻译等。...最近,在 AutoML 和 AI 民主化的影响下,人们对自动化设计神经网络架构产生了极大兴趣,自动化设计神经网络无需严重依赖专家经验和知识。...4 方法 这部分首先介绍了精确匹配上述分层架构搜索的离散架构的连续松弛,然后讨论了如何通过优化执行架构搜索,以及如何在搜索终止后解码离散架构。...研究采用不同的训练迭代次数(50 万、100 万与 150 万次迭代)和 SDP(Scheduled Drop Path)方法进行实验。所有模型都是从头训练的。 ?...最后一行展示了本研究提出方法的故障模式,模型将一些较难的语义类别混淆了,人和骑车的人。 ? 图 6:在 ADE20K 验证集的可视化结果。

1K20

【学术】卷积神经网络教你如何还原被马赛克的文本图像

一行显示输入图像,而下一行显示输出目标。 让Fθ成为不模糊图像神经网络,Y1,Y2,…,Yn成为图像,然后X1,X2,…,Xn作为模糊的副本。...我们为神经网络找到参数θ,该神经网络最小化了每个图像的每个像素的均方差。 为了解决这一问题,我们尝试了两种Fθ的架构。然而,它们都是某种形式的卷积神经网络。...所以我们用一种新颖的方法来寻找一个好的学习率: 简单地在神经网络打印一个参数,在这里使用一个首层的参数,然后在每次迭代之后打印出来。如果没有改变,那么提高学习率。...左列是神经网络的输入图像,中间列是目标输出,右列是神经网络的输出图像。 图7:500次迭代 图8:3000次迭代 图9:22000次迭代 图10:来自验证组的图像。...图10显示了神经网络何在以前没有见过的模糊图像执行任务。神经网络似乎能够很好地总结出只有10.000张图片和18个训练期的验证集的特点。第四行图像显示,有时网络会给图像增加噪点。

1.6K70

华人团队打造:AutoML + GAN = AutoGAN!AI设计GAN模型比人类更好

近年来,人们对自动设计复杂的神经网络架构产生了浓厚的兴趣。神经架构搜索(NAS)已经成功地开发和评估了图像分类任务以及最近的图像分割。发现的架构优于人工设计的模型。...众所周知,这两种架构必须在学习能力实现微妙的平衡。因此,要构建AutoGAN,第一个问题是:如何在GAN(生成器和鉴别器,以下表示为G和D)中一起构建两个网络?...频谱归一化仅在鉴别器强制执行。使用Adam 训练控制器,学习率为3.5e-4。将控制器输出概率的熵添加到奖励中,加权1e-4,以鼓励探索。搜索AutoGAN 90次迭代。...对于每次迭代,共享GAN将被训练15步,控制器训练30步。动态重置方差阈值设置为1e-3。使用与共享GAN相同的训练设置训练发现的体系结构,进行50,000次生成器迭代。...回想一下,在AutoML的初始阶段,它只能设计与人类专家设计的神经网络相当的小型神经网络,这些结果仅限于小型学术数据集,CIFAR-10和Penn Treebank。

78230

​从800个GPU训练几十天到单个GPU几小时,看神经架构搜索如何进化

当时训练循环神经网络 (RNN) 来生成神经网络架构的想法出现了。 ?...图 1:训练 NAS 控制器的迭代过程图示:训练控制器(RNN),以概率 p 采样架构 A,训练架构 A 的子网络得到准确率 R,计算 p 的梯度并且乘以 R 用于更新控制器。...经过多次迭代后,控制器将了解哪些配置能够构成搜索空间内的最佳神经网络。不幸的是,在搜索空间中找出最优架构所需的迭代次数非常大,因此该过程十分缓慢。...减少训练和评估神经网络的计算成本将对 NAS 的总搜索时间产生很大的影响。 这就引出了一个问题:如何在不对 NAS 算法产生负面影响的情况下,降低训练和评估神经网络的计算成本?...此架构设计中隐含的假设是,可以通过迭代地堆叠结构良好的构建块,来创建高性能的更大型网络,这种做法完全适合 NAS。在 NAS 的语境下,这意味着先训练和评估小模型,然后扩展该神经网络

56010

用AI取代SGD?无需训练ResNet-50,AI秒级预测全部2400万个参数,准确率60% | NeurIPS 2021

项目地址:https://github.com/facebookresearch/ppuda 1 模型详解 考虑在大型标注数据集(ImageNet)训练深度神经网络的问题, 这个问题可以形式化为对给定的神经网络...损失函数通常通过迭代优化算法(SGD和Adam)来最小化,这些算法收敛于架构 a 的性能参数w_p。 尽管在提高训练速度和收敛性方面取得了进展,但w_p的获取仍然是大规模机器学习管道中的一个瓶颈。...随着网络规模的不断增长,以及重复训练网络的必要性(超参数或架构搜索)的存在,获得 w_p 的过程在计算上变得不可持续。...因此,研究人员遵循元学习中常见的双层优化范式,即不需要迭代 M 个任务,而是在单个任务(比如图像分类)迭代 M 个训练架构。 图 0:GHN原始架构概览。...与迭代优化方法相比,GHN-2 预测参数的准确率分别与 CIFAR-10 和 ImageNet SGD 的 ∼2500 次和 ∼5000 次迭代相近。

27220

何在统一架构的同时高效处理各种稀疏度人工神经网络矩阵?清华大学Sticker给你答案

团队遵循「非规则化稀疏-规则化稀疏-稀疏量化协同」的技术路线,自 2018 年相继发布了 Sticker-I、Sticker-T 等芯片,在芯片推理和片训练操作的能效实现了极大突破。...其中,Sticker-I 神经网络加速器芯片针对神经网络中稀疏度分布范围广 (4%-90%)、不同稀疏度矩阵运算对计算和存储电路要求不同的问题,用统一的芯片架构高效支持了不同稀疏度的神经网络运算。...STICKER-I 神经网络加速器硬件架构 Sticker-T 的通用架构可以同时高效支持包括 CNN,RNN 和 FC 在内的主流网络结构,满足了不同应用场景的需求,入选了 2019 年初在美国旧金山举办的...进一步,该团队针对具有规则化稀疏特点的神经网络,利用算法-架构-电路的联合优化,提出了基于组循环变换域的通用神经网络计算芯片 STICKER-T。.../VLSI/JSSC ,受到了学术界和产业界的广泛关注。

46930

2019最新实战!给程序员的7节深度学习必修课,最好还会Python!

整理 | 琥珀 出品 | AI科技大本营 从 2017 年开始,fast.ai 创始人、数据科学家 Jeremy Howard 以每年一迭代的方式更新“针对编程者的深度学习课程”(Practical Deep...我们还将讨论如何在训练神经网络时设置最重要的超参数:学习率(这主要基于 Leslie Smith 的 learning rate finder)。...基本步骤如下: (首选)创建(或下载预训练的)语言模型,该模型在大型语料库(维基百科)训练。(“语言模型”指的是学习预测句子下一个单词的任意一种模型。)...在课程中期,我们主要研究了如何在每个关键应用领域中构建和解释模型,包括:计算机视觉、NLP、表格数据、协同过滤等。...一个循环神经网络 最后,我们还将学到如何从头开始创建递归神经网络(RNN)。实际,RNN 不仅是整套课程中 NLP 应用的基础模型,还被证明是规则的多层神经网络的一个简单重构。

1.1K40

清华计图首创三角网格面片的卷积神经网络、图像的网络架构可以做三维模型的深度学习了!

近日,清华大学计图(Jittor)团队提出了一种针对三角网格的卷积神经网络,在两个网格分类数据集上首次取得100%正确率,在其他多个几何学习任务中,性能显著超过现有方法。...尤为重要的是,这种基于细分表示的网格卷积神经网络的提出,使得VGG、ResNet和DeepLabV3+等二维图像的骨干网络模型可以方便地应用到三维模型的学习,从而突破了二维图像和三维模型在深度学习的壁垒...该方法首先将输入网格进行重网格化(remesh),构造细分结构,得到一般网格的多分辨率表示,并提出了直观灵活的面片卷积方法、/下采样方法,并将成熟的图像网络架构迁移到三维几何学习中。...图4 细分曲面的示意图 由于卷积和上下采样规则且灵活,Jittor团队实现了VGG、ResNet和DeepLabV3+等网络架构,在三维网格模型的实验中取得了显著的效果。...表1 在SHREC11数据集的分类精度 表2 在CubeEngraving数据集的分类精度 该方法还把 ModelNet40 中的模型修复为紧致流形,贡献了新的数据集Manifold40 。

1.2K30

AutoML大提速,谷歌开源自动化寻找最优ML模型新平台Model Search

该平台基于 TensorFlow 构建,非常灵活,既可以找出最适合给定数据集和问题的架构,也能够最小化编程时间和计算资源。 ? 神经网络的成功通常取决于在多种任务的泛化性能。...该平台基于 TensorFlow 框架构建,既可以单机运行,也可以在分布式机器设置运行。 ?...该系统使用一组预定义的块来构建神经网络模型,其中每个块代表了一种已知的微架构 LSTM、ResNet 或 Transformer 层。...各种神经网络架构块都能运行良好, ResNet 块。 此外,由于 Model Search 框架基于 TensorFlow 构建,因而各个块可以实现任意以张量作为输入的函数。...Model Search 经过给定迭代次数后得到的模型准确率与之前的关键词检测生产模型性能对比。 谷歌研究者还使用 Model Search,在 CIFAR-10 图像数据集寻找适合的图像分类架构

34320

AutoML又一利器来了,谷歌宣布开源AdaNet(附教程)

现在,AdaNet就是这样一个工具,可以自动搜索神经网络架构,并学会将最好的架构组合成一个高质量的模型。...AdaNet易于使用,并能创建高质量的模型,为ML实践者节省了用于选择最佳神经网络架构的时间,实现了一种将学习神经架构作为子网络集合的自适应算法。...AdaNet自适应地产生了神经网络的集成。在每次迭代中,它测量每个候选对象的集成损失,并选择最佳的一个,然后进入下一次迭代。...学习保证 构建神经网络集合面临这么几个挑战:要考虑的最佳子网架构是什么?再此使用相同的架构或鼓励多样性是不是最佳选择?...在大多数情况下,AdaNet的性能优于独立训练的任何单个子网络(这些子网络可能使用非常复杂的架构NASNet-A)。

1K50

深度 | 清华大学博士生涂锋斌:设计神经网络硬件架构时,我们在思考些什么?(

为了获得更高的能效,我们需要设计一种专用的神经网络计算芯片来满足要求。国际IT巨头,英特尔、谷歌、IBM,都在竞相研发神经网络计算芯片。...架构设计 针对计算模式的需求,如何设计高性能、高能效的神经网络计算架构?可重构神经网络计算架构 DNA(Deep Neural Architecture)具有哪些特点?...架构模型 在讲完研究对象之后,我们还要再讲一下架构模型。 ? 如图所示,这是我们归纳出来的一个神经网络的硬件架构模型,它主要由片和片外两部分构成。...),那我们总共需要 16 次迭代,我们可以认为一次迭代代表一次时钟周期,那么 PE 的利用率只有 56.25%。...这样的一种方式将原来的计算的 16 次迭代就缩短为 9 次迭代,PE 利用率接近 100%。 另外值得一提的是,这些不同的 Map 所需要的数据仍然是共享形式,这一点之后我们会提到。 ?

1.6K60

模型剪枝,不可忽视的推断效率提升方法

NIPS 15] 神经网络通常如上图左所示:下层中的每个神经元与一层有连接,但这意味着我们必须进行大量浮点相乘操作。...速度更快/规模更小的网络对于在移动设备运行它们非常重要。...因此,在实践中,剪枝是一个迭代的过程,这通常叫做「迭代式剪枝」(Iterative Pruning):修剪-训练-重复(Prune / Train / Repeat)。...我们来看一个例子,使用简单的图像分类神经网络架构在 MNIST 数据集执行任务,并对该网络进行剪枝操作。 下图展示了神经网络架构: ? 参考代码中使用的模型架构。 ? 稀疏度 vs. 准确率。...本文展示了如何在小型数据集使用非常简单的神经网络架构获取不错的结果。我认为深度学习在实践中用来解决的许多问题与之类似,因此这些问题也可以从剪枝方法中获益。

44710

精选 25 个 RNN 问题

涉及序列的任务,自然语言处理、语音识别和时间序列分析,非常适合 RNN。与其他神经网络不同,RNN 具有内部存储器,允许它们保留来自先前输入的信息,并根据整个序列的上下文做出预测或决策。...如何在 RNN 中解决这些问题?...通过在大型数据集或包含大量数据的作业预训练 RNN,网络可以学习对其他相关任务有用的一般特征或表示。人们可以在较小的数据集或特定任务微调预训练的网络,以适应新作业的学习表示。...预训练是指在大型数据集或其他任务训练 RNN,然后在目标任务对其进行微调。预训练允许 RNN 学习一般表示或从数据中提取有价值的特征。这些预先训练的表示形式捕获了底层模式,对下游任务很有帮助。...迭代改进:对用户数据进行迭代改进,对 RNN 模型进行迭代改进。这可能涉及使用新数据重新训练模型或结合用户反馈以提高其在生产中的准确性和有用性。 RNN 有哪些少数案例?

12710
领券