首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销

原标题:OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销 雷锋网 AI 科技评论按:OpenAI 的研究人员们近日发布了一个高度优化的 GPU 计算内核,它可以支持一种几乎没被人们探索过的神经网络架构...:带有稀疏块权重的网络。...密集连接的层(左侧)可以用稀疏的、更宽的层(中间)或者稀疏的、更深的层(右侧)替代,而计算时间几乎不变 稀疏权重矩阵与密集权重矩阵有明显的不同,就是其中的很多值都是零。...由于这个内核在计算时会直接跳过值为 0 的块,所以消耗的计算资源就只和非零的权重的数目成正比,而不是像以往一样和输出/输出特征的数目成正比。存储这些参数的开销同样和非零的权重的数目成正比。...那么更广泛地说,带有很大的权重矩阵的模型如果用了稀疏层,就可以保持与更小的模型一样的参数数目和计算开销。相信一定有一些领域能让这种方法发挥很大的作用。

77980

OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销

稀疏权重矩阵与密集权重矩阵有明显的不同,就是其中的很多值都是零。稀疏权重矩阵是许多模型所向往的基础部件,因为有稀疏的块参与的矩阵乘法和卷积操作的计算成本只是和块中非零数字的数目成比例而已。...这个计算内核可以让全连接和卷积层高效地利用稀疏块权重。对于卷积层来说,这个内核的输入和输出特征维度都可以是稀疏的;而空间维度中的连接性不受到任何影响。...由于这个内核在计算时会直接跳过值为 0 的块,所以消耗的计算资源就只和非零的权重的数目成正比,而不是像以往一样和输出/输出特征的数目成正比。存储这些参数的开销同样和非零的权重的数目成正比。...OpenAI 的研究人员们训练了参数数目差不多的稀疏块权重网络和密集权重矩阵网络,对比它们的表现。稀疏模型在所有的情感数据集上都取得了更好的表现。...那么更广泛地说,带有很大的权重矩阵的模型如果用了稀疏层,就可以保持与更小的模型一样的参数数目和计算开销。相信一定有一些领域能让这种方法发挥很大的作用。

52050
您找到你想要的搜索结果了吗?
是的
没有找到

OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销

密集连接的层(左侧)可以用稀疏的、更宽的层(中间)或者稀疏的、更深的层(右侧)替代,而计算时间几乎不变 稀疏权重矩阵与密集权重矩阵有明显的不同,就是其中的很多值都是零。...稀疏权重矩阵是许多模型所向往的基础部件,因为有稀疏的块参与的矩阵乘法和卷积操作的计算成本只是和块中非零数字的数目成比例而已。...由于这个内核在计算时会直接跳过值为 0 的块,所以消耗的计算资源就只和非零的权重的数目成正比,而不是像以往一样和输出/输出特征的数目成正比。存储这些参数的开销同样和非零的权重的数目成正比。...基于生成式密集和稀疏模型提取的特征训练的线性模型的情感分类结果。这里的密集和稀疏模型有几乎相等的参数数目。...那么更广泛地说,带有很大的权重矩阵的模型如果用了稀疏层,就可以保持与更小的模型一样的参数数目和计算开销。相信一定有一些领域能让这种方法发挥很大的作用。

69200

学界 | OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销

密集连接的层(左侧)可以用稀疏的、更宽的层(中间)或者稀疏的、更深的层(右侧)替代,而计算时间几乎不变 稀疏权重矩阵与密集权重矩阵有明显的不同,就是其中的很多值都是零。...稀疏权重矩阵是许多模型所向往的基础部件,因为有稀疏的块参与的矩阵乘法和卷积操作的计算成本只是和块中非零数字的数目成比例而已。...由于这个内核在计算时会直接跳过值为 0 的块,所以消耗的计算资源就只和非零的权重的数目成正比,而不是像以往一样和输出/输出特征的数目成正比。存储这些参数的开销同样和非零的权重的数目成正比。 ?...基于生成式密集和稀疏模型提取的特征训练的线性模型的情感分类结果。这里的密集和稀疏模型有几乎相等的参数数目。...那么更广泛地说,带有很大的权重矩阵的模型如果用了稀疏层,就可以保持与更小的模型一样的参数数目和计算开销。相信一定有一些领域能让这种方法发挥很大的作用。

1.2K60

空洞卷积(AtrousDilated Convolution)

标准卷积可以看做空洞卷积rate=1(Note:rate=2表示中间空洞间隙为1)的特殊形式 中间的空洞间隙,计算感受野的时候,也属于感受野的有效范围。...空洞卷积可以在不需要引入额外参数的前提下,任意扩大感受野。 一方面感受野大了可以检测分割大目标,另一方面分辨率高了可以精确定位目标。因此空洞卷积主要应用于检测、分割。...当设置不同dilation rate时,感受野就会不一样,也即获取了多尺度信息(常考deeplabv2的ASPP)。而多尺度信息在视觉任务中相当重要。...远距离获取的信息没有相关性:由于空洞卷积稀疏的采样输入信号,使得远距离卷积得到的信息之间没有相关性,影响分类结果。...改进方法: HDC: 不同于采用相同的空洞率的deeplab方案,该方案将一定数量的layer形成一个组,然后每个组使用连续增加的空洞率,其他组重复。

1.1K20

【Linux 内核 内存管理】物理内存组织结构 ② ( 内存模型 | 平坦内存 | 稀疏内存 | 非连续内存 | 内存管理系统三级结构 | 节点 Node | 区域 Zone | 页 Page )

物理分布 " , 有如下 3 种内存模型 , Linux 内核针对这 3 种内存模型进行不同的处理 ; ① 平坦内存 : Flat Memory , 物理地址空间 是 连续的 , 没有 " 内存空洞..." ; ② 稀疏内存 : Space Memory , 物理地址空间 是 非连续 的 , 有 " 内存空洞 " , 该内存模型 支持 内存条的 " 热插拔 " 操作 ; ③ 非连续内存 : Discontiguous...Memory , 物理地址空间 是 非连续 的 , 有 " 内存空洞 " ; 内存热插拔支持 : 只有 " 稀疏内存模型 " 支持 内存条 的 热插拔 操作 ; 内存空洞 : 系统的 2 个物理内存...之间 , 存在 内存空洞 ; 1 个物理内存 内部也可能存在 内存空洞 ; 二、内存管理系统三级结构 ---- 内存管理系统 3 级结构 : ① 节点 Node , ② 区域 Zone , ③

2.7K30

深度剖析 Linux cp 的秘密

这种不能利用的空间我们称之为碎片,准确的说是外部碎片,这种碎片在内存池分配内存的时候最常见,产生的原理是一样的。 怎么改进?有人会想,既然整个放不进去,那就剁碎了呗。...对于稀疏文件空洞的地方,不占用物理空间,但要保证读的时候返回全 0 数据的语义,即可。 又一个知识点:有时候稀疏文件的空洞和用户真正的全 0 数据是无法区分的,因为对外表现是一样的。...说到现在,这个问题就很清晰了,这个 100G 的文件是个稀疏文件,盲猜一手:cp 的时候只拷贝了有效数据,空洞是直接跳过的。 往前看 stat 命令和 ls 命令显示的差距就知道了。...spare 三大策略 auto 策略 默认的情况下,cp 会检查源文件是否具有稀疏语义,对于不占物理空间的位置,目标文件不会写入数据,从而形成空洞。...0 数据是无法区分的,因为对外表现是一样的(这点非常重要); cp 命令通过调用 ioctl(fiemap)系统调用,可以获取到文件空洞的分布情况,cp 过程中跳过这些空洞,极大的提高了效率(100G

8.6K30

JavaScript 中的稀疏数组世界

这些空位,也称为空洞,使数组变得稀疏,因为在其中没有设置明确值的地方有缺口。可以将它想象成一个停车场,在那里你决定将车停在编号为 10 的位置。这意味着在它之前有其他 9 个位置。...将稀疏数组想象成一个分成两个部分的停车场:免费停车和付费停车。免费停车位就像我们数组中的空槽位一样。我们的停车管理员 - map() 函数 - 忽略它们,径直走过它们。...为了耗尽我们的停车场类比:当数组元素被明确设置为 undefined 时,就像是付费停车区的计时但未占用的位置一样。我们的停车管理员(再次是 map() 函数)经过并做了记录。...== undefined);console.log(filteredNewArr) -> [5] ✅好的,但是如果理论上,你只想去除空洞而保留 undefined 呢?...有些有空隙,我们称之为稀疏数组。✔️ 为了找到长度,我们必须计算空隙。✔️ map() 方法会忽略空隙,但它不会删除它们。✔️ 我们可以使用 filter() 方法删除空洞。我们准备好总结了吗?

14930

文件中的空洞

文件同一地址的数据如果被多个进程同时写入时,只有最后一个写入的会生效,前面的那些都会被覆盖,因为文件是系统级别的概念,不像内存一样专属于某个进程。 空洞的产生 下面分平台说明。...从另一个侧面说明读取空洞时,系统是返回了 0 的。 Windows 与类 Unix 系统不同,windows 使用稀疏文件 (sparse) 来表示含有空洞的文件。...不光是概念上有区别,实现上也有差别,例如使用类似 linux 的超出文件末尾写策略,并不能生成一个稀疏文件。...SetFilePointer (lseek) WriteFile (write) SetEndOfFile (n/a) 并且需要在这样做之前声明文件为稀疏文件,系统才会为它生成空洞节省空间: DeviceIoControl...最终结论就是,文件空洞并没有内存空洞那么有用,如果你遇到过它的应用场景,欢迎在评论区拍砖斧正~~ 参考 [1]. lseek函数与文件空洞 [2]. windows稀疏文件

83030

Linux命令(39)——du命令

文件或目录占用磁盘空间的大小与它们自身大小有时候并非完全一致,有可能比较大,原因可能是稀疏文件中存在空洞,内部碎片,间接blocks等。...(2)稀疏文件(sparse file) 稀疏文件就是在文件中留有很多空余空间,称为空洞(hole),留备将来插入数据使用,这些空洞被填充为NULL字符,特点是文件系统并不会为空余空间分配磁盘空间。...使用如下代码创建稀疏文件: #include #include #include #include int...sparse.file", O_RDWR|O_CREAT); lseek(fd, 10240, SEEK_CUR); write(fd, "\0", 1); return 0; } 编译生成后执行,创建稀疏文件...sparse.file,使用ls和du命令分别查看文件大小与占用磁盘空间大小,发现稀疏文件空洞部分并不占用磁盘空间,被文件系统压缩存储。

2.2K10

YOLOv8改进:全网原创首发 | 多尺度空洞注意力(MSDA) | 中科院一区顶刊 DilateFormer 2023.9

本文全网首发独家改进:多尺度空洞注意力(MSDA)采用多头的设计,在不同的头部使用不同的空洞率执行滑动窗口膨胀注意力(SWDA),全网独家首发,创新力度十足,适合科研 1)与C2f结合;2)作为注意力MSDA...使用;1.DilateFormer介绍图片本文提出了一种新颖的多尺度空洞 Transformer,简称DilateFormer,以用于视觉识别任务。...为了克服这些问题,作者提出了一种新的注意力机制——多尺度空洞注意力(MSDA)。MSDA 能够模拟小范围内的局部和稀疏的图像块交互,这些发现源自于对 ViTs 在浅层次上全局注意力中图像块交互的分析。...作者发现在浅层次上,注意力矩阵具有局部性和稀疏性两个关键属性,这表明在浅层次的语义建模中,远离查询块的块大部分无关,因此全局注意力模块中存在大量的冗余。...图片如下图所示,MSDA 模块同样采用多头的设计,将特征图的通道分为 n 个不同的头部,并在不同的头部使用不同的空洞率执行滑动窗口膨胀注意力(SWDA)。

1.2K90

《DeepLab V2》论文阅读

前言 昨天的推文《DeepLab V2》组织方式很不清晰,没有将关键结论以及空洞卷积这种方法的优点讲出来,所以重新组织了一下这篇论文的解读,希望可以带来不一样的体验。...这个和DeepLabV1的处理方式一样,在后处理过程使用全连接CRF精细化分割结果。...Fig.2表示空洞卷积的一维示意图: ?...其中Fig.2(a)表示表示标准卷积在低分辨率图上提取稀疏特征的示意图,底部为输入为3维向量,zeropadding=1,经kenel_size=3,stride=1的卷积后输出为3维。...都是21类,损失函数是CNN的输出(原图1/8大小)特征图和GT(同样下采样到1/8)的交叉熵损失和,每个位置在损失函数中的权重是相等的,并且使用SGD优化算法,后处理过程仍然使用和DeepLab V1一样的全连接

81720

深入理解空洞卷积

导读 空洞卷积在图像分割需要增加感受野同时保持特征图的尺寸的需求中诞生,本文详细介绍了空洞卷积的诞生、原理、计算过程以及存在的两个潜在的问题,帮助大家将空洞卷积这一算法“消化吸收”。...一、空洞卷积的提出 空洞卷积中文名也叫膨胀卷积或者扩张卷积,英文名也叫Atrous Convolution 空洞卷积最初的提出是为了解决图像分割的问题而提出的,常见的图像分割算法通常使用池化层和卷积层来增加感受野...,卷积后的感受野为5 c是dilation rate = 3的空洞卷积,卷积后的感受野为8 可以这么说,普通卷积是空洞卷积的一种特殊情况 另外,空洞卷积可以增大感受野,但是可以不改变图像输出特征图的尺寸...这也是现在绝大部分基于卷积的深层网络都在用小卷积核的原因,常常使用3 x 3的卷积核 一般每一层的卷积核都是用3 x 3 大小的,而每一层只要设置不同dilation rate时,感受野就会不一样,也即获取了多尺度信息...远距离获取的信息没有相关性:由于空洞卷积稀疏的采样输入信号,使得远距离卷积得到的信息之间没有相关性,影响分类结果。

80040

深入探究深度卷积语义分割网络和 Deeplab_V3

这使得中间的3x3卷积在较稀疏的特征向量上运行。此外,在每个卷积后和ReLU非线性之前 使用BN层。...空洞卷积 (空洞或扩张)卷积是带有扩张因子的传统卷积,其中扩张因子扩展了我们滤波器的视野。 例如,考虑一个 3x3 卷积滤波器。当扩张率等于1时,它和标准卷积一样。...其次,它用零填充空白的空间 - 创建稀疏的过滤器。最后,它使用扩张的滤波器执行常规卷积。 ? 各种扩张率的扩张卷积。...然而,因为它的作用类似于稀疏滤波器,所以只有原始的 3x3 单元才能进行计算并产生结果。...我之所以说其“行为”像一个稀疏的滤波器,是因为大多数框架都没有使用稀疏的滤波器来实现扩张卷积的效果(因为内存问题)。

72020

吃透空洞卷积(Dilated Convolutions)

导读 空洞卷积在图像分割需要增加感受野同时保持特征图的尺寸的需求中诞生,本文详细介绍了空洞卷积的诞生、原理、计算过程以及存在的两个潜在的问题,帮助大家将空洞卷积这一算法“消化吸收”。...一、空洞卷积的提出 空洞卷积中文名也叫膨胀卷积或者扩张卷积,英文名也叫Atrous Convolution 空洞卷积最初的提出是为了解决图像分割的问题而提出的,常见的图像分割算法通常使用池化层和卷积层来增加感受野...,卷积后的感受野为5 c是dilation rate = 3的空洞卷积,卷积后的感受野为8 可以这么说,普通卷积是空洞卷积的一种特殊情况 另外,空洞卷积可以增大感受野,但是可以不改变图像输出特征图的尺寸...这也是现在绝大部分基于卷积的深层网络都在用小卷积核的原因,常常使用3 x 3的卷积核 一般每一层的卷积核都是用3 x 3 大小的,而每一层只要设置不同dilation rate时,感受野就会不一样,也即获取了多尺度信息...远距离获取的信息没有相关性:由于空洞卷积稀疏的采样输入信号,使得远距离卷积得到的信息之间没有相关性,影响分类结果。

2K20

深度 | 语义分割网络DeepLab-v3的架构设计思想和TensorFlow实现

正如《Identity Mappings in Deep Residual Networks》中所展示的一样。完全预激活单元要优于其他的变体。...然后,它用零填充空白空间,创建稀疏的类似滤波器。最后,使用扩张的滤波器进行常规卷积。 ? 不同扩张率的空洞卷积 因此,大小为 3x3、扩张率为 2 的卷积将使其能够覆盖 5x5 的区域。...然而,因为它的作用就像一个稀疏的过滤器,只有原始的 3 x3 单元将执行计算并生成结果。 以类似的方式,扩张因子为 3 的常规 3×3 的卷积能够得到对应的 7×7 区域的信号。...当扩张率非常接近特征图的尺寸时,一个常规的 3×3 的空洞滤波器的效果与标准的 1×1 卷积是一样的。 换句话说,空洞卷积的效率依赖于对扩张率的选择。...和预期的一样,步长等于 8 能够产生稍微好一些的结果。在这里,出于实际原因,我们选择了 16 为输出步长。 此外,由于空洞卷积块没有实现降采样,所以 ASPP 也运行在相同的特征响应大小上。

79250

轻量级网络综述 — 主干网络篇

为了达到高性能以及高准确率,关键是在不通过稠密卷积以及过多分组的情况下,获得输入输出一样的大维度卷积。...在每个unit的开头,将特征图分为$c-c^{'}$以及$c^{'}$两部分,一个分支直接往后传递,另一个分支包含3个输入输出维度一样的卷积。...ESPNet系列 ***   ESPNet系列的核心在于空洞卷积金字塔,每层具有不同的dilation rate,在参数量不增加的情况下,能够融合多尺度特征,相对于深度可分离卷积,深度可分离空洞卷积金字塔性价比更高...首先将point-wise卷积替换为分组point-wise卷积,然后将计算量较大的空洞卷积替换为深度可分离空洞卷积,最后依然使用HFF来消除网格纹路,输出特征增加一次特征提取,得到图b的结构。...IGCV3使用低秩稀疏卷积核(bottleneck模块)来扩展和输入分组特征的维度以及降低输出的维度,中间使用深度卷积提取特征,另外引入松弛互补性原则,类似于IGCV2的严格互补性原则,用来应对分组卷积输入输出维度不一样的情况

1.1K20
领券