本文分享ICLR 2021论文『Undistillable: Making A Nasty Teacher That CANNOT teach students』,提出一种防止模型被蒸馏窃取的Nasty Teacher,为知识产权的保护提供了一种新思路。
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
深度学习模型,尤其是深度卷积神经网络(DCNN),在多个计算机视觉应用中获得很高的准确率。但是,在移动环境中部署时,高昂的计算成本和巨大的耗电量成为主要瓶颈。而大量使用乘法的卷积层和全连接层正是计算成本的主要贡献者。
今天分享的这篇文章主要解决NAS代理机制下无法搜索到全局最优的问题,改进搜索策略,一定程度上解决资源消耗的问题。其主要是基于DARTs改的,那就先谈谈DARTs的一些问题:
预训练大规模深度神经网络(NN),并针对下游任务进行微调已成为深度学习领域的现状。研究人员面临的一个挑战是如何为给定的下游任务有效地选择最合适的预训练模型,因为这个过程通常需要在模型训练中用于性能预测的昂贵计算成本。
来源:DeepHub IMBA本文约1000字,建议阅读5分钟本文提出了一种针对下游任务的有效神经网络选择的新框架。 预训练大规模深度神经网络(NN),并针对下游任务进行微调已成为深度学习领域的现状。研究人员面临的一个挑战是如何为给定的下游任务有效地选择最合适的预训练模型,因为这个过程通常需要在模型训练中用于性能预测的昂贵计算成本。 在新论文 Neural Capacitance: A New Perspective of Neural Network Selection via Edge Dynamics
摘要:NAS 受限于其过高的计算资源 (GPU 时间, GPU 内存) 需求,仍然无法在大规模任务 (例如 ImageNet) 上直接进行神经网络结构学习。目前一个普遍的做法是在一个小型的 Proxy 任务上进行网络结构的学习,然后再迁移到目标任务上。这样的 Proxy 包括: (i) 训练极少量轮数; (ii) 在较小的网络下学习一个结构单元 (block),然后通过重复堆叠同样的 block 构建一个大的网络; (iii) 在小数据集 (例如 CIFAR) 上进行搜索。然而,这些在 Proxy 上优化的网络结构在目标任务上并不是最优的。在本文中,我们提出了 ProxylessNAS,第一个在没有任何 Proxy 的情况下直接在 ImageNet 量级的大规模数据集上搜索大设计空间的的 NAS 算法,并首次专门为硬件定制 CNN 架构。我们将模型压缩 (减枝,量化) 的思想与 NAS 进行结合,把 NAS 的计算成本 (GPU 时间, GPU 内存) 降低到与常规训练相同规模,同时保留了丰富的搜索空间,并将神经网络结构的硬件性能 (延时,能耗) 也直接纳入到优化目标中。我们在 CIFAR-10 和 ImageNet 的实验验证了」直接搜索」和「为硬件定制」的有效性。在 CIFAR-10 上,我们的模型仅用 5.7M 参数就达到了 2.08% 的测试误差。对比之前的最优模型 AmoebaNet-B,ProxylessNAS 仅用了六分之一的参数量就达到了更好的结果。在 ImageNet 上,ProxylessNAS 比 MobilenetV2 高了 3.1% 的 Top-1 正确率,并且在 GPU 上比 MobilenetV2 快了 20%。在同等的 top-1 准确率下 (74.5% 以上), ProxylessNAS 的手机实测速度是当今业界标准 MobileNetV2 的 1.8 倍。在用 ProxylessNAS 来为不同硬件定制神经网络结构的同时,我们发现各个平台上搜索到的神经网络在结构上有很大不同。这些发现为之后设计高效 CNN 结构提供新的思路。
ResNet是由一个个残差块堆叠而成的,每个残差块的数学表达式为:y=f(x)+x,其中f(x)叫残差,x叫残差连接(residual connection),或者直连通道(shortcut connection)。ResNet相较于VGG更受欢迎的一个关键原因,在于其使用的残差连接,能够将输入特征保留下来,在训练时只需要学习输出特征与输入特征的差值f(x),即残差。
与MobileNet、ShuffleNet等网络的目的类似,EffNet目标也是让模型能够在嵌入式或者移动端硬件设备上高效地运行。
紧接着上篇的MobileNet V1,Google在2018年的CVPR顶会上发表了MobileNetV2,论文全称为《MobileNetV2: Inverted Residuals and Linear Bottlenecks》,原文地址见附录。
当前紧凑的卷积神经网络主要通道深度可分离卷积,扩张通道和复杂的拓扑结构来提高效率,但这也反过来加重了训练过程。此外,在这些模型中3*3卷积核占主要地位,而偶数大小的卷积核(2*2,4*4)很少被采用。
批归一化和激活函数是深度神经网络的重要组成部分,二者的位置常常重合。以往的神经网络设计中通常对二者分别进行设计,而最近谷歌大脑和 DeepMind 研究人员合作提出了一种新方案:将二者统一为一个计算图,从低级原语开始进行结构进化。研究者利用层搜索算法发现了一组全新的归一化-激活层 EvoNorms。这些层中的一部分独立于批统计量(batch statistics)。
基于终端设备的机器学习(On-device machine learning)是实现具有隐私保护功能、能够时刻运转、快速响应的智能的重要组成部分。这就要求我们将基于终端的机器学习部署在算力有限的设备上,从而推动了从算法意义上来说高效的神经网络模型的研究,以及每秒可执行数十亿次数学运算却只需要消耗几毫瓦电力的硬件的发展。最近发布的「Google Pixel 4」就是这一发展趋势的代表。
作者通过对CNN中的基础模块中的结构冗余进行探索,提出了一种高效网络设计方案。作者首先引入了一种广义的复合核结构,它有助于进行更快的卷积操作(通过引入更高效的sum-pooling)。基于此,作者提出了Structured Convolution,并证实将卷积分解为sum-pooling+更小尺寸卷积有助减小计算复杂度与参数量,作者同时还证明了如何将其应用到2D和3D卷积核以及全连接层。更进一步,作者还提出一种结构正则化损害用于促进网络的具有上述性质架构,在完成训练后,网络在几乎不造成性能损失下进行上述分解。
剪枝是深度神经网络 (DNN) 的主要压缩方法之一,从 DNN 模型中删除不太相关的参数以减少其内存占用。为了获得更好的最终精度,通常迭代地执行剪枝,在每一步中删除越来越多的参数,并对剩余的参数应用微调(即额外的训练周期),一直持续到达到目标压缩比。然而,这个过程可能非常耗时。若采取一次性剪枝(在一个步骤中修剪所有参数并进行一次微调)来缓解这个问题,又可能会带来较高的准确性损失。
开发一个卷积神经网络(CNN)的成本通常是固定的。在获得更多资源时,我们通常会按比例进行扩展,以便获得更优的准确性。例如,ResNet可以通过增加层数从ResNet-18扩展到ResNet-200,最近,GPipe 网络通过将基准 CNN 模型扩展四倍,在 ImageNet Top-1 上获得了 84.3% 的准确度。在模型扩展方面的操作通常是任意增加 CNN 的深度或宽度,或者在更大输入图像分辨率上进行训练和评估。虽然这些方法确实提高模型了准确性,但它们通常需要繁琐的手工调整,而且还不一定能找到最优的结构。换言之,我们是否能找到一种扩展设计方法来获得更好的准确性和效率呢?
呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦!
code: https://github.com/yyxiongzju/ANTNets
本文翻译自:《Optimizing AI models for Arm Ethos-U NPUs using the NVIDIA TAO Toolkit》
鸟类识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Django框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
MnasNet的目的很简单就是设计出表现又好,效率又高的网络。在介绍之前简单回顾一下现有的一些提高网络效率的方法:
自从AlexNet问世以来,CNN最先进的架构变得越来越深入。例如,AlexNet只有5层卷积层,很快VGG网络和GoogLeNet分别将其扩展到19层和22层。然而,简单叠加层的深度网络很难训练,因为梯度反向传播到后面比较深的层时梯度可能会消失和爆炸(重复乘法可能会使梯度无穷小或无穷大)。
神经网络准确但不可解释,决策树是可解释的,但在计算机视觉中是不准确的。对于这种问题,我们在本文有一个解决办法。
在许多任务中我们会用可获得的海量数据来训练深度网络,那么在实际训练中我们怎样可以快速确定应该使用哪些数据呢?像主动学习(active learning)和核心集选择(core-set selection)之类的数据选择方法是确定训练数据的强大手段,但是这些方法计算花销大且难以大规模使用。
以下是我最近在伦敦 O’Reilly AI Conference 和 DroidCon 上的两次谈话的改编。
本文分享一篇来自 ECCV'20 Oral 的论文『MutualNet: Adaptive ConvNet via Mutual Learning from Network Width and Resolution』。
随着深度学习在金融、医疗等领域的不断落地,模型的可解释性成了一个非常大的痛点,因为这些领域需要的是预测准确而且可以解释其行为的模型。然而,深度神经网络缺乏可解释性也是出了名的,这就带来了一种矛盾。可解释性人工智能(XAI)试图平衡模型准确率与可解释性之间的矛盾,但 XAI 在说明决策原因时并没有直接解释模型本身。
卷积神经网络(CNNs)在结构上设计用于通过应用卷积核实现的卷积滤波器来利用局部空间层次。尽管这使得它们在涉及局部空间模式的任务上既高效又有效,但其固有的设计限制了它们的感受野,可能会阻碍不在内核边界内的相关信息的全面集成。
深度神经网络在计算机视觉任务中取得了显著的成功。对于输入图片,现有的神经网络主要在空间域中操作,具有固定的输入尺寸。然而在实际应用中,图像通常很大,必须被降采样到神经网络的预定输入尺寸。尽管降采样操作可以减少计算量和所需的通信带宽,但它会无意识地移除冗余和非冗余信息,导致准确性下降。受数字信号处理理论的启发,我们从频率的角度分析了频谱偏差,并提出了一种可学习的频率选择方法,可以在不损失准确性的情况下移除次相关的频率分量。在下游任务中,我们的模型采用与经典神经网络(如ResNet-50、MobileNetV2和Mask R-CNN)相同的结构,但接受频域信息作为输入。实验结果表明,与传统的空间降采样方法相比,基于静态通道选择的频域学习方法可以实现更高的准确性,同时能够减少输入数据的大小。具体而言,在相同的输入尺寸下,所提出的方法在ResNet-50和MobileNetV2上分别实现了1.60%和0.63%的top-1准确率提升。当输入尺寸减半时,所提出的方法仍然将ResNet-50的top-1准确率提高了1.42%。此外,我们观察到在COCO数据集上的分割任务中,Mask R-CNN的平均精度提高了0.8%。
在前面的一篇文章中介绍了轻量级的网络架构mobilenet v1,本次续接第一篇,介绍V1的升级版本,mobilenet v2。
本文提出了一种名为PP-LCNet的轻量级网络,该网络基于MKLDNN加速策略,旨在提高轻量级模型在多种任务上的性能。本文介绍了能够在几乎不增加延迟的情况下提升网络准确度的技术。通过这些改进,PP-LCNet的准确度显著优于具有相同推理时间的先前网络结构。如图1所示,它的性能优于当前大多数前沿模型。在计算机视觉的后续任务(如目标检测、语义分割等)中,它也展现出卓越的性能。所有实验都是基于PaddlePaddle平台实现的。相关的代码和预训练模型可以在PaddleClas上获取。
论文: MnasNet: Platform-Aware Neural Architecture Search for Mobile
目前提高CNN精度的方法,主要是通过任意增加CNN深度或宽度,或使用更大的输入图像分辨率进行训练和评估。
本文提出APQ,以便在资源受限的硬件上进行有效的深度学习推理。与以前分别搜索神经体系结构,修剪策略和量化策略的方法不同,本文以联合方式优化它们。为了应对它带来的更大的设计空间问题,一种有前途的方法是训练量化感知的准确性预测器,以快速获得量化模型的准确性,并将其提供给搜索引擎以选择最佳拟合。但是,训练此量化感知精度预测器需要收集大量量化的<model,precision>对,这涉及量化感知的微调,因此非常耗时。为了解决这一挑战,本文建议将知识从全精度(即fp32)精度预测器转移到量化感知(即int8)精度预测器,这将大大提高采样效率。此外,为fp32精度预测器收集数据集只需要通过从预训练的 once-for-all 网络中采样就可以评估神经网络,而无需任何训练成本。ImageNet 上的大量实验证明了联合优化方法的好处。与MobileNetV2 + HAQ 相比,APQ 以相同的精度将延迟降低2倍,能耗降低1.3倍。与单独的优化方法(ProxylessNAS + AMC + HAQ )相比,APQ可提高ImageNet精度2.3%,同时减少GPU数量级和CO2排放量,从而推动了绿色AI在环保方面的前沿。
是用于普通物体识别的小型数据集,一共包含 10个类别 的 RGB彩色图片(包含:(飞机、汽车、鸟类、猫、鹿、狗、蛙、马、船、卡车)。图片大小均为 3232像素*,数据集中一共有 50000 张训练图片和 1000 张测试图片。部分代码来自于tensorflow官方,以下表格列出了所需的官方代码。
本文介绍了一种用于语义图像分割的轻量级结构LiteSeg。论文探索了一个新的更深层的Atrous Spatial Pyramid Pooling module (ASPP),并应用了长短残差连接以及深度可分离卷积,从而得到了一个更快、更有效的分割模型。LiteSeg体系结构在多个backbone上进行测试,如Darknet19、MobileNet和ShuffleNet,在准确性和计算成本之间提供多重权衡。以MobileNetV2为主干网的LiteSeg模型,在Cityscapes数据集上针对640×360分辨率的图像以每秒161帧的速度,达到了67.81%的mIoU精度。
卷积神经网络(CNN)通常以固定的资源成本开发,然后进行缩放,以便在获得更多资源时得到更好的精度。
【新智元导读】神经结构自动搜索是最近的研究热点。谷歌大脑团队最新提出在一种在移动端自动设计CNN模型的新方法,用更少的算力,更快、更好地实现了神经网络结构的自动搜索。
论文下载:https://arxiv.org/pdf/2003.08736.pdf
准备拿几个caffe官方案例用来练习,就看到了caffe中的官方案例有cifar-10数据集。于是练习了一下,在CPU情况下构建quick模型。主要参考博客:liumaolincycle的博客
近日,来自UC伯克利、NYU等机构研究人员发现,微调后的多模态大模型,会产生灾难性遗忘。
《三体》中罗辑沉睡了两个世纪后,在位于地下一千多米的城市中醒来;《流浪地球》中,行星推进器下500米的地下城。
随着在移动设备上运行深度网络可以提升用户体验,而且允许随时随地可以访问,并且在安全性、隐私和能耗方面相对云端计算具有优势,边缘计算的需求越来越大。
同样精度,速度和计算量均少于此前SOTA算法。这就是华为诺亚方舟实验室提出的新型端侧神经网络架构GhostNet。
领取专属 10元无门槛券
手把手带您无忧上云