首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    神经网络架构搜索——可微分搜索(Cyclic-DARTS)​

    近来,可微分架构搜索因其高效率、高性能的竞争优势引起了人们的极大关注。它在浅层网络中搜索最优架构,然后在深层评价网络中测量其性能。这导致架构搜索的优化与目标评价网络无关,发现的架构是次优的。为了解决这个问题,本文提出了一种新型的循环可微分架构搜索框架(CDARTS)。考虑到结构差异,CDARTS 在搜索网络和评价网络之间建立了循环反馈机制。首先,搜索网络生成一个初始拓扑进行评估,这样可以优化评价网络的权重。其次,搜索网络中的架构拓扑通过分类中的标签监督,以及来自评价网络的正则化通过特征提炼进一步优化。重复上述循环,搜索网络和评价网络共同优化,从而实现拓扑结构的进化,以适应最终的评价网络。在CIFAR、ImageNet 和 NAS-Bench-201 上的实验和分析证明了所提出的方法的有效性。

    02

    DARTS-:增加辅助跳连,走出搜索性能崩溃

    尽管可微分架构搜索(DARTS)发展迅速,但它长期存在性能不稳定的问题,这极大地限制了它的应用。现有的鲁棒性方法是从由此产生的恶化行为中获取线索,而不是找出其原因。各种指标如海森特征值等被提出来作为性能崩溃前停止搜索的信号。然而,如果阈值设置不当,这些基于指标的方法往往很容易拒绝好的架构,更何况搜索是内在的噪声。在本文中,进行了一种更细微更直接的方法来解决塌陷问题。本文首先证明了跳连与其他候选操作相比具有明显的优势,它可以很容易地从劣势状态中恢复过来并成为主导。因此,本文提出用辅助跳过连接来剔除这种优势,确保所有操作的竞争更加公平,在各种数据集上的大量实验验证了它可以大幅提高鲁棒性。

    02

    神经网络架构搜索——可微分搜索(DARTS)

    神经网络架构搜索之前主流的方法主要包括:强化学习,进化学习。他们的搜索空间都是不可微的,Differentiable Architecture Search 这篇文章提出了一种可微的方法,可以用梯度下降来解决架构搜索的问题,所以在搜索效率上比之前不可微的方法快几个数量级。可以这样通俗的理解:之前不可微的方法,相当于是你定义了一个搜索空间(比如3x3和5x5的卷积核),然后神经网络的每一层你可以从搜索空间中选一种构成一个神经网络,跑一下这个神经网络的训练结果,然后不断测试其他的神经网络组合。这种方法,本质上是从很多的组合当中尽快的搜索到效果很好的一种,但是这个过程是黑盒,需要有大量的验证过程,所以会很耗时。而这篇文章把架构搜索融合到模型当中一起训练。

    02

    万字解读商汤科技ICLR2019论文:随机神经网络结构搜索

    本文作者对NAS任务中强化学习的效率进行了深入思考,从理论上给出了NAS中强化学习收敛慢的原因。该论文提出了一种全新的经济、高效且自动化程度高的神经网络结构搜索(NAS)方法。他们通过深入分析NAS任务的MDP,提出了一个更高效的方法——随机神经网络结构搜索,重新建模了NAS问题。与基于强化学习的方法(ENAS)相比,SNAS的搜索优化可微分,搜索效率更高。与其他可微分的方法(DARTS)相比,SNAS直接优化NAS任务的目标函数,搜索结果偏差更小。此外,基于SNAS保持了随机性(stochasticity)的优势,该论文进一步提出同时优化网络损失函数的期望和网络正向时延的期望,自动生成硬件友好的稀疏网络。

    05

    神经网络架构搜索——可微分搜索(Latency-DARTS)​

    可微分的神经架构搜索方法在自动机器学习中盛行,主要是由于其搜索成本低,设计搜索空间灵活。然而,这些方法在优化网络方面存在困难,因此搜索到的网络往往对硬件不友好。本文针对这一问题,在优化中加入可微分的时延损失项,使搜索过程可以在精度和时延之间进行平衡系数的权衡。延迟预测模块(LPM)是对每个网络架构进行编码,并将其输入到一个多层回归器中,通过随机抽样收集训练数据,并在硬件上对其进行评估。本文在NVIDIA Tesla-P100 GPU上评估了该方法。在100K采样架构(需要几个小时)的情况下,延迟预测模块的相对误差低于10%。嵌入延迟预测模块,搜索方法可以减少20%的延迟,同时保留了精度。本文的方法还能简洁的移植到广泛的硬件平台上,或用于优化其他不可微的因素,如功耗。

    02

    干货 | 一文详解神经网络结构搜索(NAS)

    AI 科技评论按:近年来,深度学习的繁荣,尤其是神经网络的发展,颠覆了传统机器学习特征工程的时代,将人工智能的浪潮推到了历史最高点。然而,尽管各种神经网络模型层出不穷,但往往模型性能越高,对超参数的要求也越来越严格,稍有不同就无法复现论文的结果。而网络结构作为一种特殊的超参数,在深度学习整个环节中扮演着举足轻重的角色。在图像分类任务上大放异彩的ResNet、在机器翻译任务上称霸的Transformer等网络结构无一不来自专家的精心设计。这些精细的网络结构的背后是深刻的理论研究和大量广泛的实验,这无疑给人们带来了新的挑战。

    03

    推荐系统中的Auto Embedding Size算法

    推荐系统的输入特征具有稀疏性、分布差异大的特性,这两个特性决定了AES工作的意义。其中“稀疏性”理解为特征id经过hash化后,往往只占据完整hash表的一部分。比如文章的category,一般是百级别到千级别的,为了避免冲突,我们一般设定hash表的大小是category数量的数倍,这样就会存在着大量没有使用到的表元素。进一步的,对hash表中的元素建立embedding table,也会存在着大量embedding没有被使用。因此,embedding占据了推荐模型中的大部分参数量。而“分布差异大”则表现为,不同field的特征数量往往差别很大,比如对于“性别”只有3个值,而user ID的量级可能是数以亿计。因此,不同的features所携带的信息也是各异的。特别的,对于一些低频的特征,不仅应该设定更小的embedding size,甚至还可能要将其过滤掉以避免出现过拟合;而对于一些高频的特征,不仅本身携带较大的信息量,和其他特征也会有更大的“共现”机会(“共现”的特性可以用来建模交叉特征,这里不做展开讲),因此应该设定更大的embedding size。

    01
    领券