专栏首页ATYUN订阅号MIT研究:在不影响准确度的情况下将神经网络缩小10倍

MIT研究:在不影响准确度的情况下将神经网络缩小10倍

编译 | 董灵灵

发布 | ATYUN订阅号

深度神经网络是一种通用类型的AI架构,能够执行从自然语言处理到计算机视觉的任务,但这并不意味着它们没有限制。

深度神经网络通常非常庞大并且需要相应的大型语料库,即使是最昂贵的专用硬件,对它们进行训练也可能需要数天时间。

麻省理工学院计算机科学与人工智能实验室(CSAIL)发表了一项新研究,“The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks”,论文中解释道,深度神经网络包含的子网比整个网络小10倍,但经过训练,它们能够做出同样精确的预测,在某些情况下比原始网络更快。

这项研究计划在新奥尔良举行的国际学习代表大会(ICLR)上发表,在大约1600份提交的论文中,它被列为会议的前两名论文之一。

如果初始网络没有那么大,为什么不能在一开始就创建一个大小合适的网络呢?通过神经网络,你可以随机初始化这个大型结构,并用大量数据进行训练之后,它就会神奇地起作用。

“这种大型结构就像购买很多彩票,即使只有少量彩票会让你变得富有。但是,我们仍然需要一种技术,在不先看到中奖号码的情况下找到赢家。”

研究人员的方法涉及消除神经元之间不必要的连接,以使其适应低功率设备,这一过程通常称为修剪。他们特别选择了具有最低“权重”的连接,这表明它们是最不重要的。

接下来,他们在没有修剪连接的情况下训练网络并重置权重,在修剪其他连接后,他们确定了在不影响模型预测能力的情况下可以去除多少。

在一系列条件下,在不同网络上重复该过程数万次之后,团队报告说AI模型的规模始终比其完全连接的父网络的大小要小10%到20%。

Michael Carbin表示,“令人惊讶的是,重新设置一个表现良好的网络通常会带来更好的结果,这表明无论我们第一次做什么,都不是最完美的,这些模型还有空间来学习如何自行改进。”

Carbin和Frankle指出,他们只考虑以较小数据集为中心的以视觉为中心的分类任务。未来的研究将探讨为什么某些子网特别擅长学习,以及快速发现这些子网络的方法。

此外,他们认为结果可能对迁移学习有影响,即为一项任务训练的网络可以适应另一项任务。

论文:

arxiv.org/abs/1803.03635

End

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:关注人工智能的

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌研究员Francois Chollet:有良知的AI研究人员不应该在Facebook工作

    AiTechYun 编辑:nanan ? 本周,由于剑桥Analytica公司的丑闻,Facebook受到了很多批评,其中一个令人意想不到的批评来源:谷歌。谷歌...

    AiTechYun
  • 人工智能、物联网和机器学习将挑战传统网络

    网络的下一个阶段将取决于IT学习,以使用现代技术简化操作并帮助人类做出决策。这是思科最新报告的结果,该报告专门提到了机器学习、机器推理和自动化等技术。根据《20...

    AiTechYun
  • 【业界】人工神经网络在这6大领域超过人类!

    五年前,研究人员对能够解释图像的软件的准确性方面有了相当大的飞跃。人工神经网络支撑了我们目前在AI领域看到的“繁荣”。然而,我们仍然没有达到像“终结者”或“黑客...

    AiTechYun
  • Python黑科技:WiFi破解,你家的WiFi又被蹭了吗?

    虽然可以重置一下啊,但是咋们不是有Python吗?昨天给大家讲了一下Python破解加密文件的方法,今天就给大家介绍一下Python破解WiFi密码的方法,其实...

    python学习教程
  • 神经网络的优点和缺点

    在本文中我们将探讨如今深度学习如此受欢迎的原因。在读完本文后,你将了解神经网络的主要优缺点,并且当你为解决机器学习问题选择合适类型的算法时,你将做到心中有数。你...

    CDA数据分析师
  • 史上最好记的神经网络结构速记表(下)

    翻译 / 唐青 校对 / 李宇琛 整理 / 雷锋字幕组 本文提供了神经网络结构速查表,全面盘点神经网络的大量框架,并绘制直观示意图进行说明,是人手必备的神经网络...

    AI研习社
  • caffe详解之全连接层

    全连接层,输出的是一个一维向量,参数跟卷积层一样。一般将全连接置于卷积神经网络的后几层。权重值的初始化采用xavier,偏置初始化为0.

    AI异构
  • 张高兴的 Xamarin.Android 学习笔记:(一)环境配置

    张高兴
  • 【AAAI Oral】阿里提出新神经网络算法,压缩掉最后一个比特

    【新智元导读】在利用深度网络解决问题的时候人们常常倾向于设计更为复杂的网络收集更多的数据以期获得更高的性能。但是,随之而来的是模型的复杂度急剧提升,参数越来越多...

    新智元
  • SpringMVC知识点梳理—够你面试掰活的(超详细)

    Spring MVC是一个基于Java的实现了MVC设计模式的请求驱动类型的轻量级Web框架,通过把Model,View,Controller分离,将web层进...

    本人秃顶程序员

扫码关注云+社区

领取腾讯云代金券