专栏首页arxiv.org翻译专栏Nimble:高效编译动态神经网络以进行模型推理(CS PL)
原创

Nimble:高效编译动态神经网络以进行模型推理(CS PL)

现代深度神经网络越来越多地利用动态控制流、数据结构和动态张量形状等特征。现有的深度学习系统专注于优化和执行静态神经网络,它假设了一个预先确定的模型架构和输入数据形状——这些假设被动态神经网络所违反。因此,用深度学习系统执行动态模型目前既不灵活,也不理想,甚至不能实现。优化动态神经网络比静态神经网络更具挑战性,优化必须考虑所有可能的执行路径和张量形状。本文提出了 Nimble,一个高性能且灵活的系统,用于在多平台上优化、编译和执行动态神经网络。Nimble 通过引入一个动态类型系统、一组面向动态的优化和一个轻量级的虚拟机运行时来处理模型的动态性。我们的评估表明,Nimble 在包括 Intel CPU、ARM CPU 和 Nvidia GPU 在内的硬件平台上,比最先进的动态神经网络深度学习框架和运行时系统的性能高20倍。

原文题目:Nimble: Efficiently Compiling Dynamic Neural Networks for Model Inference

原文:Modern deep neural networks increasingly make use of features such as dynamic control flow, data structures and dynamic tensor shapes. Existing deep learning systems focus on optimizing and executing static neural networks which assume a pre-determined model architecture and input data shapes--assumptions which are violated by dynamic neural networks. Therefore, executing dynamic models with deep learning systems is currently both inflexible and sub-optimal, if not impossible. Optimizing dynamic neural networks is more challenging than static neural networks; optimizations must consider all possible execution paths and tensor shapes. This paper proposes Nimble, a high-performance and flexible system to optimize, compile, and execute dynamic neural networks on multiple platforms. Nimble handles model dynamism by introducing a dynamic type system, a set of dynamism-oriented optimizations, and a light-weight virtual machine runtime. Our evaluation demonstrates that Nimble outperforms state-of-the-art deep learning frameworks and runtime systems for dynamic neural networks by up to 20x on hardware platforms including Intel CPUs, ARM CPUs, and Nvidia GPUs.

原文作者:Haichen Shen, Jared Roesch, Zhi Chen, Wei Chen, Yong Wu, Mu Li, Vin Sharma, Zachary Tatlock, Yida Wang

原文地址:https://arxiv.org/abs/2006.03031

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 创建可微物理引擎Nimble,开源SOTA人体骨骼模型,斯坦福腿疾博士生用AI「助跑」人生

    有一位研究者,他身患残疾,出生时便患有退行性神经疾病,该疾病一直攻击着他的外周运动神经元(进行性神经性腓骨肌萎缩症, 2A 型)。他就是来自斯坦福大学的博士生 ...

    机器之心
  • 自家学生创办机器人公司,李飞飞投资并加入董事会:它解决了可靠性和集成问题

    根据国外科技媒体techcrunch报道,仓储机器人公司Nimble Robotics融资5000万美元。除了大笔融资之外,媒体还披露了两个公司董事会成员,两位...

    AI科技评论
  • 一种介绍DPU架构(自适应交换机)的文章

    以网络为中心的计算可将计算和数据处理从CPU卸载到并分解到CPU,以支持不断增长的吞吐量,大数据量和数据中心的信息复杂性。一个新兴的范例是采用SmartNIC进...

    网络交换FPGA
  • DeepMind论文:深度压缩感知,新框架提升GAN性能

    CS具有灵活性和数据效率高的优点,但由于其稀疏性和昂贵的重建过程,CS的应用受到限制。

    新智元
  • DeepMind论文:深度压缩感知,新框架提升GAN性能(附链接)

    CS具有灵活性和数据效率高的优点,但由于其稀疏性和昂贵的重建过程,CS的应用受到限制。

    数据派THU
  • 统计学学术速递[6.28]

    【1】 Active Learning with Multifidelity Modeling for Efficient Rare Event Simula...

    公众号-arXiv每日学术速递
  • 在PyTorch中使用Seq2Seq构建的神经机器翻译模型

    在这篇文章中,我们将构建一个基于LSTM的Seq2Seq模型,使用编码器-解码器架构进行机器翻译。

    deephub
  • NLP简报(Issue#5):The Annotated GPT-2、CodeBERT、JAX、GANILLA等

    在深度学习中,self-distillation[1]是将知识从一种架构转移到另一种相同架构的过程。在训练时,原始模型的预测作为目标值提供给另一个模型。除具有所...

    NewBeeNLP
  • ACL论文 | 深度学习大神新作,神经网络的自然语言翻译应用

    在 8月7日在德国柏林召开的2016 计算语言学(ACL)大会上,学者Thang Luong、Kyunghyun Cho 和 Christopher D. Ma...

    AI科技评论
  • 人工智能在软件开发领域应用现状

    江湖上一直流传着这样的传闻:“程序员们很快就要失业了,因为人工智能马上就能写出完美的代码了”。人工智能是以软件形式存在的,编写了这些强大软件的码农们,如果被自己...

    yuanyi928
  • 神经网络图的简介(基本概念,DeepWalk以及GraphSage算法)

    近来,图神经网络(GNN)在各个领域广受关注,比如社交网络,知识图谱,推荐系统以及生命科学。GNN在对图节点之间依赖关系进行建模的强大功能使得与图分析相关的研究...

    AI研习社
  • 动态 | 由 AI 芯片到目标检测板,「西安交大」是如何斩获 DAC FPGA 赛道亚军?

    AI 科技评论按:2019 年 6 月 5 日,由电子自动化设计顶级会议 DAC 2019 主办的「低功耗目标检测系统设计挑战赛」于美国拉斯维加斯落下帷幕。西安...

    AI科技评论
  • 端到端基于图像的伪激光雷达3D目标检测

    标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection

    3D视觉工坊
  • 全球首个!7nm世界最大芯片打造AI集群,解锁120万亿「大脑级」AI模型

    相比之下,最大的AI硬件集群大约占人类大脑规模的 1%,约 1 万亿个突触(参数)。

    新智元
  • 重磅综述—从fMRI动态角度窥探认知与神经病理学机制

    人类行为包括许多因其动态特性而突出的方面。为了量化它的神经基础,时间分辨的功能磁共振成像方法在过去十年得到了发展。在这篇综述中,我们概念性地组织了一个广泛的动态...

    悦影科技
  • 斯坦福经典AI课程CS 221官方笔记来了!机器学习模型、贝叶斯网络等重点速查

    斯坦福大学的人工智能课程“CS 221”,这门铁打的课程从2011年开始已经走过了8个年头,流水的讲师换了一批又一批,送走的毕业生一拨又一拨,至今仍然是人工智能...

    zenRRan
  • 史上最快AI计算机发布!谷歌TPU V3的1/5功耗、1/30体积,首台实体机已交付

    这个名为Cerebras Wafer Scale Engine(WSE)的“巨无霸”面积达到42225 平方毫米,拥有1.2 万亿个晶体管,400000 个核心...

    大数据文摘
  • 利用模型剪裁和编译器优化实现移动平台上的深度神经网络实时推断(CS LG)

    高端移动平台迅速成为广泛的深度神经网络(DNN)应用的主要计算设备。然而,这些设备上受限的计算和存储资源仍然给实时 DNN 推理执行带来了巨大的挑战。为了解决这...

    刘持诚
  • 全自动实时移动端AI框架 | YOLO-v4目标检测实时手机端实现

    由美国东北大学王言治教授研究团队与美国威廉玛丽学院任彬教授研究团队共同提出,IBM、清华等共同研究的模式化稀疏度感知训练框架,不仅能够同时实现卷积核稀疏模式的全...

    计算机视觉研究院

扫码关注云+社区

领取腾讯云代金券