如何让手机快速运行AI应用？这有份TVM优化教程

量子位

发布于 2018-03-02 15:52:06

8350

发布于 2018-03-02 15:52:06

文章被收录于专栏：量子位

原作：郑怜悯（上海交大）允中摘录编译量子位出品 | 公众号 QbitAI

在移动设备上部署深度神经网络的需求正在快速增加。

和桌面平台类似，GPU也能在移动平台加速推理速度、降低能耗。但问题是，大多数现有深度学习框架并不能很好的支持移动GPU。

为什么会这样？因为移动GPU和桌面GPU在架构上存在差异。

所以想要利用移动GPU，还得进行专门的优化。这种额外的工作，最终导致的结果就是大多数深度学习框架都对移动GPU的支持不足。

TVM通过引入一个统一的IR堆栈来解决不同硬件平台的部署问题。使用TVM/NNVM可以为ARM Mali GPU生成高效内核，并且进行端到端的编译。

基于Mali-T860 MP4的测试结果表明，与Arm Compute Library相比，上面这个方法在VGG-16上快1.4倍，在MobileNet上快2.2倍。

在郑怜悯发表的这篇文章中，他还从GPU架构、卷积为例的优化等方面进行了更为详细的阐述。我们在这里就不详细复述。

这篇文章的原文地址：http://tvmlang.org/2018/01/16/opt-mali-gpu.html

关于TVM和NNVM，量子位之前也有报道：

关于郑怜悯同学的研究，还有另一个好玩的事情：

不好，两群AI打起来了！

作者系网易新闻·网易号“各有态度”签约作者

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-01-21，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

神经网络

登录后参与评论

0 条评论

热度