2018年嵌入式处理器报告:神经网络加速器的崛起

人工智能和机器学习应用程序代表了嵌入式处理器的下一个重大市场机遇。然而,传统的处理解决方案并不是为了计算神经网络的工作负载,这些工作负载为许多应用程序提供了动力,因此需要新的架构来满足我们对智能日益增长的需求。

随着数十亿联网传感器节点被部署到物联网领域,有一件事已经变得清晰起来:自动化无处不在。考虑到物联网系统的本质,其中许多具有严重的经济、生产力和安全影响,这一需求超越了简单规则引擎或编程阈值的使用。作为回应,行业转向了人工智能和机器学习。

如今的人工智能和机器学习应用程序依赖于人工神经网络。人工神经网络是一种算法,通过将其定义特征组织成一系列结构层来分析数据集的不同方面。这些网络最初是建立在高性能计算平台上的,这些平台教算法根据特定的参数做出决策或预测。然后,该算法可以进行优化,并将其移植到一个嵌入式目标中,在此基础上,根据该字段中接收到的输入数据进行推断。

使用不同的嵌入式处理解决方案来执行基于应用程序的神经网络算法,为人工智能和机器学习开发人员提供了多种选择。但是,正如著名研究机构The Linley Group的高级分析师麦克·戴姆勒所指出的那样,每一种处理器都在性能和成本方面有所权衡。

戴姆勒说:“没有一种嵌入式的人工智能处理器。神经网络引擎可能会使用CPU, DSP, GPU或专门的深度学习加速器,或者是它们的一种组合。”

“这一趋势无疑是向CPU, GPU和DSP添加加速器。原因是它们比其他的通用核心(core)有更大的面积和效率。像Caffe和TensorFlow这样的开放深度学习框架增加了使用标准,以及像GoogleNet和ResNet这样的开放源码网络,IP供应商更容易设计出具有专门用于运行各种神经网络层的硬件。这就是为什么很多加速器都在不断地添加越来越大的乘积累加器阵列,因为在神经网络中,大多数的计算都是乘积累加计算(MAC)。”

人工智能工作负载的新兴架构 IP供应商针对神经网络工作负载的一个主要关注点是“灵活性”,因为在不断发展地人工智能市场中,需求正在迅速变化。在CEVA最近发布的NeuPro AI处理器架构中可以找到这样的例子,它由一个完全可编程的向量排列单元(VPU)和专门的用于矩阵乘法和计算激活(activation)、池化(pooling)、卷积(convolutional)和完全连接的神经网络层(图1)的特殊引擎组成。

图1:CEVA的NeuPro架构支持高达4000 8×8的MAC,超过了90%的MAC利用率。

处理神经网络工作负载的一个常见挑战是需要将大数据集转移到内存中。为了克服这一点,NeuPro架构结合直接内存访问(DMA)控制器,从而提高了双倍数据速率(DDR)的带宽利用率。

架构的一个更有趣的特性是能够动态地扩展分辨率以适应各个网络层的精度要求。根据CEVA的成像和计算机视觉产品营销主管丽兰·巴尔的说法,这有助于最大程度地提高神经网络的准确性。

“并不是所有的层都需要同样的精度。事实上,许多商业化的神经网络需要16位的分辨率来保持较高的精确度,但同时,8位的分辨率对于某些层来说已经足够了。NeuPro预先决定了每8位个或16位分辨率的层的精度,以实现完整的灵活性。例如,在使用NP4000产品时,可以在运行时动态选择4000 8×8、2048 16×8或1024 16×16的MAC。”

类似的功能也可以使用Imagination Technologies发布的PowerVR Series2NX,这是一种神经网络加速器(NNA),它的原生支持可以将位深(bit depth)降低到4位。然而,PowerVR Series2NX将动态扩展到极致,在相同的核心支持4、5、6、7、8、10、12和16位的分辨率,从而实现更好的精度(图2)。

图2:PowerVR Series2NX是一种神经网络加速器(NNA),它可以运行现成的网络,如GoogLeNet Inception,每秒钟可以进行500次的推断(inference)。

“我们可以把NNA架构看作是一个张量处理管道。” Imagination Technologies的视觉和人工智能副总裁罗素·詹姆斯说道。“它有一个神经网络计算引擎,优化了对大张量(输入数据和权重)的快速卷积,并由其他单元执行元素和张量操作,如激活、池化和规格化。该体系结构还使用了优化的数据流,使操作可以被分组到传递中,从而最小化外部内存访问。”

PowerVR Series2NX的另一个独特功能是它能够将数据转换为内存中的交换格式,可以由CPU或GPU读取,这使得异构系统在神经网络处理中处于领先地位。Imagination提供了一个网络开发工具包(NDK)来评估核心,它包含了将神经网络映射到NNA的工具,优化网络模型,以及转换在诸如Caffe和TensorFlow等框架中开发的网络。

除了IP供应商之外,主要芯片制造商还在继续利用人工智能的工作负载。NVIDIA Tegra和Xavier SoCs将CPU、GPU和自定义深度学习加速器结合在了自动驾驶系统上,而高通则继续在其六边形DSP中构建机器学习特性。甚至Google也创建了一个TPU。

这些公司都采用不同的方法处理神经网络工作负载,每种架构处理的用例略有不同。但是,对于开发者来说,越多的选择,当然就越好。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-02-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏玉树芝兰

如何用《玉树芝兰》入门数据科学?

链接起散落的文章,给《玉树芝兰》数据科学系列教程做个导读,帮你更为高效入门数据科学。

1681
来自专栏美团技术团队

智能分析最佳实践——指标逻辑树

背景 所有业务都会面对“为什么涨、为什么降、原因是什么?”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因,业务人员会通过使用多维查询、dashbo...

62011
来自专栏机器学习之旅

关于'Deep Neural Networks for YouTube Recommendations'的一些思考和实现

论文 Deep Neural Networks for YouTube Recommendations 来自google的YouTube团队,发表在16年9月的...

682
来自专栏CSDN技术头条

Twitter开源云环境时间序列数据断层检测工具BreakoutDetection

【编者按】区别于传统环境,鉴于云环境中众多不可预测的因素和异常,其时间序列breakout检测并不容易。近日,Twitter开源了一款基于E-Divisive ...

2845
来自专栏人工智能

快速安全追踪(FaSTrack):确保动态系统的安全实时导航

实时自主运动和导航是很难的,特别是当我们关心安全性时。当我们的动力系统复杂,以及外部干扰(如风)和先验条件未知时,这变得更加困难。我们在这项工作中的目标是为了保...

2787
来自专栏量子位

讲道理,我觉得TensorFlow太逊了

原作:Nico Jimenez 安妮 编译自 Nico’s Blog 量子位 出品 | 公众号 QbitAI 本文作者Nico Jimenez。自2015年从斯...

35810
来自专栏AI派

谷歌机器学习43条黄金法则(手册版+PDF)

之前的 谷歌机器学习法则:ML工程的最佳实践 将谷歌公司关于机器学习方面的实践经验详细的介绍了下,很多朋友会问有没有手册版以及PDF版本。这里会将精简后的法则内...

1354
来自专栏ATYUN订阅号

Uber开源Atari,让个人计算机也可以快速进行深度神经进化研究

Uber近期发布了一篇文章,公开了五篇关于深度神经进化的论文,其中包括发现了遗传算法可以解决深层强化学习问题,而一些流行的方法也可替代遗传算法,如深度Q-lea...

1094
来自专栏云加头条

DI-X平台发布:云上的深度学习,助力接入AI快车道

腾讯云推出的DI-X提供了融合了深度学习的框架、算法、模型训练、模型推理和协作的一站式深度学习平台,用以加速中小企业接入人工智能的过程。

1.1K3
来自专栏人工智能头条

4月机器学习热文出炉,这10篇文章你读了吗?

1554

扫码关注云+社区

领取腾讯云代金券