深入理解 CPU 和异构计算芯片 GPU/F10PGA/ASIC

王玉伟,腾讯TEG架构平台部平台开发中心基础研发组,组长为专家工程师Austingao,专注于为数据中心提供高效的异构加速云解决方案。目前,FPGA已在腾讯海量图片处理以及检测领域已规模上线。

随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码、图片压缩解压缩以及HTTPS加密等各类应用对计算的需求已远远超出了传统CPU处理器的能力所及。摩尔定律失效的今天,关注“新“成员(GPU\FPGA\ASIC)为数据中心带来的体系架构变革,为业务配上一台动力十足的发动机。

1 异构计算:WHY

明明CPU用的好好的,为什么我们要考虑异构计算芯片呢?

随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码、图片压缩解压缩以及HTTPS加密等各类应用对计算的需求已远远超出了传统CPU处理器的能力所及。

历史上,受益于半导体技术的持续演进,计算机体系结构的吞吐量和系统性能不断提高,处理器的性能每18个月就能翻倍(众所周知的“摩尔定律”),使得处理器的性能可以满足应用软件的需求。但是,近几年半导体技术改进达到了物理极限,电路越来越复杂,每一个设计的开发成本高达数百万美元,数十亿美元才能形成新产品投产能力。2016年3月24日,英特尔宣布正式停用“Tick-Tock”处理器研发模式,未来研发周期将从两年周期向三年期转变。至此,摩尔定律对英特尔几近失效。

一方面处理器性能再无法按照摩尔定律进行增长,另一方面数据增长对计算性能要求超过了按“摩尔定律”增长的速度。处理器本身无法满足高性能计算(HPC:High Performance Compute)应用软件的性能需求,导致需求和性能之间出现了缺口(参见图1)。

一种解决方法是通过硬件加速,采用专用协处理器的异构计算方式来提升处理性能。

图1:计算需求和计算能力的缺口发展形式

2 异构计算:STANDARDS

通常我们在为业务提供解决方案的时候,部署平台会有四种选择 CPU、GPU、FPGA、ASIC。那有什么标准来评判计算平台的优劣呢?

图2:我是法官,标准我说了算

当今理想的协处理器应该是基于硬件的设计,具备三种基本能力。第一是设计能够提供专门的硬件加速实现各种应用中需要的关键处理功能。其次是协处理器设计在性能上非常灵活,使用流水线和并行结构,跟上算法更新以及性能的需求变化。最后,协处理器能够为主处理器和系统存储器提供宽带、低延迟接口。

除了硬件要求以外,理想的协处理器还应该满足 HPC 市场的“4P”要求:性能( performance )、效能( productivity )、功耗( power )和价格( price )。

HPC 市场对性能的最低要求是全面加速实现算法,而不仅仅是某一步骤,并能够加速实现整个应用软件。

效能需求来自最终用户。在现有的计算机系统中,协处理器必须安装起来很方便,提供简单的方法来配置系统,加速实现现有的应用软件。

HPC 市场的功耗需求来自计算系统安装和使用上的功耗限制。对于大部分用户,能够提供给计算机的空间有限。计算系统的功耗越小,那么可以采取更少的散热措施来保持计算机不会过热。因此,低功耗协处理器不但能够为计算系统提供更低的运转成本,而且还提高了计算系统的空间利用率。

价格因素在 HPC 市场上显得越来越重要。十几年前,某些应用软件对性能的需求超出了单个处理器能力范围,这促使人们采用专用体系结构,例如密集并行处理( MPP )和对称多处理( SMP )等。然而,这类系统要求使用定制处理器单元和专用数据通路,开发和编程都非常昂贵。

现在的 HPC 市场抛弃了如此昂贵的方法,而是采用性价比更高的集群计算方法。集群计算采用商用标准体系结构,例如 Intel 和 AMD;采用工业标准互联,例如万兆以太网和 InfiniBand ;采用标准程序语言,例如运行在低成本Linux操作系统上的 C 语言等。当今的协处理器设计必须能够平滑集成到商用集群计算环境中,其成本和在集群中加入另一个节点大致相当。

了解了基本的评判标准之后,我们以当今最火的深度学习为例,从芯片架构、计算性能、功耗、开发难度几个方面来对几种不同的芯片进行分析对比。

3.2 芯片计算性能

深度学习的学名又叫深层神经网络(Deep Neural Networks),是从人工神经网络(Artificial Neural Networks)模型发展而来。我们以深度学习作为切入点来分析各个芯片的性能。图3是神经网络的基本结构,模型中每一层的大量计算是上一层的输出结果和其对应的权重值这两个矩阵的乘法运算。

图3:神经网络基本结构

横向对比CPU,GPU,FPGA,ASIC计算能力,实际对比的是:

1.硬件芯片的乘加计算能力。

2.为什么有这样乘加计算能力?

3.是否可以充分发挥硬件芯片的乘加计算能力?

带着这三个问题,我们进行硬件芯片的计算能力对比。

相关阅读

深入理解CPU和异构计算芯片GPU/FPGA/ASIC (下)

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

2 条评论
登录 后参与评论

相关文章

来自专栏架构之美

机器学习的平台化发展趋势

机器学习在经过近些年的野蛮生长之后,其有效性已经被无数成功应用所验证,在这一点上已经不需要更多证明。

1445
来自专栏企鹅号快讯

腾讯优图为“刷脸”之旅打造新任守护者——“极光守卫”

机器之心原创 作者:高静宜 腾讯优图实验室成功研发光线活体技术,通过闪光模拟实现多重随机信息的编码和解码,使方法建立在密码学的坚实基础之上,是目前已知安全级别最...

1926
来自专栏新智元

功率密度成深度学习设计难题,数据中心市场展现新机遇

【新智元导读】设计计算机系统来执行深度学习算法,以及构建数据中心基础设施来为这些系统供电和冷却,是一个日益凸显的难题。功率密度和互联可能是数据中心系统中深度学习...

3458
来自专栏新智元

福布斯:10项最火的人工智能技术应用

【新智元导读】 人工智能非常热,市场潜力被众多行家看好。但是,你能列出最热的技术是有哪些吗?福布斯的Gil Press带来了他基于Forrester 人工智能人...

34911
来自专栏新智元

提问黄仁勋:5年内GPU定会赢过TPU,中国计算机产业已居世界一流

【新智元导读】英伟达创始人黄仁勋在9月26日GTC北京的主旨演讲中,隆重介绍了NVIDIA Tensor RT 3。今天英伟达的官方博客则着重介绍了NVIDIA...

2565
来自专栏AI科技评论

洞见 | 专访中科创达王璠:怎样做好嵌入式人工智能的算法开发?

目前在人工智能领域,不管是学术圈还是工业圈,大家都认同一个趋势,那就是在很多应用场景上计算需要落地到设备上,让设备拥有智能化——即嵌入式的AI,这个是人工智能领...

3479
来自专栏机器人网

AI有多少种偏见类型?如何让人工智能摆脱偏见?

我们都曾经看过电影里机器人控制了世界,而人类被毁灭的场景。好在这些电影只是娱乐,现实生活中,这些牵强的场景是不会发生的。然而,一个更应该注意的实际问题是:算法的...

3586
来自专栏腾讯大数据的专栏

大数据产品-腾讯信鸽之手游流失预测

背景 随着游戏市场竞争的日趋激烈,越来越多的游戏运营服务选择借助大数据挖掘出更多更细的用户群来进行精细化,个性化运营,从而更好的抓住用户,获得更大的收益。在游戏...

2915
来自专栏人工智能快报

IARPA启动“奥丁”项目,发展生物特征识别技术

隶属于美国情报总监办公室的美国情报高级研究计划局(IARPA)于2017年10月19日宣布正式启动“奥丁”(Odin)项目,旨在研发和评估生物特征识别技术,检测...

3546
来自专栏BestSDK

搜狗翻译API新增:日、韩、法、俄4语种,支持批量翻译

在全球信息加速产出与传播的当下,语言差异给各领域的开发者带来了诸多难题。如今,搜狗搜索已将前沿的人工智能技术应用于翻译领域,为身处全球各地的开发者提供高质量机器...

36010

扫码关注云+社区