【浪潮的烦恼】这家公司提供了BAT 90%的AI计算力，刘军预测GPU仍会在AI领域大幅领先

新智元

发布于 2018-03-21 09:46:45

8380

发布于 2018-03-21 09:46:45

文章被收录于专栏：新智元

作者：胡祥杰

【新智元导读】在同一个超算下，也采用CPU+GPU的架构去支持传统的HPC应用和AI 应用，未来两到三年内会非常的流行。在计算的硬件层面毫无疑问浪潮是国内最强的，浪潮的服务器在BAT中所占的份额超过90%，在整个中国AI计算服务器市场至少是60%以上。但是，身处行业老大位置的浪潮，也有自己的烦恼。

前段时间在美国丹佛举行的全球超算大会（SC17）上，第50届全球超算TOP500榜单揭晓，中国超算“神威·太湖之光”和“天河二号”分列前两名，中国已经连续10届实现对该榜单的领跑。此外，中国上榜的超级计算机数量超过了美国，总数达到202台（美国是143），这也是迄今中国上榜 TOP500 数量最多的一次，相比之下，美国上榜的超级计算机数量已经降至25年来最低水平。中国在总体性能（aggregate performance）上也超过了美国。目前，中国占 TOP500 榜单浮点计算力的35.4%，美国以29.6%位居第二。

浪潮人工智能与高性能产品部总经理刘军在本届SC现场，他回忆说，今年超算的两次大会相对来说比较平静，因为美国的新机器还没出来。此前一直传言的美国能源部与IBM合作的超算Summit并没有如预期中那样出现。所以，中国的超算再一次蝉联了第一。另外，在软件上，中国也蝉联了戈登贝尔奖。

“这些事情加起来会让大家觉得跟原来差不多，格局没有太大的变化，所以就觉得平静一些。”

现在超算界，大家比较关注美国的这台机器，传说中，它的交付峰值性能将达到200PFlops，远超“神威·太湖之光”的125PFlops。

因为这一机器可能代表了超算架构的一种新趋势，刘军对新智元介绍说，“它很重要的一个特点，就是CPU+GPU的架构，GPU使用的是现在当红的V100。这种架构，即在同一个超算下面去支持传统的HPC应用和AI 应用，未来两到三年内会非常的流行。”

这种架构其实代表了AI和HPC的一种融合，“HPC还是HPC，AI也还是AI，就是用同一个架构就能比较好地支持AI计算和传统的科学工程计算”。

超算在不断发展，让人不禁想问，随着深度学习面临越来越多的计算瓶颈，那么，用超算来跑深度学习，是不是一个好的解决方案？刘军认为，在现阶段看来不是，“超算是人家为国之重器准备的东西，你非要拿去跑AI，那是另外一个领域的东西，这其实没有太大的必要。”

跟英伟达过了几年的苦日子，很苦的

2010年，当时天津的“天河一号"经过性能升级，成为当时世界上最快的超级计算机，是中国的第一次。那个机器用的就是英伟达的GPU加速卡，用了7168块基于英伟达公司的Tesla M2050。

当时，英伟达还不是股价超过200美元的当红AI炸子鸡，黄仁勋也还没有成为“教主”，英伟达正在HPC上苦苦寻找出路。用刘军的话来说，HPC的应用，相对来说领域比较窄，（当时）没有特别杀手级的应用出来，所以大家在GPU的HPC上都过得挺苦的。

2007年，英伟达发布CUDA GPU，浪潮于2008年发布了基于GPU的桌面超算“倚天”。刘军说，“2010年后的好长一段时间，其实我们跟英伟达一起过了好多年的苦日子，很苦的，整个的生态系统、软件要做移植、做优化。后来，突然天上掉下一个Deep Learning，AI一下蔚然成风，好日子一下就来了。”

刘军把深度学习称为“怪兽级的应用”，GPU在前面苦苦探索时找不到杀手级的应用，忽然出现了这样一个应用，与GPU强大的计算性能二者结合起来，形成了一个相互催化的过程。这其中最重要的其实还是应用场景，如果没有GPU没有找到深度学习，而是锁定在原来的HPC场景下，那么，它也不会得到市场和投资的认可。

英特尔在AI上一直强调一个策略“端到端”，刘军评论说，这是英特尔很擅长的东西，有很多端到端和软件的东西可能我们从外面看不见，但是没有这些东西整个系统的运行就会受到影响。

但是从总的来说，至少在未来一到两年内，GPU还是会在AI领域尤其是训练端保持大幅领先的，刘军说。

就在新智元专访刘军后几天，在美国长滩，英伟达CEO黄仁勋发布了新的旗舰型GPU——Titan V比其前身 Pascal Titan X 有更高的性能，同时保持相同的功率要求。Titan V支持110万亿次浮点运算的原始计算能力，是其上一代的9倍。

浪潮人工智能部门：成立至今百分之几百的成长速度

作为老牌的计算服务器提供商，浪潮在2017年4月成立了人工智能部门。“浪潮在过去两年中已经亲身体会到了AI带给我们整体业务高速驱动的成长，我们看到里面巨大的市场机会和对AI计算从技术创新到方案创新的需求，所以公司成立了专门的业务部门来规划，来推动整个AI业务的快速增长”，刘军说，“实践下来效果非常好，具体的营收数字现在还不方便透露，但是可以说是一个让人非常惊讶的成长速度，就是百分之几百的速度。”

浪潮的整个AI布局还是围绕着计算在做，目前的整体思路是构建一个至下而上的价值链，如上图所示。

“从浪潮来看，因为我们是做计算的厂商，所以我们会更加关注计算在AI里面发挥的作用，所以我们业务重点不会跳到最前面去做AI的前端应用，那不是我们想干的事情”，刘军说，“我们想干的事情，我们怎么从计算端帮助他们做这些事。”

在计算的硬件层面毫无疑问浪潮是国内最强的，浪潮的服务器在BAT中所占的份额超过90%，在整个中国AI计算服务器市场至少是60%以上。“这还是说得比较保守的”。其中，GPU服务器占到了绝大多数，因为现在市场最主要的蛋糕都被GPU拿走了。

除了大家熟知的计算和服务器以外，浪潮近年来也在逐渐涉及一些上层的东西，包括用于管理和调度计算资源的AIStation 和Teye等等。2017年，浪潮还推出了根据Caffe优化的深度学习框架Caffe-MPI。Caffe和TensorFlow是深度学习占有率最高的两个框架，虽然TensorFlow在谷歌的大力推动下正迅速发展，如日中天。但是，从绝对性能上来说，TensorFlow的性能实际仅仅相当于Caffe的一半，Caffe最擅长的是图像领域——当下中国最热门的AI方向。

但是，Caffe有个很致命的问题，它只能在一台机器里面跑，不能团队作业，所以一个大的框架的训练，需要很长一段时间才能完成。Caffe-MPI要解决的就是这个问题，它改变了Caffe只能单节点工作的模式，扩展到多节点可以一起训练。

最上层，浪潮在尝试提供综合下层所有要素的端到端解决方案，给客户提供一个到手就能用的AI解决方案，主要客户是银行、汽车和医疗等客户。一个典型的例子是，9月15日，2017 百度云智峰会ABC SUMMIT上百度与浪潮共同发布了ABC一体机，产品面向模型训练Training和线上预测Inference两大类AI计算场景，可根据客户AI业务规模及对计算力需求，精准匹配计算系统。ABC一体机系统采用模块化设计，涵盖浪潮SR-AI整机柜、AGX-2、GX4等多样化计算平台，单台计算节点可以提供2-64个不等的异构加速卡。在深度学习框架方面，可支持TensorFlow、Caffe、CNTK、PaddlePaddle等主流算法框架。

巨头的烦恼：要把蛋糕做大，整体的生意机会才会更大

被问及现在中国AI计算市场上的主要竞争对手，刘军说，还真的没什么对手。以上面介绍的浪潮AI价值链，传统的服务器厂商很多都提供的是底层的产品和技术，“他们不具备整体去做的能力”。所以浪潮给自己的定位是“AI计算的整体提供商，不只是单个计算卡或者服务器的提供商。

采访中，刘军也反复提到，浪潮的现在的很多想法和策略是参与到AI产业中，“把蛋糕做得更大，我们整体的生意机会才会更大”。

他也讲到了浪潮的烦恼：浪潮在中国AI计算市场是最大的玩家，每年的增长率是百分之几百，这种情况对我们来说是非常大的挑战，我们其实很难承受这块业务下滑的压力。包括英伟达现在也是这样，他在高速增长，每年百分之一百，二百的增长，你说突然哪一天不增长，掉下来了，这个就会很可怕，所以在这种情况下，我们要思考的问题是我怎么让这个蛋糕越来越大，增速越来越大，这样的话我才能不断的保持我的地位，和高速的增长，这是我们最本质的想法是这样的。

做深度学习框架Caffe-MPI、为传统行业直接提供整体化的AI解决方案、开AICC的大会、每年办很多的培训班、去举办竞赛……这些看起来不像是计算服务商会做的事，正是浪潮在人工智能整体战略上的亮点：让更多的人参与进来。

把一些很多的项目成果开源出去，让大家去用，让更多的人用好这个东西，更多的人把AI跟他业务结合起来的时候，我们整体的生意才能健康的发展。从英伟达到浪潮，我们谁都不愿意看到类似2000年互联网泡沫那幕重演，因为那对整个AI产业将会是一个巨大的灾难。所以就必须要玩命把生态做起来，这是我们的一个出发点。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-12-12，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

登录后参与评论

0 条评论

热度

【浪潮的烦恼】这家公司提供了BAT 90%的AI计算力，刘军预测GPU仍会在AI领域大幅领先

【浪潮的烦恼】这家公司提供了BAT 90%的AI计算力，刘军预测GPU仍会在AI领域大幅领先

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐