【浪潮的烦恼】这家公司提供了BAT 90%的AI计算力,刘军预测GPU仍会在AI领域大幅领先

作者:胡祥杰

【新智元导读】在同一个超算下,也采用CPU+GPU的架构去支持传统的HPC应用和AI 应用,未来两到三年内会非常的流行。在计算的硬件层面毫无疑问浪潮是国内最强的,浪潮的服务器在BAT中所占的份额超过90%,在整个中国AI计算服务器市场至少是60%以上。但是,身处行业老大位置的浪潮,也有自己的烦恼。

前段时间在美国丹佛举行的全球超算大会(SC17)上,第50届全球超算TOP500榜单揭晓,中国超算“神威·太湖之光”和“天河二号”分列前两名,中国已经连续10届实现对该榜单的领跑。此外,中国上榜的超级计算机数量超过了美国,总数达到202台(美国是143),这也是迄今中国上榜 TOP500 数量最多的一次,相比之下,美国上榜的超级计算机数量已经降至25年来最低水平。中国在总体性能(aggregate performance)上也超过了美国。目前,中国占 TOP500 榜单浮点计算力的35.4%,美国以29.6%位居第二。

浪潮人工智能与高性能产品部总经理刘军在本届SC现场,他回忆说,今年超算的两次大会相对来说比较平静,因为美国的新机器还没出来。此前一直传言的美国能源部与IBM合作的超算Summit并没有如预期中那样出现。所以,中国的超算再一次蝉联了第一。另外,在软件上,中国也蝉联了戈登贝尔奖。

“这些事情加起来会让大家觉得跟原来差不多,格局没有太大的变化,所以就觉得平静一些。”

现在超算界,大家比较关注美国的这台机器,传说中,它的交付峰值性能将达到200PFlops,远超“神威·太湖之光”的125PFlops。

因为这一机器可能代表了超算架构的一种新趋势,刘军对新智元介绍说,“它很重要的一个特点,就是CPU+GPU的架构,GPU使用的是现在当红的V100。这种架构,即在同一个超算下面去支持传统的HPC应用和AI 应用,未来两到三年内会非常的流行。”

这种架构其实代表了AI和HPC的一种融合,“HPC还是HPC,AI也还是AI,就是用同一个架构就能比较好地支持AI计算和传统的科学工程计算”。

超算在不断发展,让人不禁想问,随着深度学习面临越来越多的计算瓶颈,那么,用超算来跑深度学习,是不是一个好的解决方案?刘军认为,在现阶段看来不是,“超算是人家为国之重器准备的东西,你非要拿去跑AI,那是另外一个领域的东西,这其实没有太大的必要。”

跟英伟达过了几年的苦日子,很苦的

2010年,当时天津的“天河一号"经过性能升级,成为当时世界上最快的超级计算机,是中国的第一次。那个机器用的就是英伟达的GPU加速卡,用了7168块基于英伟达公司的Tesla M2050。

当时,英伟达还不是股价超过200美元的当红AI炸子鸡,黄仁勋也还没有成为“教主”,英伟达正在HPC上苦苦寻找出路。用刘军的话来说,HPC的应用,相对来说领域比较窄,(当时)没有特别杀手级的应用出来,所以大家在GPU的HPC上都过得挺苦的。

2007年,英伟达发布CUDA GPU,浪潮于2008年发布了基于GPU的桌面超算“倚天”。刘军说,“2010年后的好长一段时间,其实我们跟英伟达一起过了好多年的苦日子,很苦的,整个的生态系统、软件要做移植、做优化。后来,突然天上掉下一个Deep Learning,AI一下蔚然成风,好日子一下就来了。”

刘军把深度学习称为“怪兽级的应用”,GPU在前面苦苦探索时找不到杀手级的应用,忽然出现了这样一个应用,与GPU强大的计算性能二者结合起来,形成了一个相互催化的过程。这其中最重要的其实还是应用场景,如果没有GPU没有找到深度学习,而是锁定在原来的HPC场景下,那么,它也不会得到市场和投资的认可。

英特尔在AI上一直强调一个策略“端到端”,刘军评论说,这是英特尔很擅长的东西,有很多端到端和软件的东西可能我们从外面看不见,但是没有这些东西整个系统的运行就会受到影响。

但是从总的来说,至少在未来一到两年内,GPU还是会在AI领域尤其是训练端保持大幅领先的,刘军说。

就在新智元专访刘军后几天,在美国长滩,英伟达CEO黄仁勋发布了新的旗舰型GPU——Titan V比其前身 Pascal Titan X 有更高的性能,同时保持相同的功率要求。Titan V支持110万亿次浮点运算的原始计算能力,是其上一代的9倍。

浪潮人工智能部门:成立至今百分之几百的成长速度

作为老牌的计算服务器提供商,浪潮在2017年4月成立了人工智能部门。“浪潮在过去两年中已经亲身体会到了AI带给我们整体业务高速驱动的成长,我们看到里面巨大的市场机会和对AI计算从技术创新到方案创新的需求,所以公司成立了专门的业务部门来规划,来推动整个AI业务的快速增长”,刘军说,“实践下来效果非常好,具体的营收数字现在还不方便透露,但是可以说是一个让人非常惊讶的成长速度,就是百分之几百的速度。”

浪潮的整个AI布局还是围绕着计算在做,目前的整体思路是构建一个至下而上的价值链,如上图所示。

“从浪潮来看,因为我们是做计算的厂商,所以我们会更加关注计算在AI里面发挥的作用,所以我们业务重点不会跳到最前面去做AI的前端应用,那不是我们想干的事情”,刘军说,“我们想干的事情,我们怎么从计算端帮助他们做这些事。”

在计算的硬件层面毫无疑问浪潮是国内最强的,浪潮的服务器在BAT中所占的份额超过90%,在整个中国AI计算服务器市场至少是60%以上。“这还是说得比较保守的”。其中,GPU服务器占到了绝大多数,因为现在市场最主要的蛋糕都被GPU拿走了。

除了大家熟知的计算和服务器以外,浪潮近年来也在逐渐涉及一些上层的东西,包括用于管理和调度计算资源的AIStation 和Teye等等。2017年,浪潮还推出了根据Caffe优化的深度学习框架Caffe-MPI。Caffe和TensorFlow是深度学习占有率最高的两个框架,虽然TensorFlow在谷歌的大力推动下正迅速发展,如日中天。但是,从绝对性能上来说,TensorFlow的性能实际仅仅相当于Caffe的一半,Caffe最擅长的是图像领域——当下中国最热门的AI方向。

但是,Caffe有个很致命的问题,它只能在一台机器里面跑,不能团队作业,所以一个大的框架的训练,需要很长一段时间才能完成。Caffe-MPI要解决的就是这个问题,它改变了Caffe只能单节点工作的模式,扩展到多节点可以一起训练。

最上层,浪潮在尝试提供综合下层所有要素的端到端解决方案,给客户提供一个到手就能用的AI解决方案,主要客户是银行、汽车和医疗等客户。一个典型的例子是,9月15日,2017 百度云智峰会ABC SUMMIT上百度与浪潮共同发布了ABC一体机,产品面向模型训练Training和线上预测Inference两大类AI计算场景,可根据客户AI业务规模及对计算力需求,精准匹配计算系统。ABC一体机系统采用模块化设计,涵盖浪潮SR-AI整机柜、AGX-2、GX4等多样化计算平台,单台计算节点可以提供2-64个不等的异构加速卡。在深度学习框架方面,可支持TensorFlow、Caffe、CNTK、PaddlePaddle等主流算法框架。

巨头的烦恼:要把蛋糕做大,整体的生意机会才会更大

被问及现在中国AI计算市场上的主要竞争对手,刘军说,还真的没什么对手。以上面介绍的浪潮AI价值链,传统的服务器厂商很多都提供的是底层的产品和技术,“他们不具备整体去做的能力”。所以浪潮给自己的定位是“AI计算的整体提供商,不只是单个计算卡或者服务器的提供商。

采访中,刘军也反复提到,浪潮的现在的很多想法和策略是参与到AI产业中,“把蛋糕做得更大,我们整体的生意机会才会更大”。

他也讲到了浪潮的烦恼:浪潮在中国AI计算市场是最大的玩家,每年的增长率是百分之几百,这种情况对我们来说是非常大的挑战,我们其实很难承受这块业务下滑的压力。包括英伟达现在也是这样,他在高速增长,每年百分之一百,二百的增长,你说突然哪一天不增长,掉下来了,这个就会很可怕,所以在这种情况下,我们要思考的问题是我怎么让这个蛋糕越来越大,增速越来越大,这样的话我才能不断的保持我的地位,和高速的增长,这是我们最本质的想法是这样的。

做深度学习框架Caffe-MPI、为传统行业直接提供整体化的AI解决方案、开AICC的大会、每年办很多的培训班、去举办竞赛……这些看起来不像是计算服务商会做的事,正是浪潮在人工智能整体战略上的亮点:让更多的人参与进来。

把一些很多的项目成果开源出去,让大家去用,让更多的人用好这个东西,更多的人把AI跟他业务结合起来的时候,我们整体的生意才能健康的发展。从英伟达到浪潮,我们谁都不愿意看到类似2000年互联网泡沫那幕重演,因为那对整个AI产业将会是一个巨大的灾难。所以就必须要玩命把生态做起来,这是我们的一个出发点。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-12-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Y大宽

2 驾驭课堂的动力与能力-课堂的磁力

现在,大学本科教育中,大班额是一种常态,而如何掌控课堂,做一个合格的大学教师,没有那么容易。

15710
来自专栏DT数据侠

“达摩院”大师周以真:数据应被用于解决重大人类命题

本文为“达摩院”首批学术委员会成员、哥伦比亚大学数据科学研究中心主任周以真教授2017年10月11日在云栖大会的演讲节选。

13200
来自专栏大数据文摘

业界|比尔盖茨推荐,三个数据中的世界动向

近几年来,我们发现只需要在网上快速搜索一下,便可轻松获取全球发展的重要统计数据。由于现在获取信息如此便捷,许多人认为记住这些数据没有任何意义。他们会说,“需要的...

9300
来自专栏SIGAI学习与实践平台

AI时代大点兵-国内外知名AI公司2018年最新盘点

在人工智能领域大规模并行计算是一个刚性的需求,CPU由于本身设计更偏重于多任务处理、逻辑控制所以不太适合在矩阵计算这种需要高并行的场景中应用,这也给了像Nvid...

20510
来自专栏新智元

【争议】外媒质疑中国人脸识别定罪犯,三项研究看人脸识别技术漏洞

【新智元导读】英国《金融时报》昨天发表题为《中国利用人工智能预测犯罪》的报道,对中国使用人脸识别预测罪犯提出质疑,认为这样有可能造成误判。人脸识别在中国的火热应...

584110
来自专栏AI科技大本营的专栏

盘点 | 假期里你错过的人工智能重要新闻有这些

AI科技大本营导读:狗年的春节已过,想必现在很多读者都已经回到了学习或工作的状态,不然就是在回去的路上。节日期间大家忙着走亲串友,可能错过了一些人工智领域的最新...

35450
来自专栏量子位

机器学习自动化公司DataRobot融资5400万美元

小跑编译 | 量子位·QbitAI 报道 ? DataRobot宣布完成C轮首笔5400万美元的融资,这家位于麻省波士顿的创业公司,总融资额将达到1.11亿美元...

47860
来自专栏大数据文摘

超赞的交互式数据可视化网站

73080
来自专栏AI科技大本营的专栏

AI一分钟 | 特斯拉再融46亿;腾讯AI Lab宣布开源多标签图像数据集

近日,《证券日报》记者登录上海市工商行政管理局官网发现,特斯拉(上海)有限公司的注册资本已由 1 亿元增至 46.7 亿元,这意味着马斯克凭借特斯拉这匾金字招牌...

12270
来自专栏AI科技大本营的专栏

一周AI看点 | AK-47制造商将推人工智能枪支—自主决定射击,英特尔推出新Movidius视觉运算芯片主打AI功能

本期一周AI看点包括行业新闻、技术应用、技术前沿、大咖观点以及投融资等方面。 大咖观点 普京:人工智能将带来全球性垄断 引发无人机战争 据外媒报道,尽管微软和谷...

36560

扫码关注云+社区

领取腾讯云代金券