前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【浪潮的烦恼】这家公司提供了BAT 90%的AI计算力,刘军预测GPU仍会在AI领域大幅领先

【浪潮的烦恼】这家公司提供了BAT 90%的AI计算力,刘军预测GPU仍会在AI领域大幅领先

作者头像
新智元
发布2018-03-21 09:46:45
8380
发布2018-03-21 09:46:45
举报
文章被收录于专栏:新智元
作者:胡祥杰

【新智元导读】在同一个超算下,也采用CPU+GPU的架构去支持传统的HPC应用和AI 应用,未来两到三年内会非常的流行。在计算的硬件层面毫无疑问浪潮是国内最强的,浪潮的服务器在BAT中所占的份额超过90%,在整个中国AI计算服务器市场至少是60%以上。但是,身处行业老大位置的浪潮,也有自己的烦恼。

前段时间在美国丹佛举行的全球超算大会(SC17)上,第50届全球超算TOP500榜单揭晓,中国超算“神威·太湖之光”和“天河二号”分列前两名,中国已经连续10届实现对该榜单的领跑。此外,中国上榜的超级计算机数量超过了美国,总数达到202台(美国是143),这也是迄今中国上榜 TOP500 数量最多的一次,相比之下,美国上榜的超级计算机数量已经降至25年来最低水平。中国在总体性能(aggregate performance)上也超过了美国。目前,中国占 TOP500 榜单浮点计算力的35.4%,美国以29.6%位居第二。

浪潮人工智能与高性能产品部总经理刘军在本届SC现场,他回忆说,今年超算的两次大会相对来说比较平静,因为美国的新机器还没出来。此前一直传言的美国能源部与IBM合作的超算Summit并没有如预期中那样出现。所以,中国的超算再一次蝉联了第一。另外,在软件上,中国也蝉联了戈登贝尔奖。

“这些事情加起来会让大家觉得跟原来差不多,格局没有太大的变化,所以就觉得平静一些。”

现在超算界,大家比较关注美国的这台机器,传说中,它的交付峰值性能将达到200PFlops,远超“神威·太湖之光”的125PFlops。

因为这一机器可能代表了超算架构的一种新趋势,刘军对新智元介绍说,“它很重要的一个特点,就是CPU+GPU的架构,GPU使用的是现在当红的V100。这种架构,即在同一个超算下面去支持传统的HPC应用和AI 应用,未来两到三年内会非常的流行。”

这种架构其实代表了AI和HPC的一种融合,“HPC还是HPC,AI也还是AI,就是用同一个架构就能比较好地支持AI计算和传统的科学工程计算”。

超算在不断发展,让人不禁想问,随着深度学习面临越来越多的计算瓶颈,那么,用超算来跑深度学习,是不是一个好的解决方案?刘军认为,在现阶段看来不是,“超算是人家为国之重器准备的东西,你非要拿去跑AI,那是另外一个领域的东西,这其实没有太大的必要。”

跟英伟达过了几年的苦日子,很苦的

2010年,当时天津的“天河一号"经过性能升级,成为当时世界上最快的超级计算机,是中国的第一次。那个机器用的就是英伟达的GPU加速卡,用了7168块基于英伟达公司的Tesla M2050。

当时,英伟达还不是股价超过200美元的当红AI炸子鸡,黄仁勋也还没有成为“教主”,英伟达正在HPC上苦苦寻找出路。用刘军的话来说,HPC的应用,相对来说领域比较窄,(当时)没有特别杀手级的应用出来,所以大家在GPU的HPC上都过得挺苦的。

2007年,英伟达发布CUDA GPU,浪潮于2008年发布了基于GPU的桌面超算“倚天”。刘军说,“2010年后的好长一段时间,其实我们跟英伟达一起过了好多年的苦日子,很苦的,整个的生态系统、软件要做移植、做优化。后来,突然天上掉下一个Deep Learning,AI一下蔚然成风,好日子一下就来了。”

刘军把深度学习称为“怪兽级的应用”,GPU在前面苦苦探索时找不到杀手级的应用,忽然出现了这样一个应用,与GPU强大的计算性能二者结合起来,形成了一个相互催化的过程。这其中最重要的其实还是应用场景,如果没有GPU没有找到深度学习,而是锁定在原来的HPC场景下,那么,它也不会得到市场和投资的认可。

英特尔在AI上一直强调一个策略“端到端”,刘军评论说,这是英特尔很擅长的东西,有很多端到端和软件的东西可能我们从外面看不见,但是没有这些东西整个系统的运行就会受到影响。

但是从总的来说,至少在未来一到两年内,GPU还是会在AI领域尤其是训练端保持大幅领先的,刘军说。

就在新智元专访刘军后几天,在美国长滩,英伟达CEO黄仁勋发布了新的旗舰型GPU——Titan V比其前身 Pascal Titan X 有更高的性能,同时保持相同的功率要求。Titan V支持110万亿次浮点运算的原始计算能力,是其上一代的9倍。

浪潮人工智能部门:成立至今百分之几百的成长速度

作为老牌的计算服务器提供商,浪潮在2017年4月成立了人工智能部门。“浪潮在过去两年中已经亲身体会到了AI带给我们整体业务高速驱动的成长,我们看到里面巨大的市场机会和对AI计算从技术创新到方案创新的需求,所以公司成立了专门的业务部门来规划,来推动整个AI业务的快速增长”,刘军说,“实践下来效果非常好,具体的营收数字现在还不方便透露,但是可以说是一个让人非常惊讶的成长速度,就是百分之几百的速度。”

浪潮的整个AI布局还是围绕着计算在做,目前的整体思路是构建一个至下而上的价值链,如上图所示。

“从浪潮来看,因为我们是做计算的厂商,所以我们会更加关注计算在AI里面发挥的作用,所以我们业务重点不会跳到最前面去做AI的前端应用,那不是我们想干的事情”,刘军说,“我们想干的事情,我们怎么从计算端帮助他们做这些事。”

在计算的硬件层面毫无疑问浪潮是国内最强的,浪潮的服务器在BAT中所占的份额超过90%,在整个中国AI计算服务器市场至少是60%以上。“这还是说得比较保守的”。其中,GPU服务器占到了绝大多数,因为现在市场最主要的蛋糕都被GPU拿走了。

除了大家熟知的计算和服务器以外,浪潮近年来也在逐渐涉及一些上层的东西,包括用于管理和调度计算资源的AIStation 和Teye等等。2017年,浪潮还推出了根据Caffe优化的深度学习框架Caffe-MPI。Caffe和TensorFlow是深度学习占有率最高的两个框架,虽然TensorFlow在谷歌的大力推动下正迅速发展,如日中天。但是,从绝对性能上来说,TensorFlow的性能实际仅仅相当于Caffe的一半,Caffe最擅长的是图像领域——当下中国最热门的AI方向。

但是,Caffe有个很致命的问题,它只能在一台机器里面跑,不能团队作业,所以一个大的框架的训练,需要很长一段时间才能完成。Caffe-MPI要解决的就是这个问题,它改变了Caffe只能单节点工作的模式,扩展到多节点可以一起训练。

最上层,浪潮在尝试提供综合下层所有要素的端到端解决方案,给客户提供一个到手就能用的AI解决方案,主要客户是银行、汽车和医疗等客户。一个典型的例子是,9月15日,2017 百度云智峰会ABC SUMMIT上百度与浪潮共同发布了ABC一体机,产品面向模型训练Training和线上预测Inference两大类AI计算场景,可根据客户AI业务规模及对计算力需求,精准匹配计算系统。ABC一体机系统采用模块化设计,涵盖浪潮SR-AI整机柜、AGX-2、GX4等多样化计算平台,单台计算节点可以提供2-64个不等的异构加速卡。在深度学习框架方面,可支持TensorFlow、Caffe、CNTK、PaddlePaddle等主流算法框架。

巨头的烦恼:要把蛋糕做大,整体的生意机会才会更大

被问及现在中国AI计算市场上的主要竞争对手,刘军说,还真的没什么对手。以上面介绍的浪潮AI价值链,传统的服务器厂商很多都提供的是底层的产品和技术,“他们不具备整体去做的能力”。所以浪潮给自己的定位是“AI计算的整体提供商,不只是单个计算卡或者服务器的提供商。

采访中,刘军也反复提到,浪潮的现在的很多想法和策略是参与到AI产业中,“把蛋糕做得更大,我们整体的生意机会才会更大”。

他也讲到了浪潮的烦恼:浪潮在中国AI计算市场是最大的玩家,每年的增长率是百分之几百,这种情况对我们来说是非常大的挑战,我们其实很难承受这块业务下滑的压力。包括英伟达现在也是这样,他在高速增长,每年百分之一百,二百的增长,你说突然哪一天不增长,掉下来了,这个就会很可怕,所以在这种情况下,我们要思考的问题是我怎么让这个蛋糕越来越大,增速越来越大,这样的话我才能不断的保持我的地位,和高速的增长,这是我们最本质的想法是这样的。

做深度学习框架Caffe-MPI、为传统行业直接提供整体化的AI解决方案、开AICC的大会、每年办很多的培训班、去举办竞赛……这些看起来不像是计算服务商会做的事,正是浪潮在人工智能整体战略上的亮点:让更多的人参与进来。

把一些很多的项目成果开源出去,让大家去用,让更多的人用好这个东西,更多的人把AI跟他业务结合起来的时候,我们整体的生意才能健康的发展。从英伟达到浪潮,我们谁都不愿意看到类似2000年互联网泡沫那幕重演,因为那对整个AI产业将会是一个巨大的灾难。所以就必须要玩命把生态做起来,这是我们的一个出发点。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-12-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档