首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

王者追求:华为智能数据中心的匠“芯”

文/IT创事记 祁萌

在稍早前的一次数据中心故障演练中,一位金融用户意识到了巨变的到来。人工智能将会给他的数据中心运维带去翻天覆地的变化。

演练中,这位金融用户在数据中心主动引发了“故障”,运维团队随即发现并开始按流程展开排查。

因为对数据安全和业务永续有着极高的要求,金融客户通常被视为数字化水平居于塔尖的那一部分。在这种要求下,故障演练是他们工作中的“日常”。

在传统方法中,这项故障的排查用时是76分钟;但在那次让人惊讶的演练中,运维团队只用8分钟便找到了故障。

打动“C Level”们

运维团队的“竞争对手”是华为提供的智能芯片和智能算法,它们被设置在华为的存储、网络等产品中,向外提供一种AI算法故障自诊断能力。最终,这种能力让现在的数据中心实现了故障的分钟级定位。

8分钟只是一个综合能力的显现,它源于那些智能芯片和算法在不同类型产品中的表现。

在网络部分,华为的智能让30类典型的网络故障定位时间从过去的100分钟,缩短到了15分钟以下;而在存储部分,华为则已经实现了故障的提前自动预测能力。

对于消费者而言,这些人工智能的小众场景远不如刷脸支付或者直播美颜那样令人兴奋;但对于金融业,甚至所有企业级的IT部门而言,这却是一个值得欢欣鼓舞的巨变。

在金融或者更广泛的企业级数据中心里,这类人工智能所带来的飞跃式进步,对于他们的数据安全和业务永续都将大有裨益——毫无疑问,最先获得这种能力的企业将会在业务端表现出更强的竞争力。

不过,这种竞争力绝不会仅依靠来源于数据中心级别的智能管理。设备性能的提升和更低的TCO,往往是更容易打动那些企业里的“C Level”的内容,因为这些直接关乎业务与投资。

华为传统上是一家设备公司,所以与人工智能相关的能力,也势必首先会体现在产品端。

在去年HC大会上发布AI智能战略时,华为认定,围绕AI的全栈协同优化将能为用户带来更多价值。此后,持续至今的新品发布基本依此行事。

从技术功能视角出发,全栈意味着从人工智能芯片、芯片使能、训练和推理框架,以及应用使能等全部内容。

在那次会议上,华为发布了两款昇腾AI芯片。现在,这些芯片已经被广泛应用在了华为的ICT设备中,并为这些设备带来了智能。

今年春天的网络新品发布会中,搭载昇腾AI芯片、核心的网络芯片Solar,和iLossless智能无损交换算法的华为数据中心交换机CloudEngine 16800面市。

在实现零丢包的基础上,这台业界首个面向AI时代的智能无损数据中心网络设备获得了更低时延和更高吞吐的网络性能,并最终让AI训练效率提升了27%、高性能计算时长缩短30%,以及让分布式存储性能提升30%。

智能带来了性能,性能带来了效率,而效率最终为用户带去了TCO的降低。由于5倍于业界同类产品的处理能力的存在,CloudEngine 16800整机满配时,年省电达到了32万千瓦时。

“不服来测”

现在,智能、极致性能和超低TCO已经基本成了华为每条ICT产品线共有的鲜明特征——就像华为在它的智能数据中心整体方案中所展示的那样。

在存储领域,OceanStor Dorado V3通过FlashLink智能算法,实现了0.3ms稳定时延;性能表现上读取速度高于业界25%~30%;同时,由于数据缩减率达到了5:1,营运成本(OPEX)节省达到了75%的惊人程度。

南华期货和比亚迪汽车同是华为OceanStor Dorado的用户,因为这些特性的存在,在各自的业务场景中,南华期货的高峰业务交易量从6万笔/秒提升至了15万笔/秒;而比亚迪的数据加载耗时从4.5小时缩短到了1.5小时。

华为企业BG全球Marketing总裁 邱恒

华为企业BG全球Marketing总裁邱恒透露说,最新一款新品将在7月上市,那将又是一款“不服来测”的产品,“各项性能的领先程度将进一步加大”。

这款全闪存产品所涉及到的芯片包括了SSD控制芯片、BMC管理芯片,以及智能多协议接口芯片等;相当程度上展示了华为在芯片领域的成绩。

华为TaiShan服务器的体内安置了鲲鹏920芯片、昇腾310芯片、智能融合网络芯片、智能管理芯片、智能SSD控制芯片等五款华为芯片。

华为围绕TaiShan服务器搭建了五款解决方案,其极致性能在大数据、分布式存储、高性能计算和数据库等应用领域获得了充分的表现空间。

比如,让Hadoop大数据中的计算性能提升30%,让Database数据的QPS性能提升53%等,数据十分惹眼。

不难发现,TCO的表现在很大程度上受到了智能化和性能提升的影响。

在高性能计算和分布式存储领域,智能加持的华为TaiShan服务器带来的TCO表现均十分突出。值得一提的是,在使用全液冷冷却后,高性能计算的PUE达到了小于1.05的极致水平。

自己的降落伞自己跳

那些智能计算的能力中,相当部分来自于可见的人工智能芯片,人们也乐于为此欢欣鼓舞;不过,军功章总有它的另一半——芯片提供了算力,算法和数据则在相当程度上隐姓埋名了,而这一点却是智能化市场中不易多得的能力。或者说,也是一种竞争力。

华为有着支持千亿美元业务的数据中心,它遍布全球。

“这个规模少有企业能够匹敌。”邱恒说,支持数据中心智能化演进的海量训练数据,有相当部分就来源于华为自身。

有趣的是,在算力、算法和数据这些人工智能的核心要素得到系统性解决后,华为数据中心里的智能,首先服务的也是华为自己。

在过去的1年多时间里,TaiShan的大数据解决方案已经在华为手机终端部门、全球服务部门中上线了超过2000个节点,并稳定运行至今。

在华为的消费业务端,员工喜欢像互联网公司一样描述这种企业文化——“吃自己的狗粮”;而在B端的企业级业务中,华为员工的表述则要显得更为“厚重”,叫做“自己的降落伞自己跳”。他们把自己的业务当作自己产品的试验田。

“狗粮文化”可以视为“以客户需求为中心”的企业文化的一部分,但同时,它也对应了一种不可多得的能力。毕竟,没有充足的业务体量,就没有能力在客户之前验证它。

华为的智慧园区就是这种试验田中的经典。

如果有机会去到那里,参观者们“大”——可以看到超过4个智慧行业园区解决方案,和超过7个智慧通用园区解决方案;

“小”——则可以看到智能和5G加持的全息摄像机,或者最新的企业级Wi-Fi 6产品AirEngine。

华为把自己的工作园区,变成了可能是全球最大的一个“智能”专卖店,展示着华为海量的关于智能与智慧的一切——从端到端的智能数据中心,到拥有端到端产品和方案的智慧园区。

【IT创事记】创见科技未来,旨在为读者提供科技企业和科技趋势的前瞻分析与评论。创始人祁萌,为资深科技自媒体人,历任《商业伙伴》副总编、《电脑商报》主编、都市媒体记者编辑等职,从业超过14年。本同名专栏入驻各主流媒体平台。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190627A0L9E000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券