阿里平头哥首颗芯片玄铁910问世,联合四张「王牌」迎接云计算拐点

机器之心原创

作者:四月

首颗端芯片采用开源架构 RISC-V,云芯片 Ali-NPU 或将于今年晚些时候公布进展。

「2019 年将会是云计算市场的重要拐点」,阿里巴巴集团 CTO、阿里云智能总裁张建锋以「拐点」拉开阿里云峰会上海站的序幕。

基于 Gartner 增长曲线,技术的发展从启动萌芽到逐步增长将经历一个重要拐点,跨过拐点后将会出现爆发性增长。

张建锋之所以给出「拐点」的预判,来源于 IDC 的一份重要数据——2019 年,云计算市场份额首次超过 50%,意味着云服务商采购的基础设施首次超过了传统的数据中心。基于云计算的发展特性,后续将有望迎来更大增速的机遇。

为更为有效地把握此次机遇,张建锋对于「阿里云」的内涵提出了完整的梳理和定义。围绕云计算上下游链条探索,阿里发布首颗自研端智能芯片——自去年 9 月阿里宣布成立平头哥独立芯片公司后,外界颇为关注的进展和成果。此外,阿里还迎来了新面孔,AI 深度学习框架领域的重要贡献者贾扬清首次以「阿里」人的身份亮相。

平头哥首颗芯片「成果」

2018 年 4 月,阿里巴巴集团宣布,公司研发部门达摩院正研发一款神经网络芯片「Ali-NPU」。同年 9 月,阿里巴巴成立独立芯片企业,马云赐名「平头哥」,由阿里内部的芯片业务与外部收购而来的中天微系统有限公司整合而成,阿里全资控股。

今天,阿里巴巴集团副总裁戚肖宁宣布,平头哥首颗端智能芯片玄铁 910 发布,「玄铁」取自金庸小说、杨过手里的神剑之名。玄铁 910 采用高性能 RISC-V 架构,采用 12nm 制程,主频 2.5GHz,7.1Coremark/MHZ(世界公认的 BenchMark)。

架构上,玄铁 910 采用 16core 结构,12 级乱序流水线,并行 3 发射 8 执行 2 内存访问,最大支持 8MB 二级缓存,AI 增强的向量计算引擎。

在性能表现上,玄铁 910 较主流的 RISC-V 指令性能提升 40%,较标准指令提升 20%。戚肖宁介绍,这源于平头哥体系架构、指令系统、系统优化,以及中天微十余年的量产经验而达到的整体效果。

该颗芯片适用于用在 5G、网络通讯、人工智能、自动将驾驶领域,可嵌入 CPU、SOC 芯片中。

活动现场,戚肖宁还发布「普惠芯片」计划发布,表示将开放高性能 IP 核,降低进入高性能 CPU 的门槛,通过 DSSoC 平台赋能和客户一起创造应用落地。

据机器之心了解,阿里的芯片研发团队目前已经将近两百余人,分设于上海、美国两地,去年对外公布为数十人,一年时间里发展迅速。

杭州中天微系统有限公司成立于 2001 年,是一家致力于 32 位高性能低功耗嵌入式 CPU 研发,以芯片架构授权为核心业务的集成电路设计公司。其 CPU 应用于物联网智能硬件、数字音视频、信息安全、网络和通信、工业控制、以及汽车电子等多个领域,全球累计出货超过 7 亿颗芯片。

中天微自主知识产权的 32 位 C-SKY 系列嵌入式 CPU 核,具有低功耗、高性能、高代码密度,以及易使用等特点。由于中天微在 CPU 核心架构研发上的深厚积淀,它被视为「大陆唯一大规模量产的自主嵌入式 CPU IP Core」。

张建锋曾表示「收购中天微是阿里巴巴芯片布局的重要一环」,IP Core 是基础芯片能力的核心,进入 IP Core 领域是中国芯片实现「自主可控」的基础。

此次架构中采用的 RISC-V 是一种免费开源指令集架构 (ISA)。由加州伯克利分校的研究团队开发与公布,于 2011 年 5 月正式发布第一版。该指令集设计非常简单,采用了基础指令集与扩展指令集的方式,基础指令集只包含了不到 50 条指令。

「RISC-V 可能真正能成为国产的自主的指令集架构。」RISC-V 技术领袖、芯来科技 CEO 胡振波在接受媒体采访时谈道,RISC-V 作为免费的架构,将会和 ARM 产生竞争。在手机等传统 ARM 的垄断领域会保持强势存在,在一些新兴的边缘领域,比如 IoT、AI、边缘计算领域,RISC-V 将具有爆发空间。

据此前介绍,平头哥公司将做两类芯片,一是云端的神经网络芯片 Ali-NPU,类似于谷歌的 TPU(张量处理器),用于 AI 推理;二是嵌入式芯片,用于物联网终端。

阿里做芯片,其优势在于可以将产品直接用在公司运营中,并且对这些场景足够了解。

而在此之前,阿里广投芯片企业,注资了不少新兴的芯片企业,加码芯片竞争。2018 年 6 月,国内 AI 芯片企业寒武纪科技宣布完成数亿美元 B 轮融资,原股东阿里巴巴创新投跟投。寒武纪的发展思路也是云端一体,与平头哥的定位类似。此外,阿里巴巴创业者基金还投资了美国终端 AI 芯片商耐能(Kneron)。

目前,阿里的嵌入式芯片已经发布,而云端的神经网络芯片 Ali-NPU 的进展同样值得关注,并且将为阿里云业务带来更为直接的推进和影响。据机器之心了解,该颗芯片或将于今年晚些时候公布进展。

Ali-NPU 基于阿里机器智能技术实验室等团队在 AI 领域积累的大量算法模型优势,根据 AI 算法模型设计微结构以及指令集,以最小成本实现最大量的 AI 模型算法运算。

按照设计,阿里巴巴的 Ali-NPU 性能,将是目前市面上主流 CPU、GPU 架构 AI 芯片的 10 倍,而制造成本和功耗仅为一半,性价比超过 40 倍。未来,Ali-NPU 的能力,不仅可以更好地满足视频、图像处理需求,还可以通过阿里云进行计算能力的输出,赋能各行各业。

阿里云的时代机遇

为更为有效地把握此次机遇,张建锋对于「阿里云」的内涵提出了完整的梳理和定义,「阿里云提供的不仅仅是云计算技术本身,而是『新』技术的综合」。具体来看,『新』技术包括三类,云计算、大数据技术、智能化技术,同时与当下的移动化技术结合构成阿里云的新内涵。

三年前,马云提出「五新」,认为这五个「新」将会对各行各业发动巨大的冲击和影响,「新技术」就是其中之一。张建锋给出了自己的理解,「大多数技术方向都是崭新的,但我们认为的』新』更关注其形成的趋势,为新技术投资能够站在世界的前沿。」

针对云计算技术而言,对比传统 IT 系统,体现出成本、稳定性、安全性、效率等多重优势。

在成本层面,云计算设施的成本投入可大幅降低,通过供应链、部件、网络的优化,可降到传统 IT 中心的一半。

在稳定性层面,阿里云通过实现预测技术进一步提高准确率和稳定性,核心部件在出现故障以前可预测并处理。此外,云计算厂商通常更早先于厂商发现漏洞,修复漏洞,阿里云目前每年修复上百万个漏洞。相比传统 IDC 系统,云的安全性可高出 1-2 个数量级。

基于云计算的统一调动模式,调动效率可提升 3 倍。总体来看,「云具备碾压式的优势,具备大规模运维的可能。」张建锋提到。

阿里云之上,在张建锋看来,「飞天云操作系统」是阿里云十年来的集大成之果,阿里将其定义为「中国唯一的自主研发的云操作系统」——「从创立之初,每一行代码都是自己写的」。系统采用开放的标准,开源兼容的搭建逻辑,建构了百万台集群,成为国内最大规模的基础设施平台之一。

要实现数据智能,数据中台是最佳的实现方式,基于「飞天云操作系统」,阿里还搭建了「飞天大数据平台」和相应的计算引擎,可实现单日数据处理量 600+PB。(PB 是数据存储容量的单位,它等于 2 的 50 次方个字节,在数值上大约等于 1000 个 TB。)

阿里的计算引擎包括离线和在线两个部分,比如淘宝首页的个性化推荐,涉及到 20 亿商品,数亿用户,计算量极大,可采用离线模式基于个人兴趣的事先定制好的;而搜索结果,则需要海量数据的实时化计算。

众所周知,阿里很早就开始践行了「中台」战略,利用「业务中台」,实现盒马鲜生、钉钉、飞猪等创新业务前端部门通过平台的产品技术模块迅速搭建。而「数据中台」则打破了不同业务部门之间的烟囱式 IT 架构,打通数据孤岛,带来了持续的高效创新。目前「中台」战略已经成为诸多大型互联网公司的借鉴思路。

关于平台和中台的逻辑关系,张建锋谈道,「在平台之上是中台,平台提供能力,中台是方法,既要有能力,也要有方法。」

张建锋还谈道,基于数据来重构业务流程和业务逻辑对于每一家公司来说,都至关重要。至于阿里,通过数据中台实现了阿里巴巴集团级的业务协同,涉及超过 25 个事业部、300 个业务单元。此外,要实现从管理决策到智能决策,大量的业务流程要从前置思维变为后置思维。

智联网也是阿里重点布局的方向之一,物联网将万物连接起来,而如今大部分连接的物体具有智能功能,于是智联网 AIoT 成为物联网的发展方向。

在该方面,阿里已经做了不少工作,包括自研高性能云端 AI 芯片,性能提升 10 倍;丰富的端侧生态,可支持 100 种传感器,支持 200 芯片模型;云端一体化的智能平台,包括 300 种行业算法模型,产业 AI 10 个行业大脑。

综合来看,飞天操作系统、飞天大数据平台、阿里巴巴双中台、智能网 IoT 将成为阿里「all in cloud」的四张王牌。

面向 AI 初创的阿里云

把握时代机遇,阿里迎来了新面孔。

贾扬清首次以阿阿里巴巴集团副总裁,阿里云智能计算平台事业部总裁身份亮相。作为 Caffe、Pytorch 的重要贡献者之一,贾扬清深受 AI 开发者认可,他曾任 Facebook AI 架构部门总监,负责前沿 AI 平台的开发;今年三月转战阿里,继续为阿里云的大数据及 AI 的产品与工程研发贡献力量。

活动现场,贾扬清分享了硅谷高精地图创业公司 DeepMap 采用阿里云研发及构建业务系统的案例。

DeepMap 采用「众包」形式,让客户的自动驾驶汽车作为地图数据采集的测绘车,通过算法解决地图精度问题,从海量传感器数据到高精地图解决方案中,DeepMap 使用大数据计算和 AI 加速了业务的创新。

基于业务的海量传感器数据特点,比如,汽车每行驶 100 公里,采集到的数据量将达到 3TB 涉及,数十种传感器,对于系统和平台提出挑战。于是,DeepMap 在创立之初就选择了云计算,这同时也是当下新型互联网公司的主要特点。「新型互联网公司从第一天起就是基于云来做,这为他们提供了反超的可能。」张建锋谈道。

在阿里云提供的解决方案中,涉及数据、存储、计算、开发、部署等全套流程。比如,将道路汽车、交通信号、边界线等各种结构化和非结构化数据分别存储在 RDS PostgresSQL、EMR、OSS 等不同类型数据库里,其中 SparkSQL on OSS 比开源实现快 2.3 倍,并通过冗余、多副本、存储日志等措施实现存储、读取安全可靠稳定性。

然后,基于数据库和计算平台和计算引擎的无缝打通,数据通过大规模 GPU 加速集群、机器学习 PAI 平台进行分析和处理,迅速挖掘出价值。

贾扬清强调,除了软件的支持,云上的更大优势体现在软硬件结合,传统 IT 方案从开发到部署通常是解耦的方式,通过阿里云的方案可实现从开发解锁到部署环境一致性,通过 K8S 工具平台更好地迭代,一键式全球部署。

随着云服务成为 IT 行业的最大场景,大型云厂商也将重塑上下游链条。在国际市场,巨头公司亦先后加入芯片研发以摆脱芯片制造商牵制。

放眼全球,Facebook、谷歌、苹果、亚马逊等美国科技巨头均投入 AI 芯片的研发和不久。谷歌已将自主研发的 AI 芯片 TPU 应用于加速搜索、翻译、相册等功能。2018 年 2 月,亚马逊开始设计制造 AI 芯片,计划应用于云端摄像头、Echo 扬声器等以服务智能家居硬件市场。同年 4 月,苹果宣布正在开发 Mac 电脑定制芯片,将于 2020 弃用英特尔,导致英特尔股价暴跌 9.2%。国内百度曾公布面向云端的人工智能芯片项目「昆仑」。

据机器之心了解,阿里和腾讯还同时正在研究量子芯片,为人工智能提供无限计算能力。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2019-07-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券