专栏首页Rust学习专栏Alder Lake会是英特尔的救世主吗?
原创

Alder Lake会是英特尔的救世主吗?

目前半导体行业的发展可以用冰火两重天来形容,传统的桌面及移动SOC市场已经基本停止增长了,而云计算成了各大巨头的兵家必争之地,这点笔者在前文《英特尔火线换帅、苹果搅动乾坤,国芯路在何方》已经有过详细论述了。

在行业整体突飞猛进的基础上,技术之魂帕特.基辛格从Vmware回归以后,英特尔便开始了史无前例的颠覆式革新,最近他们拿出了一款从头到脚本全面升级的重磅产品Alder Lake,可以说Alder Lake的发布不但告慰了葛洛夫、欧德宁等前任CEO的在天之灵,同时也宣告英特尔戏彻底摘掉了“牙膏厂”的帽子。

Alder Lake是一款从上到下全面升级的处理器,采用大小核设计,其小核拥有拥有5000个条目的分支目标缓存区,实现更准确的分支预测;并将指令缓存扩冲到64K;簇乱序执行解码器,可在保持能效的同时,每周期解码多达6条指令,并支持AVX指令集。

大核的升级则更加明显,指令解码器由4个增至6个,发射宽度由6µop增加到8µop,分配由5路增至6路,执行端口由10个增至12个,提高了分支预测准确度。

Alder Lake几乎是对前代X86架构芯片从上到下的全面升级,其颠覆效应非常明显,个人认为以下方面非常的升级非常令人惊喜。

牙膏的配方都换在哪了

大小核入云值得期待:big.LITTLE大小核架构是ARM在移动SOC领域引入的概念,虽然本次英特尔将其命名为能效核与性能核,但其本质上就是大小核,从直观感受来看能效核、性能核的叫法,听起来不如大小核那么容易理解。简单来说大小核就是让小核去处理那些对算力要求比较低的问题,大核则专注于处理计算密集型的任务。在手机上这个概念非常容易理解,在手机熄屏待机时用小核工作,而当用户进行游戏或者观看视频时则启动大核。

之前英特尔一般使用睿频技术,也就是通过调节主频来进行能耗的优化。没有引入大小核来解决问题的主要原因在于一般来说小核不支持AVX等SIMD矩阵加速的指令集,但SIMD对于云计算应用领域几乎是无处不在的,也就是说支持AVX512的大核几乎没有休息的可能性。不过这次英特尔的能效核直接支持了AVX指令集,并且还能在性能保持一样的情况下,将能耗控制在前代的40%,这样大小核的设计引入云计算领域就变得颇为合理了。

在AI训练等云计算的典型领域中,在初始的数据清洗、数据整理、以及前20%的神经网络结构建立过程中对于算力的要求都不是很高,这时候支持一定矩阵加速的小核完全可以应对,这同时也给大核以休整的机会,大小核的协同作战的确给了云计算领域增加了不小的可能性。

AMX打开AI云的新天地:虽然目前我没还没有真实感受过AMX的威力,但是其上一代技术AVX-512和VNNI都是业界口碑极佳的技术,比如在TensorFlow跑ResNet,那么英特尔的AVX512优化版就是你不二的选择,因为相较于默认版来说,英特尔的AVX-512优化版本,速度提升了10倍。

在经典神经网络中常使用FP32也就是32位的数据来作为输入,但是很多研究表示,如果使用int8类型做为输入,计算量至少可以下降75%。但精度损失却可以低于1%的。而VNNI则致力于FP32到int8的加速过程,从我掌握的情况看腾讯通过VNNI技术实现了一个可以实时生成用户3D头像的模型,在精度降低1%的情况下,性能还提升了4.23倍。另外英特尔和阿里云在Ice Lake上也针对自然语言处理的Transformer模型进行了深度优化,通过VNNI的加速实现了3倍的性能提升。

根据目前英特尔关于AMX的资料上看,这项技术可以在每个周期内进行2000次 INT8运算和1000次 BFP16运算,与之前的AVX-512 和VNNI指令的相同微基准测试版本相比,使用新的英特尔AMX指令集扩展优化的内部矩阵乘法微基准测试的运行速度提高了7倍以上,如果这个性能指标是准确的话,那么AMX也是相当值得期待。

融合计算平台,未来演进方向:从近几年形势看,CPU,GPU,FPGA,ASICs等芯片共同构成了IT技术栈的算力底层,每种结构的芯片似乎都不能单独承担重任。从目前的资料上看,Alder Lake更像是CPU,GPU,FPGA,ASICs的多架构融合体系,是CPU、GPU与协处理器的混合体,堪称融合式计算平台的典范。

当然这种程度的颠覆升级难免会出现这样或者那样的问题,这里我个人也对英特尔有一些建议。

哪些方面的牙膏还得再挤狠一点

Thread Director需要加快与Linux的融合:大小核虽然是一项比较成熟的技术,但是在X86架构的处理器中还是首次引入,我们知道在ARM刚刚引入大小核设计时经常会出现一核有难,八核围观的现象,为解决调度难题,Intel在Alder Lake处理器中引入了Thread Director的软、硬结合技术,他在处理中集成了一个专用的MCU,用来监控当前处理器内核的运行情况,能够监测到每个线程的特征,比如它运行什么样的指令集、它的性能需求如何等等。在收集完信息之后,它会将收集到的信息反馈给操作系统,操作将会把这些信息与自己线程调度器相结合,判断是否应该将线程转移到别的核心上。如果与操作系统结合的好,那么一轮信息采集工作仅需要30微秒就能完成,而传统的调度器可能需要100多毫秒才能判断出结论。

从目前的情况看Thread Director已经与Windows 11进行了结合优化,但是在云服务器领域Windows的份额几乎可以忽略不计,Linux内核的操作系统才是主力军,不过我目前还没有看到有关Thread Director的优化被Merge到Linux的主分支上。如果没有Linux的优化加持那么Alder Lake的大小核在云计算市场上的表现很可能不会尽如人意,因此与Linux的结合优化需要提速了。

CPU和GPU的通信能力需要加强:CPU和GPU通信速度的重要性,可以用苹果M1的例子来加以说明,我们知道苹果M1显卡与内存加在一起只有16个G,对比上一代MAC PRO内存128G,光是显存都有16G,不过搭载M1的入门版MAC在进行图像处理等需要CPU与GPU进行协同的运算任务时,至少比上一代顶配的MAC性能高出近一倍。其中的秘决就是将内存与显卡进行统一管理,从而大大提高了CPU与GPU的通信效率。类似于DMA控制器在磁盘与内存之间搭建了一条快速通道一样,英伟达之前发布的Grace处理器也采用了和M1比较类似的思路,但是在Alder Lake中似乎并没有借鉴这项设计,建议后续可以考虑。

加大生态建设方面的投入:我们知道英伟达之所以能在AI及区块链方面有着如此出彩的表现,高性能计算框架CUDA绝对是居功至伟,正是在CUDA的帮助下英伟尔的GPU进可以AI训练、区块链挖矿;退可以玩大型游戏,爽得不亦乐乎。英特尔其实在软件生态方面的贡献做得不少,比如在机器学习领域使用最多的开源框架Scikit-Learn方面,通过英特尔的优化工作,也让这个使用程度最广泛的机器学习框架获得了100倍的提升,而且这次也推出了oneAPI的整合框架,基于oneAPI开发你的软件,无需考虑是CPU还是GPU还是TPU的问题,oneAPI会自动让你的代码在最适合的设备上运行。

不过问题还是在于生态方面,用得人不多,再好的技术效果也出不来,因此建议英特尔加强针对oneAPI框架的专项优化,只要oneAPI的生态能建立起来,再加Alder Lake这样的融合计算平台,英特尔的未来值得期待。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 又开始「挤牙膏」?英特尔7纳米芯片发布时间推迟到2022年

    在今年 4 月举办的 2020 英特尔中国年度战略分享会上,英特尔宣布其芯片工艺提升速度已经全面恢复,「2020 年 10 纳米制程全面铺开,2021 年进入 ...

    机器之心
  • CES 2021 三强「争霸」:AMD、英特尔、英伟达各显神通

    13日,AMD、英特尔、英伟达各自开了一场线上发布会,新品有点多,绝对有你喜欢的一款,我们慢慢梳理。

    新智元
  • 英特尔CEO将换人?传候选人已有三位,鲍勃·斯旺时代将结束

    预计,待 2021 年第一季度财报公布后,英特尔会做出人事决定。而据知情人士透露,英特尔目前正在考虑的候选人有三位。

    新智元
  • 眼馋苹果M1,牙膏厂首款大小核处理器即将上市!显卡AI超级采样,台积电N6制程

    首个性能混合架构处理器;全新的独立显卡架构;为数据中心打造的下一代至强处理器;全新IPU;oneAPI 工具包。

    新智元
  • 程序员大神Linus转投AMD:我希望英特尔的AVX 512指令集「去死」

    Linux 首席架构师,当今全球最著名程序员之一 Linus Torvalds 最近在邮件列表中的言论再次引起一片哗然。

    机器之心
  • Linux 30周年礼物:Linux 5.14闪亮登场!添加新硬件和秘密内存区域支持

    Linux 之父Linus Torvald:庆祝完Linux 30 岁了吧,一起来看新的 Linux 5.14。

    新智元
  • 让AI不再遥远,智能世界需要用“芯”!

    AI看似离我们很遥远,其实正在悄然融入到我们的生活与工作之中。无论是商家智能推荐商品给用户,还是自动驾驶汽车走向商用,亦或人脸识别应用带来的便捷……一个智能世界...

    大数据在线
  • 英特尔10nm至强CPU发布,对标AMD“米兰”EPYC,然而结果尴尬了

    英特尔首款10nm工艺的服务器处理器来了,基于Ice Lake的第三代至强可扩展处理器正式发布。

    量子位
  • 苹果M1用着舒服的原因找到了,英特尔:学到了,下次我也用

    这老哥总之是有钱,M1和英特尔版的iMac都买了。业余时间他喜欢自己开发点实用小工具,比如压缩软件。

    量子位
  • 英特尔第三代 Ice Lake 发布正面与 AMD EPYC PK,结果令人大跌眼镜!

    北京时间4月7日晚,在著名的网红打卡地,百年老首钢工厂遗留下的工业建筑群——首钢园,英特尔新一代至强处理器面世。

    AI科技大本营
  • AI一分钟 | 李世鹏加盟科大讯飞;Facebook正研发智能音箱,将搭载自家语音助手

    今天,科大讯飞正式宣布引入信号与图像处理、计算机视觉的国际顶尖人才李世鹏博士,担任科大讯飞副总裁、讯飞 AI 研究院联席院长。李世鹏将领导科大讯飞研究团队在人工...

    AI科技大本营
  • 英特尔加快发展AI芯片业务,预计2022年收入达到100亿美元

    英特尔在过去20年中销售了超过2.2亿台至强处理器,创造了1300亿美元的收入。但最新的10亿美元来自AI应用的销售,这可能是最重要的。

    AiTechYun
  • 黑色星期五|VR厂商又放血,电子产品真的不能再优惠了!

    感恩节一过,万众瞩目的黑色星期五终于到来了!各大商家感恩大回馈,价格一压再压,低到吓人。在这一年一度拼手速的日子里,你的体力还够吗?

    VRPinea
  • 专访 | 英特尔AIPG数据科学主任 Yinyin Liu:英特尔更注重构建整体性端到端平台

    机器之心原创 作者:邱陆陆 2016 年起,英特尔在人工智能领域接连的大手笔收购引起了业界广泛关注。从 Nervana 到 Movidius 和 Mobiley...

    机器之心
  • 英特尔开启10纳米时代!发布11款第十代内置AI酷睿处理器

    今天,英特尔正式发布了多达 11 款第十代酷睿处理器,新处理器采用10nm工艺,代号Ice Lake,专为轻薄型笔记本设计,包括低功耗的 U 系列和超低功耗的 ...

    新智元
  • 7nm芯片登陆笔记本电脑!AMD公布Ryzen 4000移动处理器,强势挑战英特尔 | CES 2020

    7nm芯片工艺,终于被引入笔记本电脑了。在CES 2020上,AMD第三代笔记本电脑Ryzen处理器正式亮相:

    量子位
  • CES现场芯片巨头上演开年大战!AMD、英特尔、英伟达、高通震撼对决

    一年一度科技圈的开年大戏“CES”正在美国拉斯维加斯上演。包括AMD、英特尔、英伟达和高通在内的芯片巨头展示了它们最新的产品和技术。

    新智元
  • H35平台下的i5-11300H,优质体验能抗能打!

    2021年年初的CES中,英特尔带着第十一代酷睿的Tiger Lacke H35平台进入大众市场。这次发布会英特尔一次性发布了三款H35处理器型号——i5-11...

    云上计算
  • 专访 | 英特尔收购Nervana后的第一张王牌Lake Crest,号称比GPU速度快10倍,年底测试

    记者 | 谷磊 编辑 | 鸽子 近年来,人工智能在经历了两次大的低潮后又成为科技界的大热门,这和深度学习这个分支的勃兴有很大的关系。在训练深度神经网络的时候,人...

    AI科技大本营

扫码关注云+社区

领取腾讯云代金券