专栏首页陌上风骑驴看ICISSCC 2020: AMD - Chiplets, 把积木玩起来

ISSCC 2020: AMD - Chiplets, 把积木玩起来

本文翻译自EEtimes, 点击文章左下『阅读原文』可以跳转到原文,限于时间跟脑容量,分两次翻译,今天翻第一部分,主要讲AMD 应用Chiplets 架构的受益。引用某大神在朋友圈发的一句话:『以前以为Chiplet 只是有钱人的乐高,本质上和搭积木并没啥差别,但这次ISSCC 让我们看到Chiplet 直接给体系架构和Analog 开出了一片未开垦的处女地!』

今年ISSCC 会议,处理器分会场以AMD 的两个演讲开场,随后是三星和联发科关于最新5G 智能手机芯片的演讲,此外还有来自CEA 技术的一个研究项目:proof of concept design, TI 的车载SOC, 以及IBM 最新的Z 系列大型处理器。

由于该会议的主题是电路设计,因此每个供应商都将重点放在其处理器中采用的一个或多个独特的电路设计方法上。

国际固态电路会议 (ISSCC) 是半导体行业历史最为悠久的技术会议之一,每年二月举办,大会囊括了学术界和业内人士,探讨电路设计的最新挑战。

今年会议涵盖了广泛主题,包括锁相环,低功耗电路,存储器,SerDes, DSP 和处理器设计等。处理器部分,有行业领头羊,也有来自科研机构和学术界的项目。每个主题都干货满满,本文将攫取处理器主题中有趣细节。

AMD Zen 2 and EPYC chiplets


AMD 的两个演讲相互衔接,一个讨论了最新EPYC server 处理器中使用的Zen 2 CPU 内核的设计;另一个讨论了EPYC chiplets 体系架构,该体系架构使得EPYC 可以在一个插槽中提供64-CPU cores 而不需要大量的die. Chiplet design 使得AMD 将基于三颗die 的模组设计应用于众多产品和市场。

Zen 2 CPU 演讲,讲述了使用台积电7nm 工艺制造首款x86 处理器所面临的挑战。 EPYC server 处理器的设计目标是:使同一插槽中的CPU 内核数量增加一倍,而不超出插槽能承受的功率;此外,每个CPU 核每个周期的指令性能要相对SPECint 2006 提高15%。之前已有许多关于Zen 2 体系结构革新的讨论,在ISSCC 演讲中,AMD 聚焦于电路设计的挑战。

AMD 的设计非常模块化,基本模块是CPU Complex (CCX), 每个CCX 有 4个CPU 核,L2 和L3 Caches 及 Infinity Fabric 系统总线。基于4 核基本模块,AMD 可以将设计范围从笔记本电脑(4-8核)扩展到服务器(最多64核)。尽管Zen 2 增加了三级缓存,但CCX 模块从上一代的44 平方毫米缩小到了31.3 平方毫米。

7nm 工艺需要更多金属层,Routing 规则也发生了变化,而且设计从10.5 tracks 切到了6 tracks, 高度变矮驱动变弱,这些都给设计实现带来了挑战。但7nm 的漏电更小,面积更小,负载更小—— capacitance-per-cycle 减少了9%。

AMD 使用了多种设计技术,例如时钟整形,并设计了五种不同的触发器,这对关键的sequential timing loop 很重要。设计人员还将3% 的功率预算转移到了组合逻辑上,以获得更高的性能。通过这些和其他电路优化技术,Zen 2 最高可以跑到4.7 GHz, 可以在更低的电压下跑到Zen 1 的最高频率。

AMD 的第二个演讲介绍了基于Zen 2 服务器产品的 Chiplet 策略。 AMD的主要获益之一是仅TO 3 颗Die ,就可以制造支持多个市场的产品。当芯片分散在整个封装中时,使用Chiplet 也有散热上的好处。

AMD 的目标是使每个插槽的性能大幅提升,这使得第二代EPYC 处理器CPU 核的数量增加了一倍,AMD 完成了每2.5 年将性能提高一倍的目标 ( SPECint 2006 ). 新的EPYC 处理器还提高了memory latency. 使用Chiplets, AMD 可以构建64 核服务器芯片,这在单片芯片解决方案中即不可行也不经济。

AMD 还通过使用更小的chiplets 来优化成本结构并提高芯片良率。 AMD 将昂贵的7nm 工艺用于Core Cache Die (CCD),并将DRAM 和PCIe 逻辑移至 GlobalFoundries 12nm。每个CCD 由具有四个Zen 2 内核的两个CCX 模块以及L2 和L3 Cache 组成,其中86% 的CCX 专用于CPU 和L3 Cache, 每个CCD 都是一个微型SoC,其中包括片上电源管理、Infinity Fabric 系统总线、时钟等。

在所有这些要求下,存在许多挑战。现在,对于所有CCX 模块,内存控制器都集中在单独的芯片上,新的EPYC 处理器改善了average memory latency. 但是,最佳情况下的Latency 仍然需要关闭CCD 去访问内存,从而,AMD 设计专注于减少Infinity Fabric latency,因此最佳情况下的延迟仅增加了4ns.

由于AMD致力于保持EPYC 封装的尺寸和引脚排列不变,因此需要close silicon/package 协同设计,因为die 的数量从第一代EPYC 的四个增加到第二代EPYC 的九个,Routing path非常紧,需要在内部CCD Chiplets 下走线,信号才能到达远离中央I/O 芯片的 CCD chiplets.

ISSCC 的许多其他演讲都以处理器处于重负载状态时如何补偿内部IR-drop 的电路为特色,AMD 有一个 "current shunt - extra current" 电路来补偿IR-drop 并调整时钟频率。相同的LDO 允许针对单独的Core 做线性调节,根据每个Core 的运算能力来调整电压,从而节能。


驴说IC

本文分享自微信公众号 - 陌上风骑驴看IC(MoShangFengQiLv),作者:陌上风骑驴

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 低功耗 | 从综合到PostRoute 功耗的Gap 有多大

    PPA, Performance, Power, Area 是衡量一颗芯片的基本指标,这三大指标中Power 是最诡诈的,它不像Performance 跟Are...

    老秃胖驴
  • 论STA | clock min period check

    有时候,问题的来去也会扎堆,周二跟某几位小朋友讨论过clock min period check, 今天又跟某小猪讨论了一遍。

    老秃胖驴
  • 一文懂 | 数字实现流程各步骤的输入输出

    应某友人要求,写一篇总结数字电路实现流程各个步骤的输入输出文件都有哪些。本文所有输入输出都基于Cadence 数字实现工具,其他厂家对应工具需要的输入文件也都大...

    老秃胖驴
  • 一诉再诉,AMD对联发科苦苦相逼,芯片阵营波澜不断

    它们开年在CES上抢尽了英伟达的风头,不仅发布了全球首款7nm游戏显卡,甩出“王之蔑视”直怼RTX 2080,还打破了以往的“PPT之王”称号,首次在发布重磅新...

    镁客网
  • AMD的ROCm GPU现已支持TensorFlow

    AMD宣布推出支持TensorFlow v1.8的ROCm GPU,其中包括Radeon Instinct MI25。这是AMD加速深度学习的一项重要里程碑。

    AiTechYun
  • AMD CEO苏姿丰入选彭博50年度人物,今夏曾陷离职传闻

    编辑:大明 【新智元导读】AMD女掌门苏姿丰入选彭博社评选的Bloomberg 50年度杰出人物。彭博称,该榜单的评选标准为来自金融、时尚、技术和贸易等领域内“...

    新智元
  • kubernetes系列教程(二)kubeadm离线部署1.14.1集群

    本章是kubernetes系列教程第二篇,要深入学习kubernetes,首先需要有一个k8s环境,然而,受制硬件环境,网络环境等因素,要搭建一个环境有一定的困...

    HappyLau谈云计算
  • 手把手教你进行Anaconda的安装

    大家好,我是星期八,是一个每天都要在镜子前给自己梳仅剩三根头发的三年码农。上篇文章我们已经了解了Anaconda和直接安装Python区别、Anacon...

    Python进阶者
  • 常用selenium浏览器配置

    selenium webdriver在get()方法会一直等待页面加载完毕才会执行后面的,可如果加载时间太长会导致后续操作无法进行。有时我们要的信息已经加载出来...

    十四君
  • 传AMD女掌门苏姿丰将离职,欲出任IBM接班人?苏妈火速辟谣

    AMD CEO苏姿丰要离职,去IBM出任二号人物?刚刚的一则“爆炸”消息引发了广泛关注。

    新智元

扫码关注云+社区

领取腾讯云代金券