AI 模型大规模推理时代,如何打破 CPU 算力天花板? 作者丨木青 编辑丨李梅 从数据分析、经典机器学习到搜索、推荐,再到语言处理和图像识别,每个 AI 任务运行的背后都需要海量的数学计算。...回望英特尔历代至强® 可扩展处理器的深度学习加速技术(即DL Boost),已经将这一提升路径充分实践并拉高优化天花板:从第一代至强可扩展处理器引入的AVX-512——中低端型号每核心配备1个FMA单元...、高端型号每核心配备2个FMA单元,到代号Ice Lake-SP的双路第三代至强可扩展处理器将此类配置扩展到全系列产品,并将最高核心数从28增加至40个,CPU的向量处理能力得以大幅提升。...目前,前三代英特尔至强® 可扩展处理器的加速路径,主要依靠现有的计算单元,即AVX-512,配合指令集、算法和数据上的优化,输出AI算力。 但加速的天花板就到此为止了吗?...同时,Sapphire Rapids还引入了加速器接口架构 (AIA) ,解决了无缝集成加速引擎和高性能核心时面临的关键挑战——能够处理 CPU 内核与内置加速器之间的数据高效调度、同步和信令传递,而不是高开销内核模式
CPU的算力取决于 CPU 特定加速指令集或运算单元的持续引入及改进,那么通过强化算力单元和增加算力单元数量并举,即Scale-Up与Scale-Out相结合,提升CPU的AI算力。...回望英特尔历代至强® 可扩展处理器的深度学习加速技术(即DL Boost),已经将这一提升路径充分实践并拉高优化天花板:从第一代至强可扩展处理器引入的AVX-512——中低端型号每核心配备1个FMA单元...、高端型号每核心配备2个FMA单元,到代号Ice Lake-SP的双路第三代至强可扩展处理器将此类配置扩展到全系列产品,并将最高核心数从28增加至40个,CPU的向量处理能力得以大幅提升。...目前,前三代英特尔至强® 可扩展处理器的加速路径,主要依靠现有的计算单元,即AVX-512,配合指令集、算法和数据上的优化,输出AI算力。 但加速的天花板就到此为止了吗?...同时,Sapphire Rapids还引入了加速器接口架构 (AIA) ,解决了无缝集成加速引擎和高性能核心时面临的关键挑战——能够处理 CPU 内核与内置加速器之间的数据高效调度、同步和信令传递,而不是高开销内核模式
第四代英特尔至强可扩展处理器拥有最高60个CPU内核的同时,还具备新特性,包括通过DDR5增加了内存带宽、通过PCIe5.0和Compute Express Link (CXL) 1.1互连增加了I/O...为此,第四代至强可扩展处理器内置了全新的英特尔AMX、DLB、DSA、IAA、QAT内核,并加强了英特尔安全、AVX-512等先进技术。...英特尔AVX-512还支持两个融合乘加(FMA)单元和其他优化功能,可帮助提升要求严苛的计算工作负载性能。...多家合作伙伴力挺 在今天的发布会上,来自腾讯云、天翼云、京东云、阿里云、火山引擎、吉利汽车、浪潮信息与亚信科技的伙伴亦分享了其如何基于第四代英特尔至强可扩展处理器推动产品、技术创新,及在诸多领域落地的成功实践...英特尔表示,相比于增加CPU内核,内置加速器对于提高工作负载的性能而言是一种更为高效的方式。通过内置加速器和软件优化,英特尔至强可扩展处理器已经为真实使用场景中的目标工作负载提供了领先的每瓦性能。
那已经是老刻板印象了,英特尔® 至强® 可扩展处理器搭配 AVX-512 指令集,单核一次能同时进行 128 次 BF16 浮点运算,这对于一般的深度学习模型不论在训练还是推理已经是足够的了。...本文将主要介绍近几年 英特尔® 至强® 可扩展处理器 在模型训练上的努力与进展,包括 AVX-512 指令集、DL Boost 低精度训练模型等等;用这一套配置实操训练模型也很简单,这里我们将简单看看...现在,英特尔至强处理器所采用的 AVX-512 指令集(Advanced Vector Extensions,AVX),在 SIMD 的基本想法上,已经经过 20 多年的优化与发展,其寄存器已由最初的...例如拿一个入门级的小模型 LeNet-5 作为示例,我们可以讨论一下如何用几块性价比极高的英特尔® 至强® 可扩展处理器,打造一个计算核心可分配的深度学习系统。...在制造业,基于机器视觉的工业辅助检测,或者基于云边协同新架构的 AI 瑕疵检测系统,都能引入了英特尔® 至强® 可扩展处理器作为边缘服务器的核心计算引擎,并借助英特尔 AVX-512 技术,为深度学习推理任务中的密集计算提供硬件加速
3 英特尔® 至强® 可扩展处理器算力赋能 加速AI推理过程 提到AI的推理,大家的第一反应可能是需要强大的GPU。但实际上,经过多年的发展,CPU同样可以加速推理过程,且性价比更高。...CPU指令集是计算机能力的核心部分,英特尔® AVX-512指令集旨在提升单条指令的计算数量,从而提升CPU的矩阵运算效率。...了解了基本原理后,我们再来看使用CPU训练模型的优势就很明显了:在只使用英特尔® 至强® 可扩展处理器的情况下,内存可以便捷地根据需要扩充,同时也可以根据任务和场景分配计算核心,这样的灵活性是其它硬件很难具备的...3.大尺度卷积核放在最后几层;在网络的尾端,用只有5×5卷积内核取代3×3卷积内核的影响,与所有层的网络层都使用5×5卷积内核的网络效果几乎一样。所以只在网络尾端做了5×5卷积内核替换操作。...有了这四个变化,在英特尔MKLDNN加持下的至强可扩展处理器实现了71.32%的top-1准确率和2.46ms的延迟,其准确率和速度都大大超过之前的网络结构。
高性价比的解决方案:英特尔®第四代至强®可扩展处理器 AI 社区存在一个刻板印象:CPU 不适合承载 AI 任务。...为了实现性能与成本的平衡,他们选择用 CPU 来处理 AI 推理等工作负载。 那么,什么样的 CPU 能同时顶住多重考验?答案自然是英特尔® 第四代至强® 可扩展处理器。...与运行英特尔® 高级矢量扩展 512 神经网络指令(AVX-512 VNNI)的第三代英特尔® 至强® 可扩展处理器相比,运行英特尔® AMX 的第四代英特尔® 至强® 可扩展处理器将单位计算周期内执行...下图显示,在 AMX、BF16 混合精度、8 通道 DDR5、更大高速缓存、更多内核、高效的内核到内核通信和软件优化的配合下,主流的 48 核第四代英特尔® 至强® 可扩展处理器可以将代理模型的吞吐量提升到...来自对比测试的数据表明,相比通过英特尔® AVX-512_VNNI 技术来实现 AI 加速的、面向单路和双路的第三代英特尔® 至强® 可扩展处理器,ERNIE-Tiny 在升级使用内置英特尔® AMX
Xeon MAX CPU 新Xeon MAX CPU中的 56 个内核均为 P 核,可提供 112 个线程和 350W TDP。它采用基于 EMIB 的设计,分为四个集群。...在性能方面,英特尔称,Xeon Max配备的高带宽内存足以满足最常见的HPC工作负载,与旧的英特尔至强 8380 系列处理器或 AMD EPYC 7773X 相比,可在某些工作负载中提供接近 5 倍的性能...新 CPU 中还包含 20 个加速引擎,主要是用于 AVX-512、AMX、DSA 和英特尔 DL Boost 工作负载。...此外,Aurora 还将率先展示在单个系统中将 Max 系列 GPU 和 CPU 配对的强大功能,拥有超过 10000 个“刀片”,每个“刀片”包含六个 Max 系列 GPU 和两个至强 Max CPU...未来英特尔还会推出代号Falcon Shores的XPU,其包含两种类型的计算单元,分别是CPU和GPU,将广泛使用英特尔的多芯片/多模块方法进行设计,根据目标应用的需求,灵活配比x86和Xe-HPC架构的内核数量
从 2019 年英特尔为其第二代至强可扩展处理器增添了内置的深度学习加速技术后,原本定位通用计算的 CPU 芯片,也加入了为 AI 加速的行列。...新一代英特尔 CPU 为 AI 任务处理找到了新方向。现在,英特尔可以通过新 CPU 和 GPU 实现对各类 AI 任务的加速。为实现这些提升,英特尔引入了一系列内置加速单元。...它是这么想,也是这么做的 —— 首先,从 2017 年第一代至强可扩展芯片开始,英特尔就开始利用英特尔高级矢量扩展 512 技术(AVX-512 指令集)的矢量运算能力对 AI 进行加速上的尝试,到 2018...就在大家认为英特尔在 CPU 加速 AI 的技术创新和投入会止步于此的时候,第四代至强可扩展芯片,又带来了矩阵化的算力支持 ——AMX。 第四代英特尔至强可扩展处理器。...这种全新内置 AI 加速器的出现,进一步验证了「与其增加 CPU 内核数和时钟频率,加入和更新专用计算单元对提升 AI 工作负载性能更有效」这一思路。
预计在明年下半年,英特尔会推出下一代的至强可扩展处理器,代号为Sapphire Rapids。 截至目前,英特尔CPU是业界唯一集成AI加速的处理器。...具体而言,在对AI的支持上,第一代至强可扩展处理器Sky Lake提供了AVX-512指令集,AVX-512指令集可以用FP32的数据格式进行深度学习计算;第二代至强可扩展处理器Cascade Lake...第三代至强可扩展处理器是首批内置bfloat16支持的主流服务器CPU,而bfloat16则是英特尔深度学习加速(英特尔DL Boost)功能当前主打的指令集技术,同时,英特尔还升级了DL Boost深度学习加速技术...结合DL Boost以及bfloat16,英特尔第三代至强可扩展处理器平台相比上一代平台Cascade Lake最顶级的CPU 8280,在进行图像分类处理的时候,计算性能可以提高1.93倍。...,搭配bfloat16的数据格式,在AI的训练性能上相比上一代可以提高93%,AI推理性能可以提高90%;针对云计算的虚拟机密度场景下,第三代至强可扩展处理器支持的内核数可以最高到28个核。
从 2019 年英特尔为其第二代至强可扩展处理器增添了内置的深度学习加速技术后,原本定位通用计算的 CPU 芯片,也加入了为 AI 加速的行列。...新一代英特尔 CPU 为 AI 任务处理找到了新方向。现在,英特尔可以通过新 CPU 和 GPU 实现对各类 AI 任务的加速。为实现这些提升,英特尔引入了一系列内置加速单元。...它是这么想,也是这么做的 —— 首先,从 2017 年第一代至强可扩展芯片开始,英特尔就开始利用英特尔高级矢量扩展 512 技术(AVX-512 指令集)的矢量运算能力对 AI 进行加速上的尝试,到 2018...第四代英特尔至强可扩展处理器 这种全新内置 AI 加速器的出现,进一步验证了“与其增加 CPU 内核数和时钟频率,加入和更新专用计算单元对提升 AI 工作负载性能更有效”这一思路。...机器学习包含大量的矩阵计算,在主打通用计算的 CPU 上,此类任务会被转换为效率较低的向量计算,而在加入专用的矩阵计算单元后,至强 CPU 的 AI 能力有了巨大的提升。
甚至传言称英特尔在10nm工艺制程上遇到巨大困难,可能完全放弃10nm计划。 而英特尔突然宣布明年将推出下一代Sunny Cove架构的酷睿与至强芯片。...例如,高性能CPU内核可能构建在性能最高的10nm工艺上,但集成USB、Wi-Fi、以太网、PCIe的I/O连接部分不需要这么高的性能。...英特尔表示,Foveros产品将在2019年下半年出货,该技术已准备好进行大规模生产,它不仅仅面向专用或定制处理器,还包括主流消费级CPU。...10nm部分将包含Sunny Cove高功率核心和四个Atom内核,它与现代手机上的ARM处理器类似,对于较轻的工作任务使用低功耗Atom内核,而Sunny Cove用于计算量更大的任务。...操作系统:Clear Linux操作系统可根据个人开发需求进行定制,针对英特尔平台以及深度学习等特定用例进行了调优; 编排:Kubernetes*可基于对英特尔平台的感知,管理和编排面向多节点集群的容器化应用
不过这样的向量数据库又是如何搭建起来的呢? 腾讯云还有一个杀手锏—— 与英特尔合作,以至强CPU平台为基础,通过软、硬件两方面的并行优化,为向量数据库提供显著的性能加速。...前面提到向量数据库属于密集型计算负载,谈到CPU上相关的加速技术,就不得不提我们的老朋友——从2017年第一代至强® 可扩展处理器开始就内置在这个CPU产品家族中的英特尔® AVX-512指令集。...△英特尔® SSE、英特尔® AVX2和英特尔® AVX-512之间的寄存器大小和计算效率的差异说明 另一项可为向量数据库带来显著性能提升的是英特尔® AMX (高级矩阵扩展)加速引擎,它是从第四代至强...实地测试表明,在第三代至强® 可扩展处理器平台上启用英特尔® AVX-512优化后,相比没有启用优化时,使用IVF-PQFastScan算法执行向量检索时的QPS性能提升了约一倍;而把计算平台升级到目前最新的第五代至强...△英特尔软硬件产品与技术带来的性能提升(归一化) 还有,在使用第五代至强® 可扩展处理器的算力平台上,如果使用英特尔® AMX 加速数据格式为 INT8的测试场景,相比使用英特尔® AVX-512加速数据格式为
作为 CPU 行业的领军企业,英特尔公司一直非常重视 CPU 扩展指令集和专用加速引擎的研发和创新探索,英特尔第五代可扩展至强处理器内置的英特尔 AVX-512 指令集与英特尔 AMX 高级矩阵扩展加速引擎就是这些探索的最新成果...为验证第五代英特尔至强可扩展处理器基于英特尔 AVX-512 及英特尔 AMX 为腾讯云向量数据库中向量检索任务提供的助力,腾讯云与英特尔携手开展了验证测试,测试分为两个场景:第一个场景中,使用英特尔...第二个场景中,同样使用第五代至强可扩展处理器的算力平台上,使用英特尔 AMX 加速数据格式为 INT8 的测试场景对比使用英特尔 AVX-512 加速数据格式为 FP32 的测试场景,性能提升高达 5.8...事实上,英特尔第五代至强可扩展处理器就凭借英特尔 AVX-512 和英特尔 AMX,在诸多科学计算、AI 推理、AI 训练等场景中取得了非常优秀的表现。...正是包括英特尔 AVX-512 和英特尔 AMX 在内的一系列计算创新技术,让 CPU 在生成式 AI 大规模普及的时代依旧能够一马当先,为企业带来显著的生产力提升和竞争优势。
OpenCloudOS 社区最新发布的 OpenCloudOS 9.2,率先完成了对英特尔第六代至强可扩展处理器的适配优化,是国内首个支持第六代至强处理器的开源服务器操作系统。...一、OpenCloudOS 9.2 与第六代至强处理器适配优化英特尔第六代至强处理器堪称至强处理器历史上最大的一次变革,首次推出基于性能核(P-core)和基于能效核(E-core)的两个系列的产品,分别侧重于高性能与高能效...其中新指令集包括:AMX-FP16 for GNR, AVX for SRF(AVX-NE-CONVERT, AVX-VNNI-INT8,AVX-IFMA), CMPCXADD for SRF,PREFETCH...两年时间里,英特尔在内核、虚拟化、编译器、工具链、测试、AI 软件框架等多个项目中贡献了超过 2600+ Patch,深度参与到 OpenCloudOS 社区的建设当中,内容包括:对新处理器平台的适配优化...在众多项目中,英特尔第四代至强可扩展处理器的适配最具挑战性,处理器集成了十余项加速器,引入特性众多,与操作系统内核版本差异大,对内核开发与适配优化提出了极高的挑战。
尤其是在CPU方面,我们在去年下半年推出了最新的英特尔至强可扩展处理器,提供更多的核数,更高的主频。...从英特尔®至强® 处理器E5 2600系列到V3、V4都使用AVX2.0指令集,那个时候,寄存器的位宽是256位,而英特尔最新的AVX-512 指令集将位宽翻了一倍,达到512位。...这对向量化的计算及单指令多数据的计算性能提升了2倍。 在对于视频264转码测试中,相比英特尔®至强® 处理器E5-2690,英特尔®至强®铂金8168处理器的整个性能有94%的提升。...使用英特尔万兆网卡并采用DPDK技术采用了DPDK的技术,绕开kernel直接在用户空间处理,用很少的处理器计算资源实现高带宽,提高了整个系统的转发能力。...而英特尔优化版的Caffe、TensorFlow、MXNet等,可以更好地利用英特尔®至强®可扩展AVX-512指令集来达到更好的性能。 在人工智能的深度学习上,英特尔做了很多优化。
WaveNet声码器可以生成高保真音频,但在计算上它那巨大的复杂性,限制了它在实时服务中的部署; LPCNet声码器利用WaveRNN架构中语音信号处理的线性预测特性,可在单个处理器内核上生成超实时的高质量语音...他们把面向第三代英特尔至强可扩展处理器所做的优化进行了全面整合,并采用了英特尔深度学习加速技术(英特尔 DL Boost)中全新集成的 16 位 Brain Floating Point (bfloat16...事实上,英特尔至强可扩展处理器本就是专为运行复杂的人工智能工作负载而设计的。借助英特尔深度学习加速技术,英特尔志强可扩展处理器将嵌入式 AI 性能提升至新的高度。...目前,此种处理器现已支持英特尔高级矢量扩展 512 技术(英特尔AVX-512 技术)和矢量神经网络指令 (VNNI)。...就像腾讯在针对TTS的探索中获得了性能提升那样,第二代和第三代英特尔至强可扩展处理器在集成了加速技术后,已经显著提升了人工智能工作负载的性能。
应对业务侧日益增长的需求和不断演变的数据服务模式,企业可利用英特尔® 至强® 可扩展处理器上集成的英特尔® 高级矢量扩展 512(英特尔® AVX-512)来继续进行工作负载优化创新。...英特尔® 高级矢量扩展 512(英特尔® AVX-512)是一组指令集,可以加速工作负载和用例的性能,如科学模拟、金融分析、人工智能 (AI) / 深度学习、3D 建模和分析、图像和音频 / 视频处理、...英特尔® AVX-512 可以处理苛刻的计算任务,借助两个 512 位融合乘加 (FMA) 单元,应用程序在 512 位矢量内的每个时钟周期每秒可打包 32 次双精度和 64 次单精度浮点运算,以及八个...作为底层计算平台,英特尔 BigDL 针对分布式的英特尔® 至强® 处理器 CPU 集群进行了大数据 AI 平台的构建,包括在硬件上的众多优化,包括 CPU 本身对 AI 的支持。...虽然英特尔® 至强® 处理器是一个通用处理器,但它提供了非常多的硬件指令及针对 AI 优化和加速的硬件支持,包括在低精度 INT8 上的 AVX512_VNNI , 以提升 DL 性能。
当地时间10月9日,处理器大厂AMD 在美国旧金山举行的 Advancing AI 活动期间正式发布了第 5 代 EPYC CPU(代号为 Turin),它用全新的Zen 5核心架构,再次带来了实质性的代际提升...这些CPU将配备AVX-512支持,具有完整的512b数据路径和高达5GHz的时钟速度。芯片可以在 1P 或 2P 服务器中配置。...CPU 的默认 TDP 配置为 500W,售价为 14,813 美元,明显低于英特尔顶级至强 6900P 产品的售价 17,800 美元。这比英特尔的 17 个内核旗舰产品的价格高出 128%。...(vRay 5) 性能提高了 3 倍,与英特尔第 5 代至强 SKU 相比,图像渲染 (vRay 5) 性能提高了 3 倍。...那么,使用相同核心数的性能如何,AMD 还展示了 64 核 EPYC 9575F 与 EPYC 9554 和 Xeon 8592+ 的比较。
领取专属 10元无门槛券
手把手带您无忧上云