众所周知,通用处理器(CPU)的摩尔定律已入暮年,而机器学习和 Web 服务的规模却在指数级增长。
AI 科技评论按:本文作者李博杰,本文整理自知乎问题《如何评价微软在数据中心使用 FPGA 代替传统 CPU 的做法?》下的回答,AI 科技评论授权转载。
问题「用 FPGA 代替 CPU」中,这个「代替」的说法不准确。我们并不是不用 CPU 了,而是用 FPGA 加速适合它的计算任务,其他任务仍然在 CPU 上完成,让 FPGA 和 CPU 协同工作。 本回答将涵盖三个问题: 为什么使用 FPGA,相比 CPU、GPU、ASIC(专用芯片)有什么特点? 微软的 FPGA 部署在哪里?FPGA 之间、FPGA 与 CPU 之间是如何通信的? 未来 FPGA 在云计算平台中应充当怎样的角色?仅仅是像 GPU 一样的计算加速卡吗? 一、为什么使用 FPGA? 众所
编者按:本文系微软亚洲研究院实习生李博杰在知乎上针对“如何评价微软在数据中心使用FPGA代替传统CPU的做法?”问题的回答。AI科技评论已获得转载授权。 首先,原问题「用 FPGA 代替 CPU」中,这个「代替」的说法不准确。我们并不是不用 CPU 了,而是用 FPGA 加速适合它的计算任务,其他任务仍然在 CPU 上完成,让 FPGA 和 CPU 协同工作。 本文将涵盖三个问题: 为什么使用 FPGA,相比 CPU、GPU、ASIC(专用芯片)有什么特点? 微软的 FPGA 部署在哪里?FPGA 之间、
本文介绍了HEVC(High Efficiency Video Coding)标准中的帧内预测模式。帧内预测是视频压缩中的一种技术,通过在图像中提取并复制帧内已有的像素信息,从而减少编码后的数据量。文章详细阐述了HEVC帧内预测模式的实现方法、步骤和优化思路。同时,文章还介绍了HEVC帧内预测模式在视频压缩中的重要性,以及与其他视频编码标准的帧内预测模式的比较。
本文介绍了FPGA在深度学习中的重要性,以及各大公司如Google、Facebook、百度等是如何利用FPGA来提升其业务效率和性能的。具体包括:Google使用FPGA加速深度学习模型,Facebook在数据中心引入FPGA,以及百度大脑利用FPGA进行深度学习模型加速。
作者:朱建平 腾讯云技术总监,腾讯 TEG 架构平台部专家工程师 1.关于人工智能的若干个错误认知 工智能是 AI 工程师的事情,跟我没有什么关系 大数据和机器学习( AI ) 是解决问
为什么FPGA主频比CPU慢,却可以帮其加速? 我们知道,FPGA的频率一般只有几百MHz,而CPU的频率却高达数GHz。那么,有不少网友心中就有一个疑问:“为什么FPGA主频比CPU慢,但却可以用来
在各行各业,不难想象这样的场景,A 公司拥有大量数据,然而其并没有人力或计算能力对这些数据进行分析处理,因此,A 公司希望购买 B 公司的计算服务对数据进行处理,但是,A 公司不希望 B 公司获取这些数据的具体信息,因此,如果可以将数据进行加密,再传递给 B 公司进行处理,则可以满足 A 公司的所有需求。因此,在这样的场景下,我们需要一套加密体系,对密文执行的一些运算操作,可以等效为对明文执行的运算。
FPGA芯片作为专用集成电路(ASIC)领域中半定制电路面市,克服定制电路灵活度不足的问题以及传统可编程器件门阵列数有限的缺陷。
我们知道,FPGA的频率一般只有几百MHz,而CPU的频率却高达数GHz。那么,有不少网友心中就有一个疑问:“为什么FPGA主频比CPU慢,但却可以用来帮CPU做加速?”。 今天,EDN就和大家系统
选自Medium 作者:Eugenio Culurciello 机器之心编译 参与:Rick R、吴攀 在这篇文章中,作者Eugenio Culurciello简述了几类硬件设计,希望能为大家更快的运行神经网络提供洞见。 我喜欢深度学习... 深度学习最近取得的成功势不可挡:从图像分类和语音识别到图片标注、理解视觉场景、视频概述、语言翻译、绘画,甚至是生成图像、语音、声音和音乐! …而我想让它运行得飞快! 其成果令人震惊,因而需求就会增长。比如你是谷歌/ Facebook / Twitter 的工作人员
第27届现场可编程逻辑与应用国际会议(The International Conference on Field-Programmable Logic and Applications,FPL)九月份在比利时根特召开。在FPL 2017上,一篇来自德国卡尔斯鲁厄理工学院(Karlsruhe Institute of Technology)的论文《Voltage Drop-based Fault Attacks on FPGAs using Valid Bitstreams》获得了最佳论文奖,同时也成为了所有
2016年,随着阿尔法狗击败专业人类围棋棋手,已“深度学习”为基础的人工智能技术被大众所熟知。其实“深度学习”技术已经发展了有近30年的历史了。现在的“深度学习”的实现以神经网络技术为主。神经网络通过模拟大脑生物神经网络的连接,通过多层数字神经网络的了解,来实现深度学习,神经网络最著名的就是卷积神经网络。“深度学习”中的深度就体现在多层的神经网络的连接,因为初代的机器学习技术的学习网络层数都比较浅。
本文探讨了神经网络加速器在数据中心中的重要性,并提出了几种主要的神经网络加速器架构。这些架构包括基于GPU的架构、基于FPGA的架构和基于ASIC的架构。作者还讨论了这些架构的优缺点,并展望了未来神经网络加速器的发展方向。
AI科技评论按:第27届现场可编程逻辑与应用国际会议(The International Conference on Field-Programmable Logic and Applications,FPL)九月份在比利时根特召开。在FPL 2017上,一篇来自德国卡尔斯鲁厄理工学院(Karlsruhe Institute of Technology)的论文《Voltage Drop-based Fault Attacks on FPGAs using Valid Bitstreams》获得了最佳论文奖,
1月27日,国家市场监管总局反垄断局发布公告称,自2021年1月19日,收到超威半导体公司(AMD)收购赛灵思公司(Xilinx)股权案的经营者集中反垄断申报之后,历经一年时间,在申请方补充好申报材料之后立案,通过审查,市场监管总局决定附加限制性条件批准此案。 据了解,2020年10月,AMD宣布计划斥资350亿美元(股票形式)收购FPGA大厂赛灵思,以丰富自家产品线,与现有CPU处理器、GPU显卡、加速计算卡形成完整的高性能计算体系。 未来,AMD极有可能在增加CPU、GPU中集成赛灵思FPGA IP
---- 新智元报道 作者:克雷格、肖琴 【新智元导读】国内正在热议“缺芯”的时候,Facebook传出正在招人,计划自己研发AI芯片。至此,美国的四巨头谷歌、苹果、Facebook、亚马逊都与AI芯片产生了交集。同时,高通举步维艰,到了被群雄分食的地步,禁售也可能是压垮它的最后一根稻草。这恰恰证明芯片公司本身也面临非常大的挑战,未来主导AI芯片的或许并非芯片公司,而是谷歌、亚马逊这样的AI巨头,它们重整生态,用云服务来挤压底层硬件供应商的战略布局已经很明显。整个产业生态系统在升级,新智元认为,目前
编者按:所谓时势造英雄,SDN/NFV的浪潮下机遇与挑战并存。SDN主要分为硬件和软件,虽然软件势头正盛,但是硬件也是不可或缺的。FPGA(可编程逻辑闸阵列)领导供应商Xilinx就是认识到这一点,明确自己的定位,一切从用户的角度出发,通过FPGA降低服务器负担,让客户灵活调度网络资源,协助客户降低运营成本。 网络速度与资料讯息呈现暴炸性的成长,从资料中心、网通乃至于电信业者无不被这样的发展洪流所影响,这也使得晶片业者们开始采取了一些动作,FPGA(可编程逻辑闸阵列)领导供应商Xilinx(赛灵思)可以说是
美国时间11月18日,业界瞩目的SC19国际超算大会在科罗拉多州丹佛会展中心举行。本届大会由ACM与IEEECOMPUTER SOCIETY联合主办,以“HPC正当时(HPC is Now)”为主题。
随着深度学习带来 AI 的第三次浪潮,对 AI 的相关讨论层出不穷,算法是大家关注的重点。
本文介绍了异构计算在云计算领域的发展现状、技术挑战和应用前景,并分析了FPGA在云计算加速中的优势和挑战,同时探讨了FPGA在云服务中的具体应用案例。
在前几期,我们了解了,对于SmartNIC的实现,无论是ASIC,FPGA,NPU还是SoC方案,都有一些难以绕过的障碍,因此,NVidia收购了Mellanox后,规划了基于ASIC+NPU+SoC的方案来取长补短,也就是基于Bluefield的DPU (Datapath Process Unit)。
懒人阅读:人工智能芯片是人工智能的“大脑”,可以分为终端和云端两个应用方向。目前主流CPU、CPU+GPU、CPU+FPGA、CPU+ASIC架构。人工智能芯片具有两个突出特点:一是算法与芯片的高度契合,面向终端和云端不同需求提升计算能力;二是专门面向细分应用场景的智能芯片,如语音识别芯片、图像识别芯片、视频监控芯片等。
选自微软博客 机器之心编译 参与:路雪、黄小天、蒋思源 近日在 Hot Chips 2017 上,微软团队推出了一个新的深度学习加速平台,其代号为脑波计划(Project Brainwave),机器之心将简要介绍该计划。脑波计划在深度学习模型云服务方面实现了性能与灵活性的巨大提升。微软专为实时人工智能设计了该系统,它可以超低延迟地处理接收到的请求。云基础架构也可以处理实时数据流,如搜索查询、视频、传感器流,或者与用户的交互,因此实时 AI 变的越发重要。 近来,FPGA 对深度学习的训练和应用变得越来越重要
Yann LeCun被大家誉为“卷积神经网络之父”,该技术助推了人工智能在Google、Facebook等公司的发展,在此之外,LeCun也已经不再局限于扎根算法领域。正如那些开发全新计算方法的人一样,他在硬件领域也有深厚背景,尤其是芯片设计,并且在硬件专业化,复杂问题下的数据迁移,以及核性能提升方面也很拿手。 LeCun是从贝尔实验室的研究真正开始开拓深度学习的,他的研究项目结合了先进的软硬件联合设计技术(co-design)。即使在今天,他在服务器端的机器学习和神经网络循环仍广为人知。他本周在Hot
AI 科技评论按:说起 FPGA,很多人可能都不熟悉,它的英文全称为 Field Programmable Gate Array,即现场可编程门阵列,也被称为可编程集成电路。随着大数据以及 AI 的发展,越来越多的数据中心引入 FPGA 作为 CPU 的加速器以提高数据处理速度,提升服务器性能,因此降低 FPGA 的能耗也成为数据中心里新的挑战。本文介绍了其中一种降低 FPGA 能耗的方法——基于自测量的 FPGA 动态电压调节解决方案。本文根据嘉宾的直播分享整理而成。 动态电压调节(DVS)作为常见的数字
1 背景 随着以数据中心为核心的云计算的兴起,传统计算领域不断被蚕食。各大公司纷纷出手,构成形如战国七雄的乱战格局:Amazon、Google、Facebook、Microsoft、阿里、腾讯、百度。 在吃瓜群众眼中,云计算体大量足,实力强劲,于是,以机器学习、物联网、视频、科学计算、金融分析等大数据制造者为首的大量任务在云端构成了长长的计算队列。思科云指数报告指出,预计到2020 年,全球 92% 的数据流量将来自云计算,将从2015 年的每年 3.9 ZB 增长 3.7 倍,到 2020 年达到 14
选自arXiv 作者:陈天奇等 机器之心编译 参与:李泽南、路雪 TVM 是由华盛顿大学在读博士陈天奇等人提出的深度学习自动代码生成方法,去年 8 月机器之心曾对其进行过简要介绍。该技术能自动为大多数计算硬件生成可部署优化代码,其性能可与当前最优的供应商提供的优化计算库相比,且可以适应新型专用加速器后端。近日,这项研究的论文《TVM: End-to-End Optimization Stack for Deep Learning》终于完成,内容包含新方法的介绍与讨论,以及 TVM 在英伟达、AMD 的 GP
人工智能的兴起触发了市场对 GPU 的大量需求,但 GPU 在 AI 场景中的应用面临使用寿命短、使用成本高等问题。现场可编程门阵列 (FPGA) 这一可以定制化硬件处理器反倒是更好的解决方案。随着可编程性等问题在 FPGA 上的解决,FPGA 将成为市场人工智能应用的选择。
Yann LeCun被大家誉为“卷积神经网络之父”,该技术助推了人工智能在Google、Facebook等公司的发展,在此之外,LeCun也已经不再局限于扎根算法领域。正如那些开发全新计算方法的人一样,他在硬件领域也有深厚背景,尤其是芯片设计,并且在硬件专业化,复杂问题下的数据迁移,以及核性能提升方面也很拿手。 LeCun是从贝尔实验室的研究真正开始开拓深度学习的,他的研究项目结合了先进的软硬件联合设计技术(co-design)。即使在今天,他在服务器端的机器学习和神经网络循环仍广为人知。他本周在Hot C
7月13日,The Information曝光了华为内部的一个秘密项目,代号“达芬奇计划(Project Da Vinci)”,简称“D计划”,由现华为轮值总裁、副董事长徐直军负责。
在前两期《软硬件融合技术内幕 进阶篇 (7) —— 恶魔导演的战争》和《软硬件融合技术内幕 进阶篇 (8) —— 永朽不垂的小丑》中,我们论证了,期望通过交换ASIC/NP和SoC来实现SmartNIC的困难——对于数据平面一些大量重复的运算,使用固化电路实现的硬件加速单元进行卸载(offload),虽然能够取得很好的执行效率,但如果这些运算的算法需要迭代,那么,固化电路将难以胜任。
AMD并购赛灵思(Xilinx),这已经不是FPGA领域的首次大收购事件,早在七年前,英特尔就收购了Altera。
人工智能的风潮从技术一路蔓延到硬件,让「芯片」成为今年行业里盛极一时的主题。人们关注通用芯片领域里 CPU 和 GPU 不断刷新的基准(benchmark),更对专用芯片(ASIC)领域不同场景下不断问世的解决方案表示出了空前的热情。
回顾计算机行业发展史,新的计算模式往往催生新的专用计算芯片。人工智能时代对于新计算的强大需求,正在催生出新的专用计算芯片。在加州Hot Chips大会和2017百度云智峰会上,百度发布了AI云计算芯片的XPU,这是一款256核、基于FPGA的云计算加速芯片。过去几年,百度在深度学习领域,尤其是基于GPU的深度学习领域取得了不错的进展。同时,百度也在开发被称作XPU的新处理器。
👆点击“博文视点Broadview”,获取更多书讯 📷 目前,隐私计算平台广泛用到了多种安全技术,包括同态加密、秘密共享、差分隐私、可信执行环境,以及其他一些安全多方计算技术。 虽然这些安全技术的应用很好地保证了数据价值的安全共享,但同时也带来了计算和通信效率的大幅下降。在对安全和效率的双重探索中,星云Clustar 的研究人员基于理论分析和实践应用,提供了一系列安全加速方案。 文献[1] 对联邦学习模型训练中存在的性能问题进行了全面的探讨,基于这些问题,文献[2~4] 提出了多样的解决方案。接下来,我们
作者介绍:架构平台部四级专家,先后从事通讯设备的开发和存储设备的研发工作。目前致力于一体化的设计-硬件和软件的结合,以及OS多个层面综合考虑系统设计,找出最优路径的设计思想。 FPGA异构计算芯片的特点 1 异构计算:WHY 明明CPU用的好好的,为什么我们要考虑异构计算芯片呢? 随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码、图片压缩解压缩以及HTTPS加密等各类应用对计算的需求已远远超出了传统CPU处理器的能力所及。历史上
微软发布了 Project Brainwave,一个基于 FPGA 的低延迟深度学习云平台。微软官方测评显示,当使用英特尔的 Stratix 10 FPGA,Brainwave 不需要任何 batching 就能在大型 GRU (gated recurrent unit)达到 39.5 Teraflops 的性能。
按:本文作者栗向滨,中科院自动化所复杂系统国家重点实验室研究生,主攻机器人与人工智能。 Google I/O是由Google举行的网络开发者年会,讨论的焦点是用Google和开放网络技术开发网络应用。
AI 研习社按:人工智能技术发展迅猛的背后不仅得益于庞大的数据量,更需要强大的硬件支持。面对层出不穷的 AI 应用,已经很难采用一种通用的硬件进行高效的数据计算和处理,这也促使了各种类型的 AI 芯片蓬勃发展。
文/张伟德,曲宁,刘少山 导读:本文介绍百度基于Spark的异构分布式深度学习系统,把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题,在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力,使用YARN对异构资源做分配,支持Multi-Tenancy,让资源的使用更有效。 深层神经网络技术最近几年取得了巨大的突破,特别在语音和图像识别应用上有质的飞跃,已经被验证能够使用到许多业务上。如何大规模分布式地执行深度学习程序,使其更好地支持不同的业务线成为当务之急。
人工智能应用的蓬勃发展对算力提出了非常迫切的要求。由于摩尔定律已经失效, 定制计算将成为主流方向,因而新型的 AI 芯片开始层出不穷,竞争也日趋白热。参与这一竞争的不光是传统的半导体芯片厂商,大型的互联网和终端设备企业依托于自身庞大的应用规模,直接从自身业务需求出发,参与到 AI 芯片的开发行列。这其中以英伟达为代表的 GPU 方案已经形成规模庞大的生态体系,谷歌的 TPU 则形成了互联网定义 AI 芯片的标杆,其余各家依托各自需求和优势,提出了多类解决方案。本文将简要梳理目前各家技术进展状态,结合人工智能应用的发展趋势,对影响 AI 芯片未来发展趋势的主要因素做出一个粗浅探讨。
【新智元导读】人工智能系统的加速正在从根本上重塑着每年创造了3350亿美元的半导体行业。计算机开始认识一切,从花草到人脸,从文本到声音,以及学会开车。统治了计算机行业近半个世纪的摩尔定律正在受到挑战,计算性能的提升不再依赖于晶体管数量的增长,还有专用负载芯片产业的蓬勃。英特尔面临着英伟达、微软、苹果、谷歌等巨头以及CEVA、Eyeriss、寒武纪、华为等 AI 芯片新玩家不同方向的围攻。 人工智能技术尤其是深度学习的兴起,让各大公司都注意到必须要填补的计算力鸿沟。越来越多的研究人员开始重新思考计算的本质,从
基于模拟“神经网络”出现的深度学习对芯片的能耗与运算能力都提出了更高的要求,需要硬件层面的重要支持。CPU、GPU、FPGA、SoC等半导体产业都需要针对相应的AI需求进行调整和优化。这为芯片和集成电
【新智元导读】谷歌的论文《数据中心的 TPU 性能分析》(In-Datacenter Performance Analysis of a Tensor Processing Unit)从技术角度详述了 TPU 能给机器学习带来怎样的提升。Infoworld 的高级编辑 Serdar Yegulalp 撰文以深入浅出的方式简述了 TPU 对于机器学习的意义,以及对于谷歌的意义。作者认为,TPU 使得机器学习过程中的分工更加明确,但谷歌近期内不会将其整合到云服务中。结合新智元此前的报道,外界虽然认可 TPU 的
最近英特尔的动作可谓非常频繁:在学术会议上发布各种自己新算法的论文,在商业领域也是连续收购了Nervana、Modivius两家公司,还发布了最新的深度学习处理器Knights Mill,并在一份声明上声称四块Knights芯片的运算能力比四块GPU快2.3倍,剑指自己早在PC时代就已相爱相杀多年的老对手NVIDIA。哪怕在NVIDIA进行了态度坚决,甚至在语气中暗含一丝不屑的回击之后,英特尔仍然在公开声明中坚定的捍卫自己的数据,并表示去年为深度学习而研发的处理器中,使用GPU的还不到3%。 事实是怎样的呢
机器之心原创 作者:Yanchen Wang 参与:蒋思源、李亚洲 作者 Yanchen 毕业于普林斯顿大学机器学习方向,现就职于微软Redmond总部,从事大规模分布式机器学习和企业级AI研发工作。在该篇文章中,作者介绍了实时深度学习的推理加速和持续性训练。 引言 深度学习变革了许多计算机视觉和自然语言处理(NLP)领域内的任务,它为越来越多的消费者和工业产品提供更强大的智能,并潜在地影响了人们在日常经验和工业实践上的标准流程。从理论上来说,深度学习和其他基于统计机器学习方法的自动化系统十分类似,它们都可
编者按:在无人不谈 AI 的时代,微软同样将目光投向了这个领域, 而它把赌注押在了 FPGA上 ——Project Catapult 于微软而言,暗示着改变未来全球系统运作的方式——至少在微软看来是这
领取专属 10元无门槛券
手把手带您无忧上云