展开

关键词

为了医疗AI,他们做出了一个“违背祖师爷”的决定

但在真正使用医疗AI的医院里,频繁升级硬件的难度很大,如果在过去的服务器中GPU之类的AI速硬件,就势必改造系统,不仅增成本,也会带来更复杂的部署和应用难题。 一方面,医院无需明显增系统和人力等成本,也无需大幅修改硬件部署,就能让先进的AI应用更快地部署和投实战,真正让医疗AI普惠到每个患者。 一方面,针对AI应用的算力和数据速,英特尔早从数年前就开始布局,从硬件架构上对AI推进了三方面的优化: 在2017年发布的第一代至强可扩展处理器上,导支持AVX-512高级矢量扩展技术,让CPU单位时间内能处理更多浮点运算任务 如今看来,用CPUAI,确实啥可担心的—— 甚至在医疗AI行业,这还是个更好的选择。 大概,就连当年积极将GPU引医疗AI行业的Hinton,也预料到会是这幅景象: 如今的CPU,正在医疗AI领域大放异彩。 — 完 —

17970

AI 芯片和传统芯片的区别

对于YOLO-V3来说,如果确定了具体的输图形尺寸,那么总的乘法法计算次数是确定的。比如一万亿次。 至于为何用了CPU做对比? 而有具体说GPU。是因为,我说了,我目前有系统查看过GPU的论文,不了解GPU的情况,故不做分析。因为积累的缘故,比较熟悉超标量CPU,所以就用熟悉的CPU做详细比较。 而且,小型的网络,完全可以用CPU去训练,啥大问题,最多慢一点。只要不是太大的网络模型。 那些AI算法公司,比如旷世、商汤等,他们的模型很大,自然也不是一块GPU就能搞定的。 至于说CPU是串行,GPU是并行。 错,但是不全面。只说说CPU串行。这位网友估计对CPU有非常深的理解。 单个数据是128bit的,如果是16bit的精度,那么一周期理论上最多可以计算八组数据的乘法或法,或者乘。这还不叫并行?只是并行的程度有GPU那么厉害而已,但是,这也是并行。

77650
  • 广告
    关闭

    腾讯云+社区系列公开课上线啦!

    Vite学习指南,基于腾讯云Webify部署项目。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    后摩尔定律时代扛旗者谁?浅谈芯片市场算力之争

    AI芯片是趋势使然 根据摩尔定律,当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增一倍,性能也将提升一倍。如何在相同的面积内放更多的元器件? 目前,它们所能做的,也仅是在自己原有产品之上AI算法,变身为“通用AI芯片”。但究其本质,它们并有脱离“传统芯片”行列。 ? 另外,AI芯片创企异构智能中国区副总裁谢强此前在镁客网M-TECH论坛上表示,CPU、GPU等通用处理器市场已经有机会了,他们现在所能做的就是把各种各样的终端AI芯片做到极致,配合CPU、GPU等搭建一个小系统 事实上,目前还有出现像CPU一样的AI通用算法芯片,一剑封喉的应用还出现。首先,AI芯片的量产问题是头部短板。不同于已经定性的传统芯片,AI芯片从架构到设计等多个层面都会是一种全新的颠覆。 于其他方面,还有更多的计算工作,而它们中间的多数,并不需要AI芯片的介,比如数据存储等等。 当然,主流架构探讨、算法通用可实现性、刚需应用场景等也是AI芯片需要攻克的问题。

    22540

    谷歌TPU不是对手,英特尔要用AI一统芯片江湖!

    英伟达占据了很大的AI训练市场,也在为GPU添更多的AI元素,“这是很正确的做法,”Naveen说:“但我们也将提供对 AI 来说最好的 CPU。” “CPU GPU 再各种 AI 速器很好,如果客户需要,把它们全部封装进一个芯片里也很好,” Naveen 说:“两者在我看来是一样的。” 换言之,AI时代,仍将由英特尔来主导。 佩服英伟达十年建生态,但英特尔要一统江湖 至于英伟达,Naveen认为英伟达在一个正确的时机做出了正确的选择,大力投深度学习,现在也在不断为GPU 增更多的“AI元素”,“这是很正确的做法”。 AI是绝不能输的战场,CPUAI化是英特尔的未来 刚刚英特尔时,Naveen和他的团队就未来AI和计算的发展着很强的vision,但并有获得大多数人的同意。 但过去两年来,“CPU就是一切”(注:非Naveen原话)的意识形态在公司内部已经有所转变,大家意识到各种各样的速器,尤其是AI速器,开始扮演起越来越重要的角色。

    28120

    科技巨头们为什么要“跨界造芯”?

    当我们把目光转到全球的互联网公司,会发现这个趋势更明显,几乎所有涉及云计算和AI的科技巨头都在做芯片。 大厂“造芯”的门槛 这么多互联网云计算大厂投芯片设计,难道芯片设计就有门槛吗? 事实上,造芯有三大门槛:技术密集、资金密集、成本敏感。简单来说,需要有人、有钱、有量。 对于互联网云计算大厂来说,有人有钱自然不用说,但大家其实有看到的一面是:大厂有量! 众所周知,芯片投很大,7nm开发成本在亿人民币级别,人都做不了芯片。因此,只有量大才能分摊芯片的成本。 另据前瞻产业研究院的数据,我国AI芯片市场规模将在2024年达到785亿元。 AI芯片是一个相对年轻的行业。与CPU行业相比,还有哪家公司独占AI芯片的鳌头。 放眼国际,从2010年第一款自主芯片到载出今天的万亿帝国,苹果用了10年;谷歌2018年涉足芯片大投,凭借高研发投和技术积累,还在奋力追赶;三星的造芯之路开局“惨烈”,但是一步一个脚印,终在制成上超越制霸芯片行业

    7310

    本次GTC大会,黄仁勋继续大秀「AI肌肉」

    总的来看,英伟达再度将GPU的算力推向了极致,借此强自身在AI、汽车等领域的实力。同时,英伟达已经为下一波AI浪潮以及无限幻想的元宇宙做好了准备。 6、Hooper架构引了名为DPX的新指令集,可速动态规划,算法速度有了显著提升。 在H100的帮助下,研究人员和开发者可以训练庞大的模型。 比如包含3950亿个参数的混合专家模型,训练速度速高达9倍,训练时间从几周缩短到几天。 值得一提的是,黄仁勋并有过多介绍Hopper架构。 最强大的AI专属CPU 在去年GTC大会上,英伟达透露了首款数据中心专属CPU Grace,而在今年,这款面向AI基础设施和高性能计算的超级CPU正式亮相。 性能方面,Grace CPU 超级芯片的SPECint 2017得分为业内领先的740分,黄仁勋表示这个性能有什么产品可与之媲美,称赞为“最强大的CPU”。

    9640

    CRI-RM 助力浪潮AIStation提升云原生工作负载性能

    AI 模型的开发,到最终进到生产部署阶段,企业将面临资源管理、模型测试等带来的不同挑战,同时还需要能够充分发挥 CPU 等硬件的性能潜力,提升 AI 训练性能。 浪潮与英特尔合作,利用基于容器运行时接口的资源管理器 CRI-RM 进行了 AI 训练速实践,可以在 K8s 集群上,按照拓扑资源实现物理主机的最优分配,从而突破使用 K8s 原生 CPU 管理机制所带来的性能瓶颈 AI 模型训练进云原生时代,算力挑战浮出水面,提到 AI 模型训练,不少开发者脑海中浮现出的是繁琐的资源申请与管理流程、巨大的算力消耗、漫长的模型训练时间……而云原生技术的出现,能够在很大程度上化解 、敏捷的数据整合及速、流程化的 AI 场景及业务整合。 这是因为 K8s 原生的 CPU 管理机制有考虑 CPU 绑定与 NUMA 亲和性,高版本的 K8s 只会对 QOS 为 Guaranteed 的Pod 生效,这可能会导致 CPUAI 训练中无法充分发挥性能

    13710

    诞生七年的NPU

    如何理解NPU 传统CPU进行累计算时,效率非常低,但当GPU做类似的计算,效率就会高很多。 硬件层面,NPU可以代替CPU进行处理,让SoC具备了更强的本地AI运算能力(类似于“硬解”)。相比较CPU的“软解”,“硬解”效率更高、速度更快、功耗也更低。 例如高通骁龙AI Engine引擎之中就有独立的NPU单元,而联发科在Helio P60/P90引的NeuroPilot AI技术最早也是通过多个单元协同计算(APU+CPU+GPU)。 ? 当AI应用的开发进到实际的应用和业务层面,开发者面临着标准不同、API配适、软件优化等很多的难题。也就导致开发者必须针对不同厂商的设备进行逐个优化。 之安卓生态比较混乱,移动AI开发者很可能受到更多阻碍。

    59940

    Arm为何明年Q1才发布AI处理器?

    有意思的是,无论是手机处理器市场市占最高的高通还是目前移动设备处理器IP最重要的提供方Arm,都迟迟有推出集成NPU的处理器,这究竟是为什么? Arm的AI处理器时间上已经落后? Arm机器学习部门商业与市场副总裁Dennis Laudick 在众多新AI芯片市场的公司中,值得注意的是以前更擅长软件的科技巨头们都纷纷开始自主研发AI芯片。 对于Arm推出NPU的时间点,Dennis Laudick表示:“最近我们已经看到机器学习技术正在稳定和成熟,市场需求也正在不断增,我们认为现在是进市场的最佳时机。” 他们希望通过对不同场景的深分析,尽量做到数据高效、多次使用,减少数据搬迁降低功耗。 ? 当然,即便是经验丰富的Arm,认识到AI处理器最重要的是数据管理也走了一些弯路。 对此,Dennis Laudick表示:“基于RISC-V指令集的处理器是一个CPU,它并有真正与我们的NPU产生竞争,在CPU方面,我们已经进行了两到三代的机器学习改进,比如支持向量扩展,RISC-V

    19620

    国内免费GPU资源哪里找,最新算力薅羊毛方法在此

    亲自用脚本测试过,AI Studio 的 CPU 是 Intel(R) Xeon(R) Gold 6148 CPU,可以说在配置上,AI Studio 是很有竞争力的。 但从百度最近推广飞桨的力度来看,我猜飞桨很有可能两三年左右进主流深度学习框架之列。 2. GPU 提升效果为 11 倍,因为训练过程有验证测试,而且 CPU 配置也太高了,所以并未达到理论上的 47x 的速,但这速度还不错,况且 AI Studio 本来 CPU 是至强金牌处理器,就很高配了 GPU 相比 CPU 来说提升效果为 8 倍,因为训练过程有验证测试,所以并未达到理论上的 12.5x 的速。 羊毛来了,薅起来 现在的算力卡还是很好拿的,什么门槛,自己申请一下就拿到了,而且每天运行一次项目,又送 12 个小时算力,连续运行 5 天再送 48 小时。

    2.6K30

    只用CPU开发自动驾驶轮船,他们居然做到了

    带着这个问题,我打开谷歌,输“Autonomous ship”,想到现在的自动驾驶轮船技术刷新了我的认知: 完全无人的自动驾驶轮船今年将横渡大西洋;零排放的自动驾驶轮船正在研发中…… ? 他们居然只用CPU 然而令人吃惊的是,Kongsberg在这套方案里有使用AI推理速硬件,比如独立的GPU或NPU,而是完全依赖于英特尔的CPU(和内部集成GPU)。 即使在运算量更小的自动驾驶车上,不使用专门的AI芯片都是不可想象的。 况且Kongsberg过去的AI方案也不是使用过GPU,为什么在轮船上反而不用了?令人费解。 我原以为我们永远都摆脱不了GPU,但这些结果改变了我的想法,让我看到了使用CPU的可能性。 打开OpenVINO的介绍页面,你会发现,这套工具给英特尔CPU带来了巨大的AI技术成。 现在,我终于明白,Kongsberg为什么只用CPU也能开发自动驾驶轮船了。 其实不仅是轮船,类似的场合还很多。就拿很多个人开发者来说,一台开发电脑可能有独立显卡,但是绝对不能CPU

    12420

    4小时学会雅达利游戏,AI需要几台电脑?

    昨天,优步AI Lab开源了深度神经进化的速代码。其博客上称,哪怕用户只有一台电脑(台式机),用这个代码也能训练出会打雅达利的AI。而且只需要4!小!时! 他们研发出这个深度神经进化速代码,是希望降低AI研究的资金门槛。至少让那些穷得只能买得起游戏配置的学生们,想自己动手玩玩AI时还有机会。 ?  同样,如果我们问域模拟器——现在这些行为会产生什么状态,那么CPU在模拟出结果的时候,GPU就事干了。 下图就是CPU+GPU多线程的示意图。 ? 既有充分利用到平行计算的能力,也浪费了GPU或CPU等待对方处理数据的时间。 中间是多线程方法稍微好一点,一个CPU可以同时处理多个模拟任务,等到GPU运行时,也可以接上CPU处理好的多组数据。 优步的方法是CPU+GPU流水线法。其中,CPU不带停的。在GPU处理CPU数据的时候,CPU有闲下来,继续马不停蹄地处理更多的数据。 4百万参数的神经网络,用优步个方法,4个小时就能搞定。

    34120

    CPU 比 GPU 快两倍?】谷歌云 TensorFlow 基准实测意外结果

    【新智元导读】英特尔与英伟达在数据中心市场激烈竞争:截止 4 月 30 日,英伟达的收同比增长了 48%,达到 19.4 亿美元;但数据表明,英特尔不仅有失去数据中心市场,地位反而更稳固。 英伟达数据中心收同比增长 186%,但英特尔占 CPU 处理器市场出货量 95.7% 谷歌、亚马逊、微软、Facebook、IBM 和阿里巴巴等大公司都在其数据中心使用英伟达的 Tesla GPU 为其机器学习应用速 “我们见证了 PC 时代,随后是移动时代,现在是 AI 时代,”英伟达副总裁 Vishal Dhupar 说:“以前只被视为游戏技术,现在 GPU 开始进数据中心,推动围绕机器学习和人工智能(AI)的各项举措 英特尔也在 AI 上投了大量资金,收购初创公司来将 AI 和高性能计算(HPC)能力融即将推出的芯片中。 Max 提出了问题:现在还有用大量 CPU 做深度学习库的基准,因为大家都直奔 GPU 而去;但是,有有可能用 CPU 的经济效益比 GPU 更高呢? 下面我们就来看一下 Max 测评的结果。

    1.3K100

    又一AI芯片浮出杭州西溪:阿里之后,Rokid自研芯片也曝光了

    李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 万万想到,中国最大的AI芯片秘密,潜伏在杭州西溪。 就在昨天,阿里巴巴正式官宣了达摩院正研发的一款神经网络芯片——Ali-NPU。 ? 阿里透露,这款芯片将运用于图像视频分析、机器学习等AI推理计算。按照设计,该芯片的性价比将是目前同类产品的40倍。 然而节奏停。 今天上午,阿里又对外宣布收购杭州中天微系统有限公司,这是一家致力于32位高性能低功耗嵌CPU、以芯片架构授权为核心业务的集成电路设计公司,也是我国唯一基于自主指令架构研发嵌CPU并实现大规模量产的 CPU供应商。 然而,芯片的事儿还完。 同样身处杭州西溪的AI公司Rokid,也在这个时间点秀出了自研的AI芯片。 ?

    16320

    CPU与GPU、VCU的关系愈“微妙”

    英特尔和AMD的x86 CPU是PC时代的标志,然而在性能提升陷瓶颈,以及先进半导体制程提升难度越来越大的背景下,两家最具代表性的CPU公司表现相差甚远,并且开始在市场份额上有所体现。 在这个新的策略中,GPU和DPU性能的充分发挥依旧需要有CPU强大的性能,也就是说,CPU计算和控制的基础和核心作用有改变。 ? 这也是英伟达推出DPU,并且将DPU归其数据中心产品路线图的原因。 、AI等计算更密集应用的需求。 迈AI时代,英伟达凭借其GPU硬件上通用的软件,成为了AI芯片公司的代表,在AI市场成为了英特尔强大的竞争对手。

    12730

    业界 | Facebook的「下一代 AI 计算平台」长什么样子?

    系统中的八路 CPU 平台可以提供超大的 DDR 内存池,服务于对内存容量有很高要求的工作负载,比如稀疏神经网络的嵌表。 系统中包括两种高速连接线:一种把所有 CPU 互相连接,另一种把所有的速器互相连接。 所有 CPU速器之间的计算和通讯会进行平衡,通过高速和低速互联线路高效地执行。 用 Kings Canyon 进行 AI 推理 与逐渐增AI 训练负载相对应地,AI 推理负载也在快速增。 总结 根据 Facebook 给出的图解和介绍,目前似乎只有 AI 训练平台 Zion 已经开始投使用,AI 推理芯片 Kings Canyon、视频转码芯片 Mount Shasta 以及相关硬件还有看到实物

    36620

    一块英伟达3090单挑180亿参数大模型,国产开源项目这回杀疯了

    所以,就需要在GPU显存不够时CPU能来帮忙,与此同时还要避免其他情况下内存浪费。 Colossal-AI高效利用GPU+CPU的异构内存,就是这样的逻辑。 在这里Colossal-AI的解决思路是,在预热阶段用采样的方式,获得非模型数据对CPU和GPU的内存的使用情况。 Colossal-AI还能做什么? 前面也提到,Colossal-AI能挑战的任务非常多,比如速训练、节省GPU资源。 那么它是如何做到的呢? billion-parameter-gpt-models-with-a-single-gpu-on-your-personal-computer-8793d08332dc — 完 — 「人工智能」、「智能汽车」微信社群邀你 欢迎关注人工智能、智能汽车的小伙伴们我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

    11610

    免费GPU计算资源哪里有?带你薅薅国内GPU羊毛

    亲自用脚本测试过,AI Studio的CPU是Intel(R) Xeon(R) Gold 6148 CPU,可以说在配置上,AI Studio也是很有竞争力的。 但从百度最近推广飞桨的力度来看,我猜飞桨很有可能两三年左右进主流深度学习框架之列。 ,因为训练过程有验证测试,而且CPU配置也太高了,所以并未达到理论上的47x的速,但这速度还不错。 由于架构的超参不一样,直接对比运行时间不太严谨,但从GPU提升速度的倍数上来说,AI Studio略胜一筹,况且AI Studio本来CPU就很高配了,所以理论上47x的速可能还得打个折。 3.羊毛来了,薅起来 现在的算力卡还是很好拿的,什么门槛,自己申请一下就拿到了,而且每天运行一次项目,又送12个小时算力,连续运行5天再送48小时。

    1.3K20

    干货 | 深度神经进化速:只需 4 个小时就在个人电脑上训练出强化学习模型

    不过当时我们有提到的是,这些成果消耗了相当多的计算资源:实际上论文中的实验是在 720 到 3000 个 CPU 组成的大规模高性能计算集群上运行的,这样的集群固然有充沛的计算能力运行进化算法,但在 Uber AI Lab 的代码能够最大化并行使用 CPU 和 GPU。 这样做在神经网络研究中是常见的,但通常是同一个网络处理不同的输。然而,进化算法中上有一批参数不同的神经网络,但是即使网络不同,也可以用同样的做法进行速(虽然内存的需求会相应增)。 到目前为止所描述的改进使得 GPU 比 CPU 更具成本效益。事实上,GPU 是如此之快,以至于运行在 CPU 上的 Atari 模拟器无法跟上,即使已经使用了多处理库做并行化速计算。 直白的运行方式虽然使用了 GPU(左)但性能低,原因有两个:1)GPU 的批大小为 1,有利用它的并行计算能力,2)存在 GPU 等待 CPU 的空闲时间,反之亦然。

    38020

    相关产品

    • 云服务器

      云服务器

      云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。 腾讯云服务器(CVM)为您提供安全可靠的弹性云计算服务。只需几分钟,您就可以在云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券