首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    美国伯明翰大学团队使用Theano,Python,PYNQ和Zynq开发定点Deep Recurrent神经网络

    该文介绍了使用Python编程语言成功实现和训练基于固定点深度递归神经网络(DRNN); Theano数学库和多维数组的框架; 开源的基于Python的PYNQ开发环境; Digilent PYNQ-Z1开发板以及PYNQ-Z1板上的赛灵思Zynq Z-7020的片上系统SoC。Zynq-7000系列装载了双核ARM Cortex-A9处理器和28nm的Artix-7或Kintex-7可编程逻辑。在单片上集成了CPU,DSP以及ASSP,具备了关键分析和硬件加速能力以及混合信号功能,出色的性价比和最大的设计灵活性也是特点之一。使用Python DRNN硬件加速覆盖(一种赛灵思公司提出的硬件库,使用Python API在硬件逻辑和软件中建立连接并交换数据),两个合作者使用此设计为NLP(自然语言处理)应用程序实现了20GOPS(10亿次每秒)的处理吞吐量,优于早期基于FPGA的实现2.75倍到70.5倍。

    08

    你也可以训练超大神经网络!谷歌开源GPipe库

    深度神经网络(DNN)推动了许多机器学习任务的发展,包括语音识别、视觉识别、语言处理。BigGan、Bert、GPT 2.0取得的近期进展表明,DNN模型越大,其在任务中的表现越好。视觉识别领域过去取得的进展也表明,模型大小和分类准确率之间存在很强的关联。例如,2014年ImageNet视觉识别挑战赛的冠军GoogleNet以400万的参数取得了74.8%的top-1准确率,但仅仅过了三年,冠军的宝座就被Squeeze-and-ExcitationNetworks抢去,后者以1.458亿(前者的36倍还多)的参数量取得了82.7%的top-1准确率。然而,在这段时间里,GPU的内存只提高了3倍左右,当前最优的图像模型却已经达到了谷歌云 TPUv2的可用内存。因此,我们急需一个能够实现大规模深度学习并克服当前加速器内存局限的可扩展高效架构。

    03

    海豚扒问IPFS中国区布道人董天一:IPFS为什么可以超越HTTP

    亲爱的粉丝们,今天又到了【海豚扒问】的深扒时间啦。萌主我一直很感谢大家一路对海豚区块链全新推出的【海豚扒问】栏目的支持,这一次我们请来最重量的嘉宾,他是谁?他为什么是我们海豚区块链如此仰慕,甚至需要深深膜拜的嘉宾?待萌主用一句诗句来形容他的气质以及为他这个行业做出的贡献。“桐花万里丹山路,雏凤清于老凤声”,这句诗出自李商隐,它正如董老师一样,朝气蓬勃,是勇于探索这个时代伟大的先知。他不是宋冬野歌里所唱的“董小姐”,他是董天一,IPFS/Filecoin中国区技术布道人,更是万卷诗书里《IPFS指南》的作者。他是北大才子,毕业于北京大学软件与微电子学院,并且曾担任甲骨文亚洲研发中心(中国)数据库开发工程师,是资深的区块链技术开发者,现致力于IPFS/Filecoin在中国的技术推广。他的出现启发了很多人,更启发了正在创业的小海豚。他对技术的痴迷,对新鲜事物无止境的探索,以及开拓新鲜事物却永不畏惧的精神,深深的影响着我。那么今天不再做铺垫了,现在我们以最原汁原味的方式来感受紧张的海豚与董老师的对话。

    07

    你也可以训练超大神经网络!谷歌开源GPipe库

    深度神经网络(DNN)推动了许多机器学习任务的发展,包括语音识别、视觉识别、语言处理。BigGan、Bert、GPT2.0取得的近期进展表明,DNN模型越大,其在任务中的表现越好。视觉识别领域过去取得的进展也表明,模型大小和分类准确率之间存在很强的关联。例如,2014年ImageNet视觉识别挑战赛的冠军GoogleNet以400万的参数取得了74.8%的top-1准确率,但仅仅过了三年,冠军的宝座就被Squeeze-and-ExcitationNetworks抢去,后者以1.458亿(前者的36倍还多)的参数量取得了82.7%的top-1准确率。然而,在这段时间里,GPU的内存只提高了3倍左右,当前最优的图像模型却已经达到了谷歌云 TPUv2的可用内存。因此,我们急需一个能够实现大规模深度学习并克服当前加速器内存局限的可扩展高效架构。

    02

    总结过去三年,MIT发布AI加速器综述论文

    过去这一年,无论是初创公司还是成熟大厂,预告、发布和部署人工智能(AI)和机器学习(ML)加速器的步伐很缓慢。但这并非不合理,对于许多发布加速器报告的公司来说,他们花三到四年的时间研究、分析、设计、验证和对加速器设计的权衡,并构建对加速器进行编程的技术堆栈。对于那些已发布升级版本加速器的公司来说,虽然他们报告的开发周期更短,但至少还是要两三年。这些加速器的重点仍然是加速深层神经网络(DNN)模型,应用场景从极低功耗嵌入式语音识别和图像分类到数据中心大模型训练,典型的市场和应用领域的竞争仍在继续,这是工业公司和技术公司从现代传统计算向机器学习解决方案转变的重要部分。

    02
    领券