网络j加速_网络加速_网络加速 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习模型压缩与加速综述

目前在深度学习领域分类两个派别，一派为学院派，研究强大、复杂的模型网络和实验方法，为了追求更高的性能；另一派为工程派，旨在将算法更稳定、高效的落地在硬件平台上，效率是其追求的目标。复杂的模型固然具有更好的性能，但是高额的存储空间、计算资源消耗是使其难以有效的应用在各硬件平台上的重要原因。所以，卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战，深度学习模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。本文主要介绍深度学习模型压缩和加速算法的三个方向，分别为加速网络结构设计、模型裁剪与稀疏化、量化加速。

04

数量级提升！深度学习让机器人抓取更高效

电子商务仓库中的拣选机器人需要快速计算各种配置之间有效且平稳的机器人手臂运动。最近的研究中是将抓取力分析与手臂运动规划结合，以计算最佳的手臂平滑运动；然而，数十秒的计算时间支配着运动时间。深度学习的最新研究将神经网络应用于计算这些运动。但是，运算结果缺乏产生符合运动学和动力学运动所需的精度。虽然运算结果不可行，但神经网络计算的运动接近最佳结果。该研究中所提出的方法以近似运动为起点，开始优化，优化运动规划器将近似方法通过几次迭代，优化为切实可行运动。

03

您找到你想要的搜索结果了吗？

是的

没有找到

深度学习模型压缩与加速综述

http://www.tensorinfinity.com/paper_167.html

07

论文解读 Channel pruning for Accelerating Very Deep Neural Networks

本文提出了一种新的裁枝方法，用于加速深层卷积神经网络。对于一个训练好的模型，本文方法通过一个2步迭代的算法逐层裁枝，优化函数是LASSO回归和最小二乘法重建误差。进一步，本文将算法推广到多层的裁枝，和多分枝网络的裁枝。结果上，本文的方法减少了累积误差，且适用于各种网络结构。针对于VGG16网络，本文方法可以在加速5倍的条件下，准确率仅下降0.3%；针对ResNet，Xception网络加速2倍，准确率分别下降1.4%，1.0%

02

AI芯片：高性能卷积计算中的数据复用

深度学习的发展过程中，较高的计算量是制约其应用的因素之一。卷积神经网络中，主要计算为三维的卷积计算（后简称为卷积），现有的主流处理器难以高性能，高效能的完成卷积计算。相比一般的通用计算，卷积计算中存在的大量数据复用以及计算的规则性，在硬件的微架构（后简称为架构）设计和计算优化上有很大的优化空间，由此诞生了众多针对深度学习加速的AI芯片。卷积计算过程可以表示如下

02

卷积神经网络的压缩和加速

我们先来看看当前深度学习平台中，卷积层的实现方式，其实当前所有的深度学习平台中，都是以矩阵乘法的方式实现卷积的(如图1左侧)：

08

基于神经网络的偏微分方程求解器新突破：北大&字节研究成果入选Nature子刊

近年来，基于神经网络的偏微分方程求解器在各领域均得到了广泛关注。其中，量子变分蒙特卡洛方法（NNVMC）在量子化学领域异军突起，对于一系列问题的解决展现出超越传统方法的精确度 [1, 2, 3, 4]。北京大学与字节跳动研究部门 ByteDance Research 联合开发的计算框架 Forward Laplacian 创新地利用 Laplace 算子前向传播计算，为 NNVMC 领域提供了十倍的加速，从而大幅降低计算成本，达成该领域多项 State of the Art，同时也助力该领域向更多的科学难题发起冲击。该工作以《A computational framework for neural network-based variational Monte Carlo with Forward Laplacian》为题的论文已发表于国际顶级期刊《Nature Machine Intelligence》，相关代码已开源。

01

让 Java 开发人员在机器学习领域披荆斩棘

随着深度学习在语音、图像、自然语言等领域取得了广泛的成功，越来越多的企业、高校和科研单位开始投入大量的资源研发 AI 项目。同时，为了方便广大研发人员快速开发深度学习应用，专注于算法应用本身，避免重复造轮子的问题，各大科技公司先后开源了各自的深度学习框架，例如：TensorFlow（Google）、Torch/PyTorch（Facebook）、Caffe（BVLC）、CNTK（Microsoft）、PaddlePaddle（百度）等。

01

论文解读: Quantized Convolutional Neural Networks for Mobile Devices

《Quantized Convolutional Neural Networks for Mobile Devices》

02

【连载•第二话】大数据在“互联网+”进程中的应用（下）

摘要结合企业应用大数据向“互联网+”升级的实际案例，详细地分析了“互联网+”的两个阶段，探讨了大数据在企业“互联网+”转型中具有的意义与作用，分析利用互联网中的大数据为企业带来的直接价值，使世界更加扁平化，带动经济持续发展的同时，提高了人们的生活质量，加速了传统产业向互联网+转型的进程。关键词大数据互联网+ 中国电信信息鸿沟泛义征信 3 大数据在“互联网+”进程中的作用大数据技术的实现与普及，对于我国“互联网+”进程的推进起着至关重要的作用。O2O（Online-To-Offline，

05

Im2Col+GEMM的改进方法MEC，一种更加高效的卷积计算策略

前面介绍了Im2Col+GEMM来实现卷积以在某些条件下获得更好的访存和计算效率，详见：详解Im2Col+Pack+Sgemm策略更好的优化卷积运算。然后，最近偶然发现了Im2Col+GEMM的一个改进版本即MEC: Memory-efficient Convolution for Deep Neural Network ,这是发表在ICML 2017的文章，它主要优化了Im2Col+GEMM计算策略中的内存消耗，并且也能提升一点速度，是一个不错的卷积加速算法。所以我在这里结合论文然后复现了一下代码实现来为分享一下。

04

VP9到HEVC转码的帧间加速算法

背景介绍互联网多媒体技术的普及使数字视频得到了广泛的应用，更大分辨率、更高清晰度的视频逐渐进入人们的生活。传统视频编码标准如ITU(国际电信联盟)和ISO/IEC(国际标准化组织/国际电工委员会)共同制定的H.264/AVC标准针对大分辨率视频，如2K、4K等，压缩性能不够优良。其下一代标准高效视频编码(HEVC, High Efficiency Video Coding)编码标准相对于H.264/AVC有50%的压缩率提升，更适合大分辨率视频的压制，也因此成为目前主流的国际标准。国内自主研制的标准包括A

08

CTR模型越来越"深"，如何让它变"轻"?

看了那么多点击率相关模型论文，就会发现模型越来越深，越来越复杂，目标都是为了显式或隐式的挖掘交互特征。然而，复杂的模型会减慢预测推理的速度，提高了服务延迟和高内存使用率，对整个系统而言极不友好。《DeepLight: Deep Lightweight Feature Interactions for Accelerating CTR Predictions in Ad Serving》这篇论文提出了一种面向真实环境的DeepLight框架加速CTR预测。该框架下模型不仅能加速显式特征的挖掘，还能修剪冗余参数。在Criteo数据集上有46倍的加速，在Avazu数据集上有27倍的加速，却没有任何预测精度上的损失。

01

大话实时视频编码中的人工智能（下）

上述大多数文献都报告了显著的改进，它们与开源参考软件相比，有令人印象深刻的速度提升。但我们都知道，这些参考代码库远未优化，其速度以“每帧秒数”而非“每秒帧数”表示。要证明相对于这些代码库的速度提升是很容易的，但如果与经过专家调优、用汇编指令集优化并在高帧率和分辨率下实时运行的优化编码器相比，就会变得非常困难。

02

SFFAI分享 | 方杰民：Recent Advances and Highlights of NAS【附PPT与视频资料】

方杰民，华中科技大学电子信息与通信学院媒体与通信实验室研究生在读，师从王兴刚副教授，地平线平台与技术部算法实习生，主要研究方向为网络结构搜索、模型结构优化。

02

基于FPGA的深度学习加速器综述：挑战与机遇

近年来，神经网络在各种领域相比于传统算法有了极大的进步。在图像、视频、语音处理领域，各种各样的网络模型被提出，例如卷积神经网络、循环神经网络。训练较好的 CNN 模型把 ImageNet 数据集上 5 类顶尖图像的分类准确率从 73.8% 提升到了 84.7%，也靠其卓越的特征提取能力进一步提高了目标检测准确率。RNN 在语音识别领域取得了最新的词错率记录。总而言之，由于高度适应大量模式识别问题，神经网络已经成为许多人工智能应用的有力备选项。

02

可解释机器学习最新综述：应用于实时场景中的机遇与挑战

大数据文摘授权转载自将门创投作者：Guanchu Wang 论文链接： https://arxiv.org/abs/2302.03225 代码链接： https://github.com/ynchuang/awesome-efficient-xai 什么是可解释机器学习？深度模型（神经网络）的推理过程是黑盒化的、不可解释的。机器学习发展至今仍然无法完全打开这个黑盒子。可解释机器学习的研究内容就是为深度模型的推理结果提供人类可以理解的解释（原因）。这在有道德约束下的应用场景中是极其重要的。例如，某银行利

03

观点 | 增加深度，加速神经网络优化？这是一份反直觉的实验结果

选自offconvex 作者：Nadav Cohen 机器之心编译参与：晏奇、黄小天深度学习的根本理论问题之一是「深度有何作用」？虽然增加神经网络的层数可以提高其性能，但是训练和优化的难度也随之增加。本文却给出了一个相反观点，有时增加深度反而可以加速网络优化；同时提出端到端更新规则，证明深度网络过度的参数化（overparameterization）也可能是件好事。深度学习理论中有一个根本的问题：即「网络的深度有何作用？」传统观点（如：Eldan & Shamir 2016; Raghu et al

08

论文笔记系列-Neural Architecture Search With Reinforcement Learning

神经网络在多个领域都取得了不错的成绩，但是神经网络的合理设计却是比较困难的。在本篇论文中，作者使用递归网络去省城神经网络的模型描述，并且使用增强学习训练RNN，以使得生成得到的模型在验证集上取得最大的准确率。

03

系列 | OpenVINO视觉加速库使用六

主要讲述如何把DrakNet框架下支持的YOLO系列模型通过OpenVINO模型优化器与推断引擎实现对YOLO网络模型的加速执行。完整实现YOLO模型在OpenVINO上运行可以分为两个部分

04

隐私计算平台效率问题和加速策略

👆点击“博文视点Broadview”，获取更多书讯 📷 目前，隐私计算平台广泛用到了多种安全技术，包括同态加密、秘密共享、差分隐私、可信执行环境，以及其他一些安全多方计算技术。虽然这些安全技术的应用很好地保证了数据价值的安全共享，但同时也带来了计算和通信效率的大幅下降。在对安全和效率的双重探索中，星云Clustar 的研究人员基于理论分析和实践应用，提供了一系列安全加速方案。文献[1] 对联邦学习模型训练中存在的性能问题进行了全面的探讨，基于这些问题，文献[2~4] 提出了多样的解决方案。接下来，我们

05

开发 | 如何加速神经语言模型训练？东北大学小牛翻译团队有妙招

团队简介：东北大学自然语言处理实验室（小牛翻译团队）由姚天顺教授于1980年创立，长期从事机器翻译及语言分析方面的研究。小牛翻译团队所研发的NiuTrans系统开源版和小牛翻译企业版已经被来自 60 余个国家的2000多个机构使用，并支持44种语言的翻译。团队在CWMT、NTCIR等评测中取得多项第一、第二的成绩，发表AI、IJCAI、AAAI、ACL等期刊及会议论文40余篇，并于2016年获得中文信息处理领域最高奖钱伟长中文信息科学技术奖（一等奖）。一、神经语言模型简介语言作为人类之间进行沟通交

大话实时视频编码中的人工智能（上）

在过去的十年中，已经出现了数千篇主张 AI 和 ML 有益处的文章。其中一些是现实的，而另一些则夸大了 ML 技术在大量应用中可能带来的好处。那么真正的好处在哪里，市场营销部门在哪里越过界线，变成了无稽之谈？在诸如实时（视频）处理或编码等严格条件下的应用呢？考虑到计算开销、延迟和成本限制后，能保留了多少净收益？

02

NVIDIA Eos 揭晓：全球十大超级计算机排名第9

NVIDIA 的突破性 DGX AI 超级计算机是全球企业的蓝图，旨在为 AI 创新的下一个前沿提供动力

00

让你捷足先登的深度学习框架

大数据文摘授权转载自数据派THU 作者：陈之炎对于据科学的初学者来说，利用开源的深度学习框架，可以大幅度简化复杂的大规模度学习模型的实现过程。在深度学习框架下构建模型，无需花费几天或几周的时间从头开始编写代码，便可以轻松实现诸如卷积神经网络这样复杂的模型。在本文中，将介绍几种非常有用的深度学习框架、它们的优点以及应用，通过对每个框架进行比较，研发人员了解如何有选择地使用它们，高效快捷完成项目任务。深度学习框架概述深度学习框架是一种界面、库或工具，它使编程人员在无需深入了解底层算法的细节的情况下，能够更

02

TPU中的脉动阵列及其实现

本文将对TPU中的矩阵计算单元进行分析，并给出了SimpleTPU中32×32的脉动阵列的实现方式和采用该阵列进行卷积计算的方法，以及一个卷积的设计实例，验证了其正确性。代码地址https://github.com/cea-wind/SimpleTPU/tree/master/lab1

03

学界 | 搜索一次就够了：中科院&图森提出通过稀疏优化进行一次神经架构搜索

作者：Xinbang Zhang, Zehao Huang, Naiyan Wang

05

盘点2016-2017 EDA及芯片领域的神经网络热点论文

我们结合2017年的 FPGA 和 ISSCC 会议上的代表性工作，给出了神经网络的一些新热点和研究趋势。

「反向传播非你原创」，Jürgen发文直指Hinton不应获2019本田奖

创立于 1980 年的本田奖旨在表彰「为引领生态技术领域的下一代新知识而做出贡献的个人或团体」。2019 年，Geoffrey Hinton 获得本田奖，获奖理由是「为将人工智能（AI）广泛应用于多个领域所做的先驱性研究以及实用化推进」。

02

开源深度学习平台 TensorFlow、Caffe、MXNet……哪个最适合你

【新智元导读】本文选自开源深度学习项目 Deeplearning4j （DL4J）博客，文章虽然着重介绍自家产品，但内容仍然值得借鉴。与其他项目相比，DL4J 在编程语言和宗旨两方面都独具特色。本文同时收录其他开源深度学习框架介绍，包括最近被亚马逊选中而备受关注的 MXNet。 Deeplearning4j （简称 DL4J）不是第一个开源的深度学习项目，但与此前的其他项目相比，DL4J 在编程语言和宗旨两方面都独具特色。DL4J 是基于 JVM、聚焦行业应用且提供商业支持的分布式深度学习框架，其宗旨是在合

06

AI芯片发展的前世今生

现代电子产品和设备在诸如通信、娱乐、安全和医疗保健等许多方面改善了我们的生活质量，这主要是因为现代微电子技术的发展极大地改变了人们的日常工作和互动方式。在过去几十年中，摩尔定律一直是通过不断缩小芯片上的器件特征尺寸来提高计算能力，带来了电子产品诸如更高速度、更低成本和更小功耗等优势。Gordon Moore 最初的观察是芯片中的晶体管数量大约每 2 年增加 1 倍，David House 进一步预测，由于更多更快的晶体管，芯片性能将每 18 个月翻一番。虽然 Gordon Moore 的预测已经成功超过 50 年，但是今天的硅 CMOS 技术正在接近其尺寸的基本物理极限，摩尔定律的延续性已经变得越来越具有挑战性。

01

图布局算法的发展

图数据的可视化，核心在布局，而布局算法通常是按照一些特定的模型，将抽象数据进行具象展示，这一过程伴随大量的迭代计算，例如朴素的 FR 力导向算法其在计算斥力时的算法时间复杂度达到了 O(n 3 )，这在小规模数据量下可能并不会出现问题，但随着规模的不断增大，采用如此“高昂”计算复杂度的算法变得不能接受，所以，出现了许多针对算法时间复杂度进行改进的方法，需要说明的是，在这一阶段，数据集的规模仍未达到单机处理上限，例如 OpenOrd算法采用多线程并行来加速计算过程。随着数据规模的进一步扩大，图数据节点达到百万级别时，单机并行策略也变得无能为力，这时，分布式并行计算的方式为这种“大规模图数据”的处理提供了可能性。

03

Java 工程师快速入门深度学习，从 Deeplearning4j 开始

随着机器学习、深度学习为主要代表的人工智能技术的逐渐成熟，越来越多的 AI 产品得到了真正的落地。

01

一文看懂各种神经网络优化算法：从梯度下降到Adam方法

王小新编译自 Medium 量子位出品 | 公众号 QbitAI 在调整模型更新权重和偏差参数的方式时，你是否考虑过哪种优化算法能使模型产生更好且更快的效果？应该用梯度下降，随机梯度下降，还是Adam方法？这篇文章介绍了不同优化算法之间的主要区别，以及如何选择最佳的优化方法。什么是优化算法？优化算法的功能，是通过改善训练方式，来最小化(或最大化)损失函数E(x)。模型内部有些参数，是用来计算测试集中目标值Y的真实值和预测值的偏差程度的，基于这些参数，就形成了损失函数E(x)。比如说，权重(W)

07

【CPP】《程序员面试金典》习题(1)——数组与字符串

意识到该刷刷算法题的自己，面临压力自然想到LeetCode，但是面对和LeetCode那数千道题，时间有限下自然要更有针对性些，自然就看到《程序员面试金典》。

02

如何在有限资源设备上部署深度网络（下）

近年来，深度神经网络模型在计算机视觉识别、语音识别、自然语言处理等领域取得了巨大的成功。但是受限于较高的计算复杂度和较大的存储需求，深度模型的部署在有限资源设备上面临着诸多挑战，因此相继出现了各种模型压缩和加速技术。其中知识蒸馏是一种典型的方法，它能从一个大的教师模型中学习到一个小的学生模型，受到了工业界和学术界的广泛关注。

01

快速入门深度学习，从 Deeplearning4j 开始

随着机器学习、深度学习为主要代表的人工智能技术的逐渐成熟，越来越多的 AI 产品得到了真正的落地。

01

从英伟达A100 GPU说起，浅谈细粒度结构化稀疏

前不久，英伟达黄老板从自家烤箱里端出了最新款基于 Ampere 架构的 A100 GPU。跟以往的新产品一样，Ampere 相比上一代产品性能有很大提升，并具备多个重要的新特性，其中之一就是细粒度结构化稀疏。这一特性能够为神经网络提供最多两倍的加速，本文我们就来一探究竟。

01

原创 | 让你捷足先登的深度学习框架

本文介绍了几种非常有用的深度学习框架、它们的优点以及应用，通过对每个框架进行比较，研发人员了解如何有选择地使用它们，高效快捷完成项目任务。

02

上海交大：基于近似随机Dropout的LSTM训练加速

论文：Approximate Random Dropout for DNN training acceleration in GPGPU

03

学界 | 上海交通大学团队与高文院士ICCV录用论文：精度保证下的新型深度网络压缩框架

AI科技评论按：ICCV 全称为 IEEE International Conference on Computer Vision，即国际计算机视觉大会）与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议，每两年召开一次的 ICCV 今年将在意大利威尼斯举办。由上海交通大学人工智能实验室李泽凡博士实现，倪冰冰教授、张文军教授、杨小康教授，高文院士指导的论文《基于高阶残差量化的高精度网络加速》（Performance Guaranteed Networ

04

SFFAI分享 | 杨朝晖：二值化网络

此次的文章分享主要关于二值化网络在图像分类中的应用。自BinaryConnect，二值化网络取得了一系列的进展。相比于全精度的网络，二值化网络对于全连接或者卷积层压缩32倍，成为一比特，大大减小了网络的存储空间，在二值化权重后，运算可以简化为加减法，如果进一步二值化特征图，运算可以转化成为xnor+bitcount操作，从而进一步加速运算。

02

【AutoML】如何使用强化学习进行模型剪枝？

大家好，欢迎来到专栏《AutoML》，在这个专栏中我们会讲述AutoML技术在深度学习中的应用，这一期讲述在模型剪枝中的应用。

04

从梯度下降到 Adam！一文看懂各种神经网络优化算法

每天给你送来NLP技术干货！ ---- 编译：王小新，来源：量子位在调整模型更新权重和偏差参数的方式时，你是否考虑过哪种优化算法能使模型产生更好且更快的效果？应该用梯度下降，随机梯度下降，还是Adam方法？这篇文章介绍了不同优化算法之间的主要区别，以及如何选择最佳的优化方法。什么是优化算法？优化算法的功能，是通过改善训练方式，来最小化(或最大化)损失函数E(x)。模型内部有些参数，是用来计算测试集中目标值Y的真实值和预测值的偏差程度的，基于这些参数，就形成了损失函数E(x)。比如说，权重(W)

03

文本分类fastText算法

在深度学习遍地开花的今天，浅层的网络结构甚至是传统的机器学习算法被关注得越来越少，但是在实际的工作中，这一类算法依然得到广泛的应用，或者直接作为解决方案，或者作为该问题的baseline，fastText就是这样的一个文本分类工具。fastText是2016年由facebook开源的用于文本分类的工具，fastText背后使用的是一个浅层的神经网络，在保证准确率的前提下，fastText算法的最大特点是快。

02

业界丨深度学习的三种硬件方案 ASICs、FPGAs 和 GPU，开发者需要知道什么？

AI科技评论：今年三月 AlphaGo 和李世石的“世纪之战”炒红了深度学习—— AlphaGo 采用了人工神经网络技术，充分挖掘了深度学习的潜力。简单来说，深度学习是一个包含了许多层级数据处理的神经

09

【论文笔记】DeepWalk：大型社会表示的在线学习

我们将社交网络的成员分类问题考虑为一个或多个类别。更正式地说，设G = (V, E)，其中V是网络的成员，E是其边，E ⊆ (V×V)。给定部分标记的社交网络G[L] = (V, E, X, Y)，属性X ∈ R^{|V|×S}，其中S是每个属性向量的特征空间的大小，并且Y ∈ R^{|V|×|Y|}，Y是标签集。

02

优秀的 Verilog/FPGA开源项目介绍（二十一）- 卷积神经网络（CNN）

在深度学习中，卷积神经网络（CNN或ConvNet）是一类人工神经网络（ANN），最常用于分析视觉图像。

06

中科大何力新教授：当量子力学遇见AI——深度学习在超算平台上模拟量子多体问题

AI for Science领域存在大量未解NP-hard问题，其中就包括量子多体问题。作者丨何力新整理 | Don 编辑 | 青暮人工智能的下一个目标是从模仿认知学习，转向解决一直存在的大规模科学计算问题，UC伯克利教授Michael Jordan曾经强调。而李国杰院士也曾在与雷峰网的交流中进一步指出，人工智能应该突破约翰·麦肯锡和艾伦·图灵定下来的框框，去研究NP-hard级别的大难题，让基础科研走向大工程化。也就是说，要用数据、算力和算法合力去寻找这类难题的具体解，并落地应用，而不仅仅追求理论边界的

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭