如何在tensorflow上使用fp16(Eigen::half)进行卷积 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

【在线视频】如何在GPU上进行混合精度训练

使用精度低于FP32的系统可以减少内存使用，允许部署更大的网络。数据传输需要更少的时间，而且计算性能会提高，尤其是在NVIDIA gpu上，它的Tensor Core支持这种精度。DNNs的混合精度训练实现了两个主要目标:

01

深度学习GPU卡性能比拼：见证Titan RTX“钞能力”

文中，作者测试了包含Titan RTX在内的多个常见NVIDIA GPU卡在各种AI训练任务上的速度。对于每个GPU，分别训练下列神经网络时测量每秒处理的图像数量:ResNet50、ResNet152、Inception3、Inception4、VGG16、AlexNet和SSD。得出了一下结论：

03

您找到你想要的搜索结果了吗？

是的

没有找到

深度学习算法优化系列二十 | TensorRT 如何进行细粒度的Profiling

今天我将以GoogleNet为例来展示如何在TensorRT中实现细粒度的Profiling并且顺带介绍一下TensorRT的16Bit推理。

01

Tensorflow中float32模型强制转为float16半浮点模型

在Tensorflow框架训练完成后，部署模型时希望对模型进行压缩。一种方案是前面文字介绍的方法《【Ubuntu】Tensorflow对训练后的模型做8位（uint8）量化转换》。另一种方法是半浮点量化，今天我们主要介绍如何通过修改Tensorflow的pb文件中的计算节点和常量（const），将float32数据类型的模型大小压缩减半为float16数据类型的模型。

一起实践神经网络量化系列教程（一）！

老潘刚开始接触神经网络量化是2年前那会，用NCNN和TVM在树莓派上部署一个简单的SSD网络。那个时候使用的量化脚本是参考于TensorRT和NCNN的PTQ量化（训练后量化）模式，使用交叉熵的方式对模型进行量化，最终在树莓派3B+上部署一个简单的分类模型（识别剪刀石头布静态手势）。

04

学界 | 减少模型半数内存用量：百度&英伟达提出混合精度训练法

机器之心编译选自：arXiv 参与：李泽南、蒋思源深度学习的模型正在变得越来越复杂，所需要的计算资源也越来越多，在开发更加强大的硬件的同时，很多人也在致力于改进算法。最近，百度和英伟达共同提出了一

09

RTX 3090 AI性能实测：FP32训练速度提升50%，张量核心缩水

其中，性能最强大的RTX 3090具有24GB显存和10496个CUDA核心。而2018年推出的旗舰显卡Titan RTX同样具有24GB显存。

04

PyTorch提速四倍！提高DALI利用率，创建基于CPU的Pipeline

在过去的几年里，深度学习硬件方面取得了巨大的进步，Nvidia的最新产品Tesla V100和Geforce RTX系列包含专用的张量核，用于加速神经网络中常用的操作。

01

有钱任性：英伟达训练80亿参数量GPT-2，1475块V100 53分钟训练BERT

2）将 BERT 的推理时间缩短到了 2.2 毫秒（10 毫秒已经是业界公认的高水平）；

02

【问题笔记】在NVIDIA Tesla V100上用非tensor core测试，半精度并不如单精度，是真的么？

有同学问：NVIDIA手册上说Tesla P100用sp做半精度，理论计算能力是单精度的一倍，我在Tesla V100上用非tensor core测试，半精度并不如单精度。不知道是p100是不是也这样？

02

用 NVIDIA DALI 加速PyTorch：训练速度提升 4 倍

本文展示了一些提高 DALI 资源使用率以及创建一个完全基于 CPU 的管道的技术。这些技术长期稳定内存使用率，将 CPU & GPU 管道的 batch 大小提高 50%。用特斯拉 V100 加速器显示 PyTorch+DALI 可以达到接近 4000 个图像/秒的处理速度，比原生 PyTorch 快了大约 4 倍。

02

想提速但TensorRT的FP16不得劲？怎么办？在线支招！

前些天尝试使用TensorRT转换一个模型，模型用TensorFlow训练，包含LSTM+Transform+CNN，是一个典型的时序结构模型，包含编码解码结构，暂称为debug.onnx吧。

03

训练提速60%！只需5行代码，PyTorch 1.6即将原生支持自动混合精度训练。

PyTorch 1.6 nightly增加了一个子模块 amp ，支持自动混合精度训练。值得期待。来看看性能如何，相比Nvidia Apex 有哪些优势？

01

业界 | Tensor Core究竟有多快？全面对比英伟达Tesla V100/P100的RNN加速能力

选自xcelerit 机器之心编译参与：蒋思源 RNN 是处理量化金融、风险管理等时序数据的主要深度学习模型，但这种模型用 GPU 加速的效果并不好。本文使用 RNN 与 LSTM 基于 Tenso

09

免费易用，腾讯Arm云实例评测 - AI推理加速

腾讯CVM标准型SR1是腾讯云推出的首款搭载ARM架构处理器的新一代CVM标准型计算实例规格。SR1基于全核一致主频3.0GHz的Ampere Altra处理器，实例核数从1核到64核，并支持1: 2、1: 4等多种处理器与内存配比，相对x86架构实例为用户提供卓越的性价比。

系列 | OpenVINO视觉加速库使用二

OpenVINO中模型优化器(Model Optimizer)支持tensorflow/Caffe模型转换为OpenVINO的中间层表示IR(intermediate representation)，从而实现对模型的压缩与优化，方便推断引擎更快的加载与执行这些模型。以tensorflow对象检测框架支持的SSD MobileNet v2版本的模型为例，实现从tensorflow的pb文件到IR格式的bin与xml文件生成。全部的过程可以分为三个部分，下面一一解析！

05

深度 | 英伟达深度学习Tensor Core全面解析

AI 科技评论消息，不久前，NVIDIA在SIGGRAPH 2018上正式发布了新一代GPU架构——Turing（图灵），黄仁勋称Turing架构是自2006年CUDA GPU发明以来最大的飞跃。Turing架构的两大重要特性便是集成了用于光线追踪的RT Core以及用于AI计算的Tensor Core，使其成为了全球首款支持实时光线追踪的GPU。

01

英伟达RTX 2080 Ti值得买么？深度学习测试来了！

美国人工智能公司Lambda用TensorFlow测试了RTX 2080 Ti。相比1080 Ti， 2080 Ti值得买么？

03

cuBLAS矩阵乘法性能分析（附代码示例）

矩阵乘法是神经网络中最基础、最重要的一个运算。在用CUDA实现矩阵乘法时，不需要我们手动写，cuBLAS库提供了现成的矩阵乘法算子，例如cublasGemmEx和cublasLtMatmul。其中后者是轻量级版本，API调用更灵活。例如对于整数乘法，cublasLtMatmul支持int8的输入输出，而cublasGemmEx只支持int8输入，int32输出。

05

CNN推理哪家强？英伟达/英特尔/骁龙/麒麟/ActionSemi大测评

CNN推理在物联网的趋势下越来越重要，各大品牌也在推出不同设备以供使用。那么，主流品牌硬件做CNN推理哪家强？

03

模型压缩一半，精度几乎无损，TensorFlow推出半精度浮点量化工具包，还有在线Demo

近日，TensorFlow模型优化工具包又添一员大将，训练后的半精度浮点量化（float16 quantization）工具。

02

模型压缩一半，精度几乎无损，TensorFlow推出半精度浮点量化工具包，还有在线Demo

近日，TensorFlow模型优化工具包又添一员大将，训练后的半精度浮点量化（float16 quantization）工具。

05

Google 和 Nvidia 强强联手，带来优化版 TensorFlow 1.7

日前，谷歌和英伟达宣布将 NVIDIA TensorRT 集成到 TensorFlow 1.7 中。在谷歌开发者博客中，他们介绍了此次合作的详细信息以及整合之后的性能，AI 研习社编译整理如下： TensorRT 是一个可以用于优化深度学习模型，以进行推理，并为生产环境中的 GPU 创建运行环境的库。它能优化 TensorFlow 中的 FP16 浮点数和 INT8 整型数，并能自动选择针对特定平台的内核，以最大化吞吐量，并最大限度的降低 GPU 推理期间的延迟。全新的集成工作流程简化了在 TensorFl

08

浅谈混合精度训练imagenet

本文没有任何的原理和解读，只有一些实验的结论，对于想使用混合精度训练的同学可以直接参考结论白嫖，或者直接拿github上的代码(文末放送)。

02

Google 和 Nvidia 强强联手，带来优化版 TensorFlow 1.7

AI 研习社按，日前，谷歌和英伟达宣布将 NVIDIA TensorRT 集成到 TensorFlow 1.7 中。在谷歌开发者博客中，他们介绍了此次合作的详细信息以及整合之后的性能，AI 研习社编译整理如下：

03

windows 11 搭建 TensorFlow2.6 GPU 开发环境【RTX 3060】:1 -- 本地原生方式

CUDA® is a parallel computing platform and programming model invented by NVIDIA. It enables dramatic increases in computing performance by harnessing the power of the graphics processing unit (GPU).

02

Tensor Core

Tensor Core，也是Volta架构里面最重磅的特性。 Tensor Core实际上是一种矩阵乘累加的计算单元。矩阵乘累加计算在Deep Learning网络层算法中，比如卷积层、全连接层等是

08

如何让Transformer在GPU上跑得更快？快手：需要GPU底层优化

从 Google 在 2017 年发表著名的「Attention is all you need」文章开始，Transformer 架构就开始攻占 AI 的多个领域：不仅成为自然语言处理（NLP）和语音等很多 AI 应用的默认核心架构，同时也成功跨界到计算机视觉方向，在超分辨率、图像识别和物体检测中取得 state-of-the-art 的性能。

01

TensorFlow 模型优化工具包：模型大小减半，精度几乎不变！

我们非常高兴能够将训练后的 float16 quantization 作为模型优化工具包（Model Optimization Toolkit）的一部分。这套工具包括了：

03

使用AMP的PyTorch模型更快，内存效率更高

您是否知道反向传播算法是Geoffrey Hinton 在1986年的《自然》杂志上提出的？

01

一篇文章回答你关于NVIDIA DLA的所有疑问

所有 Jetson AGX Orin 和 Orin NX 板以及所有上一代 Jetson AGX Xavier 和 Xavier NX 模块都具有 DLA 内核。对于至少具有一个 DLA 实例及其相应时钟设置的所有平台。DRIVE Xavier 和 DRIVE Orin 也有 DLA 核心。

01

【技术分享】Detectron模型性能优化与部署（2）

在Detectron模型性能优化与部署(1)中，我们介绍了如何使用Caffe2/TRT加速Cascade R-CNN + FPN模型。我们会在本篇文章介绍如何实现FP16推理，如何实现图片输入大小可变，FP16相比FP32推理精度差别，如何避免推理精度损失，以及模型如何上线等。

02

当Intel的神经棒遇到NVIDIA的Jetson TX2

今天，来自石家庄铁道大学的杨萌同学给大家介绍如何在Jetson TX2上安装Intel神经棒——想像一下如果NV和Intel在AI领域强强联合,会出现什么效果？ It is very Interest

05

探讨TensorRT加速AI模型的简易方案 — 以图像超分为例

AI模型近年来被广泛应用于图像、视频处理，并在超分、降噪、插帧等应用中展现了良好的效果。但由于图像AI模型的计算量大，即便部署在GPU上，有时仍达不到理想的运行速度。为此，NVIDIA推出了TensorRT，成倍提高了AI模型的推理效率。本次LiveVideoStack线上分享邀请到了英伟达DevTech团队技术负责人季光一起探讨把模型运行到TensorRT的简易方法，帮助GPU编程的初学者加速自己的AI模型。

02

FP32 & TF32

是属于有理数中某特定子集的数的数字表示，在计算机中用以近似表示任意某个实数，小数点可以“浮动”。实数由一个整数或定点数（即尾数/significand/mantissa）乘以某个基数exponent（计算机中通常是2）的整数次幂得到，这种表示方法类似于基数为10的科学计数法。

02

NVIDIA Xavier性能没有达到预期怎么办？

最近遇到好些用户在使用NVIDIA Xavier 的时候遇到性能没达到预期的情况：

02

深度学习模型压缩与优化加速（Model Compression and Acceleration Overview）

深度学习（Deep Learning）因其计算复杂度或参数冗余，在一些场景和设备上限制了相应的模型部署，需要借助模型压缩、系统优化加速、异构计算等方法突破瓶颈，即分别在算法模型、计算图或算子优化以及硬件加速等层面采取必要的手段：

01

干货|手把手教你在NCS2上部署yolo v3-tiny检测模型

如果说深度学习模型性能的不断提升得益于英伟达GPU的不断发展，那么模型的边缘部署可能就需要借助英特尔的边缘计算来解决。伴随交通、医疗、零售等行业中深度学习应用的发展，数据处理和智能分析逐渐从云端走向边缘。本人与大家分享一下英特尔的边缘计算方案，并实战部署yolo v3-tiny模型。

02

干货|手把手教你在NCS2上部署yolo v3-tiny检测模型

如果说深度学习模型性能的不断提升得益于英伟达GPU的不断发展，那么模型的边缘部署可能就需要借助英特尔的边缘计算来解决。伴随交通、医疗、零售等行业中深度学习应用的发展，数据处理和智能分析逐渐从云端走向边缘。本人与大家分享一下英特尔的边缘计算方案，并实战部署yolo v3-tiny模型。

02

使用 TFLite 在移动设备上优化与部署风格转化模型

文 / Khanh LeViet 和 Luiz Gustavo Martins，技术推广工程师

02

[AI新知] Nvidia开源高效能推理平台TensorRT函式库元件

TensorRT支援热门的深度学习开发框架，可以最佳化这些框架开发的模型，并部署到嵌入式、自动驾驶或是资料中心平台

03

学界 | 百度联合英伟达发布最新论文：使深度学习效率事半功倍的混合精度训练

AI科技评论消息: 在10月10日-11日在加拿大蒙特利尔召开的Rework Deep Learning Summit会议上，百度高级研究员Greg Diamos介绍了由百度硅谷AI实验室（SVAIL

08

改动一行代码，PyTorch训练三倍提速，这些「高级技术」是关键

GitHub 地址：https://github.com/rasbt/cvpr2023

03

业界 | 超越英伟达Pascal五倍？揭秘英特尔深度学习芯片架构

选自The Next Platform 作者：Nicole Hemsoth 机器之心编译参与：李泽南、李亚洲在被英特尔收购两年之后，深度学习芯片公司 Nervana 终于准备将代号为「Lake C

06

【讲座】在NVIDIA Jetson上从Tensorflow到TensorRT

NVIDIA在太平洋时间3月8日上午11:00-12:00（北京时间3月9日凌晨3:00-4:00）举办了主题为“AI at the Edge: TensorFlow to TensorRT on J

06

面向低功耗AI芯片上的神经网络设计

【GiantPandaCV导语】这篇文章为大家介绍了一下面向低功耗AI芯片上的神经网络设计，随着这几年神经网络和硬件（CPU,GPU,FPGA,ASIC）的迅猛发展，深度学习在包括互联网，自动驾驶，金融，安防等很多行业都得到了广泛的应用。然而当我们真正在实际部署深度学习应用的时候，许多场景例如无人驾驶对设备在功耗，成本，散热性等方面都有额外的限制，导致了无法大规模应用深度学习解决方案。感兴趣的同学可以了解一下有关如何面向AI芯片来设计神经网络。

06

AI TALK | 神经网络计算加速：模型量化与低功耗IOT设备部署

神经网络由于参数量大，运算量大，往往在部署到IOT设备时会碰到储存空间不够，运算时长过长或者量化精度不够的问题。针对这些问题，本文介绍了神经网络模型在轻量级设备的部署技巧，具体内容包括神经网络模型量化的基本原理和主要方法，以及部分低功耗IOT设备上模型部署的实例与技巧。量化基本原理量化本质上是数值范围的一种调整，目前主流的神经网络的量化主要是将fp32的一组数据映射到int8的范围内(也有研究int6 int4甚至int2的本文不做讨论)，（如下图数据所示）。且由下表格可知，int8的表示范围和步长

04

【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化

这篇文章来解析一下Megaton-LM涉及到的一个优化gradient_accumulation_fusion。这里fusion的意思是在gemm接口中会将当前的结果累加到先前计算的梯度上，所有这些都在一个操作中完成，可以避免多次访问global memory提升算子的带宽。下面解析一下这个优化的调度逻辑和cuda实现。

03

YOLOv5模型部署TensorRT之 FP32、FP16、INT8推理

点击上方蓝字关注我们微信公众号：OpenCV学堂关注获取更多计算机视觉与深度学习知识引言 YOLOv5最新版本的6.x已经支持直接导出engine文件并部署到TensorRT上了。 FP32推理TensorRT演示可能很多人不知道YOLOv5新版本6.x中已经支持一键导出Tensor支持engine文件，而且只需要一条命令行就可以完成：演示如下： python export.py --weights yolov5s.pt --include onnx engine --device 0 其中on

05

边缘计算笔记（三）：从Tensorflow生成TensorRT引擎的方法（完结篇）

例如我们想将训练好的Inception V1现成模型，从TensorFlow转换为TensorRT，我们可以从（TensorBoard）显示的结构图的最发现找到输入节点，（从该节点的右上角信息）中，

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭