pytorch int8_int8_php int8 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用了这个技术，我让模型训练和推理快了好几倍

Transformer系列模型都在用吧？ Hugging Face都在用吧？ Fairseq都在用吧？

04

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

如何继续提升速度？降低计算精度是比较直接的方法。2017 年以来，fp16 混合精度技术 [2] 获得了广泛应用。在对模型效果无损的前提下，将模型训练和推理的速度提升了 50% 以上。而为了维持模型效果，更低精度的方法（例如 int8）通常需要使用如下传统方案：

01

您找到你想要的搜索结果了吗？

是的

没有找到

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

近年来，Transformer 已经成为了 NLP 和 CV 等领域的主流模型，但庞大的模型参数限制了它的高效训练和推理。于是字节跳动在 2019 年 12 月和 2021 年 6 月分别推出了高效推理和训练引擎 LightSeq，大大加速了 Transformer 系列模型的训练和推理，也打通了 Transformer 从训练到推理的整个流程，极大优化了用户使用体验。最近，LightSeq 训练引擎相关论文[1]，被录用难度极高的超算领域国际顶会 SC22 接收，得到了学术界的广泛认可！

04

终于把TensorRT的engine模型的结构图画出来了！

可以看到很多层被融合了，比如conv1.weight + QuantizeLinear_7_quantize_scale_node + Conv_9 + Relu_11这个部分。也有没有被融合的，比如MaxPool_12。另外QuantizeLinear这个量化算子，可能有些童鞋没有见过，大家可以把它当做一个层就可以。

03

ONNX与TensorRT系列

本质上就是一个有向无环图，用 trace 的方法以一个 dummy tensor 来前向推理一遍网络，来记录下经过的结点，形成一个 graph。

01

YOLOv5模型部署TensorRT之 FP32、FP16、INT8推理

点击上方蓝字关注我们微信公众号：OpenCV学堂关注获取更多计算机视觉与深度学习知识引言 YOLOv5最新版本的6.x已经支持直接导出engine文件并部署到TensorRT上了。 FP32推理TensorRT演示可能很多人不知道YOLOv5新版本6.x中已经支持一键导出Tensor支持engine文件，而且只需要一条命令行就可以完成：演示如下： python export.py --weights yolov5s.pt --include onnx engine --device 0 其中on

05

PyTorch 1.3 重磅发布

2019.10.10日，PyTorch 开发者大会在美国旧金山开幕，会上发布了PyTorch 1.3。这次更新最大的亮点在于对移动设备的支持（Mobile Supported）、命名张量（Named Tensors），量化（Quantization），类型提升（Type Promotion）等。另外，PyTorch 官方还开源了很多新工具和库，涉及可解释性、加密、以及关于图像语音的诸多功能。下面会逐一介绍。

02

《PytorchConference2023翻译系列》19-使用TorchBench for PyTorch标准化CPU基准测试

大家好，我是来自英特尔的明飞。今天的主题是关于使用Torchbench对PyTorch社区进行CPU基准测试的标准化。实际上，这是我同事王传奇和姜彦斌的一项工作，但不幸的是他们有一些签证问题，无法亲自来参加，所以我代替他们进行演讲。特别感谢来自Meta的工程师赵旭，在这项工作中给予了很多帮助。首先，我们来看一下为什么做这个？

01

一起实践神经网络量化系列教程（一）！

老潘刚开始接触神经网络量化是2年前那会，用NCNN和TVM在树莓派上部署一个简单的SSD网络。那个时候使用的量化脚本是参考于TensorRT和NCNN的PTQ量化（训练后量化）模式，使用交叉熵的方式对模型进行量化，最终在树莓派3B+上部署一个简单的分类模型（识别剪刀石头布静态手势）。

04

模型部署系列：10x速度提升，Yolov8检测模型稀疏化——CPU上超500FPS

YOLOv8由广受欢迎的YOLOv3和YOLOv5模型的作者 Ultralytics 开发，凭借其无锚设计将目标检测提升到了一个新的水平。YOLOv8 专为实际部署而设计，重点关注速度、延迟和经济性。

01

YOLOv5新版本6.x 自定义对象检测-从训练到部署

点击上方蓝字关注我们微信公众号：OpenCV学堂关注获取更多计算机视觉与深度学习知识安装与测试最近YOLOv5最新更新升级到v6.x版本，工程简便性有提升了一大步，本教程教你基于YOLOv5框架如何训练一个自定义对象检测模型，首先需要下载对应版本： https://github.com/ultralytics/yolov5/releases/tag/v6.1 鼠标滚到最下面下载源码zip包： https://github.com/ultralytics/yolov5/archive/refs/t

01

PyTorch造大模型“加速包”，不到1000行代码提速10倍！英伟达科学家：minGPT以来最好的教程式repo之一

开发团队一开始使用简单的PyTorch来实现，但效果不佳（25.5 tok/s）：

01

深度学习模型压缩与优化加速（Model Compression and Acceleration Overview）

深度学习（Deep Learning）因其计算复杂度或参数冗余，在一些场景和设备上限制了相应的模型部署，需要借助模型压缩、系统优化加速、异构计算等方法突破瓶颈，即分别在算法模型、计算图或算子优化以及硬件加速等层面采取必要的手段：

01

INT8量化训练

【GiantPandaCV导读】本文聊了两篇做INT8量化训练的文章，量化训练说的与quantization-aware Training有区别，量化训练指的是在模型训练的前向传播和后向传播都有INT8量化。两篇文章都是基于对梯度构建分析方程求解得到解决量化训练会引起的训练崩溃和精度损失严重的情况。

03

PyTorch模型静态量化、保存、加载int8量化模型

为了保证较高的精度，大部分的科学运算都是采用浮点型进行计算，常见的是32位浮点型和64位浮点型，即float32和double64。然而推理没有反向传播，网络中存在很多不重要的参数，或者并不需要太细的精度来表示它们。

04

在OneFlow实现数据类型自动提升

可以观察到同样是multiply运算，有些结果的数据类型被提升到更高的一级，有些并没有被提升，还维持着int8类型。这其实是一种类型提升系统，系统内会自定义一些类型提升的规则，根据输入的数据类型来推导最终结果的数据类型。

01

使用PyTorch II的新特性加快LLM推理速度

Pytorch团队提出了一种纯粹通过PyTorch新特性在的自下而上的优化LLM方法，包括:

01

TensorRT重磅更新！10亿参数大模型实时运行，GPT推理加速21倍

12月2日，英伟达发布了最新的TensorRT 8.2版本，对10亿级参数的NLP模型进行了优化，其中就包括用于翻译和文本生成的T5和GPT-2。

03

一个简单模型就让ChatGLM性能大幅提升 | 最“in”大模型

自大语言模型 (LLM) 成为热点话题以来，涌现了一大批中文大语言模型并在优化平台中得到了积极部署。ChatGLM 正是广受好评的主流中文大语言模型之一。

02

Pytorch量化入门之超分量化（一）

量化在不同领域有不同的定义，而在深度学习领域，量化有两个层面的意义：(1) 存储量化，即更少的bit来存储原本需要用浮点数(一般为FP32)存储的tensor；(2) 计算量化，即用更少的bit来完成原本需要基于浮点数(一般为FP32，FP16现在也是常用的一种)完成的计算。量化一般有这样两点好处：

02

PyTorch 1.3 —新增功能？

Facebook刚刚发布了PyTorch v1.3，其中包含了一些最期待的功能。最具吸引力的三个是：

03

计算机视觉研究院：AI部署以及工业落地学习之路（文章较长，建议收藏）

计算机视觉研究院专栏作者：Edison_G 最近在复盘今年上半年做的一些事情，不管是训练模型、部署模型搭建服务，还是写一些组件代码，零零散散是有一些产出。本文主要转自知乎《链接：https://zhuanlan.zhihu.com/p/386488468》公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式深感还有很多很多需要学习的地方。既然要学习，那么学习路线就显得比较重要了。本文重点谈谈学习AI部署的一些基础和需要提升的地方。这也是老潘之前学习、或者未来需要

03

LLM 盛行，如何优雅地训练大模型？

ChatGPT于2022年12月初发布，震惊轰动了全世界，发布后的这段时间里，一系列国内外的大模型训练开源项目接踵而至，例如Alpaca、BOOLM、LLaMA、ChatGLM、DeepSpeedChat、ColossalChat等。不论是学术界还是工业界，都有训练大模型来优化下游任务的需求。

03

一篇文章回答你关于NVIDIA DLA的所有疑问

所有 Jetson AGX Orin 和 Orin NX 板以及所有上一代 Jetson AGX Xavier 和 Xavier NX 模块都具有 DLA 内核。对于至少具有一个 DLA 实例及其相应时钟设置的所有平台。DRIVE Xavier 和 DRIVE Orin 也有 DLA 核心。

01

轻松学Pytorch之量化支持

模型的边缘端部署需要深度学习模型更加的小型化与轻量化、同时要求速度要足够快！一个量化之后的模型可以使用整数运算执行从而很大程度上降低浮点数计算开销。Pytorch框架支持8位量化，相比32位的浮点数模型，模型大小对内存需要可以降低四倍左右，硬件支持8位量化之后的模型推理可以加速2到4倍左右。模型量化是模型部署与加速推理预测首选技术方案。

01

Facebook将照片3D化技术商用，强大的算法+海量的数据+移动端优化是工程亮点

近日，Facebook AI 团队官宣使用其 Facebook APP的用户均可以方便的在手机端将单摄像头拍摄的2D图像转成3D图像，这项服务支持iPhone 7以上苹果手机和大多数中高端安卓手机。

02

100亿参数的语言模型跑不动？MIT华人博士提出SmoothQuant量化，内存需求直降一半，速度提升1.56倍！

大型语言模型（LLM）虽然性能强劲，但动辄几百上千亿的参数量，对计算设备还是内存的需求量之大，都不是一般公司能承受得住的。

02

WeChatMsg: 导出微信聊天记录 | 开源日报 No.108

llamafile 是一个开源项目，旨在通过将 lama.cpp 与 Cosmopolitan Libc 结合成一个框架，将 LLM (Large Language Models) 的复杂性折叠到单个文件可执行程序中，并使其能够在大多数计算机上本地运行而无需安装。该项目的主要功能和核心优势包括：

01

深入了解NNIE量化技术

【GiantPandaCV导语】这篇文章对量化技术做了概要的介绍，由原理推导，验证实现了海思NNIE的量化算法。最后，作者还尝试了使用Pytorch对训练感知量化算法的进行复现，使其不依赖固定Cuda版本，并且可以使用多卡进行训练，内容非常硬核，具体请看文章。本文同步发表于知乎，地址为：https://zhuanlan.zhihu.com/p/223018242 。文末送出4本《机器学习与深度学习算法基础》书籍，欢迎评论区留言抽奖。

03

挑战性能极限小显卡大作为，教你如何在有限资源下运行大型深度学习模型，GPU显存估算并高效利用全攻略！

“10b”、“13b”、“70b” 等术语通常指的是大型神经网络模型的参数数量。其中的 “b” 代表 “billion”，也就是十亿。表示模型中的参数量，每个参数用来存储模型的权重和偏差等信息。例如：

01

利用TensorRT实现神经网络提速(读取ONNX模型并运行)

在之前已经写到过一篇去介绍什么是TensorRT：利用TensorRT对深度学习进行加速，这篇文章中大概已经基本讨论了TensorRT究竟是个什么东西以及怎么使用它。

04

INT8量化训练

【导读】本文聊了两篇做INT8量化训练的文章，量化训练说的与quantization-aware Training有区别，量化训练指的是在模型训练的前向传播和后向传播都有INT8量化。两篇文章都是基于对梯度构建分析方程求解得到解决量化训练会引起的训练崩溃和精度损失严重的情况。

00

PyTorch 1.3 重磅发布完整版

2019.10.10日，PyTorch 开发者大会在美国旧金山开幕，会上发布了PyTorch 1.3。这次更新最大的亮点在于对移动设备的支持（Mobile Supported）、命名张量（Named Tensors），量化（Quantization），类型提升（Type Promotion）等。另外，PyTorch 官方还开源了很多新工具和库，涉及可解释性、加密、以及关于图像语音的诸多功能。下面会逐一介绍。

04

Pytorch的API总览

torch包包含多维张量的数据结构，并定义了多维张量的数学运算。此外，它还提供了许多实用程序来高效地序列化张量和任意类型，以及其他有用的实用程序。它有一个CUDA的副本，可以让你运行你的张量计算在一个NVIDIA GPU，并且计算能力>= 3.0。

01

pytorch和tensorflow的爱恨情仇之基本数据类型

自己一直以来都是使用的pytorch，最近打算好好的看下tensorflow，新开一个系列：pytorch和tensorflow的爱恨情仇（相爱相杀。。。）

03

一起实践量化番外篇——TensorRT-8的量化细节

本文接着《必看部署系列-神经网络量化教程：第一讲！》这一篇接着来说。上一篇主要说了量化的一些基本知识、为啥要量化以及基本的对称量化这些概念知识点。按理说应该继续讲下非对称量化、量化方式等等一些细节，不过有一段时间在做基于TensorRT的量化，需要看下TensorRT的量化细节，就趁这次机会讲一下。

05

性能不打折，内存占用减少90%，Facebook提出极致模型压缩方法Quant-Noise

我们都知道，对于神经网络来说，参数量越大、层数越多，就代表着输出的结果越精细。当然，这也意味着许多性能优越的神经网络体积会非常庞大。比如当前的标准机器翻译架构 Transformer，一层就可能包含数百万个参数。即使是一些优化过性能和参数效率的模型（比如 EfficientNet），也仍然需要几十到几百 MB。这就使得它们的应用范围限制在机器人或者虚拟助手等领域。

01

一文详解AI模型部署及工业落地方式

最近在复盘今年上半年做的一些事情，不管是训练模型、部署模型搭建服务，还是写一些组件代码等，零零散散是有一些产出。

08

最新发布 | OpenVINO扩展模块支持原生Pytorch模型转换与ARM CPU加速

OpenVINO刚刚不久之前发布了新版本OpenVINO2021.3版本，其中最引入关注的是有了OpenVINO扩展模块，github的地址如下：

03

NLP 训练及推理一体化工具（TurboNLPExp）

作者：TurboNLP，腾讯 TEG 后台工程师导语 NLP 任务（序列标注、分类、句子关系判断、生成式）训练时，通常使用机器学习框架 Pytorch 或 Tensorflow，在其之上定义模型以及自定义模型的数据预处理，这种方式很难做到模型沉淀、复用和共享，而对于模型上线同样也面临：上线难、延迟高、成本高等问题，TEG-AI 平台部-搜索业务中心从 2019 年底开始，前期经过大量调研，在 AllenNLP 基础上自研了推理及训练一体化工具 TurboNLP，涵盖了训练框架 TurboNLP-

04

AI部署以及工业落地学习之路

最近在复盘今年上半年做的一些事情，不管是训练模型、部署模型搭建服务，还是写一些组件代码，零零散散是有一些产出。

01

如何使用PyTorch的量化功能？

在深度学习中，量化指的是使用更少的 bit 来存储原本以浮点数存储的 tensor，以及使用更少的 bit 来完成原本以浮点数完成的计算。这么做的好处主要有如下几点：

02

"微"模型

深度学习模型如何缩小到可以放到微处理器呢?作为炼丹师,模型变的越来越复杂,模型大小也不断增加.在工业场景下光训练数据就有几百T,训练就要多机多卡并行跑数天.到底如何把这些模型部署在小型嵌入式设备的呢?

01

腾讯信息流内容理解算法工程全流程实践

信息流业务基本上伴随着互联网的诞生一起同步发展，不断为互联网用户提供信息来源，从而促进了门户网站的快速发展，比如腾讯网、搜狐、新浪等。

03

用安卓手机解锁目标检测模型YOLOv5，识别速度不过几十毫秒！

YOLOv5于2020年5月发布，最大的特点就是模型小，速度快，所以能很好的应用在移动端。

03

[AI新知] Nvidia开源高效能推理平台TensorRT函式库元件

TensorRT支援热门的深度学习开发框架，可以最佳化这些框架开发的模型，并部署到嵌入式、自动驾驶或是资料中心平台

03

十亿参数，一键瘦身！「模型减重」神器增强型 SmoothQuant，让大模型狂掉 3/4

本文介绍了可提升大语言模型的训练后量化表现的增强型 SmoothQuant 技术，说明了这项技术的用法，并证明了其在准确率方面的优势。此方法已整合至英特尔® Neural Compressor(1) 中。

02

NVIDIA TensorRT通过8位量化将Stable Diffusion加速近2倍

在充满活力的生成式人工智能领域，扩散模型以其能够通过文本提示生成高质量图像而脱颖而出。像Stable Diffusion这样的模型已经彻底改变了创意领域的格局。

01

【杂谈】当前模型量化有哪些可用的开源工具？

模型量化属于模型优化中的重要技术之一，是非常有效地提升模型推理速度的技术方案，那么当前有哪些可用的模型量化工具呢？

02

大小仅1MB！超轻量级的人脸识别模型火爆Github

近日，用户Linzaer在Github上开源了一款适用于边缘计算设备、移动端设备以及 PC 的超轻量级通用人脸检测模型，该模型文件大小仅1MB，一经开源就霸榜Github Trending榜单。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭