在NVIDIA V100上运行TensorRT FP16或INT8时速度不会提高

在NVIDIA V100上运行TensorRT FP16或INT8时，速度不会提高的原因是因为NVIDIA V100是一款强大的图形处理器（GPU），它具有高性能的计算能力和大规模并行处理能力。然而，TensorRT是一个用于深度学习推理的优化器和运行时引擎，它可以通过减少计算精度来提高推理性能。

FP16和INT8是低精度的数据类型，相比于传统的单精度浮点数（FP32），它们可以在减少存储需求和计算复杂度的同时，保持相对较高的模型推理准确性。然而，由于NVIDIA V100已经具备了强大的计算能力和并行处理能力，使用低精度数据类型并不能进一步提高推理速度。

在NVIDIA V100上运行TensorRT FP16或INT8时，可能会出现以下情况：

推理速度没有明显提高：由于NVIDIA V100已经具备了强大的计算能力，使用低精度数据类型并不能进一步提高推理速度。
推理准确性下降：低精度数据类型可能会导致模型推理准确性下降，特别是对于一些敏感性较高的任务。
内存占用减少：使用低精度数据类型可以减少模型在内存中的占用空间，从而可以处理更大规模的模型或者批量推理。

总结起来，尽管NVIDIA V100具备强大的计算能力和并行处理能力，但在运行TensorRT FP16或INT8时，并不能进一步提高推理速度。然而，使用低精度数据类型可以减少内存占用，从而可以处理更大规模的模型或者批量推理。

在NVIDIA V100上运行TensorRT FP16或INT8时速度不会提高

、、、

我一直在尝试使用trt.create_inference_graph将我的Keras转换后的Tensorflow保存的模型从FP32转换为FP16和INT8，然后将其保存为可用于TensorFlow服务的格式代码在此- https://colab.research.google.com/drive/16zUmIx0_KxRHLN751RCEBuZRKhWx6BsJ 但是，在我的测试客户端上运行它时，我看不到时间上的任何变化我比较了

浏览 252提问于2019-03-14得票数 1

1回答

优化感度--流动目标检测模型V2中心网评价模型

、、、、

我正在使用Nvidia Tesla P100上的tensorflow 对象检测模型来提取边界框和关键点，用于检测视频中的人。使用来自tensorflow.org的预训练，我能够处理大约16帧每秒.有没有办法提高这个模型的评估速度？以下是我一直在研究的一些想法：并没有成功地做到这一点。在构建模型时更改label_map似乎不会提高性能。使用类似于TensorRT 的方

浏览 0提问于2020-11-04得票数 5

1回答

如何提高YOLOv3检测时间？(OpenCV + Python)

、、

当我用Python测试代码时，我在GPU上使用OpenCV (GTX1050，Ti)，但是对单个图像(416 FPS 416 FPS)的检测需要0.055 s (~20 FPS)。我的配置文件被设置为小对象检测，因为我需要在2500 pxx2000px图像上检测~10 pxx10px对象，所以我将原始图像分割成30个小块。我的目标是在416 px416px图像上达到0.013 s (~80 FPS)。在Python中有可能使用OpenCV吗？如果没有，如何以适当的方式进行？ PS。

浏览 4提问于2020-07-08得票数 2

回答已采纳

1回答

TensorRT“浮点16”精度模式在Jetson TX2上是不确定的吗？

、、、、

我正在使用TensorRT FP16精密模式来优化我的深度学习模型。我在Jetson TX2上使用了这个优化模型。在测试模型时，我发现TensorRT推理机是而不是确定性。换句话说，对于相同的输入图像，我的优化模型给出了不同的FPS值在40到120 FPS之间。当我看到关于数据自动化系统的评论时，我开始认为非决定论的根源是浮点操作： “如果您的代码使用浮点原子，结果可能因运行不同而不同，因为浮点操作通常不是关联的，

浏览 1提问于2019-07-19得票数 1

回答已采纳

3回答

坦索尔特的速度没有提高

、

问题是速度在运行中没有改善。我用了替身5.1.5GA。

浏览 0提问于2019-06-04得票数 0

回答已采纳

2回答

Int8 (字节)操作对深入学习是如何有用的？

、、

Nvidia计划在他们的泰坦卡上增加对int8操作的硬件支持，并瞄准深度学习。我试图了解它是如何有用的，以及哪些类型的网络将从中受益。我知道FP16而不是FP32对DL应该是有用的，但不确定int8能做什么。有一些研究表明，您可以对FP32进行完全精确的训练，然后将其舍入一个字节--但这不会加速或减少训练时的内存占用。

浏览 0提问于2016-07-25得票数 3

1回答

如何将grid_sample模型转换为INT8量化的TensorRT模型？

、、、

在这种情况下，TensorRT结果与不带INT8量化的结果是相同的。这样的量化不是会导致结果的显着变化吗(例如，如果我们将INT8量化应用于范围为[0.640]的输入)？ Ten

浏览 2提问于2021-09-13得票数 0

2回答

如何将原始的yolo权重转换为TensorRT模型？

、、

我想将这个已开发的模型转换成一个TensorRT模型，但是在参考了附加的URL之后，我发现我只能转换原来的v4-微型模型。我的问题是，其他人如何将他们的原始模型转换为TensorRT？

浏览 16提问于2022-04-06得票数 0

3回答

在Tesla V100上未启用混合精度

、、

不幸的是，我没有看到这种配置有任何实质性的速度提升，训练时间大致与使用tf.float32时相似。编辑:在与NVIDIA技术支持人员交谈后，似乎在支持float16的同时，TF为简单的2D conv Ops集成了混合精度加速，但到目前为止还没有为3D conv Ops集成混合精度加速。

浏览 9提问于2017-11-08得票数 7

2回答

混合tf.keras.mixed_precision是否适用于推理？

、、、、

我的目标是运行一个浮点16精度的tf.keras模型，以提高推理速度。这能用混合精度来完成吗？在培训我的模型之前，我要制定这个政策：policy如果是这样的话，我如何才能实现tf.keras模型的权重/激活以达到FP16的精度？注意:我使用的是tensorflow==2.3.0

浏览 6提问于2020-09-03得票数 0

回答已采纳

2回答

使用TensorRT将tensorflow saved_model从float32转换为float16时出现问题(TF-TRT)

、

根据的说法，我可以将" fp16“传递给precision_mode以将模型转换为fp16。但是转换后的模型，在检查了tensorboard之后，仍然是fp32的: net参数是DT_FLOAT而不是DT_HALF。并且转换后的模型大小与转换前的模型相似。import tensorflow as tfimport osFLAGS.saved_model_dir outpu

浏览 4提问于2020-02-27得票数 0

2回答

对于这个特定的工作负载，您推荐哪一个GPU？

更具体地说(在发送给GPU的全部数据中)，工作负载包括：你有一个GPU在头脑中，这将是方便的这样的任务？多谢各位！

浏览 0提问于2020-01-23得票数 0

回答已采纳

3回答

目前最快的Mask R-CNN实现是什么

、、、、

我在边缘设备(带有NVIDIA GTX 1080)上运行Mask R-CNN模型。我目前正在使用Detectron2 Mask R-CNN实现，我相信推理速度大约为5FPS。为了加快速度，我研究了其他推理引擎和模型实现。例如ONNX，但我无法获得更快的推理速度。 TensorRT在我看来非常有前途，但我还没有找到一个现成的“开箱即用”的实现。有没有其他成熟和快速的推理引擎或其他技术来加速推理？

浏览 73提问于2019-12-18得票数 7

2回答

是否有可能通过减少对象类的数量来显著减少图像的推理时间？

、

来源：任何帮助都是非常感谢的。谢谢。

浏览 0提问于2020-07-24得票数 3

1回答

FP16，FP32 -怎么回事？还是只是浮点值的位大小(Python)？

、、

Python中的FP16，FP32是怎么回事？我和我的潜在商业伙伴正在为时间序列的工作建立一个深度学习机制。他在寻找GPU时想出了"FP16和FP32“。看起来他说的是16位和32位的浮点值。FP16是GPU用来提高性能的一种特殊技术，还是一个用于使用16位浮点数而不是32个标准浮点数的花哨术语？

浏览 0提问于2020-04-27得票数 5

6回答

无法加载动态库'libnvinfer.so.6‘

、、、、

shared object file: No such file or directory 2020-02-23 19:01:06.164030: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:30] Cannot dlopen some TensorRT libraries.If you would like to use Nvidia GPU with TensorRT, please make sure the miss

浏览 6提问于2020-02-24得票数 31

回答已采纳

2回答

使用TensorFlow Lite、Caffe2和OpenCV部署cnn模型时，哪个更快？

、、、、

我们可以通过TensorFlow Lite、Caffe2或OpenCV在智能手机上部署MobileNet，我认为Caffe2将以更高的fps提供最好的性能。但是为什么呢？它们之间的性能差距这么大吗？

浏览 59提问于2019-09-13得票数 1

1回答

现在的硬件产品不可能有一个深度学习+高性能工作站吗？(2018年末)

、、

编写IDE、20+ Chrome选项卡、Blender、音频编辑、Web/File、备份服务器)，并具有在其上运行深度学习算法的能力(一台nVidia RTX2080ti可启动，另一台可继续运行)。我已经看到了关于NVMe驱动器是否耗尽这些PCIe车道的不同报告，或者它们是否是通过一组不同的platorm车道路由的，但是如果它们确实使用了其中的一些车道，那么我就会立即下降到显卡上性能的8倍。请记住，这样的设置将合理地结束与2个NVMe驱动器和2个显卡，我是更好地使用更低的时钟速度</em

浏览 0提问于2018-10-13得票数 1

回答已采纳

2回答

FP16甚至不会比在TensorRT中使用FP32快两倍

、

我使用了TensorRT和Tensorflow模型，将其转换为FP16和FP32模式下的TensorRT引擎。使用10个图像进行测试，FP32甚至不会比FP16模式快两倍。期望的速度至少快两倍。msec: 0.159987 msec: 0.159301 msec: 0.155503 EDIT_1:根据@y.selivonchyk的回复，在特斯拉T4上测试。但是FP16并不比FP3

浏览 155提问于2019-06-12得票数 0

回答已采纳

1回答

如何在C (call) API中实现小输入的Tensorflow Python ()(++)性能？

、、、

/<SavedModelDir>")预测函数在0.05秒内运行，输入为5次(在Nvidia GPU上)。然而，如果我使用model.predict_on_batch(inputs)或model.predict(inputs)，对于一批5秒，性能会显著下降到0.65-0.80秒。我尝试用tf.config.optimizer.set_experimental_options({

浏览 2提问于2021-05-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在NVIDIA V100上运行TensorRT FP16或INT8时速度不会提高

相关·内容

在NVIDIA V100上运行TensorRT FP16或INT8时速度不会提高

优化感度--流动目标检测模型V2中心网评价模型

如何提高YOLOv3检测时间？(OpenCV + Python)

TensorRT“浮点16”精度模式在Jetson TX2上是不确定的吗？

坦索尔特的速度没有提高

Int8 (字节)操作对深入学习是如何有用的？

如何将grid_sample模型转换为INT8量化的TensorRT模型？

如何将原始的yolo权重转换为TensorRT模型？

在Tesla V100上未启用混合精度

混合tf.keras.mixed_precision是否适用于推理？

使用TensorRT将tensorflow saved_model从float32转换为float16时出现问题(TF-TRT)

对于这个特定的工作负载，您推荐哪一个GPU？

目前最快的Mask R-CNN实现是什么

是否有可能通过减少对象类的数量来显著减少图像的推理时间？

FP16，FP32 -怎么回事？还是只是浮点值的位大小(Python)？

无法加载动态库'libnvinfer.so.6‘

使用TensorFlow Lite、Caffe2和OpenCV部署cnn模型时，哪个更快？

现在的硬件产品不可能有一个深度学习+高性能工作站吗？(2018年末)

FP16甚至不会比在TensorRT中使用FP32快两倍

如何在C (call) API中实现小输入的Tensorflow Python ()(++)性能？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐