记一次排查模型推理变慢原因

原创

aaronwjzhao

发布于 2022-02-25 17:57:03

2.3K0

发布于 2022-02-25 17:57:03

导语：使用nvidia dali库来做图片加载和transforms得到的tensor，比pillow+torchvision得到的tensor，在模型推理时候慢三倍。对比tensor，虽然存在精度上的损失，但没发现其他任何问题，最终定位出来是显存中tensor不连续。

问题来源

传统的图片预处理一般用pillow从byte读图，再经过torchvision的transforms去做resize、normalize、crop等操作，如果模型推理在GPU上，这种做法就比较浪费GPU，并且耗时。所以我再想有没有办法把预处理也放到GPU上，看了nvidia官网，发现2018年推出的nvidia dali就是做这个事的。

dali的实现过程本文略过，最后对比两种方式的区别

平均绝对误差： 0.008177888535926072
最大误差： 0.24509800970554352
dali preprocess time: 5.385756492614746ms
torch preprocess time: 324.6474266052246ms

性能上秒杀，误差对于不敏感的模型还可以。

接下来应用到推理上，却发现torch处理后的tensor推理只要100毫秒，dali处理后的tensor推理却要300毫秒。

问题定位

首先想到的是dali出来的tensor在GPU上，模型用的时候可能需要从dali申请的显存里copy过来，所以我手动把dali tensor先放到CPU，再放回GPU，然后进行模型推理。发现推理时间不变，排除这个原因
dali做预处理是按NHWC这样的方式，模型需要的是NCHW，所以我做了一次permute，想到可能是这个操作导致tensor不连续了。加上contiguous，问题解决。

经过上面排查，发现锅不是nvidia dali的，人家依然很牛，是我自己用的有问题。惭愧