开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

EmguCv :为什么我在Emgu.Cv 4.5.1上运行带有Cuda支持的Yolo比CPU慢得多？

EmguCv是一个基于OpenCV的.NET包装库，它提供了在.NET平台上使用OpenCV功能的便捷方式。对于使用EmguCv 4.5.1版本并启用了CUDA支持的Yolo算法，您发现其性能比CPU版本慢得多的原因可能有以下几点：

CUDA支持配置不正确：CUDA是一种用于并行计算的技术，可以利用GPU的强大计算能力加速图像处理任务。在使用CUDA支持的Yolo算法时，需要确保CUDA的配置正确，并且您的系统具备兼容的GPU硬件。如果CUDA配置不正确或者GPU性能较低，可能导致算法性能下降。
数据传输开销：CUDA支持的Yolo算法在运行时需要将数据从主机内存传输到GPU内存进行计算，然后再将结果传输回主机内存。这个数据传输过程可能会引入一定的开销，特别是当数据量较大时。相比之下，CPU版本的Yolo算法可以直接在主机内存上进行计算，避免了数据传输的开销。
算法实现差异：CUDA支持的Yolo算法和CPU版本的Yolo算法可能在实现上存在差异。CUDA版本的算法可能使用了更复杂的计算方式或者算法优化技术，这些额外的计算开销可能导致其相对于CPU版本的算法更慢。

针对以上问题，您可以尝试以下解决方案：

确保CUDA配置正确：检查您的CUDA配置是否正确，并确保您的系统满足CUDA的硬件要求。可以参考NVIDIA官方文档或EmguCv的文档来了解正确的CUDA配置方法。
优化数据传输：尽量减少数据传输的次数和数据量，可以通过批处理方式传输数据，或者将数据存储在GPU内存中重复使用，避免频繁的数据传输。
查看算法实现：了解CUDA版本的Yolo算法的实现细节，可以查看EmguCv的文档或相关论文，了解是否存在算法优化的方法或参数调整的建议。

最后，关于腾讯云相关产品和产品介绍链接地址，由于要求不能提及具体的云计算品牌商，建议您访问腾讯云官方网站或联系腾讯云的客服人员，获取与EmguCv相关的产品和服务信息。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

C# 使用OpenCV在一张图片里寻找人脸

相关库的下载例程中用到一个库叫做emgucv,是opencv\的net封装编译打包好的稳定版,在这:https://sourceforge.net/projects/emgucv/files/emgucv...https://github.com/opencv/opencv/tree/master/data/haarcascades_cuda 建立工程首先建立一个C#工程.nuget上安装引用 ?...参数解析： IInputArray image：被检测的图像。 double scaleFactor = 1.1：在随后的扫描中缩放比例。...所有的组比 min_neighbors=-1 数量较小的矩形会被略去。如果 min_neighbors 是 0, 这个函数没有任何分组并返回所有检测到的候选矩形。...编译后运行可以看到目录多了两个图片文件: ?

2.6K5 1

AI 芯片和传统芯片的区别

说说，为什么需要AI芯片。 AI算法，在图像识别等领域，常用的是CNN卷积网络，语音识别、自然语言处理等领域，主要是RNN，这是两类有区别的算法。...但是，他们本质上，都是矩阵或vector的乘法、加法，然后配合一些除法、指数等算法。一个成熟的AI算法，比如YOLO-V3，就是大量的卷积、残差网络、全连接等类型的计算，本质是乘法和加法。...（真实的情况比这个大得多的多）那么要快速执行一次YOLO-V3，就必须执行完一万亿次的加法乘法次数。...当然，以上的数据都是完全最理想的理论值，实际情况，能够达到5%吧。因为，芯片上的存储不够大，所以数据会存储在DRAM中，从DRAM取数据很慢的，所以，乘法逻辑往往要等待。...肯定的是，GPU还是比较快的，至少比CPU快得多，所以目前大多数都用GPU，这玩意随便一个都能价格轻松上万，太贵，而且，功耗高，经常缺货。不适合数据中心大量使用。

1.5K5 0

秘籍：如何用廉价硬件玩转深度学习，成本不到1000美元

答：在树莓派上运行TensorFlow成本是39美元；在GPU驱动的亚马逊EC2节点上运行TensorFlow的成本是1美元，每小时。这些都是可行的方案。...最后我选的是华硕Mini ITX DDR4 LGA 1151 B150I PRO GAMING/WIFI/AURA主板，在亚马逊上售价125美元。这主板带WiFi天线，在我的地下室超级有用。...CPU 我在网上看了一下CPU评测，感觉慢一点的CPU也够用，因为我要做的事情很少受制于CPU，除了训练神经网络，其他都用GPU。...目前最新的版本是CUDA 8.0，CudNN 5.1。CUDA是一个API，也是一个编译器，允许其他程序将CPU用于通用应用程序，CudNN是一个旨在使神经网络在GPU上运行更快的库。...下面这段视频是我做的测试：给树莓派一个更强的大脑我之前发过一篇100美元做TensorFlow机器人的文章，机器人可以在一个30美元的硬件上做深度学习。

1.7K10 0

实战 | 本地GPU训练YOLOv8带方向的目标检测

在本例中，我使用了 yolov8x-obb.pt。...请注意，这些模型是在DOTA数据集上训练的。...请注意，每次运行的预测结果都会带有后缀，例如 predict1 或 predict2。...它们对应于 CPU 版本。仅当您计划运行 GPU 进行训练时，才运行以下代码。...现在是时候安装支持 CUDA 的 torch 和 torchvision 了。在我的计算机上，我使用的是 CUDA 12.1 版本，因此我使用此命令安装 Torch。

3621 0

浅谈深度学习的落地问题

自己试着跑了一下Opencv版的yolov3，利用yolo官方训练好的权重，读取权重并且利用Opencv的前向网络运行——速度还可以，在i5-7400 CPU上推断用了600+ms。...而我用2017版MacBookPro-2.3GHz版本的CPU(i5-7260u)则跑了500ms。要知道这是完全版本的yolo-v3。如果进一步优化的话，在稍微好点的CPU端是可以跑到10fps！...为什么Opencv版的比Darknet版的速度快那么多，是因为Opencv的Cpu端的op编写过程中利用了CPU-MKL等很多优化库，针对英特尔有着很好的优化，充分利用了多线程的优势(多线程很重要，并行计算比串行计算快很多...但是有点需要注意，Opencv最好的实践是CPU端，GPU端Opencv对cuda的支持不是很好，Opencv只有利用OpenCL支持GPU，但速度没有cuda库快。...5W亿次每秒运行速度，跟专业显卡比起来可能不算什么，但是在手机端，意思可想而知。只是不知道具体的速度如何，跑Yolo的话可不可以实时，期待之后的测评吧。

1.5K1 0

Jetson Nano安装tensorflow2.5（英伟达版本）

图中的节点表示数学运算，而图边表示在它们之间流动的多维数据数组（张量）。这种灵活的架构让你无需重写代码即可将计算部署到台式机、服务器或移动设备中的一个或多个 CPU 或 GPU。...那和平时的TF有什么区别？安装TensorFlow for Jetson Platform 使你可以在轻量级移动平台上访问最新版本的框架，而不受TensorFlow Lite 的限制。...（我的TX1有救了） JetPack SDK 包含适用于 Linux 操作系统的最新 Linux 驱动包 (L4T) 以及用于深度学习、计算机视觉、加速计算和多媒体的 CUDA-X 加速库与 API。...nvidia-cuda (= 4.5.1-b17), nvidia-opencv (= 4.5.1-b17), nvidia-cudnn8 (= 4.5.1-b17), nvidia-tensorrt...，为了让TF不那么卡顿 https://elinux.org/Jetson/Performance 关于调节性能的一个wiki 运行一个看看里面哪些核心在运行，都在干活插个计算力 http://imgtec.eetrend.com

7073 0

【指南】买家指南：挑选适合你的深度学习GPU

在本文中，我将分享关于选择合适的图形处理器的见解。 为什么深度学习需要GPU？哪个GPU规格很重要，为什么？在选择GPU时要注意什么？ GPU的性价比；关于预算的建议。...对于两个GPU，可以使用8x / 8x通道，也可以使用处理器和支持32条PCIe通道的主板。有32条通道在桌面CPU玩味之外。...它适用于所有主要的DL框架——Tensoflow、Pytorch、Caffe、CNTK等。目前为止，这些都没有与OpenCL(CUDA alternative)一起在AMD gpu上运行。...我希望OpenCL的支持尽快到来，因为在市场上有很便宜的AMD 的GPU。此外，一些AMD卡支持半精度的计算，这使他们的性能和VRAM大小加倍。...如果你在同一个箱中运行3或4个GPU，请注意提供数据的问题。同时记住机箱内的气流和主板上的空间。 700到900美元：强烈推荐使用GTX 1080 Ti。

1.3K9 0

教程 | 从硬件配置、软件安装到基准测试，1700美元深度学习机器构建指南

最终杠杆会放下把 CPU 固定住。 ? 我在安装 CPU 时获得了帮助但我进行这一步的时候很困难，一旦 CPU 放在了位置上，杠杆却无法下降。我其实是让一个更懂硬件的朋友通过视频通话指导我完成的。...我买的处理器带有热熔胶。如果你的没有，要确保在 CPU 和冷却单元之间加一些胶。如果你把风扇拿下来了，也要把胶更换掉。在机箱里安装电源 ?...我认为原因可能出在 AWS K80 的虚拟化或者降频问题上。 CPU 运行起来比 GPU 慢 9 倍之多。所有实验结束后我们可知，这其实对处理器来说已经是一个很好的结果了。...在 GPU 上运行相同批次（batches）数量的模型不太可行。所以我们在 GPU 上运行 390 批次（1 epoch），在 CPU 上运行 10 个批次。...这次 CPU 比 GPU 慢了 30-50 倍，已经比在 VGG 任务中的表现好多了，但仍然比 MNIST 多层感知机实验结果慢。

1.1K5 0

leggedrobotics free gait 足式机器人自由步态苏黎世机器人系统实验室

你只看一次（YOLO）是一个最先进的实时对象检测系统。在以下ROS包中，您可以在GPU和CPU上使用YOLO。...另外，ROS的YOLO依赖于以下软件： OpenCV（计算机视觉库）， boost（c ++库），建造 CPU上的Darknet很快（英特尔酷睿i7-6700HQ CPU在2.60GHz×8左右大约...如果您的系统上没有CUDA，则构建过程将切换到YOLO的CPU版本。...这意味着您需要检查GPU的计算能力（版本）。您可以在CUDA中找到支持的GPU列表：CUDA - WIKIPEDIA。...Darknet：C中的开源神经网络 Darknet是用C和CUDA编写的开源神经网络框架。它快速，易于安装，并支持CPU和GPU计算。

5192 0

使用Python在自定义数据集上训练YOLO进行目标检测

Darknet是一个用C和CUDA编写的开源神经网络框架。它快速、易于安装，并支持CPU和GPU计算。你可以在GitHub上找到源代码，或者你可以在这里了解更多关于Darknet能做什么的信息。...所以我们要做的就是学习如何使用这个开源项目。你可以在GitHub上找到darknet的代码。看一看，因为我们将使用它来在自定义数据集上训练YOLO。...克隆Darknet 我们将在本文中向你展示的代码是在Colab上运行的，因为我没有GPU…当然，你也可以在你的笔记本上重复这个代码。偶尔会更改路径。...我们在上一个单元格中设置的配置允许我们在GPU上启动YOLO，而不是在CPU上。现在我们将使用make命令来启动makefile。...现在，你可以在你的图像上运行预测，以获取类别和边界框。

2721 0

如何在OpenCV DNN模块中使用NVIDIA GPU加速--(基于Windows）

how-to-use-opencv-dnn-module-with-nvidia-gpu-on-windows 翻译整理丨OpenCV与AI深度学习导读这篇文章将介绍如何在 Windows 操作系统上使用带有...如果 CMake 可以找到安装在您的系统上的 CUDA 和 cuDNN，您应该会看到此输出。现在可以构建 OpenCV。运行以下命令来构建它。...我的系统配置是：处理器：AMD 锐龙 7 4800H、2900Mhz 核心数：8 显卡：英伟达 GeForce GTX 1650 4GB 内存：16GB 要使用 CUDA 后端运行代码，我们对 C++...实际上，CPU 版本的渲染速度比 GPU 慢得多。使用 GPU，我们得到 7.48 fps，使用 CPU，我们得到 1.04 fps。...在本文中，我们学习了如何在 Windows 操作系统上构建具有 CUDA 支持的 OpenCV DNN 模块。

6.3K1 0

用Numba加速Python代码

100000个数字是需要排序的相当多的数字，特别是当我们的排序算法的平均复杂度为O（n²）时。在我的i7–8700K电脑上，对所有这些数字进行排序平均需要3.0104秒！ ?...这就是为什么在可能的情况下，用Numpy替换纯Python代码通常会提高性能。上面的代码在我的PC上组合数组的平均运行时间为0.002288秒。...它指定要如何运行你的功能: cpu:用于在单个cpu线程上运行并行:用于在多核多线程CPU上运行 cuda:在GPU上运行几乎在所有情况下，并行选项都比cpu选项快得多。...上面的代码在我的PC上组合数组的平均运行时间为0.001196秒——大约是2倍的加速。添加一行代码也不错! 它总是这么快吗？...当应用以下这些领域中，Numba将是最有效的: Python代码比C代码慢的地方(通常是循环) 将相同操作应用于某个区域的位置（即对多个元素执行相同操作）在这些区域之外，Numba可能不会给您提供太快的速度

2.1K4 3

YOLO:实时目标检测

OpenCV、cuda、GPU这些依赖是可选项，如果没有也可以，就是慢点(其实是慢很多)啦。最后会添加一下官网教程中没有的安装错误和修改信息。...同时，模型只是用一次网络计算来做预测，而在R-CNN中一张图片就需要进行上千次的网络计算！所以YOLO非常快，比R-CNN快1000倍，比Fast R-CNN快100倍。...进行上面的测试，Darknet会打印出检测到的目标对象和可信度，以及耗时。使用CPU时，每张图片耗时为6-12秒，GPU版本会快，快很多。.../darknet yolo test cfg/yolo-tiny.cfg yolo-tiny.weights 占用611MB的GPU内存，在Titan X上的速度是150 fps 5、YOLO Model...运行下面命令 ./darknet yolo valid cfg/yolo.cfg yolo.weights 运行上面命令后，你会看到一串数字在屏幕上飞，数字表示当前处理了多少图片。

3.1K8 0

最新千元边缘AI芯片比拼：谷歌Coral和英伟达Jetson谁更厉害？

年的MacBook pro包含一个i7-4870HQ（没有支持CUDA的内核）。...NVIDIA Jetson Nano的得分并不高。虽然它有一个支持CUDA的GPU，但实际上并没比那台2014年MBP的i7-4870HQ快太多，但毕竟还是比这款四核，超线程的CPU要快。...只要我们的脚本没有深入到CPU体系结构中，就可以运行与i7 + CUDA GPU完全相同的脚本，也可以进行训练！Sam强烈希望NVIDIA应该使用TensorFlow预加载L4T。...我们看到Coral在性能/瓦特的对比中，差异如此大的原因，它是一堆电子设备，旨在完成所需的按位操作，基本上没有任何开销。总结 为什么GPU没有8位模型？ GPU本质上被设计为细粒度并行浮点计算器。...Raspberry Pi + Coral与其他人相比 为什么连接到Raspberry Pi时Coral看起来要慢得多？因为Raspberry Pi只有USB 2.0端口。

1.3K2 0

一万元搭建深度学习系统：硬件、软件安装教程，以及性能测试

硬件清单之前，我在AWS亚马逊云服务上的花费是每月70美元（约480元人民币）。按照使用两年计算，我给这套系统的总预算是1700美元（约11650元）。 GPU 肯定得买Nvidia，没有其他选择。...CPU 虽然比不上GPU，但CPU也很重要。从预算出发，我选了一颗中端产品英特尔i5 7500。相对便宜，但不会拖慢整个系统。内存两条16GB容量的内存，总共是32GB。硬盘两块。...CPU的表现比GPU慢9倍。有趣的是，i5 7500比亚马逊的虚拟CPU快2.3倍。 VGG微调为Kaggle猫狗识别竞赛而微调一个VGG网络。...使用相同的batch在CPU上运行这个模型不可行，所以我们在GPU上微调了390个batch，在CPU上是10个batch。...CPU比GPU慢30-50倍。好啦，关于万元打造一个深度学习系统的分享，就先到这里。

1K6 0

一万元搭建深度学习系统：硬件、软件安装教程，以及性能测试

硬件清单之前，我在AWS亚马逊云服务上的花费是每月70美元（约480元人民币）。按照使用两年计算，我给这套系统的总预算是1700美元（约11650元）。 ?...CPU 虽然比不上GPU，但CPU也很重要。从预算出发，我选了一颗中端产品英特尔i5 7500。相对便宜，但不会拖慢整个系统。内存两条16GB容量的内存，总共是32GB。硬盘两块。...CPU的表现比GPU慢9倍。有趣的是，i5 7500比亚马逊的虚拟CPU快2.3倍。 VGG微调为Kaggle猫狗识别竞赛而微调一个VGG网络。...使用相同的batch在CPU上运行这个模型不可行，所以我们在GPU上微调了390个batch，在CPU上是10个batch。...GTX 1080 Ti比AWS P2 K80快4.3倍。CPU比GPU慢30-50倍。好啦，关于万元打造一个深度学习系统的分享，就先到这里。各位端午节快乐。

1.2K5 0

一万元搭建深度学习系统：硬件、软件安装教程，以及性能测试

硬件清单之前，我在AWS亚马逊云服务上的花费是每月70美元（约480元人民币）。按照使用两年计算，我给这套系统的总预算是1700美元（约11650元）。 ?...CPU 虽然比不上GPU，但CPU也很重要。从预算出发，我选了一颗中端产品英特尔i5 7500。相对便宜，但不会拖慢整个系统。内存两条16GB容量的内存，总共是32GB。硬盘两块。...CPU的表现比GPU慢9倍。有趣的是，i5 7500比亚马逊的虚拟CPU快2.3倍。 VGG微调为Kaggle猫狗识别竞赛而微调一个VGG网络。...使用相同的batch在CPU上运行这个模型不可行，所以我们在GPU上微调了390个batch，在CPU上是10个batch。...GTX 1080 Ti比AWS P2 K80快4.3倍。CPU比GPU慢30-50倍。好啦，关于万元打造一个深度学习系统的分享，就先到这里。

1.1K4 1

【翻译】手把手教你用AlexeyAB版Darknet

增加了使用CPU-RAM提高GPU处理训练的能力，以增加mini_batch_size和准确性。提升了二值网络，让其在CPU和GPU上的训练和测试速度变为原来的2-4倍。...数据增强部分使用Opencv SSE/AVX指令优化了原来朴素实现的数据增强，数据增强速度提升为原来的3.5倍。在CPU上使用AVX指令来提高了检测速度，yolov3提高了约85%。...在克隆了项目库以后，直接运行make命令，需要注意的是Makefile中有一些可选参数： GPU=1代表编译完成后将可以使用CUDA来进行GPU加速(CUDA应该在/usr/local/cuda中)。...我的损失函数很高并且mAP很低，训练出错了吗？在训练命令末端使用-show_imgs 标志来运行训练，你是否能看到有正确的边界预测框的目标（在窗口或者aug_...jpg）？...如何将YOLO作为DLL和SO库进行使用？在Linux上。

3.7K2 0

NVIDIA Deepstream 4.0笔记（完结篇）：如何开始使用Deepstream以及容器

最后输出可用于在屏幕上查看带有元数据的流或存储在文件中的选项。这是一个应用程序，可以快速原型化或演示您的pipline，并了解它在Deepstream中的工作原理。源目录中提供了所有源代码。 ?...在预处理步骤中，图像被缩放或裁剪以满足网络的分辨率。因为在tensorRT中不支持Yolo模型中的所有层，所以我们必须添加一些额外的步骤。...首先，您需要在Deepstream中使用CUDA引擎API创建CUDA引擎。然后创建自己的网络。接着使用TensorRT中的Iplugin接口为不受支持的层创建自定义实现。最后是最后一部分。...我们在深度支持Yolo V3，Tiny V3，Yolo V2和Tiny Yolo V2网络。...NVIDIA容器运行时为在Docker容器中运行的应用程序启用GPU加速。CUDA工具包，视频编解码器SDK，TensorRT等安装在容器内。

5K3 0

腾讯云--GPU训练cifar10

在更大的任务中，用CPU做训练可能要100~200个小时。很多深度学习框架，都支持GPU，可以通过租用GPU云服务器完成训练。 1. 腾讯云腾讯云GPU服务器。...1.1 数量和机型比较腾讯云比阿里云的GPU服务器更多一些，在阿里云上有时会出现没有GPU服务器或者售罄。 1.2 操作系统阿里云提供了AI镜像，预装了GPU驱动和Tensorflow。...6.多显卡在没有额外配置的情况下，只有第一块显卡进行运算。 7 不同显卡虽然阿里官方给出了不同显卡计算能力的差别，实际运行P4和V100的性能差别不大。...195.36.15 4.解决方案从驱动和运行时的版本对应关系来看，版本为384.81的驱动程序对应的运行时版本是9.0，也就是说我们在python中安装cudatoolkit和cudnn程序包版本...和cudnn程序包：pip install cudatoolkit=9.0；pip install cudnn 5.为什么会出现这种情况呢：一般出现这种情况是因为在python中安装tensorflow

6.1K3 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭