使用tensorflow.js加载的图形模型可以使用图形处理器上的数据，而不需要先将数据传输到中央处理器吗？

、、、、

我目前正在使用TFJS3.8在客户端加载一个分段模型(作为tf.GraphModel加载)。为了创建输入Tensor，我调用了browser.fromPixels(imageData)，它从同样位于CPU上的Tensor对象创建CPU上的ImageData。由于我使用的是tfjs的webgl后端，所以在调用model.predict(tensor)函数时，数据会被发送到GPU。这种

浏览 42提问于2021-10-22得票数 1

回答已采纳

1回答

输入类型(torch.FloatTensor)和权重类型(torch.cuda.FloatTensor)应相同

、、、、

*我将我的模型和数据设置在同一个设备上，但总是会抛出这样的错误: RuntimeError:输入类型(torch.FloatTensor)和权重类型(torch.cuda.FloatTensor)应该相同**以下是训练代码**当我运行以下代码以使用<code>D1</code>进行检测时。<code>A2</code> cap.release() cv2

浏览 52提问于2020-06-10得票数 0

4回答

GPU从CPU读取还是CPU写入到GPU？

、、

我是并行编程的初学者。我有一个问题，可能看起来很愚蠢，但当我在谷歌上搜索它时，我没有得到一个明确的答案。在GPU计算中，有一个设备，即GPU和主机，即CPU。我写了一个简单的hello world程序，它将在gpu上分配一些内存，将两个参数(例如src[]和dest[])传递给内核，将src字符串(即Hello world )复制到dest字符串，并将dest在来回传输数据时，有四种可能: 1. CPU到GPU - CPU写入GPU - GPU读取2

浏览 6提问于2012-07-03得票数 7

2回答

如何将GPU全局内存中的像素阵列直接显示到屏幕上？

、、

我在GPU上做了一个路径跟踪，我在GPU全局内存上得到了一些像素数据(这是一个float3数组)的跟踪结果，为了在屏幕上显示该数组，我所做的是将该数组复制到CPU内存并调用OpenGL glTexImage2DpixelArray是要显示的像素数据数组。由于图形处理器是管理整个渲染过程的设备，有没有一种方法可以在屏幕上显示pixelArray而<

浏览 0提问于2013-03-27得票数 5

回答已采纳

2回答

在多核上运行速度较快，但在GPU上相对较慢的内核

、、、

我知道混合方法仍然会更快，但我真正想要的是了解GPU仍然落后于多核的领域。

浏览 1提问于2011-12-16得票数 1

回答已采纳

2回答

我们可以在没有图形处理器的自定义对象上训练YOLOv3吗？

、、、

我的YOLO模型可以很好地检测瓶子、人、手机、背包等物体。但我想让我的模型检测到戒指、手镯或头盔(在目前的yolo模型中不存在的对象)。没有GPU，我能做一个自定义的对象检测yolo模型吗？涉及的风险是什么？(如有)。我的系统是Windows 10 Home single language，内存为8 8GB。

浏览 21提问于2019-06-10得票数 2

1回答

如何优化动态几何图形的渲染？

、、

据我所知，批处理和实例化是用来减少静态meshes.But的绘制调用量的，那么动态网格呢?我如何优化它们的绘制调用量？实例化和批处理会产生很大的开销，因为您需要在每个frame.Or中重新计算位置，所以最好使用单独的绘制调用来绘制动态网格？

浏览 0提问于2021-06-10得票数 1

2回答

tfjs_layers_model与tfjs_graph_model的区别

、、

有使用推荐吗？

浏览 2提问于2019-04-24得票数 10

回答已采纳

2回答

我可以将numpy与AMD的gpu加速的blas库链接起来吗

、、、

我意识到numpy可以与blas链接，我想为什么不使用gpu加速的blas库。过去有没有人这样做？

浏览 0提问于2013-05-19得票数 2

回答已采纳

1回答

OpenACC中求中值的并行算法

、、

有没有可以在OpenACC中实现的并行算法来求一个向量的中位数？

浏览 1提问于2018-03-22得票数 0

1回答

Linux多GPU屏幕外渲染

、、

我试图在Linux上做多图形处理器的工作，特别是使用2sli的glmark2。我尝试过使用SLI，但即使在使用nvidia-xconfig将X11/xorg.conf文件修改为SFR之后，它似乎也没有使用第二个图形处理器(我尝试过的glmark2测试仍然在相同的范围内)。这有可能吗？如果不可能，我想知道我是否可以手动

浏览 3提问于2015-10-02得票数 3

3回答

DirectCompute信息

、、

作为我的一个项目的一部分，我一直在尝试使用GPU。我已经研究了CUDA和OpenCL，但缺乏向您展示如何将它们引入项目的信息是令人震惊的。甚至连他们专门的论坛群也死了。据我所知，它只是一种使用HLSL的新型着色器文件。我的问题是，我的程序(除了DirectX 10 / 11之外)需要改变它的结构吗？我的意思是，这是一个简单的情况下创建CS文件，设置项目中的</em

浏览 5提问于2012-03-04得票数 1

回答已采纳

1回答

如何将来自多个模型的所有计算放到GPU中

、、

现在，我在GPU上运行MTCNN(在Tensorflow上实现)进行人脸识别。由于MTCNN使用了三种模型，PNet，RNet，ONet，以及它们之间，运行了一些步骤的NumPy。因此，我认为只有PNet、RNet和ONet模型可以在图形处理器上运行，其他NumPy步骤将在中央处理器上运行。然后，它会将输出从GPU内存复制到主内存。这将是相当浪费时间的<

浏览 47提问于2019-02-06得票数 1

1回答

Tensorflow 0.6 GPU问题

、、

我使用Nvidia Digits Box和图形处理器(Nvidia GeForce GTX Titan X)和Tensorflow 0.6来训练神经网络，一切都正常。但是，当我使用nvidia-smi -l 1检查Volatile GPU Util时，我注意到它只有6%，而且我认为大部分计算都在CPU上，因为我注意到运行Tensorflow的进程有大约90%的CPU使用率。我想知道是否有方法可以充分

浏览 0提问于2016-04-30得票数 0

1回答

使用ATI流处理器的GPU上的RAR密码恢复

、

我是GPU编程的新手，使用brook+语言在ATI Stream Processor上进行暴力破解密码恢复，但我看到用brook+语言编写的内核不允许调用任何正常函数(内核函数除外)，我的问题是：2)使用图形处理器的和ElcomSoft软件如何工作？ 3) GPU (ATI流处理器</em

浏览 0提问于2009-12-26得票数 5

回答已采纳

2回答

什么是数据自动化系统和OpenCL？它们是如何和为什么被用于PoW挖掘？

、、

人们经常建议，要实际参与采矿，必须获得图形卡并安装数据自动化系统和/或OpenCL库。库达是Nvidia创建的并行计算平台和应用程序编程接口(API)模型。它允许软件开发人员和软件工程师使用CUDA支持的图形处理单元(GPU)进行通用处理，这种方法称为GPU(图形处理单元上的通用计算)。CUDA平台是一个软件层，可以直接访问GPU的

浏览 0提问于2017-07-22得票数 1

1回答

带有TFRecord训练/测试文件的mnist和cifar10示例

我是Tensorflow的新用户。我想用它来训练一个有2M张图像的数据集。我在caffe中使用lmdb文件格式做了这个实验。在阅读了Tensorflow的相关文章后，我意识到TFRecord是最适合这样做的文件格式。因此，我正在寻找使用TFRecord数据的完整CNN示例。我注意到与图像相关的教程( 和中的mnist和cifar10 )提供了一种不同的</

浏览 0提问于2016-10-03得票数 3

4回答

使用OpenGL或DirectX快速比较两张图片

、、、、

我需要比较2张图片，并找到与指定阈值不同的像素。现在我只是在for循环中以编程的方式做这件事，对于小的600x400的图片大约需要3秒。我想知道是否有方法可以使用OpenGL，DirectX，CUDA或类似的东西来更快地完成它？因此，它将使用GPU，而不仅仅是CPU。请注意，在输出中，我需要一个由不同像素组成的数组，而不仅仅是布尔值，取决于它是否与图片相同。所以我看了一下delphi的源代码，它看起

浏览 0提问于2012-05-22得票数 2

回答已采纳

2回答

网络接口rmnet_ipa0的含义

、

当我跑的时候adb shell ，ifconfig在我的android设备上，我得到了一个网络接口列表。而this answer涵盖了大部分接口名称，我想知道是什么rmnet_ipa0可能代表。sit接口与IPv4上的隧道IPv6相关联 p2p接口通常与点对点连接相关联(也许你的安卓设备的WiFi直接支持？)虚拟接口为环回接口提供特殊别名我相信usb-thethering通常是这样的rmnet_usb0，我手机的

浏览 765提问于2017-11-26得票数 7

回答已采纳

1回答

关于cuda中的变量定义

、、、

我必须从文件中加载数据。每个样本都是20维的。所以我使用这个数据结构来帮助我：{} 但是当我使用这个变量定义时，它不能工作。编译器告诉我不能使用向量(主机)进入device_input。因为device_input将在设备(图形处理器)上实现，而矢量将在中央处理器上实现。那么，

浏览 0提问于2013-07-13得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

输入类型(torch.FloatTensor)和权重类型(torch.cuda.FloatTensor)应相同

GPU从CPU读取还是CPU写入到GPU？

如何将GPU全局内存中的像素阵列直接显示到屏幕上？

在多核上运行速度较快，但在GPU上相对较慢的内核

我们可以在没有图形处理器的自定义对象上训练YOLOv3吗？

如何优化动态几何图形的渲染？

tfjs_layers_model与tfjs_graph_model的区别

我可以将numpy与AMD的gpu加速的blas库链接起来吗

OpenACC中求中值的并行算法

Linux多GPU屏幕外渲染

DirectCompute信息

如何将来自多个模型的所有计算放到GPU中

Tensorflow 0.6 GPU问题

使用ATI流处理器的GPU上的RAR密码恢复

什么是数据自动化系统和OpenCL？它们是如何和为什么被用于PoW挖掘？

带有TFRecord训练/测试文件的mnist和cifar10示例

使用OpenGL或DirectX快速比较两张图片

网络接口rmnet_ipa0的含义

关于cuda中的变量定义

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐