我正在Tensorflow上做一些卷积计算,在双精度数字上得到了一些奇怪的错误。
由于精度问题,我需要在float64中计算这些张量。
conv3d在float32上运行得很好,但在双精度下,它只能在中央处理器上运行,而对于图形处理器,错误告诉我
InvalidArgumentError (see above for traceback): Cannot assign a device for operation 'Conv3D': Could not satisfy explicit device specification '/device:GPU:0' b
我一直在使用以下GPU安装Caffe Framework : Geforce 9500 GT CUDA 6.5 (不适用于7.0)
当我运行:make runtest时,出现了以下错误,我不知道是什么原因:
make runtest
.build_debug/tools/caffe
caffe: command line brew
usage: caffe <command> <args>
commands:
train train or finetune a model
test score a model
d
我期望GTX 680 (它是GPU的最新版本之一)能够进行并发数据传输(双向并发数据传输)。但是当我运行cuda SDK的“设备查询”时,“并发复制和执行”一词的测试结果是"Yes with the copy engine",这意味着GPU不能进行并发数据传输。
我想知道我的测试结果会不会也发生在你身上?您能和我分享一下哪些设备能够并发传输数据吗?
谢谢!
我用GPU做科学计算。最近,Nvidia发布了它的旗舰产品GeForce泰坦Z。我想知道,这个处理器交易会如何对抗特斯拉K40 (另一个NVIDIA产品)。我已经检查过这些规范,但是非常想知道这两个处理器之间的任何基准,或者泰坦Z在科学计算应用方面的能力。我还想知道,从编程的角度来看,土卫六Z应该被看作是一个GPU还是两个GPU。
提前谢谢,你好,Sakthi K
CPU: i7-9750 @2.6GHz (带有16G DDR4 Ram);GPU: Nvidia Geforce GTX 1600 TI (6G);OS: Windows 10-64位
我试着看看GPU和CPU相比做基本矩阵操作的速度有多快,我基本上遵循了这个。下面是我的超级简单代码
import numpy as np
import cupy as cp
import time
### Numpy and CPU
s = time.time()
A = np.random.random([10000,10000]); B = np.random.random([10000,10000])
以下代码: import time
import tensorflow as tf
tf.enable_eager_execution()
def time_matmul(x):
start = time.time()
for loop in range(10):
tf.matmul(x, x)
result = time.time() - start
print("10 loops: {:0.2f}ms".format(1000 * result))
# Force execution on CPU
print(
在前面的问题之后,现在我有了另一个问题。我有相同的代码。现在,我尝试将数组A* vc中包含的值相乘并存储在res中。然后将A设置为零,我与res和vc进行第二次乘法,并将值存储在A中(A和Q是方阵,mc和vc是N行两列矩阵或数组)。下面是我的代码:
int jacobi_gpu(double A[], double Q[],
double tol, long int dim){
int nrot, p, q, k, tid;
double c, s;
double *mc, *vc, *res;
int i,kc;
double vc1, v
我想用CUDA在GPU上实现一个算法。同时,我用C++编写了一个CPU版本来验证GPU版本的结果。但是,我在CPU和GPU中使用log()时遇到了麻烦。下面显示了一个非常简单的算法(用于CPU和GPU):
float U;
float R = U * log(U);
然而,当我比较CPU端的结果时,我发现有许多结果(1843161中的459883)有很小的差异(最大dif为0.5)。一些结果如下:
U -- R (CPU side) -- R (GPU side) -- R using Python (U * math.log(U))
86312.0 -- 980998.37
我在这样的服务器上运行:
8 Nvidia GTX1080
大约40G内存图形
200 of内存
但是,在“创建TensorFlow设备”方面的进展将永远停止,不再显示任何信息,而终端已经死了。其他tf项目运行良好,但这总是失败的。
2017-11-20 23:32:51.701175: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are availabl
我已经写了一个简单的程序来做自相关,如下所示…我已经使用pgi加速器指令将计算转移到GPU。
//autocorrelation
void autocorr(float *restrict A, float *restrict C, int N)
{
int i, j;
float sum;
#pragma acc region
{
for (i = 0; i < N; i++) {
sum = 0.0;
for (j = 0; j < N
我正在使用tensorflow-gpu版本的2.0.0和,我安装了gpu驱动程序、CUDA和cuDNN (CUDA version 10.1.243_426和cuDNN v7.6.5.32,我正在使用windows!)
当我编译模型或运行时:
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())
它将打印出来:
2020-01-12 19:56:50.961755: I tensorflow/core/platform/cpu_feature_guard.cc:142] Y
我正在使用下面的测试代码,利用ArrayFire库。
void test_seq(const array& input, array& output, const int N)
{
array test = seq(0,N-1);
output = input;
}
(for the moment `array test` has no role)
double2* test_CPU; test_CPU=(double2*)malloc(10*siz