乘法内核和函数

文章/答案/技术大牛

发布

1回答

gpflow

给定一个有效的内核k_1(x，x')和一个(参数)函数f(x)，它如下所示： k_2(x, x') = f(x) k_1(x, x') f(x'), 也是一个有效的内核。

浏览 54提问于2019-03-07得票数 1

1回答

我知道在时域中，卷积是两个矩阵之间的一种非常昂贵的运算，你可以在频域中执行它，方法是在复平面中对它们进行变换，然后使用乘法(然后再回到时域)。无论如何，我不明白这是如何在CUDA SDK中执行的，在CUDA SDK中，数据和内核被填充并放入两个缓冲区(m_PaddedKernel和m_PaddedData)，这应该是为了加速Cooley-Tuckey方法，然后调用函数cufftExecC2C首先转换内核(为什么是C2C？进入复杂平面，然后将整个数据放入同一平面然后，定义的内核<

浏览 1提问于2011-04-20得票数 5

回答已采纳

1回答

PyCUDA: C/C++包含？

python、cuda、gpgpu、inline-code、pycuda

在任何地方都没有真正提到的事情(至少我能看到)是什么库函数公开给内联CUDA内核。具体地说，我正在做小的/愚蠢的矩阵乘法，这些乘法不应该单独卸载到GPU上，但我正在卸载算法的更大部分，其中包括这种乘法。没有人喜欢使用他们自己的linalg函数，因为总有人做得更好。在PyCUDA下的内联内核中，我可以使用哪些库？

浏览 0提问于2011-04-13得票数 5

回答已采纳

2回答

CUDA __umul24函数，有用还是没用？

cuda、multiplication

是否值得在CUDA内核中使用__umul24函数替换所有乘法？我读了不同的和相反的意见，但我仍然不能弄清楚它

浏览 0提问于2011-04-05得票数 6

回答已采纳

1回答

是否可以从CUDA10.1内核调用cuBLAS或cuBLASLt函数？

c++、visual-studio、cuda、cublas

我运行了一个CUDA内核，它为每一张脸做计算。“不允许从__host__函数调用__device__函数” 有一些古老的答案()暗示这是可能的？基本上，我想要一个这样的内核</

浏览 0提问于2019-08-06得票数 4

回答已采纳

3回答

PyTorch中是否有将卷积转换为全连接网络形式的功能？

neural-network、conv-neural-network、pytorch

例如，有一个3x3输入和2x2内核的示例：这相当于向量矩阵乘法，PyTorch中有没有一个函数可以得到矩阵B？

浏览 3提问于2019-06-21得票数 7

1回答

频率与空间域滤波

matlab、filtering

我使用MATLAB对图像应用了不同标准差的高斯低通滤波器，并记录了每种方法所需的时间。我看到在频域中实现滤波器要高效得多(更快)。有人对此有什么解释吗？

浏览 0提问于2011-06-23得票数 3

回答已采纳

2回答

有没有好的第三方库构建在openCL之上？

c++、opencl、primitive

我特别考虑处理基元，像FFT，卷积，相关，矩阵数学，任何类型的机器视觉基元。我还没有找到任何关于这些方面的东西，有没有人知道有什么好的项目涌现出来？

浏览 0提问于2009-11-21得票数 12

1回答

用于单个核心使用的Intel编译器标志

fortran、intel、compiler-optimization、intel-fortran

我注意到，在我看来，fortran代码似乎是一种令人惊讶的行为，它主要包含矩阵/矩阵和矩阵/向量乘法。最初，代码用gfortran编译，在矩阵的行和列上用双"DO“循环进行乘法。使用单个内核，代码运行速度要快得多。然后，我决定对矩阵/矩阵和矩阵/向量乘法分别使用著名的dgemm函数和dgemv函数来优化代码。

浏览 4提问于2019-09-26得票数 0

回答已采纳

1回答

转换函数(内核)而不是乘法？

python、numpy、scipy、convolution

Numpy.convolve(数据，内核)确实是在收缩。谢谢 np.linalg.norm( rolling_window(数组(1，1，0，0,1，1)，

浏览 0提问于2016-01-11得票数 0

3回答

基于核的图像梯度一阶导数

matlab、gradient、convolution

假设对于每个像素，梯度∇g=∂f/∂x，∂f/∂y。那么一阶导数应该由两个操作符来度量，比如1/21，1，1；0，0，0；0，0；-1 /2 -1，1，1，1，0；0，0，0；-1，0；-1，0，-1：filt1=[1,0,1;0,0,0;-1,0,-1];ii=(1./2).*(conv2(filt1,i));G_y=conv2(jj,im); 它是正确的，还是我应该先把1/2乘到操作符上，然

浏览 3提问于2014-02-12得票数 0

回答已采纳

1回答

为什么在matlab中使用预计算核与libsvm

matlab、machine-learning、kernel、svm、libsvm

我对MATLAB和LIBSVM都很陌生。我得到的事实是，要使用预先计算的内核，必须将示例序列号作为培训和测试数据的第一列。但重要的是，我不明白的是:为什么我要使用预先计算的内核？我遵循LIBSVM中描述的脚本，得到了线性和RBF的结果，但不理解使用预先计算的内核的必要性。

浏览 2提问于2014-03-07得票数 1

回答已采纳

2回答

检测/确保在多核中使用多核

r、multicore

我正在使用多核R包中的并行和收集函数来并行化一个简单的矩阵乘法代码。答案是正确的，但并行版本似乎与串行版本花费的时间相同。我怀疑它是否只在一个内核上运行(而不是在我的机器上有8个内核！)。有没有一种方法可以检测到这种情况，并确保使用超过1个内核？

浏览 0提问于2012-02-29得票数 3

1回答

在cuda内核中使用cuDoubleComplex进行操作

c++、cuda、complex-numbers、cublas

我对我的cuda内核实现有一个问题。我尝试了几种方法，但都没有找到解决方案。我尝试使用cublasZaxpy函数，但我被告知不允许从全局函数调用主机函数如何在内核中使用cuDoubleComplex变量进行简单的加法？

浏览 2提问于2013-03-07得票数 1

回答已采纳

1回答

复数类型和函数通过C#包装器打开CL C

c#、c、wpf、opencl、fractals

我使用这段代码创建了一个OpenCL内核，并在C#：中运行它(它似乎使用了另一个名为Cloo的库来实际制作OpenCL内容)。但是，当我编写这一行时，它不能编译

浏览 16提问于2022-06-08得票数 0

回答已采纳

2回答

在Fortran 77中优化if-77 else语句

if-statement、optimization、fortran、fortran77

但我现在意识到，我必须用Fortran编写代码，因为我编写的内核将是用Fortran 77编写的现有应用程序的一部分。因此，我再次发布这个问题，这一次的上下文是Fortran。谢谢。根据矩阵的大小，我有不同的平方矩阵乘法函数，从8x8到20x20不等。由于每个函数采用不同的优化策略，即不同的循环排列和不同的循环展开因子，因此函数之间存在差异。我的目标是减少决定必须使用哪个函数的时间。else if (matrixSize == 9) C = mxm9(A,B); ..

浏览 6提问于2015-09-08得票数 1

回答已采纳

1回答

内核中的浮点运算

linux-kernel、linux-device-driver

在内核空间中，我必须做矩阵乘法，它的元素是浮点值(比如0.8666等)。是否可以在内核空间中进行浮点运算？我在基于ARM的主板上使用3.12内核。

浏览 0提问于2015-05-20得票数 3

2回答

在图形处理器和CPU上使用相同的算法，但OpenCL在这两种设备上的工作方式不同

multithreading、opencl、gpu、cpu

我有两个由我从头开始编写的程序，一个是积分和第二个矩阵-矩阵乘法。当我使用GPU卡执行这两个程序时，我将全局大小设置为1024，我预计内核代码将执行1024次，这是正确的，它执行的次数与我设置的全局大小相同，并且更改局部大小对代码结果和输出都没有影响。我尝试用CPU执行相同的代码，当我看到内核函数执行的次数与全局大小设置的次数不同时，我感到震惊。以下是integral的示例:全局大小= 2048，局部大小= 1，我预计内核函数执行2048次，是的，是2

浏览 20提问于2017-01-07得票数 0

1回答

用户对“内核=”高斯“和”高斯“内核重建结果的`density.ppp`比较问题

r、kernel-density、spatstat

目前，我正在密集地使用函数，使用自己设计的不同内核函数调用它。对于我的项目，我还需要“重新构建”已经可用的内核函数，例如"gaussian"和"quartic"内核。因此，我用kernel = "gaussian"调用了kernel = "gaussian"，并将其结果与用自己的内核函数调用density.ppp的结果进行了比较，该函数复

浏览 1提问于2018-08-09得票数 0

回答已采纳

1回答

支持向量机:关于核的基本问题

machine-learning、svm

我刚刚开始熟悉支持向量机，并更具体地提出了以下有关支持向量机和内核的问题：(4)核包含

浏览 2提问于2014-08-20得票数 0

点击加载更多