腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(7333)
视频
沙龙
1
回答
带
整数
输入
的
ArrayFire
矩阵
乘法
、
、
我想通过向量
乘法
来执行
矩阵
运算,但要在
整数
类型
的
数组上执行,以避免额外
的
转换(当两边都是f32类型时,这很好用); 这样
的
操作会抛出
整数
类型
的
错误类型异常,有什么解决方法吗?
浏览 21
提问于2021-03-23
得票数 1
回答已采纳
1
回答
带有
ArrayFire
的
多个主机线程
、
、
对于如何在
ArrayFire
中使用多个主机线程,我有一个新
的
问题。我们目前有一个高度并行
的
CPU专用代码,使用Open和mpi4py并行化.每个CPU线程执行大型
矩阵
乘法
,通常与多个线程同时相乘。我们希望通过使用
ArrayFire
在单个GPU上执行
矩阵
乘法
来提高性能。 我试图弄清楚是否可以让多个CPU主机线程向GPU发送
矩阵
乘法
作业,并让GPU同时执行这些
乘法
操作。或者,每个CPU主机线程必须等到G
浏览 3
提问于2018-01-11
得票数 2
回答已采纳
1
回答
如何使用推力减少外积
、
.$ 上面的代码是latex。
浏览 3
提问于2012-11-30
得票数 3
1
回答
什么是Keras中
的
嵌入?
我知道我们可以用它将
输入
特征空间压缩成一个更小
的
空间。但从神经设计
的
角度来看,这是如何做到
的
呢?它是一个自动编码程序吗,RBM?
浏览 27
提问于2016-07-05
得票数 102
1
回答
使用
ArrayFire
库
、
、
我下载了免费版本
的
ArrayFire
库。我试着用它来测试
矩阵
乘法
。但是,我得到了一堆未定义
的
引用,例如matrixdata.cpp:(.text+0x1a31): undefined reference to af::array::~array() 当然,我注意到我还没有将
ar
浏览 8
提问于2015-05-01
得票数 1
回答已采纳
1
回答
numpy *=不工作
、
我用numpy来计算
矩阵
乘法
。如果我使用t=t* x,它工作得很好,但是如果我使用t *= x,它不会。我需要使用t=t* x吗?
浏览 3
提问于2016-02-19
得票数 2
回答已采纳
1
回答
如何使用OpenACC优化
矩阵
乘法
?
、
、
、
我正在学习OpenACC (使用PGI
的
编译器),并试图优化
矩阵
乘法
示例。,我意识到生成
的
CUDA代码非常原始(例如,它甚至不使用共享内存),因此无法与手动优化
的
CUDA程序竞争。作为参考实现,我以
Arrayfire
lib为例,结果如下:CUDA toolkit 4.2, driver 295.59 af:
浏览 7
提问于2012-08-03
得票数 6
回答已采纳
1
回答
一个
矩阵
的
标量
乘法
需要多少运算?
、
我知道
矩阵
的
加法需要n^2运算,
矩阵
乘法
需要n^3运算。
矩阵
的
标量
乘法
也需要n^3运算,还是不同
的
数? 谢谢!
浏览 8
提问于2016-02-26
得票数 0
回答已采纳
2
回答
为什么用浮点
矩阵
乘法
执行浮点数比用int乘
整数
更快?
、
、
、
、
有两个int
矩阵
A和B,有超过1000行和10K列,我通常需要将它们转换为浮动
矩阵
以获得加速比(4x或更多)。 我想知道为什么会这样?我意识到在浮点
矩阵
乘法
中存在大量
的
优化和矢量化,如AVX等。但是,对于
整数
有这样
的
AVX2指令(如果我没有弄错的话)。而且,对于
整数
,不能使用SSE和AVX吗?为什么在
矩阵
代数库(如Numpy或Eigen )下面没有一个启发式
的
方法来捕捉这一点,并像浮点一样更快地执行
整数</e
浏览 11
提问于2017-07-28
得票数 26
回答已采纳
2
回答
OpenCL中复杂数学问题
的
开源库,如
矩阵
多项式、逻辑单元、快速傅立叶变换等
、
、
、
、
GPU在通用中
的
使用现在是很普遍
的
。最基本
的
是,
矩阵
乘法
是OpenCL教程中
的
第一个。而不是为特定
的
gpu编写代码和内核代码。是否可以从MKL之类
的
库中调用它们。
Arrayfire
在那里,但不是免费
的
。我正在尝试将我
的
仿真软件移植到GPU上,它具有
矩阵
多路转换、LU分解、FFT等功能。我正在寻找这些健壮
的
代码,而不是从头开始编写它们。我已经有了一个可用
的<
浏览 0
提问于2013-04-28
得票数 4
回答已采纳
1
回答
16位不动点
的
矩阵
乘法
、
、
、
我需要在神经网络中执行不同层次之间
的
矩阵
乘法
。即:W0, W1, W2, ... Wn是神经网络
的
权值,
输入
是data。OutN = Out(N-1) * Wn 我知道权值
矩阵
中
的
绝对值,也知道
输入
数据范围值从0到1(
输入
是规范化
的
)。
矩阵
乘法
为16位不动点。将权重放大到最佳格式点。例如:如果W0中
的
绝对最大值为2.5,我知道
整数
部分中
的
浏览 1
提问于2020-11-28
得票数 1
2
回答
在
ArrayFire
中将向量分量与数组相乘
当我试图用数组(元素
乘法
或广播)乘向量分量时,我得到了一个错误。错误声明是明确
的
: #include <
arrayfire
.h> {ATI Radeon HD 6750 M3 3 1 10.0000 0.0000 0.0000 0.0000 0.0000 0.0000 vect有人会认为这个例子是使用
A
浏览 4
提问于2016-09-30
得票数 1
回答已采纳
1
回答
AffineTransform是如何工作
的
?
、
、
、
在定义运算符时,
矩阵
的
级联是如何有意义
的
?当我们处理二维时,为什么会有三维
矩阵
?我觉得问这个问题真的很愚蠢,但我对向量分析和代数很熟悉,但我缺乏这方面的任何信息。为什么不只是将变换或缩放
矩阵
相乘,然后作为运算符应用到坐标上呢? 我正试图在我已经可以用鼠标翻译
的
网格上做一个缩放鼠标功能,但是有两天我做不到。有没有办法在变压器上使用setTranslate或setScale而不重置已经存在
的
操作员呢?级联
的
组成是如何工作
的
?编辑,我终于得
浏览 1
提问于2014-09-09
得票数 0
1
回答
into
的
输入
矩阵
在cblas_sgemm中返回所有的0
、
我试图使用cblas_sgemm对两个ints
矩阵
进行快速
矩阵
乘法
。我运行了一个快速
的
朴素
矩阵
乘法
,以双重检查预期
的
输出数据,它们不应该是零。
输入
数据是黑匣子,但是不变
的
。
浏览 3
提问于2012-11-29
得票数 2
回答已采纳
1
回答
矩阵
尺寸必须一致,但它们是正确
的
、
我有一个
矩阵
,它被分配给变量a。因此,我运行了以下代码但是,据说维数不匹配,我无法解决原因。
浏览 2
提问于2014-03-05
得票数 0
回答已采纳
2
回答
整数
值
矩阵
在MATLAB中
的
乘法
、
、
在MATLAB中乘
整数
值
矩阵
的
最佳方法是什么?我惊讶地得知以下这些行为是不被接受
的
:>> x * x'MTIMES is not fully supported for这是最好
的
解决办法吗?我在用R2013b。
浏览 7
提问于2013-10-25
得票数 6
回答已采纳
1
回答
使用cuda将数百个
矩阵
相乘
、
、
我正在写一个程序,需要使用CUDA并行乘以数百个
矩阵
。有没有人能解释一下怎么做这个手术。 我已经看到开普勒体系结构能够实现动态并行。有没有人使用过这个架构?如果有,是哪一块Nvidia显卡?
浏览 0
提问于2012-10-24
得票数 5
1
回答
numpy
的
矩阵
乘法
、
我在numpy中有两个布尔
矩阵
,并且使用.dot()函数对它们进行乘,得到
的
结果是一个布尔
矩阵
。提前谢谢。
浏览 1
提问于2013-12-04
得票数 2
回答已采纳
1
回答
直接DCT与行和列DCT有什么不同?
、
我知道与使用行和列方法相比,直接DCT更快,但是它们到底是如何工作
的
呢?我已经在互联网上找遍了,但似乎找不到任何资源。
浏览 2
提问于2017-05-04
得票数 0
1
回答
使用双精度浮点实现
的
整数
乘法
是否精确到2^53?
、
、
、
、
我这样问是因为我正在计算
矩阵
乘法
,其中所有的
矩阵
值都是
整数
。 我想使用LAPACK,这样我就可以得到正确
的
快速代码。当两个大
整数
(其乘积小于2^53)相乘时,是否会产生包含确切
整数
结果
的
double?
浏览 0
提问于2012-12-28
得票数 5
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券