腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
矩阵
向量
乘法
vs. dgemm
、
、
我在我
的
代码
中
做了大量
的
矩阵
向量
乘法
。我发现我天真的实现胜过了MKL10
中
的
cblas_dgemm。我自己
的
猜测可能是dgemm做了alpha* A *B + beta *C,而我只做了A *B。但朴素
的
实现要好得多(大约3倍
的
加速
)。有没有想过为什么会这样呢?以下是
矩阵
向量
乘法
的
实现: void mat_vec_mul(double *a, d
浏览 1
提问于2011-04-09
得票数 0
1
回答
是否有一个数学库可以利用Visual
C++
2012
中
的
新特性?
、
、
、
、
在VS 2012
C++
编译器中有许多用于并行编程
的
新特性: 有这样
的
C++
库吗? 矢量化在默认情况下是应用
的
,因此我们跳过这一部分。库是不可移植
的
,所以我们也跳过了。
浏览 2
提问于2012-12-12
得票数 0
1
回答
用本征乘积X*X.transpose()
的
最快方法?
、
、
我想要多个自转置
矩阵
。关于X8,100
的
矩阵
的
大小。现在它看起来是“MatrixXf h= X*X.transpose()” ( c)有关该等
矩
浏览 4
提问于2014-07-31
得票数 1
回答已采纳
2
回答
iOS - GPU
加速
矩阵
转置、
乘法
与特征分解引理
、
、
、
、
我正在开发一个库,它需要在iOS平台上使用向量和
矩阵
。我决定研究OpenGLES,因为我计划做
的
矩阵
和矢量操作(主要是转置、
矩阵
乘法
和特征位置)肯定会从GPU
加速
中
受益。问题是我对OpenGLES不太熟悉,老实说可能不是最好
的
选择。如果我要利用OpenGLES,我是否需要手动编写完成
矩阵
转换、
乘法
和幂等运算
的
算法?或者有另一个苹果或第三方框架可以帮助我完成这些任务。然而,主要
的
分割
浏览 0
提问于2014-01-29
得票数 3
回答已采纳
1
回答
利用MATLAB
的
GPU功能计算和(a.*exp(b.*c),1)
的
有效方法
、
、
、
、
我有GPU
加速
MATLAB代码,花费了80%-90%
的
计算时间。使用Matlab2018b和NVIDIA P100 GPU,我运行了以下脚本,旨在找到n
的
最佳大小。它表明,与使用双精度
的
CPU (双套接字英特尔XeonE5-2650v2)相比,我实现了17x
的
加速
。我是否可以通过做一些更高级
的
事情来改进这一点,比如使用GPU编码器,甚至使用共享内存或纹理内存,如下面所述?(越小越好)、底部:相对于CPU
的
加
浏览 0
提问于2020-02-05
得票数 4
回答已采纳
1
回答
快速
矩阵
乘法
我有一个面试测试,我必须用给定
的
矩阵
乘法
算法实现快速
矩阵
乘法
。·PC实施应为SIMD优化做好准备。·设计数据处理模块
的
rational接口。·编写不会降低效率
的
可移植ANSIC代码。不要使用汇编程序。·考虑操作
的
数量和操作
的
复杂性。关心函数调用开销、循环开销、内存访问时间和缓存性能 我应该在像raspberry pi这样
的</
浏览 8
提问于2016-09-17
得票数 0
1
回答
Python
中
稀疏
矩阵
的
矩阵
乘法
、
、
、
我想将一个稀疏
矩阵
A与一个元素为0、-1或1
的
矩阵
B相乘。为了降低
矩阵
乘法
的
复杂度,我可以忽略那些为0
的
项,或者如果该项为1或subs,则继续添加没有
乘法
的
列。如果它是-1。关于这一点
的
讨论如下: 有没有人知道他们是否针对这样
的
矩阵
优化了
矩阵
<
浏览 1
提问于2011-09-20
得票数 4
回答已采纳
1
回答
如何
在英特尔高清图形4000
中
运行c ++代码?
、
、
、
我最近需要
加速
C ++
中
的
卷积运算,我想知道在某种程度上,如果不使用OpenGL或OpenCL,是否可以使用Intel HD Graphics 4000
的
一些功能来
加速
卷积或
矩阵
乘法
等操作。
浏览 0
提问于2018-04-26
得票数 4
回答已采纳
2
回答
如何
优化和
加速
c++
中
矩阵
的
乘法
?
、
这是
矩阵
乘法
的
优化实现,这个例程执行
矩阵
乘法
操作。C := C+ A * B (其中A、B和C是以列主要格式存储
的
n对n
矩阵
),A和B保持它们
的
输入值。} }基于上述函数/方法,
如何
进一步加快
矩阵
的
<e
浏览 0
提问于2019-03-19
得票数 1
1
回答
有没有一种程序可以利用
矩阵
的
赫米性来使
矩阵
-向量
乘法
更快?
、
例如,设B是2X1实向量,A是厄米特2X2
矩阵
,即A=a1,a2; a3,a4,其中a1和a4是实数,a3和a2是复共轭。有没有一种方法/过程(最好是在python
中
)利用A
的
赫米性来
加速
矩阵
向量
乘法
的
计算: (当然,我想将这样
的
过程应用于高维
的
矩阵
-向量
乘法
。这个简单
的
例子只是为了澄清概念。)
浏览 22
提问于2019-05-08
得票数 0
1
回答
能用纹理存储器
加速
矩阵
乘法
吗?
、
、
、
是否有可能用纹理存储器来
加速
像
矩阵
乘法
这样简单
的
东西?除了贴图之外,空间局部性是一个很好
的
属性,但是使用纹理内存所带来
的
开销会超过它吗? 我似乎找不到任何使用纹理存储器
的
矩阵
乘法
的
实现。
浏览 1
提问于2015-04-29
得票数 1
回答已采纳
1
回答
矩阵
乘法
-库达值得吗?
、
、
、
我有一个问题,涉及许多
矩阵
乘法
(经典和克朗克乘积)。我读到GPU适合这个任务,因为速度是我
的
主要目标,所以我考虑在
c++
中使用Cuda。不过,我得先学库达。因此,在我开始放弃我
的
时间之前,我想我应该先问更聪明的人。库达能
加速
我
的
计算吗?
矩阵
一般在20x50左右相当小。有时涉及到一个三维,所以它变成了一个20x50x10
矩阵
。我只能在一步时间内(10-100)乘以几个
矩阵
.但我需要进行数百万次
的
迭代(
浏览 4
提问于2017-04-14
得票数 1
回答已采纳
3
回答
表示和乘以稀疏布尔
矩阵
的
最快方法是什么?
、
、
、
、
所以,我使用
的
布尔
矩阵
的
维数通常是几十到几百,它们通常是相当稀疏
的
(在大多数行和列
中
只有2-4个非零),并且我
的
运行时主要由它们
的
乘法
控制。 在这种情况下,哪种数据结构最适合
加速
乘法
?目前,我将每个
矩阵
按行存储在一个连续
的
位集(64位长
的
数组)
中
,并使用基本
的
标准算法将它们相乘,只是通过在字
中
定位下一组位<em
浏览 0
提问于2010-09-05
得票数 9
1
回答
你能在操作符重载函数
中
创建和销毁pthread吗
、
、
我正在尝试重载*运算符,以用于
矩阵
乘法
。它必须是使用pthread
的
多线程。我以前从来没有做过多线程,我真的很挣扎。如果可能的话,我想在函数
中
创建和销毁pthread(这样pthread出现
的
唯一位置就是在函数
中
)。下面是我
的
Matrix类:{ int numRows_; std::vector<double>Matrix Transpose();
浏览 1
提问于2021-04-24
得票数 0
3
回答
如何
将XMMATRIX正确地乘以标量?
、
、
、
、
使用DirectXMath及其在
C++
和DirectX11
中
的
XMMATRIX结构,
如何
将该
矩阵
结构乘以单个浮动标量?我找不到标量
乘法
!为何没有这功能呢?没有用例吗?我错过了什么吗?
如何
实现标量
乘法
?
浏览 0
提问于2014-03-08
得票数 1
2
回答
为什么用浮点
矩阵
乘法
执行浮点数比用int乘整数更快?
、
、
、
、
有两个int
矩阵
A和B,有超过1000行和10K列,我通常需要将它们转换为浮动
矩阵
以获得
加速
比(4x或更多)。 我想知道为什么会这样?我意识到在浮点
矩阵
乘法
中
存在大量
的
优化和矢量化,如AVX等。但是,对于整数有这样
的
AVX2指令(如果我没有弄错的话)。而且,对于整数,不能使用SSE和AVX吗?为什么在
矩阵
代数库(如Numpy或Eigen )下面没有一个启发式
的
方法来捕捉这一点,并像浮点一样更快地执行整数
矩阵<
浏览 11
提问于2017-07-28
得票数 26
回答已采纳
1
回答
浮点数字与定点数字: Intel I5 CPU上
的
速度
、
、
、
、
我有一个C/
C++
程序,它涉及密集
的
32位浮点
矩阵
的
数学计算,如加法、减法、
乘法
、除法等。 我能否通过将32位浮点数字转换为16位定点数字来
加速
我
的
程序?我能得到多少速度增益?目前,我正在研究英特尔
的
I5处理器。我用Openblas做
矩阵
计算。我应该
如何
重新实现Openblas函数(如cblas_dgemm )来执行定点计算?我知道SSE(简单SIMD扩展)一次操作4x32=8x16=128位数据,即4 3
浏览 14
提问于2016-09-24
得票数 5
1
回答
OpenMP优化?
、
、
我不明白为什么这个功能
的
性能这么差。我有一个核心
的
2双机器,我知道它只创建了2个trhead,所以这不是一个太多线程
的
问题。我希望结果更接近我
的
线程结果。这些是我
的
编译标志(故意不做任何优化标志) gcc -fopenmp -lpthread -std=c99 matrixMul.c -o matrixMulSequential matrix(*p)[i][j] += (*a)[i][k] * (*b)[k][j];
浏览 0
提问于2011-07-21
得票数 1
1
回答
稀疏
矩阵
与稠密
矩阵
乘积
C++
势流
、
、
我想用
C++
Tensorflow稀疏
矩阵
稠密向量(SPMv)
乘法
:y= Ax请注意,我已经看过以下文章: 。然而,我仍然想知道以下几点: 我应该考虑哪些因素
浏览 12
提问于2020-07-28
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
什么是矩阵乘法?详述矩阵乘法的原理?用C语言实现矩阵乘法的算法。内附代码。
数学的力量——稀疏矩阵,所有科学都是矩阵乘法
【行业资讯】人工智能揭示矩阵乘法的新可能性
Python教程:Python中的序列相乘(乘法)详解
矩阵中的回归模组
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券