腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1822)
视频
沙龙
1
回答
AMD
Polaris
上
特定
大小
的
矩阵
乘法
性能
下降
gpu
、
opencl
、
matrix-multiplication
、
amd-gcn
我有一个将2个
矩阵
(GEMM)与M=4096、N=4096和K=16相乘
的
OpenCL代码(即
矩阵
4096x16浮点数)。 我在
Polaris
560,16CU
的
GPU
上
运行它。代码:https://github.com/artyom-beilis/oclblas/blob/master/gemm/gemm.cl 我注意到这个
大小
的
性能
下降</em
浏览 30
提问于2021-06-27
得票数 4
回答已采纳
1
回答
如何利用tf.matmul实现高效
的
稀疏
矩阵
乘法
?
tensorflow
、
sparse-matrix
我试图使用tf.matmul()来执行稀疏
矩阵
乘法
。 因此,我用7/8
的
零值来构造稀疏
矩阵
。,它在我
的
GeForce GTX 960米
上
大约需要0.380毫秒。我曾尝试使用tf
浏览 4
提问于2017-07-01
得票数 3
1
回答
对于稀疏
矩阵
,Tensorflow使用COO格式而不是CSR有什么明显
的
原因吗?
tensorflow
、
sparse-matrix
我试图从Tensorflow内置
的
稀疏
矩阵
乘法
API中获取
性能
优势。建议tf.embedding_lookup_sparse是正确
的
方法。但是,embedding_lookup_sparse
的
性能
似乎在中有些令人失望。虽然它执行较小
的
矩阵
乘法
,<1,3196>和<3196,1024>,但稀疏度为0.1
的
稀疏
矩阵
不能获得密集
矩阵
乘法<
浏览 6
提问于2016-06-08
得票数 4
回答已采纳
1
回答
python中多个
矩阵
的
快速后续
乘法
python
、
performance
、
matrix
、
matrix-multiplication
我必须通过许多其他
矩阵
的
有序
乘法
生成一个
矩阵
(物理学中
的
传播子)。每个
矩阵
的
大小
约为(30,30),所有实项(浮动),但不对称。要乘
的
矩阵
数在1e3到1e5之间变化。每个
矩阵
与以前
的
矩阵
只略有不同,但是它们不是可交换
的
(最后,我需要所有这些非交换
乘法
的
乘积)。每个
矩阵
都是
特定
浏览 6
提问于2021-01-14
得票数 0
1
回答
OpenGL计算本地
大小
与
性能
opengl
、
compute-shader
、
optimisation
有人知道在计算机着色器中使用非常小
的
局部
大小
是否会影响
性能
吗?例如:如果我在着色器里这样做:会比我用更大
的
尺寸慢吗?如果尺寸1不利于
性能
,那么推荐
的
大小
是多少?它是基于aglGetIntegeri_v(GL_MAX_COMPUTE_WORK_GROUP_SIZE...)?返回
的
值
的
矩形吗?今天我读过很多
浏览 0
提问于2023-05-02
得票数 0
回答已采纳
2
回答
如何解释
矩阵
乘法
GFLOP/s中
的
这种差异?
performance
、
x86
、
matrix-multiplication
、
cpu-architecture
、
cpu-cache
我正在尝试从这个wiki 中进行一些
矩阵
乘法
优化。在为天真的三循环匹配量测量GFLOP/s时,我预计在
特定
大小
之后,GFLOP/s会
下降
,根据wiki
的
说法,这表示数据不再适合缓存:我在两台不同
的
电脑
上
运行了这个基准: 第三代英特尔i5我得到了预期
的
图形,从~2 2GFLOP/s急剧
下降
到0.5。看看Ubuntu系统监视器,CPU核心之一
的
使用率总是10
浏览 0
提问于2019-07-15
得票数 2
1
回答
MKL不使用C++代码使用特征和OpenMP
c++
、
eigen
、
intel-mkl
我有一个具有以下结构
的
代码:{ for (args),但方案是一样
的
。
矩阵
的
大小
为500x500到1000x1000,代码使用以下库:特征(用于构建
矩阵
)和Boost (在function2上进行一些概率计算),使用Visual 2013或Intel C++编译器15.0编译(我
的
情况是两者
的
性能
相似)
浏览 3
提问于2015-04-27
得票数 1
回答已采纳
1
回答
为什么在超过一定数量
的
批处理后,在训练keras模型时训练时间没有减少?
tensorflow2.0
、
tf.keras
当我训练模型时,我用不同
的
批次
大小
来观察它对准确性和总训练时间
的
影响。 我注意到
的
是,在一定数量后增加批次后,培训时间并没有减少,在一定数量之后,培训规模保持不变。我以2
的
批次开始,然后慢慢增加到4096倍,试两倍,但在512之后
的
训练时间保持不变。
浏览 20
提问于2022-12-04
得票数 2
回答已采纳
1
回答
并行相乘小
矩阵
multithreading
、
algorithm
、
matrix
、
pthreads
、
posix
我一直在编写代码,使用POSIX线程并行地乘
矩阵
,在对大型
矩阵
进行操作时,我看到了很大
的
加速;然而,当我缩小
矩阵
的
大小
时,朴素
的
顺序O(n^3)
矩阵
乘法
算法开始超过并行实现
的
性能
。这是正常
的
,还是表示一个质量差
的
算法?我是否只是注意到创建和处理线程
的
额外开销,以及超过某个
特定
点,即额外
的
时间支配着计算?请注意,
浏览 1
提问于2014-10-01
得票数 0
回答已采纳
2
回答
矩阵
-
矩阵
乘法
c
我正在写一个包含
矩阵
乘法
的
C代码,并且我使用了3个嵌套循环来实现这个操作。那么,有谁知道我们如何通过删除其中一个嵌套循环来改进代码?
浏览 1
提问于2012-11-20
得票数 1
1
回答
通过数组查找mimimum正乘路径
algorithm
、
multidimensional-array
、
dynamic-programming
、
path-finding
、
divide-and-conquer
我想使用动态规划算法(如果可能的话)来解决以下问题该路径
上
所有数字
的
乘法
是最小,但是,路径不能包含任何零,因为任何零都将使
乘法
无效。<code>H 111</code> A0,0和AN-1,N-1
的
位置总是值1。<code>H 2
浏览 1
提问于2022-06-05
得票数 1
3
回答
用C和OpenMP实现
矩阵
乘法
c
、
performance
、
matrix
、
matrix-multiplication
我正在尝试创建一种高效
的
算法,它可以将具有双精度
的
大值
矩阵
相乘。我已经创建了算法,并首先在小
矩阵
上进行了测试;在尝试了A{4096x4096},B{4096x4096}之后,循环花费了很长时间才结束;例如,对于这两个
矩阵
,生成AB花了我
的
计算机30多分钟才完成。对于
大小
为1024x1024
的
小
矩阵
,它
的
完成速度相对较快,即不到30-40秒,对于2048x2048,大约需要5分钟……对于16384x16384,它没有在
浏览 1
提问于2012-05-24
得票数 0
3
回答
任意
矩阵
乘法
的
复杂度
algorithm
、
math
、
matrix
、
time-complexity
我有一个关于
矩阵
乘法
实现
的
简单问题。我知道对于
大小
相等(n X n)
的
矩阵
,有一些算法
的
复杂度为O(n^2.xxx)。但是,如果我有两个
大小
不同
的
矩阵
A和B (p x q,q x r),那么到目前为止实现
的
最小复杂度是多少?我猜它是O(pqr),因为我将实现一个带有p,q和r次迭代
的
3个嵌套循环
的
乘法
。特别是,现在有没有人知道库是如何实现
浏览 0
提问于2012-03-10
得票数 2
回答已采纳
1
回答
有效
的
SSE NxN
矩阵
乘法
c++
、
assembly
、
sse
、
matrix-multiplication
、
simd
我试图通过
矩阵
乘法
来实现大
矩阵
的
SSE版本。我正在寻找一种基于SIMD实现
的
高效算法。我想要
的
方法如下:所有
矩阵
都被认为是16字节对齐浮点数数组. 我在网上搜索,发现了一些描述8x8
乘法
的
文章,甚至更小。所以,如果有人能帮我找到一些关于如何开始实现
的
文章或资源,我将不胜感激。
浏览 6
提问于2014-02-01
得票数 3
回答已采纳
2
回答
张量MNIST教程- cross_entropy计算
python
、
tensorflow
我正在为学习本教程cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1])) 首先,tf.log计算y
的
每个元素
的
对数,然后将y_
的
每个元素与tf.log(y)
的
对应元素相乘。然后tf.reduce_sum在y
的
第二维中添加元素,这是因为reduction_indices=参数。最后,tf.reduce_mean计算批处理中所有示例
的<
浏览 1
提问于2018-07-17
得票数 0
3
回答
Matlab
乘法
matlab
、
matrix
如果
矩阵
A在X中,
矩阵
B在Y中。我如何使用for循环来计算它?
浏览 1
提问于2012-10-11
得票数 2
回答已采纳
3
回答
用于
矩阵
操作
的
加速GPU与CPU
的
比较
python
、
gpu
、
gpgpu
、
matrix-multiplication
我想知道GPU计算将帮助我加速我
的
模拟。b = np.random.rand(m_size, m_size) result = np.dot(a,b) 注意:我
的
矩阵
是密集
的
,大部分是随机
的
,而for循环是用cy
浏览 3
提问于2016-08-01
得票数 7
回答已采纳
1
回答
优化X_transpose*X CUDA内核
的
技巧
cuda
我一直在使用cudaMallocPitch和cudaMemcpy2D,我首先在设备
上
为X和X_transpose*X分配了足够
的
空间。我将X复制到设备
上
,我
的
内核接受两个输入,X
矩阵
,然后是写X_transpose *X结果
的
空间。 使用剖析器,内核最初在
大小
为5000x6000
的
矩阵
上
执行需要104秒。我在主机上用零填充
矩阵
,这样它就是块
大小
的
倍数,以避免在内核
浏览 2
提问于2013-01-27
得票数 0
回答已采纳
1
回答
哪些GCC优化标志和技术在CPU之间是安全
的
?
gcc
、
optimization
在编译/链接用于所有ISA实现(例如x86-64)
的
C/C++库或程序时,从正确性和运行时
性能
的
角度来看,哪些优化标志是安全
的
?我希望优化能够产生正确
的
结果,并且不会对
特定
CPU
的
性能
造成不利影响。例如,我想避免在第8代英特尔核心i7
上
产生运行时
性能
改进
的
优化标志,但在
AMD
上会导致
性能
下降
。 PGO,LTO和-O3安全吗?它
浏览 0
提问于2018-09-21
得票数 3
回答已采纳
1
回答
根据值
的
大小
,使用三种不同方法
的
矩阵
乘法
会产生不同
的
结果
c++
、
matrix-multiplication
、
armadillo
我想将两个
矩阵
A和B相乘,并比较三种不同
的
方法。其中之一是简单地迭代B
的
列并将它们与
矩阵
A相乘,第二个是使用armadillo中
的
函数each_col(),并应用一个λ,第三个是简单
的
乘法
A * B。approx_equal(out_mat_matrix, out_mat_lambda, "reldiff", 0.1) << '\n';} 现在,对于num_rows = 128,我
浏览 5
提问于2020-05-04
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
GPU选购指南:训练ML模型,我必须买RTX3080吗?
NVIDIA深度学习Tensor Core全面解析
NVIDIA Tensor Core深度学习核心解析:全是干货
英伟达深度学习Tensor Core全面解析
网易有道开源EMLL:高性能端侧机器学习计算库,大幅提高计算性能
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券