腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6503)
视频
沙龙
2
回答
使用
带向
量化
的
numpy.einsum
实现
块
矩阵
乘法
python
、
image
、
numpy
我想要执行图像
的
旋转。 开始
的
形状和正常
的
形状是(429,1024,3),rot
的
形状是(3,3)跟随代码正确运行,但需要时间来完成。for d in range(3): arr[i,j,d] = rot[d][0] * x + rot[d][1] * y + rot[d][2] * z 我尝试向
量化
代码,但有条件
使用
numpy.einsum
,因为每个像素
的
向量需要相乘。0
的
下标太多”。我应该对代码
的<
浏览 31
提问于2020-10-30
得票数 1
2
回答
numpy.einsum
大大加快了计算速度--但是numpy.einsum_path没有显示加速,我遗漏了什么?
python
、
arrays
、
numpy
、
performance
、
numpy-einsum
我有一个奇怪
的
例子,我可以看到
numpy.einsum
加速计算,但在einsum_path中看不到同样
的
情况。我想数
量化
/解释一下这个可能
的
加速,但我遗漏了一些东西.简而言之,我有一个
矩阵
乘法
,这里只需要最后乘积
的
对角线。,
numpy.einsum
要快得多。,这种速度是有可能
的
,因为
numpy.einsum
能够减少计算,最终将通过取对角线来删除--但是,如果我正确地阅读它,numpy.ei
浏览 11
提问于2022-07-04
得票数 3
回答已采纳
1
回答
我怎么能
矩阵
-乘两个PyTorch量子化张量?
pytorch
、
matrix-multiplication
、
quantization
我是张量
量化
的
新手,我试着做一些简单
的
事情,比如x = torch.rand(10, 3)在CPU上运行PyTorch
量化
张量。torch.quantize_per_tensor(y, scale, zero_point, dtype) ..and作为误差 RuntimeError:无法
使用
'QuantizedCPUTensorId‘后端
的
参数运
浏览 1
提问于2020-02-20
得票数 6
3
回答
稀疏酉
矩阵
的
最佳C++
矩阵
库
c++
、
matrix
、
sparse-matrix
、
lapack
、
umfpack
我正在寻找一个好
的
(在最好
的
情况下,积极维护) C++
矩阵
库。因此,它应该是模板,因为我想
使用
一个复杂
的
理性主义作为数字类型。我所处理
的
矩阵
主要是稀疏
的
和单一
的
。请你建议图书馆,并给出一个小小
的
解释为什么要
使用
它们,因为我知道如何找到它们,但我不能真正决定什么是适合我自己,因为我错过了与他们
的
经验。编辑: 我处理
的
主要操作是
矩阵
乘法</e
浏览 17
提问于2010-02-08
得票数 9
回答已采纳
1
回答
向量二次展开
arrays
、
matlab
、
vectorization
我在n列中有一个
带向
量
的
矩阵
X。在我
的
例子中,这是一系列
的
时间向量(第1列是t1,第2列是t2 .)。我想返回一个新
的
矩阵
Y,这样对于每一个X(:,i)目前,我通过计算外部乘积X(:,i) * X(:,i)‘来
实现
这一点,然后
使用
triu()返回上三角
矩阵
,最后用非零()得到结果
的
浏览 4
提问于2014-06-10
得票数 2
回答已采纳
1
回答
Keras采用哪种卷积算法?
keras
、
convolution
事实证明,这个函数所需
的
时间几乎比Keras Conv2D多5倍。(我
的
卷积函数用了MNIST数据集
的
1期,大约花费了10-15分钟。而Keras只需3-4分钟就能完成)class Convolutional2D(Layer): def __init__(self, kernel_size, feature_maps
浏览 5
提问于2019-11-20
得票数 0
2
回答
iOS - GPU加速
矩阵
转置、
乘法
与特征分解引理
ios
、
matrix
、
opengl-es
、
eigenvector
、
accelerate-framework
我正在开发一个库,它需要在iOS平台上
使用
向量和
矩阵
。我决定研究OpenGLES,因为我计划做
的
矩阵
和矢量操作(主要是转置、
矩阵
乘法
和特征位置)肯定会从GPU加速中受益。问题是我对OpenGLES不太熟悉,老实说可能不是最好
的
选择。如果我要利用OpenGLES,我是否需要手动编写完成
矩阵
转换、
乘法
和幂等运算
的
算法?或者有另一个苹果或第三方框架可以帮助我完成这些任务。然而,主要
的
分割问题是,我希望这些
浏览 0
提问于2014-01-29
得票数 3
回答已采纳
1
回答
用SIMD和openMP加速
矩阵
乘法
c
、
multithreading
、
performance
、
parallel-processing
、
openmp
我试图加快
矩阵
乘法
的
速度,这样它
的
性能就比简单
的
实现
要好得多。我
的
目标是把速度提高到150倍。到目前为止,我在
实现
过程中尝试了以下几点:
使用
浏览 1
提问于2020-11-17
得票数 2
回答已采纳
1
回答
在NumPy中是否有一种向
量化
的
方法来执行类似于
矩阵
乘法
的
操作?
python
、
numpy
、
matrix
我有一个
矩阵
A (形状为m)和另一个较小
的
矩阵
B (形状为k ),我想要计算A和B行之间
的
欧氏距离,生成一个
矩阵
C,形状为m,我已经有了一个函数dist(row1, row2)。
使用
循环是很简单
的
,但是在NumPy中是否有一种矢
量化
的
方法来做到这一点呢?我相信我想要
的
可以被转换成一个自定义
的
矩阵
乘法
运算(如果我转置B),而似乎朝着相同
的
方向前
浏览 2
提问于2020-03-20
得票数 0
回答已采纳
2
回答
以
矩阵
为参数
的
Simulink传递fcn
matlab
、
matrix
、
simulink
假设我想建立这个方程(电机,6个阶段):其中所有变量都是
矩阵
,因此:Is =ia1 ib1 ic1 ia2 ib2 ic2‘(列向量)在我看来,Vs是输入向量,也是输出向量,所以我需要重新排列方程。我已经看到,这是不可能在Simulink给转移Fcn
块
的
矩阵
,至少不是一个多输入多输出系统。 是否有办法在Simulink上
实现</e
浏览 2
提问于2014-06-18
得票数 0
回答已采纳
1
回答
在iOS中特征不向矢
量化
矩阵
乘法
?
ios
、
eigen
、
neon
我正在
使用
特征库在iPad 2上做一些计算。皮层-A9)。似乎有些操作是
使用
霓虹灯指令矢
量化
的
,而其他操作则不是。我在同一个项目和同一个文件中
使用
这些操作,所以编译器选项是相同
的
。我
使用
的
所有
矩阵
都有动态大
浏览 2
提问于2013-06-10
得票数 0
1
回答
有效地从向量中提取任意切片
matrix
、
rust
这在某种程度上与我
的
帖子有关。 我试图在Rust中
实现
矩阵
乘法
,我认为为了有效地
实现
这一点,我需要能够从
矩阵
中获得列数据。这是困难
的
,因为我存储我
的
矩阵
的
行主要格式。我
使用
的
是一个展开点产品
实现
,它在上面的和我以前
的
中都有详细
的
描述。我希望能够从一个
矩阵
中输入这个方法,从一个
矩阵
中输入行,从另
浏览 14
提问于2015-12-05
得票数 2
回答已采纳
1
回答
对于稀疏
矩阵
,Tensorflow
使用
COO格式而不是CSR有什么明显
的
原因吗?
tensorflow
、
sparse-matrix
我试图从Tensorflow内置
的
稀疏
矩阵
乘法
API中获取性能优势。建议tf.embedding_lookup_sparse是正确
的
方法。但是,embedding_lookup_sparse
的
性能似乎在中有些令人失望。虽然它执行较小
的
矩阵
乘法
,<1,3196>和<3196,1024>,但稀疏度为0.1
的
稀疏
矩阵
不能获得密集
矩阵
乘法
。如果我
的
浏览 6
提问于2016-06-08
得票数 4
回答已采纳
1
回答
Matlab中利用dct变换矢量到二进制字符串
的
方法
matlab
、
math
、
vector
、
dct
我正在
使用
dct变换频域中
的
向量(向量可以是大
矩阵
的
8x8窗口中
的
一行),我希望后置词能够在类似jpeg压缩
的
过程中
量化
这个向量,因为dct返回浮动,这无助于任何进一步
的
操作。
浏览 1
提问于2014-05-08
得票数 0
回答已采纳
1
回答
用CUDA计算大型
矩阵
产品
c++
、
matrix
、
cuda
我刚刚开始学习一些cuda编程,我感兴趣
的
是如何处理超过
块
/线程大小
的
大型
矩阵
的
计算。 例如,我有一个,它展示了如何执行平铺
矩阵
乘法
,但是由于
块
大小和网格大小太小,它失败了。在上述代码中,如果
块
大小和网格大小分别设置为1,则只计算最终
矩阵
的
第一个元素。答案很简单:用更大
的
块
和网格大小调用内核,但是当我想要执行一个包含800万行和600万列
的</e
浏览 2
提问于2015-02-11
得票数 0
1
回答
在matlab上最小化一百多个变量
的
函数
matlab
、
minimization
、
bigdata
我试图用Matlab
的
函数fminunc最小化一个大约120个变量
的
函数(我通过最大似然法估计参数),但迭代步骤非常慢。我有哪些方法可以加速这一过程? 该函数是非线性
的
,并且包含大量
的
求和。我正在考虑尽可能多地向
量化
函数定义,并可能将梯度函数提供给Matlab,但除了这些解决方案之外,我不知道还有什么其他
的
可能性。
浏览 0
提问于2017-01-31
得票数 0
1
回答
生成
量化
矩阵
matlab
、
image-processing
、
signal-processing
如何生成不同大小和质量
的
量化
式节拍器,在matlab中有这样
的
函数吗?
浏览 3
提问于2010-05-15
得票数 3
1
回答
在matlab中,如何在不需要for循环
的
情况下将
矩阵
提高到幂向量?
matlab
、
matrix
、
vector
我有一个2x2
矩阵
,我想自己乘10次,每次
乘法
后存储结果。
使用
for循环可以很容易地做到这一点,但是我想将它矢
量化
为消除for循环。我
的
方法是获得我
的
2x2
矩阵
a,并将其提升到带有元素1:10
的
向量b。答案应该是复制类型
的
2x2x10
矩阵
。a^b(1)..为了澄清我并不是这样做
的
,我需要实际
的
矩阵
乘法
,并且
浏览 3
提问于2016-02-29
得票数 4
回答已采纳
2
回答
Matlab中
的
块
矩阵
内积
matlab
、
matrix
、
linear-algebra
我一直在
使用
以下自定义函数执行向量乘
矩阵
,其中向量
的
每个元素在(3xN)x(3)
矩阵
中
乘法
一个3x3
块
: end 类似地,当我想将3x3
矩阵
集合乘以3x3向量集合时,我
使用
以下方法 B=zeros(N,3); for
浏览 0
提问于2019-02-20
得票数 0
回答已采纳
2
回答
为什么用浮点
矩阵
乘法
执行浮点数比用int乘整数更快?
c++
、
numpy
、
matrix
、
eigen
、
avx
有两个int
矩阵
A和B,有超过1000行和10K列,我通常需要将它们转换为浮动
矩阵
以获得加速比(4x或更多)。 我想知道为什么会这样?我意识到在浮点
矩阵
乘法
中存在大量
的
优化和矢
量化
,如AVX等。但是,对于整数有这样
的
AVX2指令(如果我没有弄错的话)。而且,对于整数,不能
使用
SSE和AVX吗?为什么在
矩阵
代数库(如Numpy或Eigen )下面没有一个启发式
的
方法来捕捉这一点,并像浮点一样更快地执行整数
矩阵<
浏览 11
提问于2017-07-28
得票数 26
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
网易有道开源EMLL:高性能端侧机器学习计算库,大幅提高计算性能
卷积神经网络的压缩和加速
每次矩阵相乘用不到一个光子,手写数字识别准度超90%,光学神经网络效率提升数个量级
让手机神经网络速度翻倍:Facebook开源高性能内核库QNNPACK
吴恩达机器学习课程
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券